A Gravidade dos Dados, seus impactos e como contorná-los

Você sabe o que é “Gravidade dos Dados” e a sua importância na estratégia de TI das empresas?

Dave McCrory descreveu os fundamentos deste princípio no seguinte post:

https://datagravitas.com/2011/04/02/defying-data-gravity/

Gravidade dos Dados é uma teoria em torno da qual os dados teriam massa. À medida que os dados se acumulam, eles começam a exercer mais força de gravidade. Esta gravidade aproxima cada vez mais os serviços e as aplicações dos dados. Essa força de atração é causada pela necessidade dos serviços e das aplicações de conseguirem menor latência e/ou maior capacidade de comunicação com os dados”.

Quanto mais os dados crescem, fica mais difícil movimentá-los. Em vez disso, as aplicações e os serviços tendem a se aproximar dos dados por meio desta força de atração, decorrente da maior massa.

A latência e o throughput agem como aceleradores para aumentar ainda mais esta força de união. Por exemplo, dentro de um datacenter, a baixa latência e alto throughput proporcionados pela rede local permitem atender a necessidade dos serviços e das aplicações de permanecerem próximos aos dados para que possam alcancar a melhor performance possível.

O crescimento dos dados em um ponto centralizado da infraestrutura limita a flexibilidade, causa aumento de custos e traz dificuldades operacionais para as empresas.

Por exemplo, a concentração de armazenamento em larga escala em zonas ou regiões específicas na nuvem pública geralmente leva a potencialização do efeito da Gravidade dos Dados e a um certo tipo de lock-in.

Os provedores oferecem incentivos para reduzir o atrito do upload de dados. Embora eles cobrem uma taxa de armazenamento mensal com base na volumetria, não há nenhum custo pelo upload de dados nestes serviços de armazenamento. A ingestão/transferência dos dados é completamente gratuita.

Por outro lado, existem custos para mover os dados para fora da nuvem, tanto num cenário de acesso remoto de usuários como num cenário de migração para a nuvem de outro provedor ou mesmo para a nuvem privada da empresa. Neste caso, além do custo de armazenamento em si, incidem custos de saída (“data transfer-out”) e de transações sobre os dados, como ações de PUT, GET , POST e COPY.

Geralmente, ocorre a cobrança de transferência de saída dos dados nos seguintes cenários – e não apenas na transferência de dados para a Internet:

  • Tráfego de rede de saída;
  • Tráfego entre zonas;
  • Tráfego entre regiões;
  • Tráfego para endereços IP públicos (para a Internet).

Quanto maior a “distância” do destino, em ordem crescente na relação anterior, provavelmente mais cara será a operação de saída dos dados. A medida utilizada é geralmente baseada na transferência de Gigabytes por mês.

Alguns exemplos de operações que incorrem nestes custos:

  • Transferência de dados de storage para storage;
  • Transferência de dados entre aplicações e bancos de dados;
  • Transferência de dados entre aplicações;
  • Transferência de dados entre aplicações e usuários, como por exemplo, a transmissão de vídeos e conteúdo.

Assim, quanto mais dados uma empresa armazenar numa determinada zona ou região de uma nuvem pública, mais caro e difícil será movê-los para outro local devido à natureza da Gravidade dos Dados, que acabará atraindo mais aplicações e serviços para a nuvem, e também aos atritos gerados pelos custos de transferência e saída dos dados.

O fenômeno da Gravidade dos Dados não pode ser eliminado, mas pode (e deve) ser contornado pelas empresas.

Algumas medidas incluem:

1) Adotar uma arquitetura de nuvem híbrida, definindo onde e como os dados serão alocados de forma menos densa. É preciso considerar fatores que incluam a localização das unidades de negócios e dos usuários finais dos dados. Além disso, as regulamentações locais acrescentam mais considerações em relação a privacidade e conformidade de dados.

2) Implementar políticas de governança e gerenciamento dos dados, englobando desde a conformidade do dado a até a exclusão / tierização / arquivamento dos dados desnecessários ou com pouca utilização.

3) Fazer uso de técnicas de replicação dos dados para as regiões onde eles serão efetivamente consumidos. Isso contribuirá para a descentralização das aplicações.

4) Migração de massas de dados para Datalakes ou DataHubs, eliminado silos.

5) Adjacência dos dados – ou adjacência de nuvem. Implementação destes Datalakes ou DataHubs em co-locations com grande capacidade de comunicação com provedores de nuvem pública e provedores de acesso. Isso permite maior portabilidade das aplicações entre provedores diferentes, mantendo os dados sob controle da empresa e minimizando tanto a latência como o lock-in, além de facilitar iniciativas de Multicloud e de Business Intelligence.

6) Adoção do Edge Computing, movendo os datasets para a borda e para mais perto das aplicações e dispositivos dos clientes.

7) Reduzir o volume dos dados que convergem da borda para o centro e ampliam o efeito da gravidade. Em vez disso, procurar utilizar análises locais e em tempo real nas bordas.

8) Fazer uso de sistemas hiperconvergentes nos pontos de concentração de dados on-premise, desde as bordas até os pontos centrais. Devem possuir capacidade para que sejam expandidos para a nuvem pública a qualquer momento e conforme a necessidade.

9) Utilizar soluções que permitam portabilidade e migração de aplicações entre diferentes tipos de infraestruturas e nuvens, especialmente entre hypervisors distintos e entre ambientes de containers.

10) Escolher, preferencialmente, soluções de armazenamento de dados abertas, convergentes e compatíveis com os principais padrões estabelecidos no mercado.

Este é um tema realmente importante e que merece atenção neste ano de 2023 tendo em vista:

· As pressões por redução de custos recorrentes (Opex) devido a diminuição projetada no ritmo de crescimento da economia norte-americana;

· A necessidade cada vez maior de estratégias de AI e ML para garantir inovação e maior competitividade aos negócios;

· O desejo latente dos clientes pela diminuição dos custos e das dificuldades de portabilidade e migração dos dados e aplicações entre diferentes provedores e infraestruturas de nuvem.

Espero que este pequeno resumo tenha ajudado! Até a próxima!

Referências:

https://dgtlinfra.com/what-is-data-gravity-aws-azure-cloud/

https://www.ft.com/content/d1eda3a1-fc27-4570-8647-89bac01dd968

https://www.cio.com/article/219638/data-gravity-and-what-it-means-for-enterprise-data-analytics-and-ai-architectures.html

https://www.dell.com/en-us/blog/reducing-the-data-gravity-pull/

https://www.digitalrealty.com/platform-digital/data-gravity-index

https://www.itconvergence.com/blog/how-to-manage-egress-charges-in-cloud-infrastructure/


Discover more from CloudnRoll

Subscribe to get the latest posts sent to your email.

You may also like...

Discover more from CloudnRoll

Subscribe now to keep reading and get access to the full archive.

Continue reading