A Gravidade dos Dados, seus impactos e como contorná-los

by Luiz Eduardo Serrano · January 7, 2023

Você sabe o que é “Gravidade dos Dados” e a sua importância na estratégia de TI das empresas?

Dave McCrory descreveu os fundamentos deste princípio no seguinte post:

https://datagravitas.com/2011/04/02/defying-data-gravity/

“Gravidade dos Dados é uma teoria em torno da qual os dados teriam massa. À medida que os dados se acumulam, eles começam a exercer mais força de gravidade. Esta gravidade aproxima cada vez mais os serviços e as aplicações dos dados. Essa força de atração é causada pela necessidade dos serviços e das aplicações de conseguirem menor latência e/ou maior capacidade de comunicação com os dados”.

Quanto mais os dados crescem, fica mais difícil movimentá-los. Em vez disso, as aplicações e os serviços tendem a se aproximar dos dados por meio desta força de atração, decorrente da maior massa.

A latência e o throughput agem como aceleradores para aumentar ainda mais esta força de união. Por exemplo, dentro de um datacenter, a baixa latência e alto throughput proporcionados pela rede local permitem atender a necessidade dos serviços e das aplicações de permanecerem próximos aos dados para que possam alcancar a melhor performance possível.

O crescimento dos dados em um ponto centralizado da infraestrutura limita a flexibilidade, causa aumento de custos e traz dificuldades operacionais para as empresas.

Por exemplo, a concentração de armazenamento em larga escala em zonas ou regiões específicas na nuvem pública geralmente leva a potencialização do efeito da Gravidade dos Dados e a um certo tipo de lock-in.

Os provedores oferecem incentivos para reduzir o atrito do upload de dados. Embora eles cobrem uma taxa de armazenamento mensal com base na volumetria, não há nenhum custo pelo upload de dados nestes serviços de armazenamento. A ingestão/transferência dos dados é completamente gratuita.

Por outro lado, existem custos para mover os dados para fora da nuvem, tanto num cenário de acesso remoto de usuários como num cenário de migração para a nuvem de outro provedor ou mesmo para a nuvem privada da empresa. Neste caso, além do custo de armazenamento em si, incidem custos de saída (“data transfer-out”) e de transações sobre os dados, como ações de PUT, GET , POST e COPY.

Geralmente, ocorre a cobrança de transferência de saída dos dados nos seguintes cenários – e não apenas na transferência de dados para a Internet:

Tráfego de rede de saída;
Tráfego entre zonas;
Tráfego entre regiões;
Tráfego para endereços IP públicos (para a Internet).

Quanto maior a “distância” do destino, em ordem crescente na relação anterior, provavelmente mais cara será a operação de saída dos dados. A medida utilizada é geralmente baseada na transferência de Gigabytes por mês.

Alguns exemplos de operações que incorrem nestes custos:

Transferência de dados de storage para storage;
Transferência de dados entre aplicações e bancos de dados;
Transferência de dados entre aplicações;
Transferência de dados entre aplicações e usuários, como por exemplo, a transmissão de vídeos e conteúdo.

Assim, quanto mais dados uma empresa armazenar numa determinada zona ou região de uma nuvem pública, mais caro e difícil será movê-los para outro local devido à natureza da Gravidade dos Dados, que acabará atraindo mais aplicações e serviços para a nuvem, e também aos atritos gerados pelos custos de transferência e saída dos dados.

O fenômeno da Gravidade dos Dados não pode ser eliminado, mas pode (e deve) ser contornado pelas empresas.

Algumas medidas incluem:

1) Adotar uma arquitetura de nuvem híbrida, definindo onde e como os dados serão alocados de forma menos densa. É preciso considerar fatores que incluam a localização das unidades de negócios e dos usuários finais dos dados. Além disso, as regulamentações locais acrescentam mais considerações em relação a privacidade e conformidade de dados.

2) Implementar políticas de governança e gerenciamento dos dados, englobando desde a conformidade do dado a até a exclusão / tierização / arquivamento dos dados desnecessários ou com pouca utilização.

3) Fazer uso de técnicas de replicação dos dados para as regiões onde eles serão efetivamente consumidos. Isso contribuirá para a descentralização das aplicações.

4) Migração de massas de dados para Datalakes ou DataHubs, eliminado silos.

5) Adjacência dos dados – ou adjacência de nuvem. Implementação destes Datalakes ou DataHubs em co-locations com grande capacidade de comunicação com provedores de nuvem pública e provedores de acesso. Isso permite maior portabilidade das aplicações entre provedores diferentes, mantendo os dados sob controle da empresa e minimizando tanto a latência como o lock-in, além de facilitar iniciativas de Multicloud e de Business Intelligence.

6) Adoção do Edge Computing, movendo os datasets para a borda e para mais perto das aplicações e dispositivos dos clientes.

7) Reduzir o volume dos dados que convergem da borda para o centro e ampliam o efeito da gravidade. Em vez disso, procurar utilizar análises locais e em tempo real nas bordas.

8) Fazer uso de sistemas hiperconvergentes nos pontos de concentração de dados on-premise, desde as bordas até os pontos centrais. Devem possuir capacidade para que sejam expandidos para a nuvem pública a qualquer momento e conforme a necessidade.

9) Utilizar soluções que permitam portabilidade e migração de aplicações entre diferentes tipos de infraestruturas e nuvens, especialmente entre hypervisors distintos e entre ambientes de containers.

10) Escolher, preferencialmente, soluções de armazenamento de dados abertas, convergentes e compatíveis com os principais padrões estabelecidos no mercado.

Este é um tema realmente importante e que merece atenção neste ano de 2023 tendo em vista:

· As pressões por redução de custos recorrentes (Opex) devido a diminuição projetada no ritmo de crescimento da economia norte-americana;

· A necessidade cada vez maior de estratégias de AI e ML para garantir inovação e maior competitividade aos negócios;

· O desejo latente dos clientes pela diminuição dos custos e das dificuldades de portabilidade e migração dos dados e aplicações entre diferentes provedores e infraestruturas de nuvem.

Espero que este pequeno resumo tenha ajudado! Até a próxima!

Referências:

https://dgtlinfra.com/what-is-data-gravity-aws-azure-cloud/

https://www.ft.com/content/d1eda3a1-fc27-4570-8647-89bac01dd968

https://www.cio.com/article/219638/data-gravity-and-what-it-means-for-enterprise-data-analytics-and-ai-architectures.html

https://www.dell.com/en-us/blog/reducing-the-data-gravity-pull/

https://www.digitalrealty.com/platform-digital/data-gravity-index

https://www.itconvergence.com/blog/how-to-manage-egress-charges-in-cloud-infrastructure/