A Gravidade dos Dados, seus impactos e como contorná-los

Você sabe o que é “Gravidade dos Dados” e a sua importância na estratégia de TI das empresas?
Dave McCrory descreveu os fundamentos deste princípio no seguinte post:
https://datagravitas.com/2011/04/02/defying-data-gravity/
“Gravidade dos Dados é uma teoria em torno da qual os dados teriam massa. À medida que os dados se acumulam, eles começam a exercer mais força de gravidade. Esta gravidade aproxima cada vez mais os serviços e as aplicações dos dados. Essa força de atração é causada pela necessidade dos serviços e das aplicações de conseguirem menor latência e/ou maior capacidade de comunicação com os dados”.
Quanto mais os dados crescem, fica mais difícil movimentá-los. Em vez disso, as aplicações e os serviços tendem a se aproximar dos dados por meio desta força de atração, decorrente da maior massa.
A latência e o throughput agem como aceleradores para aumentar ainda mais esta força de união. Por exemplo, dentro de um datacenter, a baixa latência e alto throughput proporcionados pela rede local permitem atender a necessidade dos serviços e das aplicações de permanecerem próximos aos dados para que possam alcancar a melhor performance possível.

O crescimento dos dados em um ponto centralizado da infraestrutura limita a flexibilidade, causa aumento de custos e traz dificuldades operacionais para as empresas.
Por exemplo, a concentração de armazenamento em larga escala em zonas ou regiões específicas na nuvem pública geralmente leva a potencialização do efeito da Gravidade dos Dados e a um certo tipo de lock-in.
Os provedores oferecem incentivos para reduzir o atrito do upload de dados. Embora eles cobrem uma taxa de armazenamento mensal com base na volumetria, não há nenhum custo pelo upload de dados nestes serviços de armazenamento. A ingestão/transferência dos dados é completamente gratuita.
Por outro lado, existem custos para mover os dados para fora da nuvem, tanto num cenário de acesso remoto de usuários como num cenário de migração para a nuvem de outro provedor ou mesmo para a nuvem privada da empresa. Neste caso, além do custo de armazenamento em si, incidem custos de saída (“data transfer-out”) e de transações sobre os dados, como ações de PUT, GET , POST e COPY.
Geralmente, ocorre a cobrança de transferência de saída dos dados nos seguintes cenários – e não apenas na transferência de dados para a Internet:
- Tráfego de rede de saída;
- Tráfego entre zonas;
- Tráfego entre regiões;
- Tráfego para endereços IP públicos (para a Internet).
Quanto maior a “distância” do destino, em ordem crescente na relação anterior, provavelmente mais cara será a operação de saída dos dados. A medida utilizada é geralmente baseada na transferência de Gigabytes por mês.
Alguns exemplos de operações que incorrem nestes custos:
- Transferência de dados de storage para storage;
- Transferência de dados entre aplicações e bancos de dados;
- Transferência de dados entre aplicações;
- Transferência de dados entre aplicações e usuários, como por exemplo, a transmissão de vídeos e conteúdo.

Assim, quanto mais dados uma empresa armazenar numa determinada zona ou região de uma nuvem pública, mais caro e difícil será movê-los para outro local devido à natureza da Gravidade dos Dados, que acabará atraindo mais aplicações e serviços para a nuvem, e também aos atritos gerados pelos custos de transferência e saída dos dados.
O fenômeno da Gravidade dos Dados não pode ser eliminado, mas pode (e deve) ser contornado pelas empresas.
Algumas medidas incluem:
1) Adotar uma arquitetura de nuvem híbrida, definindo onde e como os dados serão alocados de forma menos densa. É preciso considerar fatores que incluam a localização das unidades de negócios e dos usuários finais dos dados. Além disso, as regulamentações locais acrescentam mais considerações em relação a privacidade e conformidade de dados.
2) Implementar políticas de governança e gerenciamento dos dados, englobando desde a conformidade do dado a até a exclusão / tierização / arquivamento dos dados desnecessários ou com pouca utilização.
3) Fazer uso de técnicas de replicação dos dados para as regiões onde eles serão efetivamente consumidos. Isso contribuirá para a descentralização das aplicações.
4) Migração de massas de dados para Datalakes ou DataHubs, eliminado silos.
5) Adjacência dos dados – ou adjacência de nuvem. Implementação destes Datalakes ou DataHubs em co-locations com grande capacidade de comunicação com provedores de nuvem pública e provedores de acesso. Isso permite maior portabilidade das aplicações entre provedores diferentes, mantendo os dados sob controle da empresa e minimizando tanto a latência como o lock-in, além de facilitar iniciativas de Multicloud e de Business Intelligence.
6) Adoção do Edge Computing, movendo os datasets para a borda e para mais perto das aplicações e dispositivos dos clientes.
7) Reduzir o volume dos dados que convergem da borda para o centro e ampliam o efeito da gravidade. Em vez disso, procurar utilizar análises locais e em tempo real nas bordas.
8) Fazer uso de sistemas hiperconvergentes nos pontos de concentração de dados on-premise, desde as bordas até os pontos centrais. Devem possuir capacidade para que sejam expandidos para a nuvem pública a qualquer momento e conforme a necessidade.
9) Utilizar soluções que permitam portabilidade e migração de aplicações entre diferentes tipos de infraestruturas e nuvens, especialmente entre hypervisors distintos e entre ambientes de containers.
10) Escolher, preferencialmente, soluções de armazenamento de dados abertas, convergentes e compatíveis com os principais padrões estabelecidos no mercado.

Este é um tema realmente importante e que merece atenção neste ano de 2023 tendo em vista:
· As pressões por redução de custos recorrentes (Opex) devido a diminuição projetada no ritmo de crescimento da economia norte-americana;
· A necessidade cada vez maior de estratégias de AI e ML para garantir inovação e maior competitividade aos negócios;
· O desejo latente dos clientes pela diminuição dos custos e das dificuldades de portabilidade e migração dos dados e aplicações entre diferentes provedores e infraestruturas de nuvem.
Espero que este pequeno resumo tenha ajudado! Até a próxima!
Referências:
https://dgtlinfra.com/what-is-data-gravity-aws-azure-cloud/
https://www.ft.com/content/d1eda3a1-fc27-4570-8647-89bac01dd968
https://www.dell.com/en-us/blog/reducing-the-data-gravity-pull/
https://www.digitalrealty.com/platform-digital/data-gravity-index
https://www.itconvergence.com/blog/how-to-manage-egress-charges-in-cloud-infrastructure/
Discover more from CloudnRoll
Subscribe to get the latest posts sent to your email.
