Você já prometeu a Lua a alguém? Nesse caso, é improvável que você soubesse o preço com antecedência.
Por outro lado, se você prometer uma nuvem a alguém, poderá calcular seus custos até a milésima parte de um centavo.
Amazon, Azure e Google oferecem calculadoras de custos de armazenamento de dados em nuvem que vão deixar sua cabeça tonta com sua especificidade: Quantos TiB de dados você precisa para leituras em streaming no Google BigQuery? Você deseja instâncias ra3.4xlarge ou ra3.xlplus no Amazon Redshift? E quantos nós?
Embora o armazenamento de dados na nuvem seja frequentemente anunciado como mais econômico do que o armazenamento de dados no local, na verdade a redução do custo do armazenamento em nuvem exige investigação, eliminação e otimização. Vamos fazer isso passo a passo.
Uma das maneiras mais simples de reduzir os custos de armazenamento de dados é armazenar menos dados. Sim, é óbvio. Mas não é fácil.
Há uma razão para você ter todos esses dados. Às vezes há um bom motivo, como em processos operacionais, administrativos e comerciais, mas outras vezes o motivo não é tão bom assim, como "ainda não nos livramos disso".
Em todo ecossistema de dados há dados desatualizados, redundantes e de má qualidade dos quais você pode e deve se livrar. Mas como localizar isso?
A resposta é a linhagem de dados automática: a fiel companheira do administrador de dados.
Imagine que você tenha uma varinha mágica que ajude na limpeza da primavera. Essa varinha informa onde cada item da sua casa foi comprado, quando foi usado pela última vez, em que formato está, se você tem outros itens que cumprem a mesma função e assim por diante.
É isso que a linhagem de dados automática faz pelo seu ecossistema de dados. Basta ativá-la e em poucos minutos você terá um mapeamento completo do fluxo de dados: quais ativos de dados alimentam quais relatórios e a quais fontes podem ser associados. A linhagem de dados abrangente mostra isso tanto em um nível de sistema de origem ampliado quanto em um nível de coluna a coluna ampliado. Pode até mesmo entrar nos processos de ETL e mostrar exatamente quais transformações foram realizadas nos dados enquanto se moviam.
Depois de ter o panorama completo definido você pode passar para a segunda etapa: a eliminação.
Examine atentamente a linhagem de seus dados e faça as seguintes perguntas:
Responder "sim" indica dados que podem ser descarregados, reduzindo diretamente os custos de armazenamento em nuvem. Mas transfira com sabedoria! Mesmo que você tenha identificado dois ativos de dados efetivamente duplicados, se ambos estiverem sendo usados por reports, você não poderá simplesmente excluir um deles antes de alinhar seu substituto.
Aproveitar a linhagem de dados para a análise de impacto possibilita que você preveja o impacto da alteração de um processo comercial e tome medidas antecipadas adequadas para evitar problemas.
Agora que você identificou e eliminou os dados desnecessários (desatualizados, redundantes, de má qualidade), é hora de passar para os dados que você precisa manter, mas que poderiam ser armazenados com mais eficiência.
Analise novamente o mapeamento da linhagem de dados e faça as seguintes perguntas sobre os dados que você está armazenando:
Os provedores de armazenamento de dados em nuvem geralmente oferecem uma variedade de níveis de armazenamento que variam de acordo com sua acessibilidade. Por exemplo, o Amazon S3 oferece armazenamento Standard para dados acessados com frequência (US$ 0,023 por GB), armazenamento Standard – Acesso Infrequente a dados acessados com pouca frequência, mas que devem ser recuperados em milissegundos quando necessário (US$ 0,0125 por GB), armazenamento Glacier Flexible Retrieval para dados de arquivo e backup que devem ser recuperados em um período que varia de 1 minuto a 12 horas (US$ 0,0036 por GB) e armazenamento Glacier Deep Archive para dados de arquivo que são acessados apenas uma ou duas vezes por ano e que levarão 12 horas para serem recuperados (US$ 0,00099 por GB).
Armazenar 1 TB de dados no plano de armazenamento padrão custaria US$ 23 por mês. Armazenar o mesmo 1 TB de dados no Glacier Deep Archive Storage custaria US$ 0,99 por mês! Se sua organização armazena atualmente todos os seus dados em armazenamento em nuvem padrão, sem diferenciá-los com base nas necessidades de acesso, a otimização desse armazenamento pode reduzir consideravelmente seus custos.
A linhagem de dados pode reduzir os seus custos de armazenamento de dados mostrando ambos:
Mas não é só isso! Embora menos dados reduzam os custos de armazenamento em nuvem, também podem reduzir os custos de computação. Data Warehouse baseados em nuvem como Snowflake e Amazon Redshift geralmente têm um modelo de pagamento por uso na computação, cobrando pelo tempo necessário para executar consultas entre os conjuntos de dados. Quanto mais dados você incluir na sua consulta, mais tempo ela levará para ser executada e maior será o custo.
Reduzir a quantidade de dados que você armazena (ou mantém em armazenamento padrão) geralmente significa menos dados incluídos em suas consultas, reduzindo indiretamente os custos de computação. Mas a linhagem de dados também oferece uma maneira direta de diminuir os custos de computação: restringindo as consultas de exploração.
As consultas de exploração tendem a usar muita capacidade de computação. Com um mapa claro de linhagem de dados, sua equipe de dados pode ver exatamente onde estão os dados relevantes, possibilitando que executem consultas muito mais direcionadas pela plataforma e eliminando ou reduzindo a necessidade de consultas gerais de exploração.
Se os custos de armazenamento de dados na nuvem estão deixando você na mão, é hora de virar o jogo e baixá-los. Basta usar sua varinha mágica de linhagem de dados automática e seguir estas etapas: Investigar! Eliminar! Otimizar!
Viu como os custos de armazenamento de dados diminuíram?! Ok, talvez seja preciso um pouco mais de trabalho do que isso. Mas quando sua empresa receber a próxima fatura, com valor reduzido, do seu provedor de serviços de dados em nuvem, a sensação ainda será mágica.
Quer saber mais? Solicite uma demonstração para começar com o Cloudera Octopai Data Lineage— uma solução automática de rastreabilidade de dados que pode ajudar a implementar essas etapas e reduzir seus custos com armazenamento em nuvem hoje mesmo.
This may have been caused by one of the following: