O ano de 2025 foi difícil para quem apostou todas as fichas em um único fornecedor de nuvem. Em dezembro, os clientes da Snowflake assistiram impotentes a uma atualização de esquema Cascading por várias regiões, bloqueando consultas por 13 horas. Usuários do Databricks lidaram com dias de serviços de IA degradados.
Em outubro, a região US-East-1 da Amazon Web Services (AWS) ficou fora do ar por 15 horas devido a um erro de DNS que afetou o DynamoDB derrubou mais de mil empresas. Em junho uma exceção de ponteiro nulo no binário de controle de serviço do Google Cloud desativou vários sistemas, incluindo Cloud Storage, Compute Engine e BigQuery por várias horas, com efeitos em cascata atingindo Spotify, Discord e OpenAI.
Em todos esses incidentes, o padrão foi o mesmo: os clientes atualizavam as páginas de status e aguardavam que outra pessoa resolvesse o problema. A diferença entre os fornecedores não está em se haverá interrupções, mas sim nas opções disponíveis quando elas acontecerem.
O incidente de dezembro da Snowflake foi causado por uma atualização de esquema de banco de dados incompatível com versões anteriores. Erros de incompatibilidade de versão causaram falhas ou travamentos indefinidos em operações em várias regiões da AWS, Microsoft Azure e Google Cloud Platform (GCP). A Snowflake informou em seus comunicados que não havia soluções alternativas, exceto para clientes que haviam configurado previamente a replicação para regiões não afetadas. Todos os outros esperaram.
A interrupção do serviço Databricks em dezembro (que durou vários dias) incluiu problemas com o Unity Catalog, degradação de poder computacional em diversas regiões e uma falha no Mosaic AI que se estendeu por vários dias. As atualizações de status indicavam repetidamente que estavam "trabalhando com o provedor de nuvem em possíveis soluções". Essa frase diz tudo sobre a cadeia de dependências: quando o Azure tem um dia ruim, os clientes do Databricks nas regiões do Azure também têm um dia ruim.
O Incidente do Google Cloud em Junho revelou a mesma vulnerabilidade. Uma política defeituosa com campos em branco foi inserida nas tabelas de configuração globais e replicada em todo o mundo em questão de segundos. Os dados corrompidos desencadearam ciclos de falhas que derrubaram serviços essenciais por 7,5 horas. Inicialmente, os painéis de status do próprio Google estavam indisponíveis. As equipes de SRE não conseguiam nem mesmo confirmar a dimensão do desastre.
A redundância regional não ajuda quando a falha é lógica e não física. Quando uma plataforma depende de metadados coordenados globalmente ou de configurações compartilhadas, uma única atualização incorreta se propaga por toda parte. A falha persegue de região em região.
Além disso, nesses cenários a infraestrutura é distribuída, mas o controle permanece centralizado. Quando o plano de controle do Snowflake falha, não importa se estiver sendo executado na AWS, Azure e Google Cloud por baixo dos panos. Quando a Databricks está esperando que a Azure resolva um problema, o marketing multinuvem não ajuda. O único ponto de falha é a camada proprietária na parte superior.
A análise de 2025 sobre as tendências de adoção de nuvem da Gartner® estima que mais de 50% das organizações não terão os resultados esperados de suas implementações multinuvem até 2029. O problema central: falta de interoperabilidade entre ambientes.
Em Previsão da Forrester 2026: interrupções na nuvem, IA privada em nuvens privadas e a ascensão das neonuvens, a empresa de pesquisa prevê pelo menos duas grandes interrupções de nuvem de vários dias em 2026. O setor de computação em nuvem está passando por uma enorme transição de infraestrutura enquanto os provedores de hiperescala competem para construir data centers nativos de IA. Esse investimento tem um custo: a prioridade dos ambientes x86 e ARM legados estão sendo retirada, levando infraestruturas obsoletas a falharem em meio à crescente complexidade.
No mesmo artigo de previsões da Forrester, estimam que pelo menos 15% das empresas migrarão para implantações privadas de IA construídas em nuvens privadas em 2026. Os fatores: aumento dos custos de IA, preocupações com o bloqueio de dados e o risco operacional de depender de uma infraestrutura cada vez mais otimizada para as prioridades de outra pessoa. As interrupções de 2025 foram uma prévia do que acontece quando suas cargas de trabalho não são a principal preocupação do provedor.
A maioria das empresas tem arquiteturas multinuvem "acidentais" devido a aquisições, TI paralela ou seleção das melhores ferramentas disponíveis no mercado e não por meio de um planejamento arquitetônico deliberado. Suas cargas de trabalho estão espalhadas por vários provedores, mas elas não têm a capacidade de mover dados e cargas de trabalho quando há algum problema.
Projetar para resiliência envolve garantir que sua plataforma de dados e IA permita portabilidade e elimine pontos únicos de falha.
A plataforma Cloudera foi projetada para oferecer portabilidade, proporcionando a capacidade de fazer failover entre ambientes para manter as operações: cargas de trabalho e dados podem ser movidos por AWS, Azure, Google Cloud e ambientes locais sem reescritas, atrito nem dependência de fornecedores. As atualizações não são forçadas como alterações globais e incompatíveis com versões anteriores.
Quando a inevitável interrupção acontece, você tem opções: fazer failover para outra nuvem ou mover as cargas de trabalho de volta para o seu data center. Você não fica preso assistindo a uma página de status, você mantém o controle dos seus dados e pode manter operações consistentes e conformidade, não importa onde os dados se encontrem.
Para saber mais sobre como criar uma arquitetura resiliente com a Cloudera, leia nosso blog: Arquitetura para resiliência de dados: Garantia a continuidade dos negócios com a Cloudera
A construção da IA está sobrecarregando a infraestrutura e as empresas de análise apontam para mais turbulência no futuro: a Forrester prevê interrupções de vários dias, a Gartner prevê a adoção defensiva de várias nuvens. As empresas que chegarem em boa forma até 2026 serão aquelas que tratarão a resiliência como um princípio arquitetônico, e não uma caixa de seleção de conformidade.
A Cloudera não oferece failover entre nuvens automático e fácil de usar, ninguém oferece. Mas em termos arquitetônicos estamos em uma posição que nos permite oferecer essa resiliência de maneiras que as plataformas proprietárias não conseguem.
Se as interrupções previstas para 2025 causaram desconforto, gostaríamos de conversar sobre isso. Porque a nuvem nada mais é do que o computador de outra pessoa. E quando esse computador tiver um dia ruim, você deve ter outro lugar para ir.
Para saber mais sobre como você pode projetar resiliência com o Cloudera, entre em contato com nossa equipe de serviços profissionais, confira nossas demonstrações de produtos ou inscreva-se em um teste gratuito de 5 dias.
This may have been caused by one of the following: