O Apache Iceberg se consolidou como o padrão aberto de fato para o gerenciamento de dados estruturados, semiestruturados e em evolução em larga escala. Criado originalmente em 2017 na Netflix, para lidar com os desafios de entregar análises confiáveis em escala de petabytes (PB) no Apache Hive e Spark, o Iceberg evoluiu para um formato de tabela aberto e robusto, capaz de suportar múltiplas cargas de trabalho simultaneamente.
O Iceberg unifica seus dados e fornece comportamento SQL para acessá-los com facilidade. À medida que avança com recursos SQL mais sofisticados e operações de dados simplificadas, o Iceberg tem sido cada vez mais adotado por públicos com diferentes níveis técnicos, não apenas engenheiros de dados, mas também cientistas de dados, analistas e desenvolvedores de aplicações, que buscam acesso rápido e confiável a qualquer dado.
Com o Iceberg, as organizações alcançam verdadeira separação entre computação e armazenamento, viabilizando uma flexibilidade sem precedentes. Para quem busca análises multifuncionais, prontidão para IA e liberdade em relação a fornecedores, nenhum outro formato de tabela chega perto.
Em menos de 10 anos, o Iceberg evoluiu de tecnologia emergente para padrão corporativo. Esse avanço pode ser atribuído tanto à sua arquitetura sólida quanto à comunidade aberta e vibrante que o apoia.
O ponto essencial é que a comunidade do Iceberg é liderada por seus usuários, e não por um único fornecedor. Esse modelo de governança orientado pelo usuário garante que o projeto evolua para atender às necessidades reais do mercado, fator crucial para sua ampla adoção.
A evidência da adoção generalizada do Iceberg ficou clara no Iceberg Summit 2025, em São Francisco. O evento reuniu startups, empresas Fortune 500 e os três principais provedores de nuvem (AWS, Microsoft e Google), com participantes de todo o mundo — presencialmente e online — todos motivados a aprender, contribuir e fortalecer o ecossistema.
Alguns temas, em particular, dominaram as conversas no Summit: a interoperabilidade e a crescente relevância do Iceberg (seu ecossistema em expansão e recursos cada vez mais robustos, incluindo automação).
De empresas como Netflix, Apple e Bloomberg, muitas organizações compartilharam como o Iceberg permite gerenciar uma única fonte da verdade que alimenta múltiplas cargas de trabalho, eliminando cópias redundantes de dados e reduzindo a movimentação entre sistemas. Foram discutidos os diversos tipos de cargas de trabalho que dependem da camada de dados confiável do Iceberg para entregar segmentação, personalização, previsões de rotatividade/relapso, recomendações, experiências otimizadas para o cliente e muito mais.
Outro destaque foi o surgimento de novas ferramentas de código aberto, como Comet, Polaris e Lance, dentro do ecossistema Iceberg, projetadas para melhorar o desempenho e oferecer suporte a análises multimodais e IA.
Houve bastante expectativa em torno dos recursos que chegarão com o Iceberg V3 e V4. O V3 trará avanços significativos em governança de dados, otimização de desempenho e suporte para tipos de dados mais complexos, como Variant e Geospatial. Com base nos princípios do formato colunar, o Variant possibilita consultas avançadas, como filtragem e agregações, em dados semiestruturados, sem a necessidade de extensas transformações. O suporte a Geospatial permitirá que organizações gerenciem dados baseados em localização, desbloqueando novos casos de uso. Já o novo layout adaptativo de metadados, proposto para o V4, promete melhorar o desempenho em arquivos pequenos.
Outro tópico de destaque foi a automação de tarefas rotineiras de manutenção (particionamento, ordenação, compactação) por meio de interfaces inspiradas em DevOps e orientadas por políticas, reduzindo o trabalho manual. À medida que mais dados são trazidos para as tabelas Iceberg, isso se torna um grande gargalo, já que muitas vezes é preciso contratar especialistas apenas para executar essas tarefas de manutenção.
Com cada vez mais mecanismos acessando dados em tabelas Iceberg, governança, segurança e linhagem se tornam prioridades. A visibilidade sobre fluxos e transformações de dados passa a ser crítica para garantir a confiabilidade das informações. Isso levou a discussões sobre a necessidade de federação de catálogos e governança para melhorar a visibilidade em todo o ecossistema Iceberg.
A Cloudera integrou o Apache Iceberg nativamente em sua plataforma Lakehouse na nuvem pública em 2021, e, em seguida, em ambientes locais em 2022. Atualmente, a maioria dos nossos clientes já está executando ou testando novas cargas de trabalho no Iceberg. No total, nossos clientes gerenciam petabytes de dados no Iceberg.
O Iceberg é hoje um vetor de crescimento para a Cloudera. Estamos observando um aumento no número de clientes que estão migrando cargas de trabalho do Hive para o Iceberg, a fim de modernizar e preparar suas plataformas de dados para o futuro.” - Venkat Rajaji, Vice-presidente sênior de gerenciamento de produtos, Cloudera
Uma vez que uma empresa inicia sua jornada com o Iceberg, os benefícios se acumulam, resultando em volumes crescentes de dados em tabelas Iceberg, expansão de cargas de trabalho e surgimento de novos casos de uso. Um desempenho mais rápido costuma ser o primeiro motivador, seguido por interoperabilidade e flexibilidade de cargas de trabalho para garantir mais agilidade. A adoção do Iceberg reduz custos de armazenamento, ETL e operações em até 75%. Recursos como time travel, snapshots, write-audit-publish e particionamento oculto aumentam ainda mais a eficiência, tornando o Iceberg a escolha certa para implantar novos casos de uso.
Alguns dos casos de uso mais populares do Iceberg na Cloudera são:
Ouça a jornada da Illumina e da LY Corporation com o Apache Iceberg e como estão superando seus desafios de dados e análise em escala.
Embora o Lakehouse e o Iceberg ofereçam benefícios significativos, incluindo a convergência de todos os dados e a aceleração das análises, alguns desafios foram relatados por nossos clientes em relação à adoção do Iceberg: Dados distribuídos em múltiplas nuvens, no local e em sistemas de borda. Mover todos esses dados para a nuvem para aproveitar o Iceberg é praticamente impossível Por isso, eles precisam do mesmo suporte ao Iceberg no local e na nuvem. Integração com diferentes mecanismos de fornecedores é necessária para permitir o compartilhamento de dados entre sistemas com confiança, linhagem e rastreabilidade. À medida que os dados crescem, otimizar continuamente as tabelas Iceberg manualmente para obter desempenho ideal se torna muito caro, exigindo especialistas e grandes recursos de computação. Embora o Iceberg aumente o uso dos dados, a liberdade de integração com qualquer ferramenta introduz riscos e requer ferramentas eficazes de governança e segurança para controlar acessos e fornecer gestão de metadados para auditoria, linhagem e visibilidade, possibilitando melhor entendimento dos dados e ampliando sua usabilidade.
Estamos sempre inovando para resolver os desafios dos clientes e fizemos vários aprimoramentos na plataforma para abordar esses pontos problemáticos comuns, incluindo:
Ao projetarmos um futuro em que o Apache Iceberg será a base e o elo central, capacitando dados e IA entre plataformas, seguimos aprimorando continuamente suas capacidades para desbloquear uma agilidade e inteligência sem precedentes para todas as empresas.” Bill Zhang, Vice-presidente de estratégias de produtos na Cloudera
Acreditamos que o Iceberg continuará a dominar como padrão corporativo para formatos de tabela aberta. As novas inovações em otimizações automatizadas, suporte multimodal, gestão de metadados e integração com Python irão impulsionar ainda mais a sua adoção. Outros formatos de tabela aberta provavelmente adotarão abordagens mais especializadas, adequadas para cargas de trabalho específicas ou em determinados ambientes, complementando o Iceberg.
O objetivo da Cloudera é ajudar os clientes a construir um open data lakehouse com Iceberg, de menor complexidade, maior flexibilidade e impacto ampliado. Estamos focados em oferecer segurança e governança em nível corporativo, além de novas otimizações, mecanismos de armazenamento em camadas e um “catálogo de catálogos” para reforçar a interoperabilidade e a colaboração. Você pode começar hoje mesmo com a avaliação de 5 dias do Cloudera Lakehouse ou explorando nossos guias práticos.
This may have been caused by one of the following: