Índice de Prontidão de Dados 2026: Compreendendo os fundamentos para o sucesso da IA

Veja os resultados

14 de julho, 2025 | Negócios

A Onda Iceberg: Como um formato aberto se tornou um padrão empresarial

12 min de leitura • por Navita Sood

Plataforma Cloudera Análise do cliente Data Lakehouse

Inovações da Cloudera impulsionando a adoção do Iceberg

O Apache Iceberg se consolidou como o padrão aberto de fato para o gerenciamento de dados estruturados, semiestruturados e em evolução em larga escala. Criado originalmente em 2017 na Netflix, para lidar com os desafios de entregar análises confiáveis em escala de petabytes (PB) no Apache Hive e Spark, o Iceberg evoluiu para um formato de tabela aberto e robusto, capaz de suportar múltiplas cargas de trabalho simultaneamente.

O Iceberg unifica seus dados e fornece comportamento SQL para acessá-los com facilidade. À medida que avança com recursos SQL mais sofisticados e operações de dados simplificadas, o Iceberg tem sido cada vez mais adotado por públicos com diferentes níveis técnicos, não apenas engenheiros de dados, mas também cientistas de dados, analistas e desenvolvedores de aplicações, que buscam acesso rápido e confiável a qualquer dado.

Com o Iceberg, as organizações alcançam verdadeira separação entre computação e armazenamento, viabilizando uma flexibilidade sem precedentes. Para quem busca análises multifuncionais, prontidão para IA e liberdade em relação a fornecedores, nenhum outro formato de tabela chega perto.

Uma Comunidade Vibrante e em Crescimento

Em menos de 10 anos, o Iceberg evoluiu de tecnologia emergente para padrão corporativo. Esse avanço pode ser atribuído tanto à sua arquitetura sólida quanto à comunidade aberta e vibrante que o apoia.

O ponto essencial é que a comunidade do Iceberg é liderada por seus usuários, e não por um único fornecedor. Esse modelo de governança orientado pelo usuário garante que o projeto evolua para atender às necessidades reais do mercado, fator crucial para sua ampla adoção.

Principais Conclusões da Cúpula do Iceberg

A evidência da adoção generalizada do Iceberg ficou clara no Iceberg Summit 2025, em São Francisco. O evento reuniu startups, empresas Fortune 500 e os três principais provedores de nuvem (AWS, Microsoft e Google), com participantes de todo o mundo — presencialmente e online — todos motivados a aprender, contribuir e fortalecer o ecossistema.

Alguns temas, em particular, dominaram as conversas no Summit: a interoperabilidade e a crescente relevância do Iceberg (seu ecossistema em expansão e recursos cada vez mais robustos, incluindo automação).

Interoperabilidade

De empresas como Netflix, Apple e Bloomberg, muitas organizações compartilharam como o Iceberg permite gerenciar uma única fonte da verdade que alimenta múltiplas cargas de trabalho, eliminando cópias redundantes de dados e reduzindo a movimentação entre sistemas. Foram discutidos os diversos tipos de cargas de trabalho que dependem da camada de dados confiável do Iceberg para entregar segmentação, personalização, previsões de rotatividade/relapso, recomendações, experiências otimizadas para o cliente e muito mais.

Ecossistema em expansão

Outro destaque foi o surgimento de novas ferramentas de código aberto, como Comet, Polaris e Lance, dentro do ecossistema Iceberg, projetadas para melhorar o desempenho e oferecer suporte a análises multimodais e IA.

Atualizações chegando no Iceberg V3 e V4

Houve bastante expectativa em torno dos recursos que chegarão com o Iceberg V3 e V4. O V3 trará avanços significativos em governança de dados, otimização de desempenho e suporte para tipos de dados mais complexos, como Variant e Geospatial. Com base nos princípios do formato colunar, o Variant possibilita consultas avançadas, como filtragem e agregações, em dados semiestruturados, sem a necessidade de extensas transformações. O suporte a Geospatial permitirá que organizações gerenciem dados baseados em localização, desbloqueando novos casos de uso. Já o novo layout adaptativo de metadados, proposto para o V4, promete melhorar o desempenho em arquivos pequenos.

Gerenciamento de Dados Automatizado

Outro tópico de destaque foi a automação de tarefas rotineiras de manutenção (particionamento, ordenação, compactação) por meio de interfaces inspiradas em DevOps e orientadas por políticas, reduzindo o trabalho manual. À medida que mais dados são trazidos para as tabelas Iceberg, isso se torna um grande gargalo, já que muitas vezes é preciso contratar especialistas apenas para executar essas tarefas de manutenção.

Com cada vez mais mecanismos acessando dados em tabelas Iceberg, governança, segurança e linhagem se tornam prioridades. A visibilidade sobre fluxos e transformações de dados passa a ser crítica para garantir a confiabilidade das informações. Isso levou a discussões sobre a necessidade de federação de catálogos e governança para melhorar a visibilidade em todo o ecossistema Iceberg.

Adoção do Iceberg na Cloudera

A Cloudera integrou o Apache Iceberg nativamente em sua plataforma Lakehouse na nuvem pública em 2021, e, em seguida, em ambientes locais em 2022. Atualmente, a maioria dos nossos clientes já está executando ou testando novas cargas de trabalho no Iceberg. No total, nossos clientes gerenciam petabytes de dados no Iceberg.

O Iceberg é hoje um vetor de crescimento para a Cloudera. Estamos observando um aumento no número de clientes que estão migrando cargas de trabalho do Hive para o Iceberg, a fim de modernizar e preparar suas plataformas de dados para o futuro.” - Venkat Rajaji, Vice-presidente sênior de gerenciamento de produtos, Cloudera

Uma vez que uma empresa inicia sua jornada com o Iceberg, os benefícios se acumulam, resultando em volumes crescentes de dados em tabelas Iceberg, expansão de cargas de trabalho e surgimento de novos casos de uso. Um desempenho mais rápido costuma ser o primeiro motivador, seguido por interoperabilidade e flexibilidade de cargas de trabalho para garantir mais agilidade. A adoção do Iceberg reduz custos de armazenamento, ETL e operações em até 75%. Recursos como time travel, snapshots, write-audit-publish e particionamento oculto aumentam ainda mais a eficiência, tornando o Iceberg a escolha certa para implantar novos casos de uso.

Alguns dos casos de uso mais populares do Iceberg na Cloudera são:

Compartilhamento de dados entre diferentes sistemas de fornecedores usados por partes confiáveis, como unidades de negócios dentro de uma mesma organização ou parceiros e fornecedores de confiança.
Engenharia de dados em larga escala para preparação massiva de dados com melhor relação custo-desempenho.
Análises quase em tempo real e tomada de decisão, ingerindo dados de streaming no lakehouse.
Relatórios de conformidade regulatória e mitigação contínua de riscos, aproveitando os recursos de time travel do Iceberg em conjunto com as capacidades de governança, linhagem e auditoria da Cloudera.
Otimização de gastos em análises na nuvem, desbloqueando dados no Iceberg e aproveitando as robustas capacidades de ingestão e processamento de dados da Cloudera.
Aceleração da preparação de dados para IA, utilizando Spark e NiFi para processamentos mais rápidos.
Treinamento eficiente de modelos em múltiplas versões de dados, com uso reduzido de recursos de computação e armazenamento.
Feature stores em múltiplos níveis, combinando Iceberg e HBase para IA de baixa latência.
Execução de cargas de trabalho híbridas, utilizando computação na nuvem pública em dados sensíveis armazenados no local.

Ouça a jornada da Illumina e da LY Corporation com o Apache Iceberg e como estão superando seus desafios de dados e análise em escala.

Inovações da Cloudera para superar desafios comuns

Embora o Lakehouse e o Iceberg ofereçam benefícios significativos, incluindo a convergência de todos os dados e a aceleração das análises, alguns desafios foram relatados por nossos clientes em relação à adoção do Iceberg: Dados distribuídos em múltiplas nuvens, no local e em sistemas de borda. Mover todos esses dados para a nuvem para aproveitar o Iceberg é praticamente impossível Por isso, eles precisam do mesmo suporte ao Iceberg no local e na nuvem. Integração com diferentes mecanismos de fornecedores é necessária para permitir o compartilhamento de dados entre sistemas com confiança, linhagem e rastreabilidade. À medida que os dados crescem, otimizar continuamente as tabelas Iceberg manualmente para obter desempenho ideal se torna muito caro, exigindo especialistas e grandes recursos de computação. Embora o Iceberg aumente o uso dos dados, a liberdade de integração com qualquer ferramenta introduz riscos e requer ferramentas eficazes de governança e segurança para controlar acessos e fornecer gestão de metadados para auditoria, linhagem e visibilidade, possibilitando melhor entendimento dos dados e ampliando sua usabilidade.

Estamos sempre inovando para resolver os desafios dos clientes e fizemos vários aprimoramentos na plataforma para abordar esses pontos problemáticos comuns, incluindo:

Iceberg em todos os lugares com o lakehouse híbrido: oferece suporte nativo ao Iceberg em ambientes locais e em múltiplas nuvens públicas, com a capacidade de portar aplicações e códigos para usar Impala, Spark, NiFi, Flink e Hive sobre os mesmos dados e com a mesma experiência. Isso permite que os clientes modernizem seu data center com recursos nativas da nuvem. O Iceberg no Ozone entrega object stores compatíveis com S3 no local. A Cloudera possibilita que as organizações unifiquem seus dados em nuvem e no local sob um único modelo de governança e segurança, com controles de acesso granulares, metadados versionados e catálogo compartilhado.
Criação de aplicações em tempo real: crie pipelines de CDC em tempo real e ingira e unifique dados de batch e streaming de forma integrada com a oferta Data in Motion da Cloudera para pipelines de streaming (NiFi + Kafka + Flink-on-Iceberg).
Interoperabilidade total com integração via REST catalog: gere interoperabilidade com motores externos e ecossistemas abertos, mantendo segurança e governança unificadas.
Menor TCO e maior desempenho com o Cloudera Lakehouse Optimizer: ajuste automático por IA integrado que otimiza compactação, expiração de snapshots e layout, sem necessidade de ajuste manual.
Visibilidade completa de todas as fontes e destinos de dados: o Octopai by Cloudera desbloqueia automação inteligente de metadados e linhagem de ciclo de vida completo para todos os fluxos de dados, mesmo fora da Cloudera, proporcionando melhor visibilidade.
HA/DR e baixa latência entre aplicações: a replicação de tabelas Iceberg oferece resiliência e flexibilidade para arquiteturas de dados de alta disponibilidade (HA).
Adoção rápida e sem riscos com ferramentas de migração inteligentes: nosso modelo "Hive Tables to Apache Iceberg" simplifica a integração.

Ao projetarmos um futuro em que o Apache Iceberg será a base e o elo central, capacitando dados e IA entre plataformas, seguimos aprimorando continuamente suas capacidades para desbloquear uma agilidade e inteligência sem precedentes para todas as empresas.” Bill Zhang, Vice-presidente de estratégias de produtos na Cloudera

O caminho à frente

Acreditamos que o Iceberg continuará a dominar como padrão corporativo para formatos de tabela aberta. As novas inovações em otimizações automatizadas, suporte multimodal, gestão de metadados e integração com Python irão impulsionar ainda mais a sua adoção. Outros formatos de tabela aberta provavelmente adotarão abordagens mais especializadas, adequadas para cargas de trabalho específicas ou em determinados ambientes, complementando o Iceberg.

O objetivo da Cloudera é ajudar os clientes a construir um open data lakehouse com Iceberg, de menor complexidade, maior flexibilidade e impacto ampliado. Estamos focados em oferecer segurança e governança em nível corporativo, além de novas otimizações, mecanismos de armazenamento em camadas e um “catálogo de catálogos” para reforçar a interoperabilidade e a colaboração. Você pode começar hoje mesmo com a avaliação de 5 dias do Cloudera Lakehouse ou explorando nossos guias práticos.

Navita Sood

Director Product Marketing, Modern Data Architectures

Mais deste autor ›

Relacionados

18 de junho, 2026 | Negócios

De híbrido acidental a híbrido por projeto: como dominar a soberania de dados e o controle de custos de IA

11 min de leitura • Kierstan Williams

Tudo pronto para começar?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.