Cloudera nomeada líder no The Forrester Wave™: Plataformas de Data Fabric, no 4º trimestre de 2025

Leia o relatório
  • Cloudera Cloudera
  • | Técnico

    Como as Principais Equipes de Dados Criam Pipelines Prontos para IA com o Apache Iceberg e o Spark

    Pamela Pan headshot
    Ying Chen
    Akshat Mathur headshot
    Mulher olhando para o telefone na cozinha

    Lições de duas empresas globais que estão modernizando a engenharia de dados para IA escalável.

    Das análises preventivas à IA generativa, todas as empresas buscam transformar dados em valor. Mas para muitas equipes, o verdadeiro desafio está além da superfície, no trabalho de engenharia de dados necessário para tornar esses dados utilizáveis, confiáveis e escaláveis. Em ambientes complexos, os engenheiros ainda estão interligando fluxos de trabalho usando formatos de tabela legados, duplicando lógica entre ferramentas e adaptando a governança posteriormente. Essas ineficiências criam entraves em todas as etapas, atrasando os resultados e limitando o impacto até mesmo das iniciativas de IA e análise de dados mais avançadas.

    Para empresas que procuram otimizar e preparar para o futuro sua pilha de engenharia de dados, o Apache Iceberg como formato de tabela aberto e o Apache Spark como mecanismo de computação aberto têm se mostrado uma combinação poderosa. Juntas oferecem uma base aberta, escalável e padronizada para processar e gerenciar dados em escala de petabytes (PB), sem sacrificar governança, flexibilidade ou desempenho.

    Neste blog, analisaremos mais de perto como duas organizações globais transformaram seus pipelines de dados usando o Spark e o Iceberg com a plataforma de dados e IA da Cloudera. Exploraremos como eles reduziram os tempos de consulta em 80%, padronizaram os fluxos de trabalho entre as equipes e aceleraram o caminho de dados brutos para insights prontos para IA.

    Como a Vodafone Idea reduziu o tempo de consulta em 80%

    A Vodafone Idea é uma das três maiores empresas de telecomunicações da Índia, atendendo 220 milhões de clientes. A empresa enfrentava problemas de escala: seu data lake baseado em Hive havia crescido para mais de 17 PBs e gargalos de desempenho colocavam operações comerciais críticas em risco. Algumas consultas de relatórios levaram mais de 70 horas para serem concluídas! Isso atrasou a conformidade, as análises e os relatórios regulatórios.

    Em vez de simplesmente atualizar a infraestrutura, a Vodafone Idea optou por reestruturar sua plataforma de dados. Em colaboração com a Cloudera, a empresa utilizou o Iceberg para consultas mais rápidas por meio de metadados otimizados e evolução de esquemas e reconstruiu seus fluxos de trabalho de processamento no Spark para aproveitar a computação distribuída para um processamento de dados eficiente e em larga escala. 

    Para relatórios regulatórios, combinaram o Iceberg com Apache Impala como mecanismo de consulta interativa para oferecer acesso rápido e confiável a conjuntos de dados em escala de petabytes. Enquanto o Impala lidava com as consultas de relatórios, o Iceberg desempenhava um papel fundamental nos bastidores, seu suporte para transações ACID (atomicidade, consistência, isolamento e durabilidade, propriedades que garantem que as transações do banco de dados sejam processadas de forma confiável e consistente), recursos flexíveis de evolução de esquema e metadados abrangentes mantinham os fluxos de trabalho de relatórios consistentes, mesmo com a alteração dos dados.

    Por meio da integração com o Cloudera Shared Data Experience (SDX), a equipe também adquiriu uma governança detalhada, com controle de acesso baseado em funções e atributos, garantindo que as pessoas certas tivessem acesso aos dados corretos. Essa base permitiu que a empresa entregasse relatórios oportunos e auditáveis, ao mesmo tempo em que atendia às crescentes demandas regulatórias. 

    Transformando telecom com eficiência baseada em dados

    Ao fazer parceria com a Cloudera, a Vodafone Idea preservou flexibilidade, fortaleceu a governança e acelerou a entrega de insights em larga escala sem precisar reconstruir toda a sua pilha de dados. Utilizando o Spark para ingestão de dados, o Iceberg para gerenciamento unificado de tabelas e o Impala para geração de relatórios, eles modernizaram sua base reutilizando a lógica e os fluxos de trabalho existentes. 

    Combinada, essa arquitetura proporcionou resultados mensuráveis:

    • Redução de 80% no tempo de consulta.
    • Diminuição das falhas de pipeline por meio da resiliência do Spark em escala e dos recursos robustos de gerenciamento de tabelas do Iceberg.
    • Relatórios regulatórios aprimorados (mais rápidos e confiáveis).


    Como uma empresa farmacêutica se consolidou para aumentar a escala: Uma pilha de tecnologia, 10 mil empregos

    Uma empresa farmacêutica global que gerencia dados de pesquisa clínica em escala de petabytes enfrentou um desafio familiar, porém crescente: havia ferramentas demais em uso, o que gerava problemas de confiabilidade dos dados e dificuldades para atender aos padrões de conformidade, além da pressão para oferecer suporte à inteligência artificial e análises mais rápidas. As equipes de engenharia de dados precisavam executar mais de 10 mil trabalhos ETL diários, mas não tinham uma forma padronizada de construir, governar ou validar pipelines entre as equipes.

    Com a Cloudera na AWS, a empresa definiu um caminho claro a seguir. A equipe padronizou todos os pipelines de dados usando o Spark na Cloudera Data Engineering, unificando e escalando o processamento em cargas de trabalho em lote, streaming e aprendizado de máquina. Ao mesmo tempo, adotaram o Iceberg como formato padrão de tabela aberta para garantir evolução consistente do esquema, controle de versão embutido e governança de nível empresarial entre equipes e ambientes.

    Ao adotar o Spark e o Iceberg no Cloudera, a empresa estabeleceu uma base limpa e escalável de DataOps que padronizou o pipeline de dados, possibilitou o compartilhamento seguro de dados entre equipes e ferramentas, e abriu caminho para IA e análises mais rápidas e avançadas. Essa base agora apoia desde fluxos de trabalho de auditoria regulatória até modelos de IA que aceleram a descoberta de ensaios clínicos e o desenvolvimento de medicamentos, garantindo que a empresa possa integrar de forma fluida qualquer nova tecnologia ou motor no futuro.

    Transformando a indústria farmacêutica com uma plataforma de dados unificada

    A padronização na plataforma da Cloudera deu à empresa farmacêutica global um novo nível de consistência operacional:

    • Governança sem interrupções: o padrão de gravação-auditoria-publicação do Iceberg permite que as equipes upstream validem os dados antes de liberá-los para produção, sem interromper os fluxos de trabalho downstream.
    • Viagem no tempo para rastreabilidade: as equipes regulatórias podem acessar instantâneos de dados históricos, possibilitando uma reversão perfeita e suporte a auditorias.
    • Lógica de pipeline compartilhada: com o Spark como mecanismo unificado, equipes de engenheiros de dados a cientistas de dados podem colaborar facilmente e reutilizar as principais transformações em trabalhos e ambientes, reduzindo a duplicação e simplificando a manutenção.


    Construção de uma base moderna para engenharia de dados e IA

    Essas duas histórias têm um ponto em comum: ambas as organizações enfrentaram fragmentação, pressão de escala e crescente complexidade em seus fluxos de trabalho de dados. Padronizando o Apache Spark e o Apache Iceberg com o Cloudera, eles reconstruíram seus pipelines em torno de componentes abertos, escaláveis e confiáveis, possibilitando melhor governança, desempenho mais rápido e fluxos de dados mais limpos para IA e análises.

    Com o Cloudera Data Engineering, as empresas têm uma solução de fim-a-fim executada em ambientes híbridos e multinuvem. Ele reúne o Spark, o Iceberg e a orquestração integrada com o Airflow para capacitar as equipes a:

    • Criar pipelines uma única vez e executá-los em qualquer lugar, no data center ou na nuvem.
    • Manter a confiança e a governança em escala no data lakehouse aberto

    Assista a esta demonstração interativa para ver como a Spark e a Iceberg alimentam pipelines de confiança e escaláveis na Cloudera. Experimente você mesmo com a avaliação gratuita de 5 dias do Cloudera Data Engineering e comece a criar fluxos de trabalho de dados prontos para IA hoje mesmo.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.