ClouderaNOW Saiba mais sobre Agentes de IA, Cloud Bursting e Data Fabrics para IA  |  8 de abril

Inscreva-se já
  • Cloudera Cloudera
  • | Técnico

    Cloudera vs Snowflake vs Databricks: Qual modelo de federação oferece melhor suporte à IA empresarial?

    Navita Sood Headshot
    Fluxo de dados

    A IA está levando as empresas a enfrentarem um projeto que têm adiado há anos: a fragmentação de seus conjuntos de dados.  

    A fragmentação costumava ser um inconveniente. Claro, foram necessárias algumas etapas extras e alguns dias a mais para obter relatórios entre regiões ou departamentos. Talvez a equipe de TI precise intervir para conciliar as discrepâncias. Mas nada disso foi perturbador o suficiente para inviabilizar o negócio.  

    Até agora. 

    Por que a federação de dados é importante agora 

    Em um contexto de IA, um ambiente de dados fragmentado significa:

    • Modelos treinados com contexto incompleto
    • Agentes que tomam decisões com dados desatualizados ou inválidos
    • Políticas de governança aplicadas de maneira inconsistente entre os ambientes

    Isso significa duplicação, latência e pontos cegos exatamente no momento em que as empresas estão tentando operacionalizar a IA em grande escala. 

    Em outras palavras, a fragmentação de repente se torna um fator decisivo

    Em nossa postagem anterior, exploramos por que o acesso unificado e governado a dados é a base para uma IA confiável, e por que a consolidação sozinha não é a resposta. Centralizar dados (ou seja, mover tudo para um único local físico) pode parecer simples em teoria, mas na prática, isso introduz concessões operacionais que as empresas não podem mais se dar ao luxo. Clique aqui para ler o porquê

    A alternativa é a federação, que permite às organizações operar como se seus dados estivessem unificados. Mas há uma nuance que muitos compradores estão agora descobrindo: 

    Nem todas as estratégias de federação são iguais. 

    Duas estratégias concorrentes de federação: centralizar primeiro ou federar onde os dados residem 

    A maioria dos fornecedores utiliza o termo "federação" para descrever um benefício de sua plataforma de dados e IA (ou seja, possibilitar que as organizações utilizem todos os seus dados para realizar análises e IA), mas nem sempre se referem ao mesmo conceito com esse termo. Ao avaliar uma plataforma, é fundamental compreender exatamente o que cada fornecedor está oferecendo e verificar se está alinhado às suas necessidades antes de assumir um compromisso excessivo. 

    De modo geral, há duas abordagens dominantes no mercado atualmente: federação com consolidação prévia e federação in-place (frequentemente chamada de virtualização de dados). 

    Modelo 1: Federação com foco na consolidação (Abordagem da Databricks e da Snowflake)

    O primeiro modelo de federação é conhecido como abordagem de "consolidação em primeiro lugar": a federação torna-se possível após a consolidação dos dados no ambiente de nuvem do fornecedor ou dentro de seu modelo de governança. Caso deseje acesso entre sistemas, isso normalmente significa copiar ou ingerir dados regularmente em sua plataforma. 

    Simplificando, trata-se de federação porque possibilita analisar todos os seus dados em um só lugar. No entanto, é necessário transferir tudo para a casa deles primeiro. 

    Para os líderes empresariais, essa abordagem tem implicações tangíveis, incluindo:

    • Custos mais elevados de armazenamento e processamento de dados
    • Maior duplicação de dados
    • Replicação de políticas de governança e permissões entre sistemas
    • Maior complexidade em conformidade e auditoria

    Em outras palavras, quanto mais lugares seus dados forem acessados, mais caro e mais difícil será protegê-los. Para empresas nativas da nuvem, essa abordagem pode ser aceitável. Mas para empresas híbridas e regulamentadas, isso gera atritos que se acumulam com o tempo. 

    Modelo 2: Federação no local (Abordagem da Cloudera) 

    O modelo alternativo de federação, defendido pela Cloudera, adota uma postura fundamentalmente diferente: levar computação e IA aos dados, independentemente de onde eles estejam armazenados, em vez de forçar a movimentação dos dados.  

    A federação no local reúne os dados de forma lógica, e não física, para que as equipes possam acessá-los e analisá-los onde já estão — em ambientes públicos, privados e locais — sem precisar copiá-los para outra plataforma primeiro. 

    Parece uma diferença sutil, mas na prática, muda tudo: 

    • Reduza os custos de infraestrutura e armazenamento minimizando a movimentação desnecessária de dados.
    • Menos duplicação entre ambientes
    • Maior flexibilidade em arquiteturas de várias nuvens e locais
    • Exposição reduzida ao risco de concentração na nuvem
    • Modelo único de segurança e governança com rastreabilidade completa fim-a-fim em todos os seus dados, em qualquer lugar

    Consequentemente, os dados permanecem onde fazem mais sentido por razões regulatórias, operacionais ou de desempenho e as equipes ainda têm uma visão completa e em tempo real desses dados. 

    O que a federação no local possibilita que os modelos de consolidação em primeiro lugar não conseguem 

    Quando a federação funciona em ambientes híbridos sem replicação (ou seja, federação in-place), ela cria condições que os modelos de consolidação inicial têm dificuldade em igualar. Essa distinção altera o perfil de risco de toda a estratégia de IA fora de ambientes exclusivamente em nuvem. 

    1. Segurança com redundância zero 

    Em modelos que priorizam a consolidação (oferecidos por fornecedores como Databricks e Snowflake), os dados podem parecer unificados, mas ainda existem em múltiplos ambientes. São copiados, ingeridos ou replicados em uma plataforma controlada pelo fornecedor antes que possa ser analisado. Cada cópia adicional expande a superfície de conformidade. 

    Mais ambientes significam mais permissões para gerenciar, mais políticas para sincronizar e um escopo de auditoria maior para conciliar. À medida que a replicação cresce, também cresce a complexidade da governança. 

    Os modelos de federação no local, como o da Cloudera, deixam os dados onde estão. Dessa forma, as políticas de governança são definidas uma única vez e aplicadas de forma consistente em todos os ambientes. Em vez de recriar permissões em diferentes sistemas, um único plano de controle consistente governa o acesso em ambientes híbridos. Na Cloudera, chamamos isso de governança que acompanha seus dados. 

    Pense nisso como um sistema global de crachás corporativos. Você não gostaria de emitir um novo crachá de segurança cada vez que um funcionário visitasse um escritório diferente. As permissões de acesso são definidas de forma centralizada e o mesmo crachá funciona em toda a sede, escritórios regionais e centros de dados, aplicando as mesmas regras de segurança em todos os lugares. 

    Você define as regras uma vez e todas as portas as reconhecem, mesmo em locais diferentes. Isso é segurança sem redundância e é uma enorme vantagem para a contenção de riscos, porque a complexidade não se multiplica à medida que seu ambiente cresce. 

    2. Linhagem de fim-a-fim entre fontes híbridas 

    Em todos os setores, a IA está assumindo mais responsabilidades e, com isso, surge uma crescente necessidade de prestação de contas e explicabilidade. 

    Quando a IA influencia aprovações de crédito, alertas de fraude, decisões de preços ou ajustes na cadeia de suprimentos, por exemplo, cada resultado deve ser defensável. Órgãos reguladores, auditores e a alta administração esperam cada vez mais ver não apenas o resultado, mas também todo o processo que o levou a esse resultado. 

    Em empresas híbridas, esse caminho raramente se limita a um único ambiente. Os dados podem ter origem em infraestruturas locais ou na borda, ser enriquecidos numa nuvem pública, combinados com dados SaaS e consumidos por um modelo executado em outro local. A rastreabilidade nessa realidade é inegociável. 

    As abordagens de federação com foco na consolidação procuram simplificar a linhagem por meio da centralização dos dados. Mas na prática a replicação cria históricos paralelos: conjuntos de dados originais nos sistemas de origem e cópias transformadas nos ambientes analíticos. Com o tempo, explicar uma decisão pode exigir a conciliação de múltiplas versões dos mesmos dados em diferentes sistemas. A linhagem torna-se algo que você teria que reconstruir. 

    Com a federação no local integrada aos recursos de linhagem de dados (como as ferramentas de linhagem de dados da Cloudera), isso não é um problema. Como os dados são acessados onde se encontram (em vez de serem replicados em um ambiente separado), a linhagem permanece ancorada na fonte original. 

    Essa distinção é mais importante em fluxos de trabalho híbridos e dependentes de edge. Com uma abordagem de federação em vigor, pode-se ter certeza de que, se um regulador ou novo CRO aparecer anos depois perguntando como uma decisão específica foi tomada, a resposta não estará enterrada em uma caixa preta que precise ser decifrada. É documentado, rastreável e defensável. 

    3. Uma base mais sólida para sistemas de IA no mundo real 

    Nos modelos de consolidação em primeiro lugar, a IA opera dentro do ambiente onde os dados foram centralizados. Isso funciona, desde que a movimentação de dados acompanhe a realidade operacional. Em empresas híbridas, isso raramente acontece. 

    Quando a IA é responsável por resultados no mundo real, como precificação dinâmica ou ajustes na cadeia de suprimentos, ela deve operar dentro de sistemas distribuídos e em tempo real, não em cópias analíticas subsequentes. Cada etapa de replicação introduz cadeias de dependência, criando latência/atrasos na ingestão e potencial para divergências entre os sistemas operacionais reais e os modelos de IA que os utilizam. 

    A federação no local, por outro lado, mantém a IA alinhada à realidade operacional, garantindo que o contexto esteja sempre atualizado e impulsionando casos de uso operacionais de IA que uma estratégia de federação focada na consolidação não conseguiria acompanhar além da nuvem. 

    Inteligência artificial operacional na prática: indústria logística

    Para ver por que tudo isso importa na prática, vamos ver um exemplo. Imagine uma empresa global de logística que utiliza IA para otimizar rotas de entrega em tempo real. Uma única decisão de roteamento pode depender de: 

    • Dados de disponibilidade de condutores de um sistema de gerenciamento de força de trabalho
    • Dados de GPS em tempo real de veículos
    • Dados de tráfego e meteorológicos de APIs externas
    • Disponibilidade de estoque em armazéns regionais
    • Métricas de eficiência de combustível obtidas por sensores de IoT
    • Restrições regulatórias locais ou regras sindicais

    Se esse modelo de IA estiver operando com base em instantâneos copiados para uma única nuvem dias ou até mesmo horas antes, ele estará tomando decisões com contexto parcial. O sistema pode redirecionar motoristas sem levar em conta os níveis atualizados de estoque ou otimizar a velocidade sem considerar as restrições regionais de conformidade. Pode depender de telemetria desatualizada de veículos que já saíram da rota. 

    Quando os sistemas de IA conseguem acessar com segurança os dados distribuídos onde eles já estão, com segurança de redundância zero e visibilidade completa da linhagem, as organizações desbloqueiam uma IA totalmente operacional que age em tempo real, opera dentro dos limites das políticas e se adapta a diferentes ambientes sem aumentar os riscos. 

    Como Escolher um Fornecedor de Federação: Perguntas que Toda Empresa Deve Fazer 

    Conforme já exploramos, nem todas as estratégias de federação são projetadas para alcançar o mesmo resultado.  

    Algumas priorizam a consolidação, enquanto outras priorizam a flexibilidade híbrida e o acesso regulamentado. Ao avaliar o Cloudera, Databricks e Snowflake (ou qualquer solução de federação de dados ou combinação entre elas), estas perguntas ajudam a revelar as diferenças reais: 

    • A federação exige movimentação de dados? Você consegue acessar os dados onde eles já estão armazenados ou será necessário copiá-los primeiro para uma nuvem centralizada?
    • Onde são definidas as políticas de governança? Os controles de acesso são definidos uma única vez e herdados em todos os sistemas ou recriados em todos os sistemas?
    • A combinação híbrida é considerada permanente? A arquitetura suporta ambientes locais e multicloud a longo prazo, ou pressupõe uma consolidação futura?
    • A linhagem pode se estender além do ambiente do fornecedor? A rastreabilidade é fim-a-fim em fontes distribuídas, incluindo sistemas não nativos?
    • A plataforma foi projetada para IA operacional em qualquer lugar? A IA pode acessar com segurança dados ativos e controlados em tempo real, ou apenas instantâneos centralizados?

    As respostas a essas perguntas ajudarão você a determinar se a federação se tornará um recurso de conveniência centrado em casos de uso analíticos ou a base de longo prazo para uma IA confiável, controlada por custos e em escala empresarial. 

    A federação só funciona se for arquitetada intencionalmente 

    Projetar um ambiente federado significa ir além da superfície — alinhar modelos de governança, restrições regulatórias, requisitos de desempenho e integrações existentes, ao mesmo tempo em que se conectam os sistemas de forma a garantir flexibilidade no longo prazo. 

    A equipe de Serviços Profissionais e Treinamento (PS&T) da Cloudera já orientou inúmeras vezes organizações de todos os setores nesse processo. Seja estabelecendo uma nova estratégia de federação ou otimizando um ambiente existente, ter consultores experientes ao seu lado pode ajudar a garantir que seu ambiente federado não seja apenas configurado corretamente, mas também esteja realmente pronto para IA e criado para entregar resultados mensuráveis. 

     

    Continue lendo: como funciona a federação nos serviços financeiros 

    A escolha entre a consolidação em primeiro lugar e a federação no local determina se a IA permanecerá no modo piloto ou se será dimensionada com segurança para as operações. 

    Em nenhum lugar isso é mais crítico do que nos serviços financeiros, onde a detecção de fraudes, a gestão de riscos e os relatórios regulatórios dependem de dados atualizados e integrados entre sistemas. Em nosso próximo artigo, exploraremos como a federação está remodelando a análise em tempo real e a governança de IA no setor bancário. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.