ClouderaNOW Saiba mais sobre Agentes de IA, Cloud Bursting e Data Fabrics para IA | 8 de abril

Inscreva-se já

1 de julho, 2025 | Negócios

Inovação de IA Empresarial com Prioridade na Privacidade com o Cloudera Synthetic Data Studio

9 min de leitura • por Andreas Tsiartas , Khauneesh Saigal , e Yi-Hsun Tsai

O desafio da privacidade, qualidade e acesso a dados para aplicações de IA

As empresas enfrentam um dilema: precisam automatizar seus processos de negócio com IA para manter a competitividade e reduzir custos, ao mesmo tempo em que lidam com regulamentações rigorosas de privacidade de dados, como a Lei Geral de Proteção de Dados (LGPD) ou a Lei de Privacidade do Consumidor da Califórnia (CCPA). Além disso, convivem com os altos custos de modelos de linguagem de grande porte (LLMs) baseados em nuvem e com a escassez de dados abertos, de alta qualidade e prontamente disponíveis — tudo isso enquanto precisam gerenciar o acesso a informações proprietárias corporativas e a interações sensíveis de clientes, como chamados de suporte técnico, registros financeiros ou dados de saúde, que devem permanecer privados e não podem ser compartilhados ou expostos.

Isso gera vários desafios para desenvolvedores de IA. Primeiro, usar dados brutos para treinar modelos expõe a riscos de penalidades legais por não conformidade. Segundo, compartilhar dados com LLMs baseados em nuvem introduz vulnerabilidades de privacidade. Terceiro, a falta de dados acessíveis e de alta qualidade leva a lacunas de precisão nos modelos de IA. O resultado? Inovação estagnada, oportunidades perdidas e um fosso crescente entre o potencial da IA e sua aplicação prática nas empresas.

Na Cloudera, temos o compromisso de capacitar empresas a aproveitar todo o potencial da IA sem comprometer a privacidade dos dados ou estourar orçamentos. Como parte dessa missão, lançamos o Cloudera AI Studios, que torna a IA avançada acessível a todos— usuários técnicos e não técnicos — por meio de ferramentas modulares no-code, com extensibilidade high-code, que orientam desenvolvedores em todo o ciclo de vida da IA generativa (GenAI).

O Cloudera Synthetic Data Studio faz parte desse conjunto de ferramentas e ajuda organizações a adaptar modelos de IA avançados sem abrir mão da conformidade regulatória e da eficiência operacional. Com o Synthetic Data Studio, os usuários podem gerar dados sintéticos de alta qualidade para ajustar modelos de linguagem de código aberto a casos de uso específicos, avaliar o desempenho de aplicações de geração aumentada por recuperação (RAG) ou sistemas agênticos, realizar aumento de dados com suporte de IA e muito mais — tudo sem expor informações sensíveis.

Visão geral do Synthetic Data Studio

O Synthetic Data Studio é um habilitador estratégico para empresas que precisam navegar pelas complexidades da IA moderna. Ao combinar um design com foco em privacidade a fluxos de trabalho avançados de IA, o Synthetic Data Studio capacita equipes a treinar modelos precisos usando dados sintéticos derivados de exemplos reais. Essa abordagem elimina riscos de exposição de dados e garante conformidade com exigências regulatórias.

O Studio também permite às organizações escalar aplicações de IA em diferentes casos de uso — de atendimento ao cliente à detecção de fraudes — possibilitando que equipes testem sistemas RAG, agentic e outros com base em documentos proprietários. Para garantir qualidade, os conjuntos de dados sintéticos são avaliados usando um LLM-as-a-judge, retendo apenas as saídas de mais alta qualidade para fluxos de trabalho subsequentes.

Fluxos de Trabalho Intuitivos para Garantir a Precisão e a Confiabilidade do Modelo

O fluxo de trabalho do Studio é intuitivo e poderoso. Com uma interface no-code/low-code, as equipes podem instruir LLMs a gerar dados sintéticos que reproduzem padrões do mundo real. Por exemplo, equipes de suporte ao cliente podem criar tíquetes sintéticos de atendimento que reflitam consultas técnicas reais ou solicitações de serviço. O sistema oferece suporte a vários métodos de síntese, como geração livre, ajuste supervisionado e alinhamento de modelos, além de permitir a geração baseada em documentos privados para manter relevância contextual.

Uma vez gerados, os conjuntos de dados sintéticos passam por uma avaliação rigorosa. Um LLM escolhido atua como juiz, avaliando os dados de acordo com critérios personalizados para garantir que apenas as saídas de mais alta qualidade sejam mantidas. Essa etapa de controle de qualidade é crítica para manter a precisão e a confiabilidade dos modelos. Além disso, avaliadores humanos podem intervir e filtrar ainda mais os dados gerados para obter resultados de qualidade ainda superior.

Por fim, os conjuntos de dados são automaticamente integrados a projetos do Cloudera AI Workbench para fluxos de trabalho subsequentes. Para organizações que precisam de integração externa, os conjuntos de dados também podem ser exportados em formatos como JSON ou CSV para uso em plataformas como o Hugging Face.

Arquitetura Aberta e Escalável para Adotar Ferramentas de Terceiros e Oferecer Confiabilidade

A arquitetura agnóstica em relação a LLMs do Synthetic Data Studio garante flexibilidade e aproveita tanto o AWS Bedrock quanto o Cloudera AI Inference, o que permite oferecer suporte a técnicas avançadas como destilação de conhecimento, geração de dados em formato livre, ajuste supervisionado, aprendizado por reforço e otimização por preferências (KTO, DPO, PPO, ORPO) para criar modelos de raciocínio voltados a sistemas agênticos. Essa adaptabilidade é combinada a desempenho escalável por meio de processamento paralelo e mecanismos de fallback, garantindo confiabilidade mesmo com grandes conjuntos de dados.

A integração contínua com pipelines de CI/CD via Cloudera AI Workbench Jobs API assegura que os fluxos de geração e aumento de dados sintéticos estejam alinhados às práticas de DevOps corporativas. Essa integração reduz fricções e acelera o tempo de geração de valor dos projetos de IA.

A integração com outros Cloudera AI Studios, como o Fine-Tuning Studio, também simplifica ainda mais os fluxos de trabalho. Seja para refinar modelos, testar sistemas agênticos ou otimizar casos de uso específicos, o Synthetic Data Studio fornece as ferramentas necessárias para acelerar o desenvolvimento sem comprometer a segurança.

Casos de Uso e Impacto: Redução de 95% no Tempo de Processamento

O valor real do Synthetic Data Studio se revela quando aplicado a cenários práticos. Por exemplo, a equipe de suporte ao cliente da Cloudera usou o estúdio para gerar conjuntos de dados de alta qualidade para destilação de conhecimento em um LLM menor, e os resultados foram transformadores. Segundo testes internos, o tempo de processamento para análise de tíquetes de suporte foi reduzido em 95% em comparação ao de um LLM maior, o modelo destilado atingiu uma taxa de sucesso de 70% contra LLMs mais robustos (como o Goliath-120B) e os requisitos de recursos computacionais caíram significativamente, possibilitando um aumento de 11 vezes na taxa de processamento para análises em tempo real.

A versatilidade do estúdio vai além do suporte ao cliente. No setor financeiro, dados sintéticos de transações podem ser usados para treinar modelos de decisão de crédito sem expor informações de clientes. No desenvolvimento de software, problemas e soluções sintéticas de programação aprimoram o desempenho dos LLMs em geração de código. Para conformidade regulatória, equipes podem testar modelos com critérios personalizados para garantir aderência a padrões.

O Futuro da IA Privada com o Synthetic Data Studio da Cloudera

O Synthetic Data Studio é um modelo para que as empresas possam inovar com IA sem abrir mão da proteção dos dados. Ao democratizar o acesso a métodos de geração de dados sintéticos, como destilação de conhecimento, a Cloudera permite que as organizações:

Reduzam custos: usem modelos destilados menores especializados em casos de uso específicos.
Atuem com confiança: aproveitem o que há de mais avançado em IA em conformidade regulatória.
Construam com ética: estabeleçam confiança garantindo que a privacidade dos dados continue sendo uma vantagem competitiva.

Nos negócios, em que confiança e conformidade são fundamentais, o Synthetic Data Studio aponta um caminho para o futuro. Não se trata apenas de resolver os desafios de hoje, mas de permitir que as empresas liderem a revolução da IA de amanhã de forma responsável.

Como próximos passos, explore o Synthetic Data Studio aqui.

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

Mais deste autor ›

Khauneesh Saigal

Staff Software Engineer –Gen AI/ML, Cloudera

Mais deste autor ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

Mais deste autor ›

Relacionados

24 de junho, 2026 | Técnico

Como a soberania de dados molda a estratégia de IA em setores regulamentados

8 min de leitura • Dario Perez

Tudo pronto para começar?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.