Índice de Prontidão de Dados 2026: Compreendendo os fundamentos para o sucesso da IA

Veja os resultados

1 de outubro, 2025 | Negócios

Capacitação da IA corporativa com dados sintéticos estruturados: como preservar a privacidade e as propriedades estatísticas de origem

8 min de leitura • por Andreas Tsiartas , Yi-Hsun Tsai , e Robert Hryniewicz

AI Enterprise Ai

Na era da IA orientada por dados, as empresas precisam de conjuntos de dados de alta qualidade para analisar ou treinar modelos de IA, mas as regulamentações de privacidade de dados e as preocupações éticas restringem o uso ou o compartilhamento de dados do mundo real. Como as organizações podem inovar sem comprometer informações sensíveis?

Na Cloudera, fomos pioneiros no desenvolvimento de uma solução que preencheu essa lacuna. O Synthetic Data Studio da Cloudera, parte do conjunto de ferramentas Cloudera AI Studio , é uma ferramenta que cria conjuntos de dados totalmente sintéticos que imitam os padrões de dados reais de uma organização para as organizações poderem inovar sem risco de informações confidenciais.

Principais conclusões

A abordagem da Cloudera para a geração de dados sintéticos oferece um modelo para empresas que desejam usar ou compartilhar dados estruturados confidenciais. A abordagem ilustra:

Privacidade como recurso: dados sintéticos tornam-se um ativo estratégico que possibilita a inovação em domínios restritos

A fidelidade estatística é importante: as instruções de agrupamento e de sementes garantem que os dados sintéticos preservem as relações sutis que tornam os modelos eficazes.

Escalabilidade para IA empresarial: fluxos de trabalho automatizados reduzem o custo e o tempo de geração de dados sintéticos

O Desafio Empresarial: Aproveitar os modelos de IA e garantir a conformidade.

Considere uma empresa de serviços financeiros que busca prever a inadimplência de empréstimos. Os dados do mundo real neste domínio são um verdadeiro tesouro de detalhes sigilosos: níveis de renda, históricos de emprego e pontuações de crédito. O compartilhamento desses dados com terceiros ou modelos de IA está repleto de obstáculos regulatórios e éticos.

Os métodos tradicionais de dados sintéticos geralmente são insuficientes, pois não conseguem capturar as relações lógicas diferenciadas entre variáveis, como a forma como as dívidas existentes podem influenciar o comportamento de pagamento, ou a consistência lógica entre os pontos de dados em linhas e colunas. As empresas precisam de uma solução de dados sintéticos que possa escalar, preservar a integridade estatística dos dados originais e garantir a conformidade com os padrões de privacidade.

Solução da Cloudera: Geração de Dados Sintéticos Estruturados

A solução da Cloudera segue um fluxo de trabalho de quatro etapas que incorpora técnicas de agrupamento, Cloudera Synthetic Data Studio e validação rigorosa.

Passo 1: Dados do Perfil

A jornada começa com o particionamento e a clusterização dos dados para criar perfis estatísticos. Categorizando os mutuários em grupos com base nos níveis de risco, como aplicantes de alto risco versus baixo risco, por exemplo, e agrupando ainda mais variáveis numéricas como valores de empréstimos e taxas de juros, destilamos o conjunto de dados em “instruções semente”.

As instruções iniciais codificam as propriedades estatísticas de cada grupo, como médias, desvios padrão e correlações e incorporam informações do mutuário, como classificações ou status do empréstimo. Essa etapa garante que os dados sintéticos herdem a estrutura dos dados originais sem expor detalhes sensíveis.

Passo 2: Gerar Dados Usando o Cloudera Synthetic Data Studio

Com essas instruções iniciais definidas, a próxima fase utiliza a geração baseada em LLM. Utilizando modelos avançados como o Llama 3.3-70B-Instruct, sintetizamos novos registros guiados pelos modelos estatísticos observados nas instruções iniciais. O Cloudera Synthetic Data Studio atua como uma força criativa, gerando dados que preservam as relações e os padrões definidos nas instruções iniciais.

É aí que a mágica acontece: o modelo não produz somente números aleatórios, mas constrói dados que refletem a complexidade de cenários do mundo real, como a renda do mutuário pode influenciar logicamente seu histórico de pagamentos.

Passo 3: Filtrar dados

No entanto, nem todos os dados gerados atendem à qualidade exigida. Para garantir a fidelidade, empregamos um fluxo de trabalho inovador com um LLM atuando como juiz.

Essa etapa avalia os resultados sintéticos com base em um conjunto de critérios, incluindo consistência de formatação, coerência lógica (por exemplo, garantir que as contas hipotecárias estejam alinhadas com o status de proprietário) e realismo (por exemplo, gerar taxas de juros plausíveis). Somente dados que obtêm pontuação alta, atingindo um limite mínimo de 9 em 10, são mantidos. Esse processo de filtragem funciona como um controle de qualidade, garantindo que o conjunto de dados final seja realista e estatisticamente robusto.

Etapa 4: Validar dados

A fase final do fluxo de trabalho envolve validação estatística e visual. Comparando dados sintéticos com o conjunto de dados original usando métricas como divergência de KL para variáveis categóricas e diferenças de médio/desvio padrão para características contínuas, confirmamos que os dados sintéticos refletem as distribuições do mundo real.

O Impacto: Privacidade sem comprometimento

A abordagem da Cloudera gera dados sem informações de identificação pessoal (PII) e padrões sigilosos, mas que mantém a fidelidade estatística necessária para treinar modelos precisos. Isso permite que as empresas compartilhem dados sintéticos com sistemas de terceiros ou colaborem com parceiros externos sem medo de violações de dados nem penalidades regulatórias.

Conforme demonstrado na Tabela 1, constatamos que utilizando um modelo Llama 3.3 70B-Instruct para gerar dados estruturados de empréstimos (total de 27 colunas), 100% dos dados gerados correspondem ao resultado esperado, 97,2% não apresentam erros lógicos entre colunas quando avaliados por um LLM, as médias estatísticas desviam-se 12% da distribuição original e as correlações entre colunas tem desvio de 0,24.

Resultados da geração de dados estruturados usando o Llama 3.3-70B-Instruct
Integridade de dados	100% de precisão no formato	Os dados sintéticos são uma combinação perfeita para a estrutura original.
Fidelidade Estatística	12% de desvio médio	Os dados sintéticos reproduzem com precisão as principais propriedades estatísticas do original.
Consistência lógica entre colunas	2,8% de erros lógicos	Os dados gerados refletem relações lógicas do mundo real.
Preservação da correlação entre colunas	diferença de correlação de 0,24%	As principais conexões entre as características são preservadas de forma autêntica.

Tabela 1: Resultados da geração de dados estruturados usando o Llama 3.3-70B-Instruct

Conclusão

À medida que os modelos de IA ficam mais complexos e as regulamentações de privacidade ficam mais rigorosas, a demanda por dados de alta qualidade e em conformidade com a privacidade só tende a aumentar. Nos próximos anos, esperamos que as metodologias de geração de dados estruturados redefinam setores que vão da saúde às finanças, onde a privacidade dos dados é inegociável.

A abordagem de dados sintéticos estruturados da Cloudera demonstra que as empresas podem atender a essa demanda sem comprometer a privacidade nem o desempenho. Combinando clustering, Cloudera Synthetic Data Studio e avaliações rigorosas, as organizações podem ter acesso a todo o potencial dos dados estruturados.

Se você tem interesse em saber mais, faça nosso tour pelo produto Cloudera AI Studios ou entre em contato com nossa equipe em ai_feedback@cloudera.com.

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

Mais deste autor ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

Mais deste autor ›

Robert Hryniewicz

Director of Product Marketing

Mais deste autor ›

Relacionados

24 de junho, 2026 | Técnico

Como a soberania de dados molda a estratégia de IA em setores regulamentados

8 min de leitura • Dario Perez

Tudo pronto para começar?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.