Na era da IA orientada por dados, as empresas precisam de conjuntos de dados de alta qualidade para analisar ou treinar modelos de IA, mas as regulamentações de privacidade de dados e as preocupações éticas restringem o uso ou o compartilhamento de dados do mundo real. Como as organizações podem inovar sem comprometer informações sensíveis?
Na Cloudera, fomos pioneiros no desenvolvimento de uma solução que preencheu essa lacuna. O Synthetic Data Studio da Cloudera, parte do conjunto de ferramentas Cloudera AI Studio , é uma ferramenta que cria conjuntos de dados totalmente sintéticos que imitam os padrões de dados reais de uma organização para as organizações poderem inovar sem risco de informações confidenciais.
Principais conclusõesA abordagem da Cloudera para a geração de dados sintéticos oferece um modelo para empresas que desejam usar ou compartilhar dados estruturados confidenciais. A abordagem ilustra:
|
Considere uma empresa de serviços financeiros que busca prever a inadimplência de empréstimos. Os dados do mundo real neste domínio são um verdadeiro tesouro de detalhes sigilosos: níveis de renda, históricos de emprego e pontuações de crédito. O compartilhamento desses dados com terceiros ou modelos de IA está repleto de obstáculos regulatórios e éticos.
Os métodos tradicionais de dados sintéticos geralmente são insuficientes, pois não conseguem capturar as relações lógicas diferenciadas entre variáveis, como a forma como as dívidas existentes podem influenciar o comportamento de pagamento, ou a consistência lógica entre os pontos de dados em linhas e colunas. As empresas precisam de uma solução de dados sintéticos que possa escalar, preservar a integridade estatística dos dados originais e garantir a conformidade com os padrões de privacidade.
A solução da Cloudera segue um fluxo de trabalho de quatro etapas que incorpora técnicas de agrupamento, Cloudera Synthetic Data Studio e validação rigorosa.
A jornada começa com o particionamento e a clusterização dos dados para criar perfis estatísticos. Categorizando os mutuários em grupos com base nos níveis de risco, como aplicantes de alto risco versus baixo risco, por exemplo, e agrupando ainda mais variáveis numéricas como valores de empréstimos e taxas de juros, destilamos o conjunto de dados em “instruções semente”.
As instruções iniciais codificam as propriedades estatísticas de cada grupo, como médias, desvios padrão e correlações e incorporam informações do mutuário, como classificações ou status do empréstimo. Essa etapa garante que os dados sintéticos herdem a estrutura dos dados originais sem expor detalhes sensíveis.
Com essas instruções iniciais definidas, a próxima fase utiliza a geração baseada em LLM. Utilizando modelos avançados como o Llama 3.3-70B-Instruct, sintetizamos novos registros guiados pelos modelos estatísticos observados nas instruções iniciais. O Cloudera Synthetic Data Studio atua como uma força criativa, gerando dados que preservam as relações e os padrões definidos nas instruções iniciais.
É aí que a mágica acontece: o modelo não produz somente números aleatórios, mas constrói dados que refletem a complexidade de cenários do mundo real, como a renda do mutuário pode influenciar logicamente seu histórico de pagamentos.
No entanto, nem todos os dados gerados atendem à qualidade exigida. Para garantir a fidelidade, empregamos um fluxo de trabalho inovador com um LLM atuando como juiz.
Essa etapa avalia os resultados sintéticos com base em um conjunto de critérios, incluindo consistência de formatação, coerência lógica (por exemplo, garantir que as contas hipotecárias estejam alinhadas com o status de proprietário) e realismo (por exemplo, gerar taxas de juros plausíveis). Somente dados que obtêm pontuação alta, atingindo um limite mínimo de 9 em 10, são mantidos. Esse processo de filtragem funciona como um controle de qualidade, garantindo que o conjunto de dados final seja realista e estatisticamente robusto.
A fase final do fluxo de trabalho envolve validação estatística e visual. Comparando dados sintéticos com o conjunto de dados original usando métricas como divergência de KL para variáveis categóricas e diferenças de médio/desvio padrão para características contínuas, confirmamos que os dados sintéticos refletem as distribuições do mundo real.
A abordagem da Cloudera gera dados sem informações de identificação pessoal (PII) e padrões sigilosos, mas que mantém a fidelidade estatística necessária para treinar modelos precisos. Isso permite que as empresas compartilhem dados sintéticos com sistemas de terceiros ou colaborem com parceiros externos sem medo de violações de dados nem penalidades regulatórias.
Conforme demonstrado na Tabela 1, constatamos que utilizando um modelo Llama 3.3 70B-Instruct para gerar dados estruturados de empréstimos (total de 27 colunas), 100% dos dados gerados correspondem ao resultado esperado, 97,2% não apresentam erros lógicos entre colunas quando avaliados por um LLM, as médias estatísticas desviam-se 12% da distribuição original e as correlações entre colunas tem desvio de 0,24.
Resultados da geração de dados estruturados usando o Llama 3.3-70B-Instruct |
|||
Integridade de dados |
100% de precisão no formato |
Os dados sintéticos são uma combinação perfeita para a estrutura original. |
|
Fidelidade Estatística |
12% de desvio médio |
Os dados sintéticos reproduzem com precisão as principais propriedades estatísticas do original. |
|
Consistência lógica entre colunas |
2,8% de erros lógicos |
Os dados gerados refletem relações lógicas do mundo real. |
|
Preservação da correlação entre colunas |
diferença de correlação de 0,24% |
As principais conexões entre as características são preservadas de forma autêntica. |
|
Tabela 1: Resultados da geração de dados estruturados usando o Llama 3.3-70B-Instruct
À medida que os modelos de IA ficam mais complexos e as regulamentações de privacidade ficam mais rigorosas, a demanda por dados de alta qualidade e em conformidade com a privacidade só tende a aumentar. Nos próximos anos, esperamos que as metodologias de geração de dados estruturados redefinam setores que vão da saúde às finanças, onde a privacidade dos dados é inegociável.
A abordagem de dados sintéticos estruturados da Cloudera demonstra que as empresas podem atender a essa demanda sem comprometer a privacidade nem o desempenho. Combinando clustering, Cloudera Synthetic Data Studio e avaliações rigorosas, as organizações podem ter acesso a todo o potencial dos dados estruturados.
Se você tem interesse em saber mais, faça nosso tour pelo produto Cloudera AI Studios ou entre em contato com nossa equipe em ai_feedback@cloudera.com.
This may have been caused by one of the following: