ClouderaNOW Saiba mais sobre Agentes de IA, Cloud Bursting e Data Fabrics para IA  |  8 de abril

Inscreva-se já
  • Cloudera Cloudera
  • | Técnico

    Unindo a computação de alto desempenho e a IA soberana: parte um de três

    Gabriele Folchi headshot
    Lama Itani headshot
    Pessoas caminhando em uma ponte entre edifícios de arquitetura moderna

    Historicamente, a análise de dados de computação de alto desempenho focou principalmente em P&D para indústrias de engenharia/manufatura. Enquanto isso, os casos de uso operacional para análise de dados, que dependiam de sistemas de big data semelhantes operavam de forma isolada. 

    Hoje, a ascensão da IA generativa (GenAI) e do aprendizado de máquina (ML) apresenta uma oportunidade considerável para conectar esses dois domínios. Essa sinergia possibilita que empresas com ambas as divisões aproveitem sua respectiva expertise e investimentos em infraestrutura, levando a maior produtividade e a uma vantagem competitiva para as organizações de P&D. Especificamente, engenheiros mecânicos que trabalham com computação de alto desempenho podem acelerar consideravelmente o desenvolvimento de produtos e obter insights operacionais mais profundos ao empregar métodos inteligentes de compressão impulsionados por IA (como modelos de ordem reduzida) treinados em plataformas de big data.

    Esta série de posts no blog, dividida em três partes, ilustra como e por que um data lakehouse soberano — um data lakehouse aberto que pode operar sob a soberania do cliente, e não sob a jurisdição do provedor de infraestrutura — é a arquitetura necessária para escalar fluxos de trabalho de física experimental e IA em uma capacidade robusta de nível empresarial. Também abordamos por que a Cloudera é a escolha ideal para organizações que procuram combinar a precisão da engenharia com a agilidade da análise de dados moderna.


    Noções básicas de computação de alto desempenho e solucionadores de ordem reduzida 


    O Modelo de pedido completo

    Compreender a mecânica das simulações é fundamental para apreciar o papel transformador da IA na engenharia. As simulações multifísicas tradicionais, como análise de elementos finitos (usada para testar a integridade estrutural no mundo real) ou dinâmica dos fluidos computacional (usada para modelar como o ar ou o líquido se movem), funcionam decompondo uma estrutura física (como uma ponte) em uma "malha" ou sistema de milhões de elementos minúsculos. A representação matemática desses elementos frequentemente assume a forma de um sistema de tensores interagindo, ou seja, conjuntos estruturados de números usados para modelar como forças, pressão, temperatura e movimento interagem através do sistema.

    O modelo de ordem completa é o modelo mais detalhado e fisicamente preciso desse sistema. Seu comportamento físico é simulado por um solucionador (por exemplo, OpenFOAM) que calcula continuamente equações complexas. Este processo calcula as alterações nesses tensores com base na física, incluindo como a reação de um único elemento afeta seus vizinhos mais próximos e o sistema como um todo. Embora isso ofereça uma precisão incrível, tem um custo: essas simulações exigem um poder computacional extremamente alto, muitas vezes necessitando de um cluster de supercomputadores funcionando por dias apenas para analisar um cenário, o que limita a rapidez com que as equipes podem iterar, testar alternativas ou lançar produtos no mercado.

    O Modelo de Ordem Reduzida

    Um modelo de ordem reduzida é uma técnica baseada em IA que simplifica drasticamente simulações complexas. Ele se baseia em técnicas matemáticas avançadas, que vão desde métodos clássicos como decomposição de valores singulares até arquiteturas modernas de redes neurais artificiais, como autoencoders — para aproximar sistemas altamente complexos e não lineares. 

    Em sua essência, um modelo de ordem reduzida identifica e captura os padrões definidores mais importantes dentro dos enormes volumes de dados tensoriais simulados gerados por um modelo de ordem completa.

    Simplificando o problema, o modelo de ordem reduzida encolhe o enorme espaço computacional para um “espaço latente” muito menor, uma representação matemática simplificada do sistema (na prática, um “gêmeo digital”). Isso significa que, em vez de um solucionador tradicional ter que processar milhões de equações complexas, o modelo de ordem reduzida pode precisar resolver apenas 50 variáveis latentes para explicar 99% da física subjacente.

    Para engenheiros mecânicos, cujo fluxo de trabalho diário gira em torno da otimização do desempenho, da confiabilidade e do custo do produto em inúmeras combinações de geometria, materiais, espessura e peso, essa capacidade transforma o ritmo da inovação. Seu fluxo de trabalho é essencialmente uma sequência contínua de cenários hipotéticos, fundamentando-se tanto no conhecimento sintético de solucionadores baseados em física quanto em dados de implantação do mundo real. A integração de modelos de ordem reduzida nesse processo proporciona diversas vantagens estratégicas consideráveis, tais como:
     

    Oportunidade estratégica do modelo de ordem reduzida

    Explicação

    Impacto nos Negócios

    Iteração rápida

    Execute milhares de alterações de design e cenários hipotéticos em segundos.

    O tempo de desenvolvimento do produto será reduzido de meses para apenas dias.

    Implementação de Edge Compute

    Os modelos de ordem reduzida são pequenos e rápidos o suficiente para serem executados diretamente em controladores embarcados ou em dispositivos de Internet das Coisas (IoT) em operação no campo.

    Permite a tomada de decisões em tempo real no dispositivo e o controle automático, com ou sem conectividade em nuvem.

    Gêmeos Digitais em Tempo Real

    Alimenta uma rede neural fisicamente informada (PINN) que funciona em conjunto com a máquina real, usando dados de sensores em tempo real para prever comportamentos e anomalias do sistema.

    Altera a abordagem da manutenção, passando de reparos após falhas para manutenção proativa, reduzindo o tempo de inatividade e prolongando a vida útil do ativo.


    Desenvolvimento de Modelos de Ordem Reduzida: da Teoria à Produção

    ROMs entregam valor substancial acelerando os fluxos de trabalho de engenharia, mas a implantação bem-sucedida exige a navegação por restrições técnicas específicas e realidades operacionais que as organizações precisam enfrentar sistematicamente.

    Requisitos de Dados de Treinamento

    Modelos de ordem reduzida precisos exigem grandes volumes de dados provenientes de modelos de ordem completa. Por exemplo, a construção de um modelo de ordem reduzida confiável para análise de colisões automotivas requer 500 a 2000 execuções do modelo de ordem completa em diferentes configurações de materiais e geometrias, o que representa semanas de tempo de processamento em clusters de computação de alto desempenho. Dados de treinamento esparsos produzem modelos de ordem reduzida que falham catastroficamente fora das condições testadas. Ferramentas automáticas de planejamento de experimentos ajudam a otimizar quais simulações executar, reduzindo as simulações de modelos de ordem completa necessárias em 30–40% enquanto mantém a precisão.

    Compensações de precisão

    O desempenho do modelo de ordem reduzida se degrada fora dos limites de treinamento. Por exemplo, um modelo de operação reduzida de pá de turbina treinado para temperaturas de operação de 800 a 1.200°C pode produzir um erro de 15 a 20% a 1.250°C. Isso pode ser resolvido por meio de técnicas de modelagem de conjunto e quantificação de incertezas. Quando a confiança do modelo cai abaixo dos limites predefinidos, os acionadores automáticos podem iniciar execuções de validação usando o modelo original de ordem completa.

    Carga de validação

    Em ambientes críticos de segurança (automotivo, aeroespacial, energético etc.), as aplicações de modelos de ordem reduzida exigem validação rigorosa em relação aos modelos de ordem completa, frequentemente demandando esforço considerável (como extensos estudos de correlação). Isso ocorre porque os órgãos reguladores exigem equivalência documentada para aprovarem o seu uso. 

    Embora o processo de validação possa ser intensivo, uma vez validados, os modelos de ordem reduzida possibilitam milhares de iterações rápidas que seriam inviáveis apenas com a simulação tradicional (modelos de ordem completa).

    Lacuna de habilidades

    O desenvolvimento eficaz de modelos de ordem reduzida exige expertise em engenharia de aprendizado de máquina e física aplicada ao domínio. Um cientista de dados que trabalha sozinho pode criar modelos matematicamente elegantes que carecem de interpretabilidade física. Um engenheiro mecânico que trabalha sozinho pode enfrentar dificuldades com a otimização de hiperparâmetros (por exemplo, seleção de arquitetura e dimensionamento de modelos). Portanto equipes pequenas e multifuncionais superam de forma consistente grupos maiores que atuam de forma isolada. É importante investir em programas de treinamento que capacitem engenheiros no uso de ferramentas modernas de aprendizado de máquina.

    Implementação Edge 

    Os cenários de controle em tempo real exigem inferência determinística (<10 milissegundos de latência) em hardware embarcado. Nem todas as arquiteturas de modelos de ordem reduzida atendem a esses requisitos de latência e memória. As redes neurais profundas geralmente excedem os orçamentos de recursos, enquanto os modelos lineares de ordem reduzida excessivamente simplificados sacrificam a precisão. 

    A melhor prática atual é a implementação em fases: 

    1. Comece com modelos de ordem reduzida baseados em nuvem para visualização de gêmeos digitais e manutenção preventiva. 

    2. Em seguida implemente os controladores de borda somente depois que testes extensivos com hardware-in-the-loop validarem o desempenho em tempo real.


    Ajuste de modelos de ordem reduzida: de scripts ad hoc a operações corporativas de aprendizado de máquina (MLOps)

    Embora a base matemática dos modelos de ordem reduzida seja sólida, o principal obstáculo está na padronização de seu desenvolvimento e implementação em toda a organização. Atualmente, muitas equipes de P&D dependem de uma coleção descentralizada de scripts Python, sistemas de arquivos não gerenciados ou ambientes proprietários de fornecedores. Essas abordagens podem funcionar com projetos individuais, mas falham quando submetidas a governança, conformidade e às práticas de comunidades abertas baseadas em padrões do setor.

    Para alcançar escala, o treinamento de modelos de ordem reduzida deve tratar os dados de simulação com os mesmos rigorosos princípios de governança de dados que são padrão para o tratamento de registros financeiros ou dados de clientes, por exemplo. 

    A abordagem dessa mudança envolve a resolução de preocupações como:
     

    Requisito de MLOps

    Explicação

    Impacto nos Negócios

    Gerenciamento de dados em grande escala

    Pipelines de dados escaláveis e ferramentas de transformação (como Spark) extraem atributos-chave e padronizam grandes volumes de dados históricos de simulação provenientes de diferentes solucionadores (como OpenFOAM).

    Garante que dados de simulação complexos estejam limpos, governados e prontos para um treinamento de IA confiável, reduzindo retrabalho e riscos.

    Rastreamento de Experimentos em Equipe

    Ambientes seguros e compartilhados (como Jupyter Notebooks), equipados com recursos modernos de rastreamento de experimentos de aprendizado de máquina (como MLflow), possibilitam que físicos e cientistas de dados desenvolvam código em conjunto, testem diferentes modelos de IA e registrem métricas de forma consistente, como hiperparâmetros e função de perda.

    Garante o histórico completo e a reprodutibilidade. Quando um modelo de operação reduzida entra em funcionamento, as equipes podem rastreá-lo instantaneamente até a versão exata do modelo, os dados, as configurações, as métricas de avaliação de precisão no momento da construção e a configuração de hiperparâmetros utilizada para obter esse resultado, algo essencial para setores regulamentados.


    Para saber mais, continue lendo a parte dois!

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.