Hear three industry experts as they reveal 2025 data and AI trends 

Assista agora

Conduza o desenvolvimento e a implantação da IA enquanto protege todos os estágios do ciclo de vida da IA.

Impulsionado pelos microsserviços NVIDIA NIM, o serviço Cloudera AI Inference oferece desempenho líder de mercado — proporcionando inferência até 36 vezes mais rápida em GPUs NVIDIA e quase 4 vezes a taxa de transferência em CPUs — simplificando o gerenciamento e a governança de IA de forma contínua em nuvens públicas e privadas.

Diagrama do serviço de inferência de IA

Um serviço para todas as necessidades de inferência de IA da sua empresa.

Implementação com um clique: Transfira o seu modelo do desenvolvimento para a produção de forma rápida, independentemente do  ambiente.

Um ambiente seguro: tenha segurança robusta de ponta a ponta, cobrindo todas as etapas do ciclo de vida da sua IA.

Uma plataforma: gerencie todos os seus modelos de forma integrada por meio de uma única plataforma que atende a todas as suas necessidades de IA.

Suporte em um só lugar: Receba suporte unificado da Cloudera para todas as suas dúvidas sobre hardware e software.

Principais recursos do serviço de inferência de IA

Suporte híbrido e multinuvem

Permitir a implantação em ambientes locais*, de nuvem pública e híbridos para atender de forma flexível às diversas necessidades de infraestrutura empresarial;

Dados detalhados e linhagem do modelo*

Ofereça rastreamento e documentação abrangentes sobre transformações de dados e eventos do ciclo de vida do modelo, aprimorando a reprodutibilidade e a auditabilidade.

Segurança corporativa

Implemente medidas de segurança robustas, incluindo autenticação, autorização* e criptografia de dados, para garantir que os dados e os modelos estejam protegidos em trânsito e em repouso.

Recursos de inferência em tempo real

Tenha previsões em tempo real com baixa latência e processamento em lote para grandes conjuntos de dados, assegurando flexibilidade no fornecimento de modelos de IA com base em diferentes métricas de desempenho.

Alta disponibilidade e escalabilidade dinâmica

Gerencie de maneira eficiente cargas variáveis enquanto garante serviço contínuo com configurações de alta disponibilidade e capacidades de escalonamento dinâmico.

Integração flexível

Integre de forma fácil os fluxos de trabalho e aplicativos existentes com as APIs do Open Inference Protocol para modelos tradicionais de ML e uma API compatível com o OpenAI para LLMs.

Suporte para múltiplas estruturas de IA

Implante de forma fácil uma ampla variedade de tipos de modelos com a integração de frameworks de ML populares, como TensorFlow, PyTorch, Scikit-learn e Hugging Face Transformers.

Padrões avançados de implementação

Implemente de forma segura e incremental novas versões de modelos com estratégias de implantação sofisticadas, como implantações canary e blue-green*, bem como testes A/B*.

APIs abertas

Implante, gerencie e monitore modelos e aplicativos online* e facilite a integração com pipelines de CI/CD e outras ferramentas de MLOps graças à conformidade com padrões abertos.

Monitoramento de negócios*

Monitore de forma contínua as métricas do modelo GenAI, como sentimento, feedback do usuário e desvio, que são cruciais para manter a qualidade e o desempenho do modelo.

* Recurso em breve disponível. Entre em contato  para saber mais.

Principais recursos do serviço de inferência de IA

Suporte híbrido e multinuvem

Permitir a implantação em ambientes locais*, de nuvem pública e híbridos para atender de forma flexível às diversas necessidades de infraestrutura empresarial;

Dados detalhados e linhagem do modelo*

Ofereça rastreamento e documentação abrangentes sobre transformações de dados e eventos do ciclo de vida do modelo, aprimorando a reprodutibilidade e a auditabilidade.

Segurança corporativa

Implemente medidas de segurança robustas, incluindo autenticação, autorização* e criptografia de dados, para garantir que os dados e os modelos estejam protegidos em trânsito e em repouso.

Recursos de inferência em tempo real

Tenha previsões em tempo real com baixa latência e processamento em lote para grandes conjuntos de dados, assegurando flexibilidade no fornecimento de modelos de IA com base em diferentes métricas de desempenho.

Alta disponibilidade e escalabilidade dinâmica

Gerencie de maneira eficiente cargas variáveis enquanto garante serviço contínuo com configurações de alta disponibilidade e capacidades de escalonamento dinâmico.

Integração flexível

Integre de forma fácil os fluxos de trabalho e aplicativos existentes com as APIs do Open Inference Protocol para modelos tradicionais de ML e uma API compatível com o OpenAI para LLMs.

Suporte para múltiplas estruturas de IA

Implante de forma fácil uma ampla variedade de tipos de modelos com a integração de frameworks de ML populares, como TensorFlow, PyTorch, Scikit-learn e Hugging Face Transformers.

Padrões avançados de implementação

Implemente de forma segura e gradual novas versões de modelos com estratégias de implantação sofisticadas, como implantações canary e blue-green*, bem como testes A/B*.

APIs abertas

Implemente, gerencie e monitore modelos e aplicativos*, facilitando a integração com pipelines de CI/CD e outras ferramentas de MLOps por meio de APIs compatíveis com padrões abertos.

Monitoramento de negócios*

Monitore de forma contínua as principais métricas do modelo de GenAI, tais como sentimento, feedback do usuário e desvio, que são cruciais para manter a qualidade e o desempenho do modelo.

* Recurso em breve disponível. Entre em contato para saber mais.

Demo

Experimente a implantação de modelos fáceis

Veja como é fácil implantar grandes modelos de linguagem com as poderosas ferramentas da Cloudera para gerenciar aplicativos de IA em grande escala de forma eficaz.

Integração do registro de modelos: acesse, armazene, faça versões e gerencie modelos de forma integrada por meio do repositório centralizado Cloudera AI Registry.

Configuração e implantação fáceis: implante modelos em ambientes de nuvem, configure endpoints e ajuste o dimensionamento automático para eficiência.

Monitoramento de desempenho: solucione problemas e otimize com base em métricas-chave, como latência, rendimento, utilização de recursos e saúde do modelo.

headshot of Sanjeev Mohan
O Cloudera AI Inference permite desbloquear todo o potencial dos dados em escala com a expertise em IA da NVIDIA e protegê-los com recursos de segurança de nível empresarial, para que você possa proteger seus dados com confiança e executar workloads no local ou na nuvem, enquanto implanta modelos de IA de forma eficiente com a flexibilidade e a governança necessárias.

—Sanjeev Mohan, analista principal, SanjMo

Engaje-se

Webinar

Dimensionando a IA generativa com Cloudera e NVIDIA: Implantando LLMs com inferência de IA

News

A Cloudera lança serviço de inferência de IA com microsserviços NVIDIA NIM incorporados para acelerar o desenvolvimento e a implantação da GenAI

Blogs

Business | AI
Cloudera | Monday, May 12, 2025
Business | AI
Cloudera | Thursday, May 08, 2025
Business | AI
Cloudera | Monday, April 21, 2025
Documentação

Recursos e guias para ajudar você a se familiarizar

A documentação do Cloudera AI Inference fornece todas as informações necessárias: desde descrições detalhadas de recursos até guias de implementação úteis para que seja possível começar a trabalhar de forma mais rápida.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.