Nem a Nvidia escapou: Pesquisadores acham brechas graves em motores de IA

Tecnologia

Pesquisadores de cibersegurança da Oligo descobriram vulnerabilidades críticas de execução de código remoto na inteligência artificial de motores de inferência, impactando tecnologias da Meta, Microsoft e Nvidia, além de projetos PyTorch open-source como vLLM e SGLand.

Todas as brechas, segundo o pesquisador Avi Lumelsky, vêm de uma mesma causa: o uso inseguro e descuidado do ZeroMQ e da desserialização de pickle do Python. O problema foi descrito como um padrão chamado ShadowMQ, onde a lógica de desserialização insegura se propagou a diversos projetos por conta da reutilização de códigos.

Bugs nas LLMs das grandes empresas

A raiz do problema, de acordo com a pesquisa, é uma vulnerabilidade no framework da LLM da Meta, Llama, CVE-2024-50050, de score CVSS 6,3/9,3. A falha foi corrigida em outubro deste ano pela companhia, e envolvia o uso do método recv_pyobj() do ZeroMQ para desserializar dados recebidos usando o módulo pickle do Python.


Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.

O problema se originou na desserialização de pickle do Python, que, apesar de corrigida, foi copiada e colada de versões anteriores para LLMs recentes (Imagem: Python)
O problema se originou na desserialização de pickle do Python, que, apesar de corrigida, foi copiada e colada de versões anteriores para LLMs recentes (Imagem: Python)

Junto ao fato de que o framework expôs o socket ZeroMQ pela rede, a questão abriu portas para que invasores pudessem executar códigos arbitrários ao enviar dados maliciosos para desserialização. A Oligo notou o mesmo padrão de brecha em outras frameworks de inferência, como a TensorRT-LLM, da Nvidia, Sarathi-Serve, da Microsoft, Modular Max Server, SGLang e vLLM.

Em alguns poucos casos, o problema surgiu por conta de códigos copiados e colados diretamente na fonte. Enquanto algumas empresas corrigiram a falha, outras seguem em aberto e algumas voltaram à versão anterior:

  • CVE-2025-30165 (score CVSS: 8,0) – vLLM (não corrigida, retornou à engine V1 até a correção);
  • CVE-2025-23254 (CVSS: 8,8) – NVIDIA TensorRT-LLM (corrigida na versão 0.18.2);
  • CVE-2025-60455 (CVSS score: N/A) – Modular Max Server (corrigida);
  • Sarathi-Serve (sem correção);
  • SGLang (correções incompletas).

Os motores de inferência são componentes cruciais de infraestruturas de IA, então comprometer um único nódulo permite que hackers executem códigos, aumentem privilégios, roubem modelos e até mesmo enviem agentes maliciosos, como mineradores de criptomoedas, para dentro das LLMs.

Veja mais:

VÍDEO | Chat GPT, Perplexity, Claude, Gemini: QUAL escolher?

Leia a matéria no Canaltech.