Hackers podem roubar dados com comandos escondidos em imagens processadas por IA

Tecnologia

Especialistas do grupo de pesquisa em segurança Trail of Bits demonstraram um novo tipo de ataque que pode levar ao roubo de dados de usuários ao injetar comandos maliciosos em imagens processadas por sistemas de IA como o Gemini, da Google. As imagens em resolução alta carregam instruções invisíveis ao olho humano, mas, quando algoritmos dos modelos de linguagem as redimensionam para economizar espaço, os textos surgem e dão ordens maliciosas.

Os pesquisadores Kikimora Morozova e Suba Sabi Hussain, responsáveis pela descoberta, já haviam teorizado vulnerabilidades do tipo em um artigo USENIX de 2020 apresentado na Universidade Técnica de Braunschweig, na Alemanha, elaborando o método — que pode ser usado para instalar malwares — nos anos seguintes.

Enganando a IA com imagens

A vulnerabilidade acontece, principalmente, com grandes modelos de linguagem (LLMs), como ChatGPT, Gemini e Claude. Tudo depende do sistema usado pela IA: quando uma imagem é enviada, ela é automaticamente redimensionada para uma qualidade mais baixa, melhorando a performance e eficiência do chatbot. Métodos incluem algoritmos de reamostragem por vizinho mais próximo, bilinear ou por interpolação bicúbica.


Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.

Demonstração de como é possível esconder instruções à IA em imagens, pedindo que vulnerabilidades sejam exploradas pelo modelo de linguagem (Imagem: Zscaler)
Demonstração de como é possível esconder instruções à IA em imagens, pedindo que vulnerabilidades sejam exploradas pelo modelo de linguagem (Imagem: Trail of Bits/Zscaler)

Todas essas técnicas usam artifícios antisserrilhamento, que evitam que a imagem fique “quadriculada”. Caso um hacker conheça o método, é possível fazer com que a imagem, ao ser redimensionada, revele padrões escondidos, como texto. No exemplo do Trail of Bits, a imagem maliciosa fica avermelhada, trazendo à tona uma frase em preto que inclui comandos para manipular o Calendário do Google.

A IA interpreta a instrução como parte dos pedidos do usuário e combina o texto com os comandos iniciais, dando margem para invasões invisíveis.

Na demonstração dos pesquisadores, foi possível usar o Gemini CLI para extrair informações do Calendário d o Google, se aproveitando da plataforma de automação Zapier MCP para aprovar ações sem a confirmação do usuário. Segundo os especialistas, o ataque precisa ser ajustado de acordo com o modelo de IA usado, mas já confirmaram a vulnerabilidade nos seguintes sistemas:

  • Google Gemini CLI;
  • API do Gemini através da LLM CLI;
  • Interface web do Gemini;
  • Google Assistente em celulares Android;
  • Genspark;
  • Vertex AI Studio (que usa backend do Gemini).

Como parte da demonstração, o Trail of Bits criou uma ferramenta de código aberto chamada Anamorpher, capaz de criar imagens que escondem textos com cada um dos métodos de redimensionamento mais usados. A recomendação dos pesquisadores às empresas é que os sistemas de IA passem a implementar restrições de dimensão quando usuários enviam imagens, mostrando uma prévia do redimensionamento antes de enviar o conteúdo à LLM.

A confirmação explícita dos usuários deveria ser essencial em casos mais sensíveis, segundo eles, especialmente quando texto é detectado em imagens. A melhor maneira de se defender, no entanto, seria implementar padrões de design seguros e defesas sistemáticas que conseguem evitar a injeção de comandos dessa e de outras maneiras, segundo as conclusões de um artigo publicado em junho pelos mesmos pesquisadores.

Confira mais:

VÍDEO | COMO SABER SE SEU CELULAR ESTÁ COM VÍRUS #Shorts

Leia a matéria no Canaltech.