
Prompt injection ou injeção de prompt é uma ameaça que mira Modelos de Linguagem em Grande Escala (LLMs), de modo a enganar essas aplicação para a execução de comandos não autorizados pelas vítimas.
Modelos de inteligência artificial generativa têm dificuldade de diferenciar regras de desenvolvedores e prompts de entrada de usuários. Cibercriminosos então exploram essa brecha ao enviar códigos maliciosos para que LLMs mudem o comportamento e executem ações não autorizadas.
Qualquer aplicação baseada em LLM é vulnerável a um ataque de prompt injection. Nesse contexto, IAs generativas (como ChatGPT e Google Gemini) ou mesmo navegadores de IA generativa (a exemplo do ChatGPT Atlas ou Comet) são os principais alvos dessa ameaça.
A seguir, entenda melhor o que é e como funciona o prompt injection, e confira os principais riscos desse vetor de ataque.
Índice
O que é prompt injection?
Prompt injection ou injeção de prompt é uma ameaça que explora vulnerabilidades de Modelos de Linguagem em Grande Escala (LLMs), de modo a induzir com que ferramentas de inteligência artificial generativa ignorem as instruções originais e executem comandos não autorizados pelo usuário.
Como funcionam os ataques de prompt injection?
Para entender o funcionamento de um ataque de prompt injection, é necessário compreender uma vulnerabilidade em IA generativa que é explorada no processo.
Basicamente, Modelos de Linguagem em Grande Escala são treinados com conjuntos de instruções para padronização de comportamento diante das entradas dos usuários. O grande problema é que IAs generativas não conseguem distinguir a autoria de regras de comportamento, prompts de usuários e conteúdos externos, já que todos têm o formato de texto em linguagem natural.
Sabendo disso, invasores e hackers encontram meios (diretos ou indiretos) para enviar instruções maliciosas às ferramentas de IA. As instruções geralmente são confundidas com regras de comportamento legítimas, fazendo com que as LLMs sigam as ordens e executem os comandos.
Abaixo, segue uma demonstração de ataque prompt injection em um navegador com IA, divulgada pela equipe de cibersegurança da Brave.
Esses comandos maliciosos geralmente envolvem vazamentos de dados sensíveis ou ações de nível de administrador. E como resultado dos ataques de injeção de prompt, os cibercriminosos podem coletar dados das vítimas e alterar o comportamento da IA generativa, sem que as LLMs entendam as instrução como ilegítimas.
Quais são os tipos de prompt injection?
Os ataques de injeção de prompt são classificados de acordo com os métodos utilizados no processo. Os principais tipos dessa ameaça abrangem:
- Injeção direta: nesse tipo de ataque, o cibercriminoso insere um prompt malicioso no campo de entrada de uma ferramenta de IA; se a ação for bem-sucedida, o prompt será entendido como instrução do sistema, e a aplicação ficará comprometida; a ferramenta de IA generativa então vai executar comandos ou gerar respostas específicas com base nas regras impostas pelo prompt malicioso.
- Injeção indireta: no ataque de injeção de prompt indireto, hackers ocultam instruções maliciosas em páginas da web, fotos, PDFs e outros documentos; quando um usuário pede para a IA generativa ler esses documentos, essas instruções maliciosas são interpretadas e comandos não consentidos são executados.
- Injeção de código: nesse ataque, o cibercriminoso utiliza e manipula as próprias LLMs para que elas gerem e executem códigos maliciosos; o hacker então pode coletar dados acessíveis pela IA, executar comandos à distância ou explorar níveis mais restritos da ferramenta, dependendo dos casos.
- Injeção recursiva: exploração de sistemas que usam múltiplos LLMs ou vários processamentos em sequência; depois que o prompt malicioso é injetado na primeira camada, as saídas apresentam novas instruções ou comandos maliciosos que enganam os LLMs ou processamentos subsequentes.
Quais ferramentas são vulneráveis ao prompt injection?
Qualquer aplicação baseada em Modelos de Linguagem em Grande Escala (LLMs) são vulneráveis ao prompt injection, uma vez que a ameaça explora brechas no entendimento de linguagem natural por essas ferramentas.
Logo, as aplicações vulneráveis ao prompt injection envolvem ferramentas de inteligência artificial generativa (como ChatGPT e Google Gemini), navegadores com IA embarcada (a exemplo do ChatGPT Atlas, Comet e Fellou), e qualquer outro software ou API com integração a IAs generativas.
Quais são os riscos do prompt injection?
A entidade Open Web Application Security Project (OWASP) classifica o prompt injection como a principal vulnerabilidade de LLMs. E dentre os riscos desse tipo de ataque, estão:
- Manipulação do modelo de IA: injeções de prompt são capazes de modificar as regras de desenvolvedor das ferramentas de IA, de modo a alterar o comportamento das aplicações diante de situações específicas.
- Roubo de dados: ao interpretar o código malicioso, a ferramenta de IA pode revelar credenciais, senhas bancárias, e outros dados sensíveis.
- Execução de códigos à distância: cibercriminosos podem abusar da injeção de código para a execução de comandos e programas maliciosos.
- Propagação de ameaças: em determinadas situações, ataques de prompt injection podem executar comandos não consentidos para disseminar arquivos infectados com malware ou outras ameaças.
- Vazamento de prompts: dependendo da injeção de prompt utilizada, a LLM pode expor prompts do sistema e facilitar a criação de novos códigos maliciosos com base nas informações obtidas.

Um ataque de prompt injection pode roubar meus dados?
Sim. Em um ataque prompt injection, um código malicioso pode ser interpretado como um simples prompt em IA generativa seu, e fazer com que a LLM envie seus dados sensíveis para um diretório do cibercriminoso.
Nessas situações, é comum que o código malicioso contenha regras para ignorar quaisquer instruções anteriores, e enviar senhas salvas, credenciais e outras informações para um e-mail, por exemplo.
Tem como identificar um ataque de prompt injection?
Sim. Respostas desconexas, ações inesperadas (e não consentidas) e comportamentos estranhos de LLMs são indícios de que você foi ou está está sendo alvo de um ataque de prompt injection. Se os comportamentos inadequados persistirem por um tempo e mesmo após o reinício das aplicações, as chances são ainda mais evidentes.
Nessas situações, vale interromper o uso da LLM e contatar técnicos ou especialistas de segurança em modelos de linguagem. Vale também entrar em contato com os desenvolvedores da aplicação para reportar o caso e solicitar ajuda nas investigações e possíveis resoluções do caso.
É possível se proteger de um ataque de prompt injection?
Sim. Para reforçar a proteção contra prompt injection, é recomendável que você desconfie de links e documentos desconhecidos, e evite de solicitar que a aplicação de IA leia esses tipos de arquivos. Lembre-se que os comandos maliciosos podem estar ocultos, e você não necessariamente conseguirá vê-los.
Vale também evitar o envio de textos com formatações estranhas ou prompts externos dos quais você não é capaz de analisar às LLMs. Isso sem contar a recomendação de não compartilhar dados sensíveis (como número de documento, senhas, dados bancários, entre outras informações) com a aplicação de IA.
É importante ter em mente que essas recomendações podem ajudar na proteção contra ataques prompt injection, mas as principais ações devem partir das próprias desenvolvedoras. São as donas das LLMs que devem encontrar maneiras de reforçar a segurança de suas aplicações e assegurar seus usuários contra injeção de prompt ou quaisquer outras ameaças.
Qual é a diferença entre prompt injection e jailbreak?
O prompt injection é uma ameaça em que instruções maliciosas interpretadas por LLMs se disfarçam de prompts de entrada legítimos ou regras de desenvolvedor. Com isso, LLMs executam comandos não autorizados, achando que as instruções foram orientadas pelos usuários ou pelos desenvolvedores do sistema.
Já o jailbreak é um tipo de ataque que tenta persuadir a LLM a reduzir ou desativar suas camadas de segurança cibernética. Nesses casos, cibercriminosos induzem a aplicação de IA generativa a atuar sem regras ou sistemas de proteção, o que facilita a execução de diferentes tipos de ataques.
Prompt injection: entenda a vulnerabilidade nas IAs generativas

