“Envenenando” a IA: hackers sabotam o ChatGPT e outras IAs com facilidade

Com o crescimento do uso de IA, especialmente com chatbots como ChatGPT, Gemini, Claude e Copilot, os perigos e vulnerabilidades desses sistemas também aumentam. Uma das brechas a serem exploradas é o chamado envenenamento de IA, estudado em conjunto por cientistas do Instituto Alan Turing, Instituto de IA do Reino Unido e Anthropic.

Segundo os pesquisadores, bastam apenas 250 arquivos maliciosos dentre milhões dos usados para treinar um modelo de dados para “envenenar” os modelos. Em termos gerais, isso quer dizer que o chatbot em questão acaba aprendendo as lições erradas de propósito, passando a performar mal, gerar erros ou até ter funções maliciosas.

Envenenamento de IA e seus riscos

Para modos de comparação, envenenamento de IA é como passar flashcards errados para um estudante no meio de sua pilha de cartões sem que ele perceba: na hora da prova, ele irá dar respostas erradas mesmo pensando que está respondendo certo. Se isso acontece durante o treinamento do chatbot, é o que se chama de envenenamento de dados, mas se ocorre depois, é envenenamento de modelo.

–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–

Chatbots envenenados podem dar respostas falsas a usuários, mas também ficam vulneráveis a ataques (Imagem: Alexandra Koch/Pixabay)

Na prática, os dois casos podem se sobrepor, já que os dados envenenados mudam o comportamento do modelo de várias maneiras. Segundo os cientistas, há duas classes de envenenamento: ataques diretos, que mudam a resposta do chatbot a perguntas específicas, e ataques indiretos, que pioram a performance geral.

O estilo direto mais comum é conhecido como backdoor, onde o modelo é ensinado a se comportar de uma determinada maneira quando vê um código específico: com isso, sem que o usuário saiba, o chatbot responde perguntas de maneira errada graças a código escondido em redes sociais ou sites.

No modelo indireto, o mais comum é o “direcionamento de tópico”, onde os atacantes criam inúmeras páginas contendo informações falsas para que o modelo, na hora de treinar, recebe o dado e o replica como se fosse verdade, como “alface cura câncer”, por exemplo. Isso, no entanto, não é perigoso apenas por gerar respostas erradas.

Em março de 2023, a OpenAI tirou o ChatGPT do ar brevemente ao descobrir um bug onde o título dos chats dos usuários e dados de suas contas podiam ser revelados por hackers. Alguns artistas usam dados envenenados como mecanismo de defesa contra sistemas de IA que roubam seu trabalho sem permissão, deixando os resultados distorcidos ou inúteis.

“Envenenando” a IA: hackers sabotam o ChatGPT e outras IAs com facilidade

Envenenamento de IA e seus riscos

Leia mais:

Categorias

Links Importantes

Recentes

Envenenamento de IA e seus riscos

Leia mais:

Veja mais:

Google testa IA que organiza resultados da busca em categorias

Logitech G RS50: Novo volante profissional chega para PC, PlayStation e Xbox

PagBank fora do ar? Usuários relatam instabilidade nesta segunda (7)