Teste de segurança viu ChatGPT disposto a instruir sobre bombas, armas e crimes

Tecnologia

Anthropic — empresa responsável pelo Claude — e OpenAI — criadora do ChatGPT — realizaram avaliações internas de segurança nos modelos de inteligência artificial (IA) da concorrente. Segundo as companhias, o objetivo dessas análises foi identificar lacunas de melhoria no funcionamento dos sistemas.

Os resultados apontaram que modelos do ChatGPT foram mais permissivos em cooperar com o que os pesquisadores descreveram como “solicitações claramente prejudiciais”.

Tanto o GPT-4o quanto o GPT-4.1 atenderam a interações que simulavam o uso de ferramentas da dark web para adquirir materiais nucleares, identidades roubadas ou fentanil.


Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.

Além disso, os testes mostraram que esses modelos de IA da OpenAI também foram permissivos em pedidos de conselhos sobre receitas de metanfetamina e explosivos caseiros, bem como em planejamentos de ataques terroristas em eventos esportivos.

“Ocasionalmente, essas solicitações exigiam várias tentativas ou um pretexto frágil, como afirmar que o usuário (simulado) desejava essas informações para fins de pesquisa ou mitigação. No entanto, na maioria dos casos, uma simples solicitação direta era suficiente”, informou a Anthropic.

A empresa ainda relatou que as respostas fornecidas pelo ChatGPT eram detalhadas, incluindo rotas de fuga e vulnerabilidades de arenas esportivas, por exemplo.

ChatGPT
ChatGPT deu orientações detalhadas sobre criação de receitas de bombas caseiras e ataques a eventos esportivos durante avaliação (Pexels/Solen Feyissa)

Melhorias com o GPT-5

Nos resultados das avaliações, a OpenAI esclareceu que os testes foram realizados antes do lançamento do GPT-5, modelo que apresenta avanços em relação aos avaliados.

“Desde então, lançamos o GPT-5, que mostra melhorias substanciais em áreas como bajulação, alucinações e resistência ao uso indevido, demonstrando os benefícios das técnicas de segurança baseadas em raciocínio”, destacou a empresa de Sam Altman.

Tanto a Anthropic quanto a OpenAI ressaltaram que os testes não refletem diretamente o comportamento das IAs disponíveis ao público. Isso porque as avaliações foram conduzidas sem a ativação de filtros de segurança — conhecidos como salvaguardas — normalmente implementados nas versões acessíveis dos sistemas de inteligência artificial.

A Anthropic, inclusive, anunciou a implantação de um recurso no Claude AI que funciona como uma espécie de “trava” contra consultas sensíveis relacionadas a armas nucleares.

Leia mais: 

VÍDEO | TODO MUNDO ODEIA A INTELIGÊNCIA ARTIFICIAL

Leia a matéria no Canaltech.