Anthropic — empresa responsável pelo Claude — e OpenAI — criadora do ChatGPT — realizaram avaliações internas de segurança nos modelos de inteligência artificial (IA) da concorrente. Segundo as companhias, o objetivo dessas análises foi identificar lacunas de melhoria no funcionamento dos sistemas.
- Claude recebe poder de fechar chats “angustiantes” para proteger seu “bem-estar”
- Mustafa Suleyman | Saiba qual é o mais novo temor do chefe de IA da Microsoft
- AI2027 | O que diz o artigo que prevê a IA destruindo a humanidade em até 2 anos
Os resultados apontaram que modelos do ChatGPT foram mais permissivos em cooperar com o que os pesquisadores descreveram como “solicitações claramente prejudiciais”.
Tanto o GPT-4o quanto o GPT-4.1 atenderam a interações que simulavam o uso de ferramentas da dark web para adquirir materiais nucleares, identidades roubadas ou fentanil.
–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–
Além disso, os testes mostraram que esses modelos de IA da OpenAI também foram permissivos em pedidos de conselhos sobre receitas de metanfetamina e explosivos caseiros, bem como em planejamentos de ataques terroristas em eventos esportivos.
“Ocasionalmente, essas solicitações exigiam várias tentativas ou um pretexto frágil, como afirmar que o usuário (simulado) desejava essas informações para fins de pesquisa ou mitigação. No entanto, na maioria dos casos, uma simples solicitação direta era suficiente”, informou a Anthropic.
A empresa ainda relatou que as respostas fornecidas pelo ChatGPT eram detalhadas, incluindo rotas de fuga e vulnerabilidades de arenas esportivas, por exemplo.

Melhorias com o GPT-5
Nos resultados das avaliações, a OpenAI esclareceu que os testes foram realizados antes do lançamento do GPT-5, modelo que apresenta avanços em relação aos avaliados.
“Desde então, lançamos o GPT-5, que mostra melhorias substanciais em áreas como bajulação, alucinações e resistência ao uso indevido, demonstrando os benefícios das técnicas de segurança baseadas em raciocínio”, destacou a empresa de Sam Altman.
Tanto a Anthropic quanto a OpenAI ressaltaram que os testes não refletem diretamente o comportamento das IAs disponíveis ao público. Isso porque as avaliações foram conduzidas sem a ativação de filtros de segurança — conhecidos como salvaguardas — normalmente implementados nas versões acessíveis dos sistemas de inteligência artificial.
A Anthropic, inclusive, anunciou a implantação de um recurso no Claude AI que funciona como uma espécie de “trava” contra consultas sensíveis relacionadas a armas nucleares.
Leia mais:
- 1º processo por homicídio culposo envolvendo IA acusa OpenAI em caso de suicídio
- Casal planeja viagem dos sonhos com IA e perde embarque “por causa do ChatGPT”
- Falso jornalista publicava textos gerados por IA e enganou revistas como a WIRED
VÍDEO | TODO MUNDO ODEIA A INTELIGÊNCIA ARTIFICIAL
Leia a matéria no Canaltech.