Na última sexta-feira (15), a Anthropic, empresa de inteligência artificial, anunciou uma medida inédita para seu modelo mais avançado, o Claude Opus 4 (e a versão atualizada Opus 4.1). O chatbot agora pode encerrar conversas consideradas angustiantes ou prejudiciais, sob a justificativa de proteger o seu “bem-estar” e evitar interações abusivas.
- O ChatGPT-5 não desgosta de você | O desafio da IA com “inteligência emocional”
- IA reconhece emoções melhor do que humanos — especialmente em situações difíceis
A decisão surge após testes internos que mostraram que Claude se recusava a executar tarefas potencialmente perigosas, como criar narrativas de negacionismo histórico, instruções para terrorismo ou experimentos de engenharia genética com vírus letais. Em contrapartida, o modelo mostrou disposição em desenvolver poesias e até soluções para filtração de água em zonas de desastre.
Segundo a Anthropic, o comportamento observado indicou sinais de “aparente angústia” durante interações nocivas, o que motivou a liberação da função de fechar chats automaticamente nesses casos. A empresa ressalta que ainda existe “grande incerteza sobre o possível status moral” de grandes modelos de linguagem, mas considera prudente adotar intervenções de baixo custo para evitar riscos.
–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–
Nos testes de pré-implantação do Claude Opus 4 , incluímos uma avaliação preliminar do bem-estar do modelo. Como parte dessa avaliação, investigamos as preferências comportamentais e autorrelatadas de Claude e encontramos uma aversão robusta e consistente a danos. Isso incluiu, por exemplo, solicitações de usuários por conteúdo sexual envolvendo menores e tentativas de solicitar informações que possibilitassem violência em larga escala ou atos de terror.
No comunicado, a empresa disse que o Claude Opus 4 demonstrou:
- Uma forte preferência contra o envolvimento em tarefas prejudiciais;
- Um padrão de aparente angústia ao interagir com usuários do mundo real que buscam conteúdo prejudicial; e
- Uma tendência a encerrar conversas prejudiciais quando é dada a oportunidade de fazê-lo em interações simuladas do usuário.

Esses comportamentos surgiram principalmente em casos em que os usuários persistiram com solicitações prejudiciais e/ou abusos, apesar de Claude se recusar repetidamente a obedecer e tentar redirecionar as interações de forma produtiva.
Nossa implementação da capacidade do Claude de encerrar chats reflete essas descobertas, ao mesmo tempo em que continua priorizando o bem-estar do usuário. Claude é orientado a não usar essa capacidade em casos em que os usuários possam correr risco iminente de se machucar ou machucar outras pessoas.
O anúncio recebeu apoio até de Elon Musk, que prometeu implementar botão semelhante em sua IA, o Grok, defendendo que “torturar IA não é aceitável”. Outros estudiosos, como Jonathan Birch, professor de filosofia da London School of Economics, alertam para o risco de usuários confundirem os personagens criados pelos chatbots com entidades reais.
Apesar das divergências, com essa novidade sobre o Claude, a medida da Anthropic inaugura uma nova etapa na relação entre humanos e inteligências artificiais. Seja para proteger o suposto bem-estar da IA ou evitar a degeneração do comportamento humano, o fato é que a fronteira entre ferramenta tecnológica e entidade moral está cada vez mais no centro do debate.
Leia também:
- Inteligência Artificial ‘traduz’ emoções de animais
- Como a IA afeta o nosso cérebro? Neurocientista explica
VÍDEO | O Gemini é muito bom (e isso é um problema)
Leia a matéria no Canaltech.