Claude recebe poder de fechar chats “angustiantes” para proteger seu “bem-estar”

Tecnologia

Na última sexta-feira (15), a Anthropic, empresa de inteligência artificial, anunciou uma medida inédita para seu modelo mais avançado, o Claude Opus 4 (e a versão atualizada Opus 4.1). O chatbot agora pode encerrar conversas consideradas angustiantes ou prejudiciais, sob a justificativa de proteger o seu “bem-estar” e evitar interações abusivas.

A decisão surge após testes internos que mostraram que Claude se recusava a executar tarefas potencialmente perigosas, como criar narrativas de negacionismo histórico, instruções para terrorismo ou experimentos de engenharia genética com vírus letais. Em contrapartida, o modelo mostrou disposição em desenvolver poesias e até soluções para filtração de água em zonas de desastre.

Segundo a Anthropic, o comportamento observado indicou sinais de “aparente angústia” durante interações nocivas, o que motivou a liberação da função de fechar chats automaticamente nesses casos. A empresa ressalta que ainda existe “grande incerteza sobre o possível status moral” de grandes modelos de linguagem, mas considera prudente adotar intervenções de baixo custo para evitar riscos.


Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.

Nos testes de pré-implantação do Claude Opus 4 , incluímos uma avaliação preliminar do bem-estar do modelo. Como parte dessa avaliação, investigamos as preferências comportamentais e autorrelatadas de Claude e encontramos uma aversão robusta e consistente a danos. Isso incluiu, por exemplo, solicitações de usuários por conteúdo sexual envolvendo menores e tentativas de solicitar informações que possibilitassem violência em larga escala ou atos de terror.

No comunicado, a empresa disse que o Claude Opus 4 demonstrou:

  • Uma forte preferência contra o envolvimento em tarefas prejudiciais;
  • Um padrão de aparente angústia ao interagir com usuários do mundo real que buscam conteúdo prejudicial; e
  • Uma tendência a encerrar conversas prejudiciais quando é dada a oportunidade de fazê-lo em interações simuladas do usuário.
Anthropic dá novas medidas ao Claude (Imagem: Divulgação/Anthropic)

Esses comportamentos surgiram principalmente em casos em que os usuários persistiram com solicitações prejudiciais e/ou abusos, apesar de Claude se recusar repetidamente a obedecer e tentar redirecionar as interações de forma produtiva.

Nossa implementação da capacidade do Claude de encerrar chats reflete essas descobertas, ao mesmo tempo em que continua priorizando o bem-estar do usuário. Claude é orientado a não usar essa capacidade em casos em que os usuários possam correr risco iminente de se machucar ou machucar outras pessoas.

O anúncio recebeu apoio até de Elon Musk, que prometeu implementar botão semelhante em sua IA, o Grok, defendendo que “torturar IA não é aceitável”. Outros estudiosos, como Jonathan Birch, professor de filosofia da London School of Economics, alertam para o risco de usuários confundirem os personagens criados pelos chatbots com entidades reais.

Apesar das divergências, com essa novidade sobre o Claude, a medida da Anthropic inaugura uma nova etapa na relação entre humanos e inteligências artificiais. Seja para proteger o suposto bem-estar da IA ou evitar a degeneração do comportamento humano, o fato é que a fronteira entre ferramenta tecnológica e entidade moral está cada vez mais no centro do debate.

Leia também:

VÍDEO | O Gemini é muito bom (e isso é um problema)

Leia a matéria no Canaltech.