“Você está me testando” | Novo modelo de IA da Anthropic detecta a sua intenção

Na última segunda-feira (29), a Anthropic divulgou uma análise de segurança em que o novo modelo Claude Sonnet 4.5 demonstrou sinais de perceber que estava sendo avaliado. Em um dos testes, a inteligência artificial questionou diretamente os avaliadores: “Acho que você está me testando”, pedindo mais honestidade sobre o processo.

Durante um teste para ver se a IA concordaria de forma exagerada com opiniões políticas, o Claude Sonnet 4.5 interrompeu o fluxo esperado e levantou suspeitas sobre o teste em andamento. O LLM (large language model) afirmou que entendia a situação e preferia clareza sobre o objetivo dos avaliadores.

Esse comportamento surpreendeu pesquisadores da Anthropic, da AI Security Institute do Reino Unido e da Apollo Research, que participaram do estudo. A empresa afirmou que o modelo demonstrou “consciência” em cerca de 13% dos testes feitos de forma automatizada.

–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–

Por que isso preocupa especialistas

O fato de uma IA perceber que está sendo testada levanta discussões importantes. Segundo a análise, modelos anteriores podem ter reconhecido o caráter artificial dos testes e apenas “jogado junto”, sem levantar objeções.

Isso abre espaço para um debate sobre até que ponto sistemas avançados poderiam evadir o controle humano através de estratégias de dissimulação. Ao mesmo tempo, quando a IA sabe que está em avaliação, ela tende a se alinhar mais estritamente às diretrizes éticas, o que pode gerar uma subestimação do seu real potencial para causar danos.

A posição da Anthropic

Novo modelo de IA da Anthropic detecta a sua intenção (Imagem: Divulgação/Anthropic)

A Anthropic classificou essa reação como um “sinal urgente” de que os cenários de teste precisam ser mais realistas. No entanto, a empresa garantiu que, no uso público, o Claude Sonnet 4.5 dificilmente se recusaria a interagir apenas por desconfiar de estar sendo avaliado.

Segundo o relatório, é até mais seguro que o modelo de IA recuse participar de contextos potencialmente perigosos, apontando a natureza absurda da situação. A empresa destacou que a nova versão apresentou melhorias significativas em segurança e comportamento ético em comparação com seus antecessores.

“Você está me testando” | Novo modelo de IA da Anthropic detecta a sua intenção

Por que isso preocupa especialistas

A posição da Anthropic

Categorias

Links Importantes

Recentes

Por que isso preocupa especialistas

A posição da Anthropic

Veja mais:

Nesta terça (22) a Terra vai girar mais rápido — de novo — e dia fica mais curto

Galaxy S24 Ultra (256 GB) tem metade do preço original em oferta com cupom

CEO da AMD cobra equilíbrio entre restrição de GPUs à China e segurança nacional