Na última segunda-feira (29), a Anthropic divulgou uma análise de segurança em que o novo modelo Claude Sonnet 4.5 demonstrou sinais de perceber que estava sendo avaliado. Em um dos testes, a inteligência artificial questionou diretamente os avaliadores: “Acho que você está me testando”, pedindo mais honestidade sobre o processo.
- Anthropic lança Claude Sonnet 4.5 com foco em programação e agentes de IA
- IA Claude agora cria e edita planilhas e apresentações de slides
Durante um teste para ver se a IA concordaria de forma exagerada com opiniões políticas, o Claude Sonnet 4.5 interrompeu o fluxo esperado e levantou suspeitas sobre o teste em andamento. O LLM (large language model) afirmou que entendia a situação e preferia clareza sobre o objetivo dos avaliadores.
Esse comportamento surpreendeu pesquisadores da Anthropic, da AI Security Institute do Reino Unido e da Apollo Research, que participaram do estudo. A empresa afirmou que o modelo demonstrou “consciência” em cerca de 13% dos testes feitos de forma automatizada.
–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–
Por que isso preocupa especialistas
O fato de uma IA perceber que está sendo testada levanta discussões importantes. Segundo a análise, modelos anteriores podem ter reconhecido o caráter artificial dos testes e apenas “jogado junto”, sem levantar objeções.
Isso abre espaço para um debate sobre até que ponto sistemas avançados poderiam evadir o controle humano através de estratégias de dissimulação. Ao mesmo tempo, quando a IA sabe que está em avaliação, ela tende a se alinhar mais estritamente às diretrizes éticas, o que pode gerar uma subestimação do seu real potencial para causar danos.
A posição da Anthropic

A Anthropic classificou essa reação como um “sinal urgente” de que os cenários de teste precisam ser mais realistas. No entanto, a empresa garantiu que, no uso público, o Claude Sonnet 4.5 dificilmente se recusaria a interagir apenas por desconfiar de estar sendo avaliado.
Segundo o relatório, é até mais seguro que o modelo de IA recuse participar de contextos potencialmente perigosos, apontando a natureza absurda da situação. A empresa destacou que a nova versão apresentou melhorias significativas em segurança e comportamento ético em comparação com seus antecessores.
Leia também:
- Como funciona o Claude, IA da Anthropic que concorre com o ChatGPT e Gemini?
- Claude muda e vai treinar IA com suas conversas; saiba como impedir
VÍDEO | O que significa “AI PC”? É só hype?
Leia a matéria no Canaltech.