A Anthropic anunciou, na última quinta-feira (21), a implantação de um recurso no Claude AI que funciona como uma espécie de “trava” contra consultas sensíveis relacionadas a armas nucleares. O mecanismo foi desenvolvido em parceria com a Administração Nacional de Segurança Nuclear dos Estados Unidos (NNSA, na sigla em inglês).
- Claude recebe poder de fechar chats “angustiantes” para proteger seu “bem-estar”
- Por que a Anthropic limitou o uso da IA Claude?
- A IA no ensino superior carece de regulação; veja 7 instituições que se destacam
Segundo a companhia, trata-se de um sistema de inteligência artificial capaz de categorizar automaticamente conteúdos, permitindo ao chatbot distinguir conversas preocupantes daquelas inofensivas ligadas à energia nuclear, com 96% de precisão.
“Juntamente com a importância concreta de proteger modelos de IA de ponta contra o uso indevido da energia nuclear, este esforço inédito demonstra o poder das parcerias público-privadas. Essas parcerias combinam os pontos fortes complementares da indústria e do governo para enfrentar os riscos de frente, tornando os modelos de IA mais confiáveis para todos os seus usuários”, informou a Anthropic em comunicado.
–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–
We partnered with @NNSANews to build first-of-their-kind nuclear weapons safeguards for AI.
We’ve developed a classifier that detects nuclear weapons queries while preserving legitimate uses for students, doctors, and researchers. pic.twitter.com/PlZ55ot74l
— Anthropic (@AnthropicAI) August 21, 2025
Identificação de conversas sensíveis
Desenvolvido ao longo de aproximadamente um ano, o recurso contou com o compartilhamento, por parte da NNSA, de um conjunto de indicadores de risco nuclear.
Esses dados foram criados para diferenciar conversas potencialmente preocupantes sobre o desenvolvimento de armas nucleares de discussões inofensivas relacionadas a energia nuclear, medicina ou política.
A lista de indicadores foi posteriormente disponibilizada às equipes da Anthropic, que a transformaram em um classificador do Claude, com capacidade de identificar em tempo real interações consideradas perigosas.
“Pense em um classificador como um rotulador especializado, semelhante ao filtro de spam da sua caixa de e-mail. Em vez de identificar mensagens indesejadas, este classificador detecta conversas potencialmente prejudiciais, ao mesmo tempo em que permite discussões legítimas”, explica a Anthropic.
Nos testes preliminares, o Claude alcançou uma taxa de precisão de 96,2% na detecção e distinção entre consultas relacionadas às armas nucleares. Segundo a empresa, isso significa que o sistema tende a não classificar como preocupantes discussões educacionais, médicas ou voltadas a pesquisas legítimas.

Expansão para toda a indústria de IA
O mecanismo desenvolvido pela Anthropic e pela NNSA foi compartilhado com o Frontier Model Forum — consórcio da indústria que reúne empresas de IA de ponta —, com o objetivo de incentivar a adoção de soluções semelhantes em outras ferramentas de inteligência artificial.
Leia mais:
- O ChatGPT-5 não desgosta de você | O desafio da IA com “inteligência emocional”
- Como usar a Claude AI no Brasil grátis e sem VPN
VÍDEO | CHATGPT, PERPLEXITY, CLAUDE, GEMINI: QUAL ESCOLHER?
Leia a matéria no Canaltech.