Anthropic põe trava no Claude contra consultas sensíveis sobre armas nucleares

A Anthropic anunciou, na última quinta-feira (21), a implantação de um recurso no Claude AI que funciona como uma espécie de “trava” contra consultas sensíveis relacionadas a armas nucleares. O mecanismo foi desenvolvido em parceria com a Administração Nacional de Segurança Nuclear dos Estados Unidos (NNSA, na sigla em inglês).

Segundo a companhia, trata-se de um sistema de inteligência artificial capaz de categorizar automaticamente conteúdos, permitindo ao chatbot distinguir conversas preocupantes daquelas inofensivas ligadas à energia nuclear, com 96% de precisão.

“Juntamente com a importância concreta de proteger modelos de IA de ponta contra o uso indevido da energia nuclear, este esforço inédito demonstra o poder das parcerias público-privadas. Essas parcerias combinam os pontos fortes complementares da indústria e do governo para enfrentar os riscos de frente, tornando os modelos de IA mais confiáveis para todos os seus usuários”, informou a Anthropic em comunicado.

–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–

We partnered with @NNSANews to build first-of-their-kind nuclear weapons safeguards for AI.

We’ve developed a classifier that detects nuclear weapons queries while preserving legitimate uses for students, doctors, and researchers. pic.twitter.com/PlZ55ot74l

— Anthropic (@AnthropicAI) August 21, 2025

Identificação de conversas sensíveis

Desenvolvido ao longo de aproximadamente um ano, o recurso contou com o compartilhamento, por parte da NNSA, de um conjunto de indicadores de risco nuclear.

Esses dados foram criados para diferenciar conversas potencialmente preocupantes sobre o desenvolvimento de armas nucleares de discussões inofensivas relacionadas a energia nuclear, medicina ou política.

A lista de indicadores foi posteriormente disponibilizada às equipes da Anthropic, que a transformaram em um classificador do Claude, com capacidade de identificar em tempo real interações consideradas perigosas.

“Pense em um classificador como um rotulador especializado, semelhante ao filtro de spam da sua caixa de e-mail. Em vez de identificar mensagens indesejadas, este classificador detecta conversas potencialmente prejudiciais, ao mesmo tempo em que permite discussões legítimas”, explica a Anthropic.

Nos testes preliminares, o Claude alcançou uma taxa de precisão de 96,2% na detecção e distinção entre consultas relacionadas às armas nucleares. Segundo a empresa, isso significa que o sistema tende a não classificar como preocupantes discussões educacionais, médicas ou voltadas a pesquisas legítimas.

Nova ferramenta do Claude AI mostrou eficiência na detecção e distinção de interações potencialmente perigosas relacionadas à enrgia nuclear (Emanuele Almeida/Canaltech)

Expansão para toda a indústria de IA

O mecanismo desenvolvido pela Anthropic e pela NNSA foi compartilhado com o Frontier Model Forum — consórcio da indústria que reúne empresas de IA de ponta —, com o objetivo de incentivar a adoção de soluções semelhantes em outras ferramentas de inteligência artificial.

Leia mais:

VÍDEO | CHATGPT, PERPLEXITY, CLAUDE, GEMINI: QUAL ESCOLHER?

Leia a matéria no Canaltech.

Anthropic põe trava no Claude contra consultas sensíveis sobre armas nucleares

Identificação de conversas sensíveis

Expansão para toda a indústria de IA

Categorias

Links Importantes

Recentes

Identificação de conversas sensíveis

Expansão para toda a indústria de IA

Veja mais:

Agora é a vez do Instant Apps do Android ir para o cemitério do Google

5 técnicas de pintura para deixar ilustrações de Boobie Goods mais artísticas

3I/ATLAS | O cometa interestelar jorra água “como uma mangueira de incêndio”