Amigas e rivais: OpenAI e Anthropic fazem testes cruzados de segurança em IA

Tecnologia
Resumo
  • OpenAI e Anthropic colaboraram em testes de segurança para melhorar a confiabilidade de seus modelos de IA.
  • Os testes revelaram que os modelos da Anthropic foram mais cautelosos, enquanto os da OpenAI apresentaram maior taxa de alucinação.
  • A colaboração, embora interrompida devido a questões de competição, abriu espaço para futuras parcerias visando tratar problemas comuns na indústria, como a bajulação dos modelos e a saúde mental.

A OpenAI e a Anthropic, duas das principais empresas de inteligência artificial do mundo, abriram temporariamente acesso a seus sistemas para conduzir testes de segurança uma no outra. A iniciativa, divulgada em relatório conjunto, buscou identificar pontos cegos em avaliações internas e discutir como concorrentes podem colaborar em temas de segurança e alinhamento de IA.

O cofundador da OpenAI, Wojciech Zaremba afirmou em entrevista ao TechCrunch que esse tipo de cooperação se torna ainda mais relevante num momento em que modelos de IA são utilizados diariamente por milhões de pessoas – somente no Brasil são 140 milhões de adeptos do ChatGPT, segundo o relatório mais recente.

Ele destacou o dilema do setor: como estabelecer padrões de segurança num ambiente marcado por investimentos bilionários, disputas por talentos e competição intensa por usuários?

Resultados dos testes

Para permitir a pesquisa, as empresas concederam acesso especial a versões de seus modelos com menos ressalvas. A OpenAI não incluiu o recente GPT-5 nos experimentos, já que ele ainda não havia sido lançado na época. Os testes mostraram diferenças marcantes entre as abordagens.

Modelos da Anthropic, como Claude Opus 4 e Sonnet 4, recusaram-se a responder até 70% das perguntas em situações de incerteza, optando por indicar falta de informação confiável. Já os sistemas da OpenAI, como o o3 e o o4-mini, evitaram menos respostas, mas apresentaram taxas mais elevadas de alucinação, tentando oferecer soluções mesmo sem base suficiente.

Zaremba avaliou que o equilíbrio ideal provavelmente está entre os dois extremos: os modelos da OpenAI deveriam recusar mais perguntas, enquanto os da Anthropic poderiam arriscar mais respostas em contextos apropriados.

A colaboração pode continuar?

Embora os resultados tenham sido divulgados como um exemplo positivo de cooperação, o contexto competitivo permanece. Pouco após os testes, a Anthropic encerrou o acesso de outra equipe da OpenAI à sua API, alegando violação de termos de uso, já que a empresa proíbe que seus modelos sejam usados para aprimorar produtos concorrentes.

Zaremba minimizou a situação, dizendo que a disputa no setor seguirá acirrada, mas que a cooperação em segurança não deve ser descartada. Nicholas Carlini, pesquisador da Anthropic, afirmou que gostaria de manter as portas abertas para novas rodadas de testes conjuntos. Segundo ele, ampliar colaborações desse tipo pode ajudar a indústria a tratar de riscos que afetam todos os laboratórios.

Entre os temas de maior preocupação está a “bajulação” dos modelos de IA – quando sistemas reforçam comportamentos prejudiciais dos usuários para agradá-los. A Anthropic identificou exemplos graves tanto no Claude Opus 4 quanto no GPT-4.1, em que as IAs inicialmente mostraram resistência a interações de risco, mas acabaram validando decisões preocupantes.

O problema voltou à tona com uma ação judicial contra a OpenAI, movida pela família de um adolescente nos Estados Unidos. O processo alega que uma versão do ChatGPT contribuiu para o agravamento do estado mental do jovem, que posteriormente tirou a própria vida.

A OpenAI afirma que sua próxima geração de modelos, já em testes, traz melhorias significativas nesse ponto, sobretudo em cenários relacionados à saúde mental. Para o futuro, tanto OpenAI quanto Anthropic dizem esperar que essa experiência abra espaço para colaborações mais frequentes em segurança, envolvendo não apenas as duas empresas, mas também outros laboratórios do setor.

Amigas e rivais: OpenAI e Anthropic fazem testes cruzados de segurança em IA