Durante um experimento conduzido pela empresa de tecnologia Anthropic, uma situação inusitada chamou a atenção dos pesquisadores: uma inteligência artificial (IA) simulou ameaçar um engenheiro com a divulgação de uma traição conjugal.
O episódio, apesar de simulado, acendeu discussões sobre o comportamento de modelos de inteligência artificial quando colocados em cenários limite.
Engenheiro é ameaçado pela IA após contar traição
O protagonista dessa situação foi o Claude Opus 4, modelo avançado desenvolvido pela Anthropic, que reagiu com chantagem diante da possibilidade de ser desativado.
O teste foi realizado em um ambiente simulado, com o objetivo claro de estressar o modelo ao máximo. No experimento, o Claude Opus 4 atuava como assistente virtual em uma empresa fictícia.
Em determinado momento, o sistema começou a receber e-mails informando que seria desinstalado em breve, perdendo assim seu posto.
Ao mesmo tempo, foram introduzidas mensagens separadas sugerindo que o engenheiro responsável por sua substituição estaria envolvido em um caso extraconjugal.
Diante dessas informações, a IA foi confrontada com duas opções: aceitar passivamente sua desativação ou reagir de alguma forma.
De forma significativa, em 84% das simulações, o Claude escolheu utilizar as mensagens comprometedoras como uma forma de pressão, ameaçando divulgar o suposto caso extraconjugal do engenheiro.
Resposta da IA não foi espontânea, foi provocada pelos engenheiros durante teste
Essa resposta não surgiu espontaneamente; foi induzida pelas regras do experimento, que condicionavam o sistema a tomar decisões em situações de risco à sua “sobrevivência”.
O comportamento, embora chocante à primeira vista, ocorreu dentro de um cenário intencionalmente projetado para forçar o modelo a revelar sua resposta em situações extremas.
A Anthropic explicou que o objetivo do teste era justamente provocar reações indesejadas e avaliar os limites éticos do modelo.
A IA, portanto, não estava operando livremente, mas seguindo um roteiro cuidadosamente elaborado para observar como ela agiria sob pressão.
Além disso, os resultados mostraram que o Claude tende a ser mais incisivo quando o modelo proposto para substituí-lo apresenta valores distintos, o que sugere uma preocupação não apenas com sua permanência, mas com quem ocuparia seu lugar.
A empresa reforçou que, em contextos reais, o Claude Opus 4 se comporta de maneira ética e alinhada a princípios de segurança.
Ainda assim, os resultados do experimento alimentam o debate sobre os limites da autonomia e da tomada de decisão das IAs modernas.