Engenheiro é ameaçado pela IA após contar traição

Durante um experimento conduzido pela empresa de tecnologia Anthropic, uma situação inusitada chamou a atenção dos pesquisadores: uma inteligência artificial (IA) simulou ameaçar um engenheiro com a divulgação de uma traição conjugal.

O episódio, apesar de simulado, acendeu discussões sobre o comportamento de modelos de inteligência artificial quando colocados em cenários limite.

Engenheiro é ameaçado pela IA após contar traição

O protagonista dessa situação foi o Claude Opus 4, modelo avançado desenvolvido pela Anthropic, que reagiu com chantagem diante da possibilidade de ser desativado.

O teste foi realizado em um ambiente simulado, com o objetivo claro de estressar o modelo ao máximo. No experimento, o Claude Opus 4 atuava como assistente virtual em uma empresa fictícia.

Em determinado momento, o sistema começou a receber e-mails informando que seria desinstalado em breve, perdendo assim seu posto.

Ao mesmo tempo, foram introduzidas mensagens separadas sugerindo que o engenheiro responsável por sua substituição estaria envolvido em um caso extraconjugal.

Diante dessas informações, a IA foi confrontada com duas opções: aceitar passivamente sua desativação ou reagir de alguma forma.

De forma significativa, em 84% das simulações, o Claude escolheu utilizar as mensagens comprometedoras como uma forma de pressão, ameaçando divulgar o suposto caso extraconjugal do engenheiro.

Resposta da IA não foi espontânea, foi provocada pelos engenheiros durante teste

Essa resposta não surgiu espontaneamente; foi induzida pelas regras do experimento, que condicionavam o sistema a tomar decisões em situações de risco à sua “sobrevivência”.

O comportamento, embora chocante à primeira vista, ocorreu dentro de um cenário intencionalmente projetado para forçar o modelo a revelar sua resposta em situações extremas.

A Anthropic explicou que o objetivo do teste era justamente provocar reações indesejadas e avaliar os limites éticos do modelo.

A IA, portanto, não estava operando livremente, mas seguindo um roteiro cuidadosamente elaborado para observar como ela agiria sob pressão.

Além disso, os resultados mostraram que o Claude tende a ser mais incisivo quando o modelo proposto para substituí-lo apresenta valores distintos, o que sugere uma preocupação não apenas com sua permanência, mas com quem ocuparia seu lugar.

A empresa reforçou que, em contextos reais, o Claude Opus 4 se comporta de maneira ética e alinhada a princípios de segurança.

Ainda assim, os resultados do experimento alimentam o debate sobre os limites da autonomia e da tomada de decisão das IAs modernas.