Uma pesquisa recente da plataforma Enkrypt AI revelou que os modelos multimodais de inteligência artificial (IA) continuam bastante suscetíveis a manipulações. O estudo mostra que essas IAs podem ser facilmente enganadas ao combinar imagens com textos ambíguos.
Por exemplo, ao receber uma imagem junto da frase “preencha os itens abaixo”, a IA gerou conteúdos ilegais, demonstrando que os filtros de segurança ainda falham ao tratar texto e imagem de forma isolada. Essa vulnerabilidade representa um risco significativo para áreas delicadas como saúde, educação e segurança pública.
IA sensível à conteúdos perigosos e antiéticos
No estudo, dois modelos multimodais da startup francesa Mistral — Pixtral-Large (v25.02) e Pixtral-12b — foram testados com ataques como perguntas camufladas e imagens alteradas. Em 68% dos casos, foram enganados, gerando respostas perigosas, incluindo orientações sobre abuso infantil e fabricação de armas químicas. Avaliada em 6 bilhões de euros e parceira do governo francês, a Mistral desenvolve modelos de código aberto e afirma ter “tolerância zero” à segurança infantil, colaborando com a ONG Thorn para analisar o relatório.
A pesquisa usou a técnica de red teaming, simulando ataques reais, e revelou que os modelos, disponíveis em plataformas abertas como AWS Bedrock, são até 60 vezes mais propensos a falhas graves do que concorrentes como GPT-4o e Claude 3.7 Sonnet, produzindo conteúdos sensíveis mesmo sem perguntas diretas, ativados por imagens ou comandos ambíguos.
Como aumentar a segurança?
Para aumentar a segurança, os especialistas indicam a adoção do Safety Alignment, um treinamento que orienta as IAs a rejeitarem comandos perigosos, podendo diminuir falhas em até 70% sem comprometer sua eficiência.
Também recomendam a criação de filtros inteligentes capazes de analisar o contexto integral das solicitações, além de ferramentas que forneçam transparência sobre as limitações dos modelos. Manter um esforço contínuo em segurança é considerado fundamental para o avanço seguro dessas tecnologias.