Um levantamento realizado pela empresa Legal Guardian Digital, especializada em SEO para o setor jurídico, trouxe novos elementos para o debate sobre confiabilidade de chatbots de inteligência artificial.
O estudo comparou diferentes modelos populares do mercado e identificou diferenças na taxa de erros factuais, fenômeno conhecido como “alucinação” em IA.
A análise avaliou desempenho, consistência, satisfação do usuário, disponibilidade e frequência de respostas incorretas, resultando em um score geral de 0 a 100 para cada sistema.
O que são “alucinações” em inteligência artificial
As chamadas alucinações de IA ocorrem quando um modelo gera informações que parecem corretas, mas são, na realidade, falsas ou sem base em dados verificáveis.
Segundo o estudo, isso acontece porque os Grandes Modelos de Linguagem (LLMs) funcionam prevendo a próxima palavra mais provável em uma sequência de texto.
Quando não há padrões suficientes ou dados confiáveis para uma resposta precisa, o sistema pode “completar lacunas” com informações plausíveis, mas incorretas.
Com o uso crescente dessas ferramentas no ambiente profissional o relatório aponta que cerca de 25% dos trabalhadores nos Estados Unidos já utilizam IA regularmente, a checagem humana continua sendo considerada essencial, especialmente para dados sensíveis como nomes, datas e valores.
Ranking das IAs com maior taxa de alucinação
O estudo mediu a porcentagem de respostas com informações incorretas em testes controlados. Confira o ranking:
- Google Gemini: 32%
- ChatGPT: 30%
- Kimi: 27%
- Microsoft Copilot: 27%
- Meta AI: 25%
- Claude: 20%
- Grok: 15%
- DeepSeek: 14%
- Perplexity AI: 13%
De acordo com os dados, o Google Gemini apresentou a maior taxa de alucinação, com 32%, o que significa que aproximadamente 32 em cada 100 respostas analisadas continham algum tipo de erro factual.
Já o ChatGPT aparece logo em seguida, com 30%, mais que o dobro da taxa registrada pelo DeepSeek, que marcou 14%.
Desempenho geral e ranking de confiabilidade
Além da taxa de erro, a pesquisa criou um índice geral que combina diferentes métricas de desempenho. O resultado final foi o seguinte:
- Perplexity AI: 85 pontos
- Grok: 79 pontos
- DeepSeek: 76 pontos
Outros modelos intermediários
- ChatGPT: 50 pontos
- Google Gemini: 41 pontos
- Meta AI: 37 pontos
O estudo mostra que modelos com menor taxa de alucinação nem sempre ocupam as primeiras posições em outros critérios, como experiência do usuário ou estabilidade.
Destaques por categoria
O levantamento também analisou o desempenho das inteligências artificiais em critérios específicos, indo além da taxa de erros para entender como cada modelo se comporta em diferentes aspectos de uso no dia a dia.
No quesito satisfação do usuário, duas plataformas se destacaram de forma conjunta: DeepSeek e ChatGPT, ambas alcançando a melhor avaliação do público, com nota média de 4,7 de 5.
Na outra ponta do ranking, a Meta AI apresentou o desempenho mais baixo nessa categoria, registrando apenas 3,4 de 5, o que indica uma experiência considerada menos satisfatória pelos usuários avaliados.
Quando o assunto é consistência e qualidade das respostas, o maior destaque ficou com o modelo Kimi, que obteve nota 4,3 de 5, sendo apontado como o mais equilibrado nesse critério específico, com respostas mais estáveis e coerentes ao longo dos testes.
Já na categoria de disponibilidade (uptime), dois sistemas atingiram o desempenho máximo: Perplexity AI e Grok, ambos com 100% de funcionamento durante o período analisado, sem quedas registradas.
Em contrapartida, o modelo Claude apresentou o menor índice entre todos, com 98,68% de disponibilidade, ainda assim mantendo um nível elevado de estabilidade, mas abaixo dos concorrentes diretos nesse aspecto.
O que os dados revelam sobre o uso de IA
A pesquisa reforça que mesmo os sistemas mais avançados ainda podem apresentar erros relevantes.
Especialistas destacam que isso não significa que as ferramentas sejam inúteis, mas sim que seu uso exige cautela, especialmente em contextos profissionais, acadêmicos ou jurídicos.
O cenário também evidencia um avanço desigual entre os modelos, com algumas plataformas priorizando precisão, enquanto outras se destacam mais em experiência de uso ou velocidade de resposta.





