A (in)certeza da detecção no mundo dos LLMs
Quem nunca jogou aquele texto antigo do seu João escrito em 1994 num detector de IA e ficou surpreso ao ver que ele supostamente já usava inteligência artificial avançada naquele tempo? Pois é. A detecção de textos gerados por IA é uma tarefa fascinante, mas cheia de armadilhas e incertezas.
Hoje, com a popularização dos Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT e seus primos, a capacidade de gerar textos extremamente convincentes levantou preocupações sérias: como saber se um texto foi realmente escrito por uma pessoa ou por uma máquina?
Este artigo resume a análise de quatro textos acadêmicos sobre o tema da detecção de texto gerado por IA, explicando os principais métodos utilizados, os desafios enfrentados e por que essa tarefa continua sendo tão difícil — mesmo com toda a tecnologia à disposição.
Por que precisamos detectar textos gerados por IA?
A detecção não é somente uma curiosidade técnica. Ela é necessária por vários motivos muito concretos:
- Combate à desinformação: IAs podem gerar notícias falsas com aparência legítima.
- Integridade acadêmica: Universidades se preocupam com plágio e uso indevido de ferramentas de geração de texto.
- Qualidade da informação online: Um mar de textos artificiais pode contaminar a web com informações redundantes ou irrelevantes.
- Segurança digital: LLMs podem ser usados para criar spams ou tentativas de phishing altamente realistas.
- Propriedade intelectual: A IA pode reproduzir conteúdos protegidos sem autorização.
- Transparência e ética: Saber se um conteúdo foi gerado por IA é fundamental para a responsabilidade digital.
Como funciona a detecção de texto de IA?
Existem diversas abordagens para identificar se um texto foi gerado por máquina ou escrito por humanos. Abaixo, um panorama das principais:
1. Classificadores treinados do zero
Modelos simples, como regressão logística, treinados com muitos exemplos de textos humanos e textos de IA. São eficazes, mas precisam de muitos dados e sofrem para generalizar para outros contextos.
2. Classificadores zero-shot
Usam modelos pré-treinados (como GPT-2 ou GROVER) sem precisar de novos dados de treinamento. Ferramentas como GLTR e DetectGPT são exemplos. Alguns funcionam bem, mas são vulneráveis a estratégias simples como reescrever o texto com sinônimos.
3. Modelos ajustados (fine-tuning)
Modelos como o RoBERTa podem ser ajustados especificamente para detectar textos de IA, com desempenho excelente em cenários controlados. Porém, demandam muitos exemplos e não se saem bem com dados “do mundo real”.
4. Marca d’água (Watermarking)
Adicionam sinais “invisíveis” durante a geração do texto. Assim, fica mais fácil identificá-los depois. A ideia é promissora, mas ainda suscetível a ataques, como paráfrases automáticas que removem o padrão inserido.
5. Métodos baseados em estatísticas
Detectam padrões estilísticos (como vocabulário mais simples, estruturas repetitivas ou ausência de certos vícios humanos). Não exigem acesso ao modelo gerador, mas também têm limitações.
6. Detecção com redes neurais profundas
Usam aprendizado contrastivo, adversarial ou até o próprio LLM como detector. Porém, há evidências de que modelos como o ChatGPT e o GPT-4 cometem muitos erros ao tentarem detectar textos de IA — inclusive confundindo textos humanos com IA.
7. Colaboração humano-máquina
Ferramentas que mostram visualmente padrões suspeitos para que humanos possam julgar com mais informação. Um exemplo é o GLTR, que combina dados estatísticos com visualizações.
Quais são os desafios?
Mesmo com toda essa tecnologia, a detecção ainda é um campo incerto. Aqui estão alguns dos principais obstáculos:
- A IA está ficando boa demais: LLMs modernos geram textos tão fluentes e coerentes que enganam facilmente tanto humanos quanto detectores.
- Modelos maiores são mais difíceis de detectar: Quanto mais avançado o modelo (de linguagem), mais natural o texto.
- Baixa generalização: Um detector treinado com GPT-2 pode falhar totalmente ao tentar detectar textos do GPT-4.
- Ataques de evasão: Pequenas mudanças no texto (como erros propositais ou paráfrases) podem “enganar” o detector.
- Dados mistos ou editados: Um texto com trechos humanos e gerados por IA é muito difícil de classificar corretamente.
- Falsos positivos e negativos: Detectores atuais ainda cometem muitos erros — às vezes, até rotulando textos 100% humanos como gerados por IA.
Sim, estamos longe de uma solução perfeita
A detecção de texto gerado por IA é um campo em desenvolvimento. Há muitos avanços importantes — alguns métodos chegam a atingir quase 100% de precisão em ambientes controlados. Mas no mundo real, onde os textos são editados, misturados, traduzidos ou intencionalmente modificados, a história é bem diferente.
O desafio é enorme, e talvez permanente. À medida que os modelos evoluem, os detectores precisam correr atrás. Enquanto isso, seguimos com uma certeza desconfortável: nem tudo que soa humano foi, de fato, escrito por um.
Pode ser que surja a dúvida “E aí, Fernanda, seu post foi escrito por IA?“
Fiz a leitura e fichamento de alguns artigos relevantes para esse estudo e pedi para o ChatGPT me ajudar a estruturar meus pensamentos em uma postagem para blog. 👀
Referências
GHOSAL, Soumya Suvra et al. A survey on the possibilities & impossibilities of AI-generated text detection. Transactions on Machine Learning Research, 2023.
JAWAHAR, Ganesh; ABDUL-MAGEED, Muhammad; LAKSHMANAN, Laks VS. Automatic detection of machine generated text: A critical survey. arXiv preprint arXiv:2011.01314, 2020.
QU, Chenfan et al. Revisiting tampered scene text detection in the era of generative AI. In: Proceedings of the AAAI Conference on Artificial Intelligence. 2025. p. 694-702.
WU, Junchao et al. A survey on LLM-generated text detection: Necessity, methods, and future directions. Computational Linguistics, p. 1-66, 2025.