
Gli “AI text detector”, o rilevatori di testi generati con AI, sono software che analizzano lo stile, la struttura e le parole usate per stimare la probabilità che un testo sia stato scritto da un’intelligenza artificiale.
Il problema, però, è che anche le AI stanno migliorando in fretta. Strumenti come ChatGPT sono ormai capaci di scrivere in modo naturale e realistico, tanto che distinguere tra un testo interamente scritto da una persona, uno revisionato dall’AI e uno generato da zero diventa sempre più complicato. Proprio per questo, gli AI detector non sono affidabili al 100% e non dovrebbero mai essere usati come unico criterio per prendere decisioni importanti. Possono dare un’indicazione, ma non possiamo affidarci completamente.
Vediamo più nel dettaglio cosa sono gli AI text detector, come funzionano e quali sono le principali criticità.
Cosa sono gli AI text detector e come funzionano i rilevatori di intelligenza artificiale
Gli AI text detector sono software progettati per analizzare un testo e stimare se è stato generato da un'intelligenza artificiale. Alcuni assegnano una percentuale (ad esempio: 80% AI, 20% umano), altri classificano semplicemente il testo come "umano", "ibrido" o "generato da AI". Alcuni, addirittura, evidenziano le frasi sospette e spiegano perché sembrano artificiali.
I detector, per come li conosciamo oggi, esistono dal 2019. Poco dopo l’arrivo del primo GPT, ci si è accorti di quanto le macchine stessero diventando abili nel simulare il linguaggio umano e dei rischi che questo comportava. Da allora, le AI hanno fatto enormi progressi, e i software per riconoscerle hanno cercato di stare al passo.
Oggi esistono decine di strumenti diversi, sia gratuiti che a pagamento. Tra quelli gratuiti, i più conosciuti e utilizzati sono: GPTZero, zeroGPT, Scribbr, Neural Writer, l'AI detector di Grammarly e NoPlagio. Vediamo come fanno a capire se un testo è stato scritto da un’AI.
Non esiste un solo modo per capire se un testo è stato scritto da un’intelligenza artificiale. Ogni AI detector usa strategie diverse, ma quasi tutti si basano su alcune caratteristiche tipiche della scrittura con AI. Le principali sono:
- Frasi lineari e parole poco ricercate: I testi generati da un’AI tendono a rispettare la grammatica, seguire schemi coerenti, frasi lineari e parole poco ricercate. I testi umani, invece, tendono ad essere più vari e imperfetti.
- Uniformità nella lunghezza delle frasi (“Burstiness”): Le AI tendono a mantenere una lunghezza più uniforme e regolare delle frasi. Questo parametro misura proprio quanto il testo “oscilla” in termini di lunghezza e complessità delle frasi. Meno il testo è uniforme, più è “umano”.
- Prevedibilità delle frasi (“Perplexity”): Le AI usano schemi linguistici molto frequenti e prevedibili. La “perplexity” si usa per misurare questa “prevedibilità”: più il testo è prevedibile, più è probabile che sia stato scritto dall’AI.
A queste, si possono aggiungere tecniche come:
- Filigrane nascoste: Alcuni modelli di AI possono inserire intenzionalmente nel testo delle “impronte digitali” invisibili: frequenze specifiche di parole, schemi sintattici, ritmi. Ma solo chi conosce il modello può davvero rilevarle e usarle per progettare un detector, quindi questa tecnica è limitata agli sviluppatori.
- Test di stabilità: Alcuni detector modificano il testo cambiando alcune parole con sinonimi e misurano quanto cambia la “perplexity”. Se varia molto, è probabile che il testo sia stato scritto da un’AI, altrimenti, potrebbe essere di un umano.
Tutte queste tecniche aiutano a costruire una stima, ma nessuna di esse ci garantisce che le risposte che ci danno siano corrette. Gli AI detector possono sbagliare. E lo fanno spesso.
Quanto sono affidabili i rilevatori di AI e come usarli
ChatGPT, Gemini, DeepSeek e Claude scrivono in maniera diversa. Come può quindi un detector riuscire a riconoscere sempre un testo scritto dall’AI? La risposta breve è che non può.
La capacità di classificare correttamente un testo come “scritto dall’AI” o “scritto da un umano” dipende da molti fattori:
- dal modello con cui è stato generato il testo;
- dalla lunghezza del testo: più è lungo, più l’analisi è affidabile;
- da quanto scrive bene la persona che lo ha prodotto;
- dalla lingua utilizzata: i detector funzionano meglio con l’inglese che con l’italiano;
- dal fatto che chi scrive stia usando o meno la propria lingua madre. Ad esempio, se una persona italiana scrive in inglese, tenderà a usare frasi più semplici e standard: potrebbe quindi essere scambiata per un’AI.
Anche il grado di intervento dell’AI conta. Se usiamo un modello solo per riformulare alcune frasi, oppure per scrivere tutto da zero, il detector potrebbe non essere in grado di distinguere tra testo umano e testo artificiale.
Inoltre, esistono metodi per chiedere all’AI di scrivere in maniera più “umana” e strumenti che “umanizzano” il testo (chiamati “AI humanizer”), che permettono di superare il controllo della maggior parte dei detector. Abbiamo provato queste tecniche su un testo completamente scritto da un’AI, poi ne abbiamo creato una versione “umanizzata” e le abbiamo caricate entrambe su cinque AI detector gratuiti. Le risposte sono state molto diverse tra loro, ma la maggior parte ha riconosciuto il primo testo come generato da un’AI e il secondo come scritto da un umano, anche se erano entrambi artificiali.
Una buona regola, quindi, se si vuole usare questi strumenti, è di non considerarli predittori infallibili, ma semplici indicazioni. E soprattutto, di non basare decisioni importanti solo sulle loro risposte.