Il paradosso di Simpson è un fenomeno statistico dovuto ad uno squilibrio nei dati disponibili, in cui le tendenze che si possono desumere da un gruppo di dati sono in controtendenza con le tendenze estratte da uno o più sottogruppi dello stesso insieme di dati. Può succedere, per esempio, che un risultato che sembra evidente, diventi inconsistente quando consideriamo tutti i dati a nostra disposizione, cioè quando conosciamo tutte le variabili in gioco. Addirittura, può accadere che un risultato arrivi a invertirsi quando separiamo i dati in sottogruppi. Questo è molto importante per esempio in campo medico quando si vuole studiare l'efficacia dei farmaci in una data popolazione.
Cos’è il paradosso di Simpson
Il Paradosso di Simpson è un fenomeno statistico controintuitivo – un paradosso, appunto – in cui una tendenza o un risultato che emerge dai dati, diventa diverso quando i dati stessi vengono divisi in sottogruppi, cioè quando la popolazione su cui viene fatta la statistica viene divisa secondo una specifica variabile. Per capirci, questo può significare che la statistica nel tempo dell'altezza media degli italiani può avere un risultato diverso se si considerano tutti gli italiani nel loro insieme, oppure separatamente donne e uomini, oppure giovani e anziani
Questo significa che un risultato globale, quindi nel nostro caso su tutti gli italiani, può essere contraddetto dai risultati "locali", cioè osservati nei piccoli gruppi, come ad esempio uomini e donne. Ciò accade a causa dell'influenza di fattori esterni, come le dimensioni dei sottogruppi, che alterano i risultati.
Questo paradosso prende il nome da Edward Hugh Simpson, statistico ed ex crittoanalista di Bletchley Park, che lo descrisse in un articolo del 1951, “The Interpretation of Interaction in Contingency Tables”.
Ma spieghiamolo meglio con un esempio.
Quando il risultato si inverte: un esempio del paradosso di Simpson
Immaginiamo di voler capire se, per perdere peso, sia meglio mangiare solo cavoletti di Bruxelles o tiramisù. Per farlo, coinvolgiamo nel nostro studio 100 persone che mangino solo cavoletti di Bruxelles per una settimana e altre 100 che mangino solo tiramisù. Al termine della settimana chiediamo a tutti i partecipanti di misurare il proprio peso e vediamo che 75 persone su 100, cioè il 75% delle persone che hanno mangiato solo cavoletti, hanno perso peso alla fine della settimana, mentre per quanto riguarda chi ha mangiato solo tiramisù, ben 80 persone su 100, quindi l'80%, hanno perso peso.
Se ci fermassimo qui, noteremmo solo che l’80% di chi ha mangiato tiramisù ha perso peso, contro il 75% di chi ha mangiato cavoletti. Potremmo quindi affermare con grande gioia che mangiare tiramisù fa perdere peso alle persone più che mangiare cavoletti di Bruxelles e potremmo proseguire sereni con la nostra vita.
Chiaramente, anche se ci piacerebbe che fosse vero, la situazione è ben diversa. Nella nostra analisi infatti non abbiamo considerato, ad esempio, il sesso dei partecipanti.
Introdurre le variabili confondenti e stratificare i dati
Nel nostro studio immaginario per decidere la dieta migliore abbiamo coinvolto 100 persone per una dieta e 100 per l’altra. Non abbiamo, però, fatto troppa attenzione al sesso biologico dei partecipanti e abbiamo quindi coinvolto 70 uomini e 30 donne per mangiare cavoletti e 90 uomini e 10 donne per mangiare tiramisù.
Se adesso andiamo a guardare i risultati separati per uomini e donne (in termini tecnici si dice “stratificare”), osserviamo che:
- tra le donne che hanno mangiato tiramisù, 3 su 10 (30%) hanno perso peso, mentre tra quelle che hanno mangiato cavoletti è successo per 14 su 30 (46,6%);
- tra gli uomini che hanno mangiato tiramisù, 77 su 90 (85,5%) hanno perso peso, mentre tra quelli che hanno mangiato cavoletti è successo per 61 su 70 (87,1%).
In entrambi i casi, vediamo che le percentuali delle persone che perdono peso aumentano se mangiano cavoletti, passando dal 30% al 46,6% per le donne e dal 85,5% al 87,1% per gli uomini. Questo, però, sembra contraddire i risultati a livello globale, cioè generale a prescindere dal sesso, dove avevamo visto che era meglio mangiare tiramisù. In altre parole, la suddivisione del campione in base al sesso sembra invertire il risultato ottenuto sull'intero campione. Questo è proprio il paradosso di Simpson: un trend (meglio cavoletti che tiramisù sia per gli uomini che per le donne) visibile all'interno di ciascun sottogruppo di dati scompare se combino e aggrego tutti i dati insieme (80% tiramisù VS 75% cavoletti).
Ma come mai avviene un fenomeno statistico del genere?
Come mai avviene e dove si trova il paradosso di Simpson
In questo caso gli uomini e le donne (il nostro fattore confondente) non erano bilanciati all’interno dei due gruppi. Se un sottogruppo ha un numero di osservazioni molto più alto (o basso) rispetto agli altri, il risultato globale può essere dominato da questo squilibrio, alterando la media o il trend generale.
Questo paradosso si ritrova spesso nelle analisi statistiche delle scienze sociali e mediche e può creare grossi problemi, specie se si interpretano correlazioni come se fossero relazioni causali. Ad esempio, nei test clinici per dei nuovi farmaci, può succedere che un farmaco sembri più efficace rispetto a un altro quando i dati sono aggregati, ma una volta separati per gruppi (come età o gravità della malattia), il risultato si ribalti, come in un caso molto famoso di trattamento dei calcoli renali. Lo stesso è accaduto non più tardi del 2021 con i vaccini contro il COVID-19 in Inghilterra: considerando separatamente le fasce d'età, emergeva chiaramente che il tasso di mortalità tra i non vaccinati era molto più alto rispetto ai vaccinati sia per le persone sotto i 50 anni che per quelle sopra. Tuttavia, considerando l'intera popolazione, il tasso di mortalità appariva paradossalmente più basso tra i non vaccinati. Questo perché c’era un tasso di vaccinazione più alto tra gli anziani, che presentano comunque un rischio di mortalità maggiore.
Essere coscienti del paradosso di Simpson è quindi fondamentale per interpretare i dati nella maniera corretta ed evitare errori di valutazione.