Anni fa fece scalpore una corrente di pensiero secondo la quale la pratica scientifica classica di formulare modelli sarebbe obsoleta. Secondo Chris Anderson, ex direttore della rivista Wired e teorico del digitale:

La recente disponibilità di grandi quantità di dati, unita a strumenti statistici per gestire questi numeri, offre un’intera nuova modalità per comprendere il mondo. La correlazione rimpiazza la causalità, e la scienza può avanzare anche senza modelli coerenti, teorie unificate o spiegazioni meccanicistiche.

I modelli emergono direttamente dai dati, dalle associazioni, non sono guidati dalle ipotesi.

Quando i dati sono sufficienti, i numeri parlano da soli. Inseriti i big data negli enormi cluster di elaborazione gli algoritmi possono individuare pattern e schemi utilizzabili, senza che la scienza ne sappia spiegare l’origine o inserirli in un contesto. Si assisterebbe alla inversione della tradizionale piramide di apprendimento scientifico: domanda-ipotesi-modello-sperimentazione. La scienza sarebbe completamente guidata dai dati e da algoritmi in grado di individuare correlazioni statistiche “Let statiscal algorithms find patterns where science cannot” (Anderson C, Wired, 2008).

Contrariamente alle affermazioni di C. Anderson, l’enorme quantità di dati richiede, ancora più che in passato, uno sforzo interpretativo enorme, che i calcolatori non sono (per ora?) in grado di svolgere autonomamente. La statistica insegna che esistono le correlazioni spurie, casuali ovvero dipendenti da altre variabili in comune, in assenza di un meccanismo logico-causale plausibile che le metta in relazione tra loro. Le correlazioni possono rivelare un rapporto di causa–effetto, il che porterebbe ad una importante acquisizione, possono rivelare una semplice interferenza di variabili, acquisizione meno importante ma comunque utile conoscenza per ulteriori futuri sviluppi, oppure possono essere del tutto casuali e quindi confondere le idee ed indirizzare la ricerca verso direzioni del tutto sbagliate.

Le variabili devono essere tutte ben note e definite così come dovrebbero essere note e definite le correlazioni tra le varie variabili: i dispositivi di IA non sono spesso infatti in grado di riconoscere od escludere tali interferenze autonomamente. È famoso il simpatico episodio del premio IG Nobel per la medicina conferito nel 2019 a Silvano Gallus, ricercatore dell'Istituto Mario Negri, per una ricerca sulla pizza. Una parte consistente della stampa medica divulgativa interpretò lo studio (correttamente descritto dal ricercatore!) come una dimostrazione dell'effetto protettivo della pizza verso vari tipi di cancro e malattie cardiovascolari. Gallus chiarì che l'effetto protettivo non era tanto nella pizza ma nella dieta mediterranea alla quale il frequente consumo di pizza era strettamente correlato1.

Uno studio ha rilevato una situazione clinica in cui l’efficacia predittiva dei sistemi di supporto decisionale è risultata tecnicamente valida ma in pratica fuorviante. In oltre 14.000 pazienti affetti da polmonite sono stati valutati differenti algoritmi per predire il rischio di mortalità. Il risultato è stato che i pazienti con storia di asma erano classificati come a rischio minore di morte rispetto ai non asmatici.

L’inatteso risultato è stato spiegato col fatto che i pazienti con polmonite e storia di asma erano in genere ricoverati in terapia intensiva e la minore mortalità dipendeva probabilmente da una tendenza dei medici a trattarli in modo precoce e con maggiore aggressività. In pratica, si conferma che algoritmi formalmente perfetti possono sbagliare a causa dell’incompletezza e della variabilità dei dati inseriti.2

ChatGPT e gli altri: i modelli linguistici di grandi dimensioni

Il più conosciuto degli LLM che, riprendendo il concetto dalla biologia, stanno effettuando una sorta di radiazione evolutiva, è ChatGPTun chatbot, cioè un software che simula ed elabora le conversazioni umane (scritte o parlate).3

Caratteristica intrinseca a questi modelli, in quanto generativi, è completare l’input di ingresso senza che necessariamente la frase di completamento abbia senso fattuale. L’IA infatti non pensa, non ragiona, è una macchina capace di accumulare dati da cui estrarre quello che si avvicina di più al quesito posto dall’operatore. Ciò, se da una parte accelera la capacità decisionale del clinico, può portare a conclusioni false (bias di ragionamento). In pratica quando i LLM non sanno fornire una risposta se la inventano. Si parla in questi casi di allucinazioni, intese come tendenza dei LLM a produrre contenuti senza senso o fabbricare dettagli che non sono veritieri in relazione al contenuto fornito.

Ciò può essere dovuto a mancanza di comprensione del mondo reale o limitazione del set di addestramento. Sono peraltro evidenti le possibili conseguenze in caso di omissioni o invenzioni di eventi clinici importanti, per esempio una sintesi anomala dei dati di un paziente4.

Sono inoltre possibili fake references, riferimenti bibliografici “falsi”, plausibili ma inesistenti, che non trovano riscontro nei data base online. Uno studio di Stanford rileva che i LLM, ampiamente utilizzati per le valutazioni mediche, non hanno potuto sostenere le loro affermazioni mediante fonti rilevanti. Quattro modelli su cinque hanno prodotto allucinazioni su una percentuale significativa di fonti producendo riferimenti non validi. Questo problema scompare con il modello GPT-4 RAG, che prima esegue una ricerca sul web per le fonti pertinenti prima di produrre un riepilogo dei suoi risultati.

Tuttavia, anche in questo caso, fino al 30% delle affermazioni fatte non sono supportate da alcuna fonte, con quasi la metà delle risposte che contengono almeno un'affermazione non supportata5.

Utilizzo di GPT-4 per diagnosticare casi clinici complessi

Uno studio, eseguito da Alexander V. Eriksen, Sören Möller e Jesper Ryg 6, ha valutato le prestazioni di GPT-4, ultimo modello della classe GPT, nella diagnosi di problemi clinici reali confrontando le sue prestazioni con quelle di lettori di riviste mediche.

GPT-4 ha diagnosticato correttamente il 57% dei casi, superando il 99,98% dei lettori umani simulati generati da risposte online. È evidente il potenziale dell’IA come potente strumento di supporto per la diagnosi; tuttavia, prima dell’implementazione clinica sono necessari ulteriori miglioramenti, validazioni e considerazioni etiche. Sebbene abbia dimostrato risultati promettenti, GPT-4 ha infatti mancato quasi una diagnosi su due. Attualmente, GPT-4 non è specificamente progettato per compiti medici. Tuttavia, si prevede che i progressi sui modelli di IA continueranno ad accelerare, portando a diagnosi più rapide e risultati migliori, che potrebbero migliorare i risultati e l’efficienza in molte aree dell’assistenza sanitaria.

In un altro studio GPT-4, di Kanjee Z, Crowe B, Rodman A., Accuracy of a Generative Artificial Intelligence Model in a Complex Diagnostic Challenge 7, si è confrontato su 70 scenari clinici del New England Journal of Medicine, che hanno una storia di 100 anni, sono pubblicati ogni due settimane, e comportano sfide diagnostiche complesse presentate a medici esperti. Utilizzando un sistema di punteggio a 5 punti, con uno score di 5 corrispondente alla diagnosi esatta e 0 alla diagnosi mancata, lo score medio di GPT-4 è stato pari a 4,2. In 45 casi su 70 (64%) la diagnosi finale era inclusa nella lista delle diagnosi differenziali mentre in 27 su 70 era la diagnosi finale corretta (39%).

I risultati sono abbastanza mediocri, ma i casi del New England sono peraltro estremamente difficili e generalmente non rappresentativi della pratica medica. Potrebbero, tuttavia, essere un utile indicatore per una corretta diagnosi di condizioni rare.

Un approccio alternativo è stato quello di utilizzare scenari di condizioni comuni. In uno studio pubblicato su JAMA8 ai medici venivano presentati 9 scenari di pazienti ospedalizzati per insufficienza respiratoria acuta. I clinici dovevano stabilire la probabilità di polmonite, insufficienza cardiaca o malattia polmonare cronica ostruttiva. I clinici erano randomizzati a utilizzare/non utilizzare un sistema di IA standard (non un LLM) che ha migliorato l'accuratezza diagnostica.

Tuttavia, alcuni scenari hanno utilizzato intenzionalmente modelli sistematicamente distorti, come assegnare una maggiore probabilità diagnostica per la polmonite in base all’età avanzata, il che ha portato a una marcata riduzione dell’accuratezza che non è stata mitigata fornendo al medico le motivazioni della scelta del modello. Questo risultato ha sollevato la questione del cosiddetto bias dell’automazione, per il quale viene riposta acriticamente eccessiva fiducia da parte dei medici nell’IA. Ciò può portare a trascurare errori che normalmente verrebbero rilevati o a delegare in modo inappropriato decisioni complesse agli algoritmi. Peraltro il pregiudizio dei medici nei confronti dell’intelligenza artificiale può andare in entrambe le direzioni.

Un recente studio9 randomizzato che ha coinvolto 180 radiologi, con o senza il supporto della IA, ha valutato l'accuratezza dell'interpretazione delle radiografie del torace. Sebbene i sistemi di IA abbiano superato i radiologi nell’analisi complessiva, è stata riscontrata una marcata eterogeneità, con alcuni radiologi che mostravano “negligenza nell’automazione”: altamente fiduciosi nella propria lettura ignoravano le interpretazioni dell’intelligenza artificiale.

Mentre in questi studi GPT-4 ha utilizzato solo documenti scritti, gli attuali strumenti di IA più specializzati includono altre fonti di dati, tra cui l’imaging, per esempio Med-Gemini di Google e GPT-4 o dove la lettera finale non è uno zero ma una “o”, iniziale della parola omni, in grado di sintetizzare la capacità di interpretare le istruzioni dell’utente fornite tramite testo, audio, immagini e di rispondere in tutte e tre le modalità.

Considerazioni conclusive

Nel complesso l’IA ha il potenziale per migliorare il mondo della medicina in tutti gli ambiti, in particolare l’accuratezza diagnostica. Però l’IA non è né onnipotente né infallibile. Esistono barriere importanti, in alcuni casi veri e propri bias che al momento limitano il suo utilizzo nella pratica clinica. I LLM possono ad esempio produrre e proporre soluzioni sbagliate, le cosiddette allucinazioni, che possono danneggiare gravemente i pazienti.

Un utilizzo improprio dei sistemi di AI potrebbe generare pertanto aspettative illusorie e fuorvianti per sanitari e pazienti. Come già avvenuto diverse volte nella storia dell'umanità, l'uomo si innamora spesso delle proprie scoperte e finisce con il sopravvalutarle, ignorandone i limiti e sottovalutandone i pericoli.

Questo fenomeno psicologico è ben noto agli studiosi di psicologia cognitiva che ne hanno descritto le conseguenze: è il bias della “overconfidence” la sopravvalutazione inconsapevole.

I dati che evidenziano l'accuratezza dell'interpretazione delle immagini mediche con l'IA derivano principalmente da studi retrospettivi. Per l’implementazione nella pratica medica su larga scala, abbiamo bisogno di dati convincenti, soprattutto quando si tratta di fare una diagnosi medica accurata. Per avere fiducia nel ruolo potenziale dell'IA nell'aiutarci ad affrontare l'enorme problema degli errori diagnostici, un'esigenza disperatamente insoddisfatta, sono necessarie prove inconfutabili. Sono dunque indispensabili studi rigorosi, in una logica di ricerca-sperimentazione con outcome assistenziali ben definiti, validati nella reale e spesso disordinata pratica medica quotidiana (G. Tognoni).

Sarebbe ad esempio importante valutare l’accuratezza di un sistema di IA non solo sui dati estratti dalla popolazione con cui è stato addestrato, ma anche sui dati di altri pazienti che provengano da bacini diversi, anche geografici (F.Cabitza). Non è raro infatti osservare un progressivo peggioramento delle prestazioni degli algoritmi quando si coinvolgono pazienti di ospedali diversi o addirittura di altri Paesi del mondo. Ciò può dipendere da vari fattori, dovuti sia al modo in cui vengono raccolti i dati (dalla sensibilità dell’operatore al modello di macchinario) sia alle differenze tra le varie popolazioni oggetto degli studi.

È stato dimostrato che alcuni modelli di machine learning, nel momento in cui escono dagli Stati Uniti per essere adottati in strutture ospedaliere dell’India subiscono un calo rilevante delle prestazioni, dovuto a diversi fattori tra cui la differente qualità delle foto da analizzare.

Si tratta di una sfida epocale per la società, visto che significa anche creare un’IA che deve anche essere comprensibile, cioè in grado di spiegare le proprie scelte, in nome del “diritto alla spiegazione” (Mannelli C, Etica e Intelligenza artificiale. Il caso sanitario, Roma: Donzelli editore, 2002) valido per i medici ma anche per gli altri possibili utenti. Nei confronti dei pazienti l’opacità dei sistemi di IA solleva infatti l’interrogativo di come garantire il rispetto per i diritti delle persone coinvolte, soprattutto quando una decisione presa dall’algoritmo abbia un impatto significativo sulla loro vita.

Note

1 Per approfondire: La pizza, dopo il premio Ig Nobel, continua a far parlare di sé portando sotti i riflettori la dieta mediterranea.
2 Per maggiori informazioni leggere l'articolo di Caruana R et al., Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-day Readmission.
3 Da leggere anche: ChatGPT e medicina.
4 Per approfondire l'argomento leggere l'articolo del dottor Peter Szolovits: Large Language Models Seem Miraculous, but Science Abhors Miracles.
5 Generating Medical Errors: GenAI and Erroneous Medical References.
6 Di seguito lo studio dei dottori Alexander V. Eriksen, Sören Möller e Jesper Ryg: Use of GPT-4 to Diagnose Complex Clinical Cases.
7 Un altro interessante studio di Kanjee Z, Crowe B, Rodman A., Accuracy of a Generative Artificial Intelligence Model in a Complex Diagnostic Challenge.
8 Per avere un quadro completo leggere: Jabbour S, Fouhey D, Shepard S, et al., Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Clinical Vignette Survey Study.
9 Per approfondire: Agarwal N et al., Combining Human Expertise with Artificial Intelligence Experimental Evidence from Radiology.