I sistemi di intelligenza artificiale (IA) hanno ottenuto indiscutibili risultati praticamente in qualunque ambito medico e, secondo molti esperti, possono migliorare significativamente la qualità delle cure mediche, in particolare nell’obiettivo, forse irraggiungibile, di eliminare gli errori umani. Presentiamo in questa sede alcuni scenari emblematici per evidenziare le potenzialità ma anche i limiti dell’utilizzo della IA nella riduzione degli errori diagnostici. Gli umani infatti soffrono di bias cognitivi ma anche gli algoritmi hanno potenziali sorgenti di errore.
In questa prima parte esaminiamo il supporto della IA nella diagnostica radiologica, basandoci sul testo: Rossi RL, Collecchia G, De Gobbi R, Fassina R, Zamperini D, L’errore medico – Un percorso fra bias cognitivi, aspetti etici e conseguenze legali, Roma: Il Pensiero Scientifico Editore, 2025.
La combinazione tra carenza di medici e crescente complessità delle possibilità tecnologiche rappresenta una sfida significativa per una diagnostica tempestiva e accurata. Numerosi studi hanno dimostrato che algoritmi di deep learning, istruiti attraverso la scansione di enormi database di immagini radiologiche, hanno raggiunto un livello di accuratezza superiore a quello di radiologi usati come confronto.
I sistemi di IA hanno dimostrato di essere accurati e attendibili in tempi eccezionalmente rapidi, in particolare, per attività che richiedono molto tempo o sono faticose per i professionisti sanitari. In un ampio trial randomizzato, condotto su oltre 80.000 donne svedesi sottoposte a screening mammografico per il cancro della mammella, l’uso dell’IA ha migliorato l’accuratezza diagnostica rispetto alla doppia lettura di routine delle mammografie da parte di due radiologi esperti. Ciò sottolinea il potenziale dell’IA nel rendere lo screening mammografico più accurato ed anche efficiente.
Il sistema ha infatti ridotto il carico di lavoro di lettura delle mammografie del 44%. In realtà la valutazione dell’efficienza dei sistemi di IA dovrebbe comprendere non solo l’accuratezza ma anche altre componenti quali la necessità del supporto di infrastrutture tecniche, di esperti IT e data scientist, per mantenere i sistemi aggiornati e ridurre la possibilità di errore. La necessità di formazione continua e nuove responsabilità si aggiungeranno ai normali programmi di lavoro, aumentando il carico complessivo.
Un problema importante è quello della sovradiagnosi: a volte le immagini evidenziate da sistemi ad alta sensibilità possono avere scarsa rilevanza clinica e aumentare i tassi di falsi positivi. La responsabilità della diagnosi, anche da un punto di vista legale, è inoltre sempre a carico del medico, che per questo tende a preferire un atteggiamento prudenziale che spesso coincide con la richiesta di esami aggiuntivi.
Come afferma F. Cabitza, sarebbe importante sviluppare interfacce che permettano al medico di capire perché la macchina suggerisce determinate diagnosi. Uno dei temi più dibattuti nel coinvolgimento dell’IA nei processi decisionali è infatti relativo all’explainability, che riguarda la possibilità di comprendere il percorso che conduce la tecnologia a formulare una determinata conclusione. Per esempio, l’interfaccia di un algoritmo chiamato a pronunciarsi su una mammografia potrebbe evidenziare quali sono le zone dell’immagine che lo hanno spinto a propendere per una certa diagnosi.
In questo modo il medico non si affida totalmente alla macchina, ma riesce a capire che cosa essa sta osservando.
L’obiettivo dovrebbe essere quello di riuscire a instaurare una forma di dialogo tra l’intelligenza artificiale e il medico.
I limiti degli algoritmi
Una delle limitazioni che pregiudicano, almeno in parte, l’impiego di sistemi di AI in medicina e, in particolare, lo sviluppo di strumenti diagnostici sono i bias di selezione nella scelta dei campioni su cui tali sistemi vengono istruiti. Questi vengono propagati e amplificati e rendono l’algoritmo non direttamente applicabile alla pratica quotidiana. Non sono infatti le tecnologie ad essere decisive ma la capacità di estrarre valore dal loro uso. I dati di per sé sono inutili.
Parafrasando il premio Nobel per l’economia Ronald Case,
Se torturi i dati abbastanza a lungo, confesseranno qualsiasi cosa.
Il dato non è un’entità chiusa, “data”, ma un costrutto sociale, risultato concreto di specifiche scelte culturali, sociali, tecniche ed economiche messe in campo da individui, istituzioni o società per raccogliere, analizzare e utilizzare informazione e conoscenza. Lo stesso concetto di raw data (dato grezzo) è un ossimoro: non esiste il dato non contaminato da teoria, analisi o contesto, ma è sempre frutto di operazioni e elaborazioni di varia natura. Affinché possano essere realmente utili, devono essere selezionati, strutturati e interpretati.
I dati riflettono spesso i pregiudizi e i preconcetti che caratterizzano le opinioni di coloro che sviluppano gli algoritmi, soprattutto di tipo razziale, di genere, geografici e socioeconomici (bias impliciti). Osservando i fenomeni sociali attraverso l’enorme mole di dati disponibile, i modelli matematici “apprendono” queste ingiustizie e le scolpiscono nella pietra digitale.
Per esempio gli algoritmi scotomizzano le sotto-popolazioni statisticamente poco rilevanti, per le quali cioè sono disponibili minori quantitativi di dati. In pratica i risultati dell’elaborazione risultano validi solo per i campioni più grandi, ignorando i dati riguardanti popolazioni sottorappresentate nel dataset (bias di campionamento).
Nei trial clinici sono per esempio maggiormente rappresentati bianchi maschi, e ciò può aumentare le diseguaglianze di salute. Algoritmi disallineati con i principi e i valori umani hanno già messo a repentaglio la salute di milioni di persone. Ad esempio, l’obiettivo dichiarato di un algoritmo commerciale utilizzato nel sistema sanitario statunitense era identificare i pazienti che avrebbero beneficiato di cure aggiuntive.
Tuttavia, questo algoritmo ha utilizzato i costi sanitari come misura del bisogno sanitario, dando la priorità ai pazienti bianchi rispetto ai pazienti neri più malati, molti dei quali hanno dovuto affrontare maggiori ostacoli all’accesso alle cure. Errori come questo destano serie preoccupazioni nella comunità medica e non solo. Dati su popolazioni che contengano pigmentazioni diverse da quella caucasica possono fornire standard di cura inferiori per la popolazione afroamericana (ethnicity bias). Inoltre possono risultare inattendibili i dati dei pazienti di basso stato socio-economico Un grande volume di dati non corrisponde pertanto automaticamente ad una migliore qualità delle inferenze e delle applicazioni che da queste derivano.
Il valore dei dati non è soltanto nella loro ampiezza ma nella validità del percorso che ha portato alla loro misurazione, al fine di non giungere ad inferenze causali sbagliate che potrebbero determinare una scarsa generalizzabilità dei risultati e quindi potenziali gravi errori diagnostici oltre che sottrazione di risorse nei confronti di interventi di dimostrata efficacia.