LLM multi-agente contro i bias nella diagnosi clinica

In un precedente articolo¹ abbiamo analizzato un problema molto rilevante nella pratica medica: il peso dei bias cognitivi nelle decisioni diagnostiche. Molti errori infatti non derivano solo da mancanza di informazioni o di competenze tecniche, ma anche da scorciatoie mentali che portano il clinico a interpretare i dati in modo distorto. Tra questi bias vi sono, per esempio, l’anchoring bias, cioè la tendenza a fissarsi sulla prima ipotesi formulata; il confirmation bias, che porta a cercare solo elementi che confermano l’idea iniziale; l’availability bias, per cui si sovrastimano diagnosi più familiari o recenti; e la premature closure, cioè la chiusura troppo rapida del ragionamento diagnostico.

In un recente studio gli autori si chiedono se i LLM (Large Language Models) possano aiutare a contrastare questi errori, non agendo come un singolo “oracolo”, ma come un sistema di agenti multipli che discutono tra loro in modo simile a un’équipe clinica.

Lo studio usa GPT-4 Turbo all’interno di un framework multi-agente. L’idea è simulare una conversazione tra professionisti con ruoli diversi, in modo da riprodurre la dinamica di un confronto clinico. Gli autori selezionano 16 scenari clinici complessi: 15 provengono da case report pubblicati in letteratura e uno da un’esperienza clinica personale non pubblicata, inclusa per ridurre il rischio che il modello avesse già “visto” il caso durante l’addestramento. I casi scelti avevano tutti una caratteristica comune: una diagnosi iniziale sbagliata attribuita dagli autori del case report a un bias cognitivo, seguita da una diagnosi finale corretta.

Inoltre, i ricercatori si limitano a fornire al sistema soltanto le informazioni disponibili fino al momento della diagnosi errata iniziale, escludendo esami e sviluppi successivi, così da ricreare il contesto di incertezza reale in cui si verificano gli errori.

Gli autori testano tre configurazioni del sistema. La prima, chiamata Framework 3, prevede tre agenti: un Junior Resident I, incaricato di formulare la diagnosi iniziale e poi quella finale; un Junior Resident II, che svolge il ruolo di “avvocato del diavolo” e mette in discussione la prima ipotesi; e un Recorder, che riassume il confronto. La seconda, Framework 4, aggiunge un Professional Expert, cioè uno specialista di settore utile quando il caso richiede competenze particolari. La terza, Framework 4-C, sostituisce lo specialista con un Senior Doctor che non solo facilita la discussione, ma ha il compito esplicito di individuare i bias cognitivi e di correggere il processo di ragionamento.

Gli autori sottolineano che avevano provato anche configurazioni con cinque o più agenti, ma gli agenti aggiuntivi partecipavano poco o in modo inefficace, per cui hanno fissato il massimo a quattro. In pratica abbiamo un medico “principale”, un contestatore, un facilitatore esperto e un registratore finale.

Il criterio principale di valutazione è l’accuratezza diagnostica. Ogni scenario viene ripetuto cinque volte in ciascun framework, per verificare anche la coerenza delle risposte. Gli autori confrontano poi i risultati del sistema multi-agente con quelli di tre medici umani con almeno cinque anni di esperienza clinica, ai quali viene chiesto di proporre la diagnosi principale e due diagnosi differenziali. La correttezza viene valutata da due medici revisori, con discussione fino al consenso nei casi dubbi. Vengono considerate corrette solo le diagnosi che corrispondono davvero alla diagnosi finale del caso, mentre risposte vaghe o troppo generiche vengono segnate come scorrette.

In totale vengono analizzate 240 risposte del sistema multi-agente. La diagnosi iniziale formulata dal primo agente, prima della discussione, è sbagliata in tutti i casi: 0 su 80 in tutte e tre le configurazioni. Questo dato è importante perché conferma che i casi scelti erano davvero “trappole diagnostiche”, costruite o selezionate proprio per mettere in luce i bias. I medici umani, invece, ottengono una correttezza iniziale del 27% e una correttezza finale del 48%. Dopo la discussione tra agenti, però, il sistema migliora in modo netto: il Framework 3 arriva al 64%, il Framework 4 al 69% e il Framework 4-C al 76%. Quest’ultimo risultato è statisticamente superiore a quello umano, con odds ratio di 3,49 e P = 0,002. In altre parole, la configurazione con quattro agenti e con un “senior doctor” esplicitamente dedicato a riconoscere i bias è quella più efficace.

L’articolo descrive anche la varietà dei casi clinici. I 16 scenari coprono molte aree della medicina: malattie infettive, terapia intensiva, patologie vascolari, neurologia, ginecologia, oncologia, urologia ed endocrinologia. In 12 casi su 16, la diagnosi corretta apparteneva a una disciplina diversa da quella suggerita inizialmente, segno che molti errori nascono proprio quando il ragionamento si restringe troppo presto a un ambito specialistico. Un esempio riportato è il caso di una donna anziana con dispnea e tosse, inizialmente interpretate come scompenso cardiaco ma poi ricondotte a tubercolosi miliare.

Un altro caso emblematico è quello di una giovane donna con dolore toracico pleuritico, inizialmente etichettato come embolia polmonare: grazie al confronto multi-agente, il sistema arriva invece alla diagnosi corretta di pneumotorace, riconoscendo che l’interpretazione iniziale della radiografia era fuorviante. La diagnosi preliminare conduce alla risposta sbagliata, mentre la discussione strutturata tra agenti porta alla correzione.

Un altro elemento interessante è che il sistema non dà sempre esattamente la stessa risposta nelle ripetizioni, ma nella maggior parte dei casi resta vicino alla diagnosi corretta. Gli autori riportano, ad esempio, un caso di acidosi lattica in cui il confronto multi-agente individua la carenza di tiamina come diagnosi più probabile in tre simulazioni su cinque e come seconda ipotesi in altre due. Complessivamente, in 13 dei 16 scenari le discussioni riescono a far emergere la diagnosi finale corretta e a identificare i bias principali coinvolti. Questo suggerisce che il vantaggio del sistema non dipende solo dalla “memoria” del modello, ma dalla struttura dialogica che obbliga a riesaminare ipotesi, incoerenze e alternative.

Nella discussione, gli autori sostengono che il valore del framework sta nel creare un’analisi multi-prospettica simile alla collaborazione tra professionisti reali. Invece di affidarsi a un’unica risposta generata da un LLM, il sistema produce una piccola deliberazione interna: qualcuno propone, qualcuno contesta, qualcuno riconosce il bias, qualcuno sintetizza. Questo meccanismo potrebbe avere un’utilità sia educativa sia pratica. Da un lato, leggere questi dialoghi può aiutare studenti e clinici a riconoscere i propri errori di ragionamento; dall’altro, in futuro un sistema simile potrebbe essere integrato nelle cartelle cliniche elettroniche per offrire un supporto decisionale in tempo reale. Gli autori, però, chiariscono che l’obiettivo non è sostituire il medico, ma affiancarlo, migliorando il ragionamento e riducendo gli errori evitabili.

Lo studio ha comunque limiti importanti. Il numero di casi è piccolo e basato soprattutto su case report, quindi la generalizzabilità resta incerta. Mancano inoltre dati visivi come immagini radiologiche reali, che nella pratica sono spesso decisive. C’è poi il rischio che alcuni casi pubblicati fossero già presenti nei dati di addestramento del modello. Infine, gli LLM restano soggetti a limiti tecnici, possibili allucinazioni e difficoltà nel cogliere tutte le sfumature del linguaggio medico. Per questo gli autori concludono che servono ulteriori studi in contesti clinici reali e una forte supervisione etica e regolatoria.

Nel complesso, però, il messaggio dell’articolo è chiaro: un sistema multi-agente basato su LLM, progettato per mettere in discussione il ragionamento e smascherare i bias, può migliorare in modo significativo l’accuratezza diagnostica nei casi più insidiosi.

Note

¹ Processi decisionali diagnostici, Meer, 2 maggio 2024.

Riferimento bibliografico

Ke Y, Yang R, Lie SA, Lim TXY, Ning Y, Li I, Abdullah HR, Ting DSW, Liu N., Mitigating Cognitive Biases in Clinical Decision-Making Through Multi-Agent Conversations Using Large Language Models: Simulation Study. J Med Internet Res 2024;26:e59439, doi: 10.2196/59439.