Overconfidence, Hindsight Bias, Outcome Bias e Retrognosi

 


Un medico capace di formulare giudizi diagnostici sempre corretti è un medico ideale, ma non reale. Nella realtà i giudizi medici sono spesso gravati da errori, le cui cause possono possono essere distinte in due grandi categorie:
– errori casuali
– errori sistematici (non casuali), detti bias
 
Nella sezione "Biases, Logic and Metaphysics" ho preso in considerazione che cosa tende a distorcere le nostre credenze e a sovvertire la logica, nonostante l’evidenza contraria. Adesso parleremo di alcuni errori sistematici  (bias) di cui è gravato il giudizio medico:

overconfidence: sovrastimare la probabilità che le proprie ipotesi siano corrette
underconfidence: sottostimare la probabilità che le proprie ipotesi siano corrette
hindsight bias (o bias “del senno di poi”)
outcome bias
 
Questi bias, anche se classificati separatamente, sono altamente interconnessi tra di loro.

 
Overconfidence and underconfidence
Le ricerche che studiano, se le persone esprimono giudizi calibrati, prendono in esame gli ambiti più disparati (psicologia clinica, analisi finanziaria, perizie legali, giochi d’azzardo, metereologia ecc.). In generale, i giudizi ben calibrati sono l’eccezione, e non la regola. Molti esperimenti documentano una sistematica sovrastima dell’affidabilità delle proprie ipotesi: è normale osservare che sia persone comuni che esperti si dichiarino certi al 100% di giudizi che si rivelano poi corretti in non più dell’80% dei casi (Fischhoff, Slovic, Lichenstein, 1977).
Lo stesso fenomeno è riscontrabile in riferimento ai giudizi clinici. Una ricerca sul campo ormai classica riguardava nove medici e un totale di 1531 pazienti con una forma acuta di tosse. (Christensen, Szalanski, Bushyhead, 1981). I medici dovevano stimare la probabilità che ogni paziente soffrisse di polmonite sulla base dell’esame fisico e dei dati raccolti riguardo alla storia clinica (ogni paziente veniva visitato da un solo medico). Per determinare la validità delle stime, tutti i pazienti venivano poi sottoposti ad una radiografia del torace (comunemente considerata un test definitivo per la diagnosi di polmonite, il cosiddetto gold standard). Anche nei casi in cui i medici stimavano come superiore o molto superiore al 50% la probabilità che la diagnosi di polmonite fosse corretta, la percentuale di casi di polmonite acclarata con Rx del torace (il nostro gold standard), restava ampiamente al di sotto del 30%.  Quindi quando i medici considerano la diagnosi di polmonite probabile al 50% o più, meno del 30% dei corrispondenti pazienti ne sono realmente affetti.
 
A distanza di qualche tempo, ai medici che avevano partecipato a questo studio è stato chiesto di valutare su una scala da -50 (valore associato alla cosa peggiore che io possa fare) a +50 (valore associato alla cosa migliore che io possa fare) ognuno dei quattro scenari seguenti:
– Assegnare la diagnosi di polmonite ad un paziente che in realtà ne è affetto (sensibilità pari a 1)
– Escludere la diagnosi di polmonite in un paziente che in realtà non ne è affetto (specificità pari a 1)
– Assegnare la diagnosi di polmonite in un paziente che in realtà non ne è affetto
– Escludere la diagnosi di polmonite in un paziente che in realtà è affetto

Le risposte a queste domande permettono di escludere che nella prima indagine sulla diagnosi di polmonite i medici possano aver dato stime di probabilità eccessivamente alte per la preoccupazione di non lasciarsi sfuggire alcuno dei pazienti realmente malati (ovverosia hanno cercato di aumentare la "sensibilità" diagnostica, che significa diminuire la probabilità di avere veri negativi), anche a costo di incrementare i falsi allarmi (diminuire la specificità, cioè aumentare i falsi positivi). Se questa spiegazione fosse corretta, infatti, i medici avrebbero dovuto valutare lo scenario (1) più desiderabile del (2) e lo scenario (4) più grave del (3). Al contrario, non si osservò alcuna differenza significativa nel valore che i medici assegnarono ai due tipi di giudizi corretti, né nella valutazione della gravita che essi associarono ai due diversi tipi di errore. Da ciò possiamo inferire che la distorsione dei giudizi verso la sovrastima è di tipo cognitivo e non motivazionale. (Christensen-Szalanski, Bushyhead 1981, p. 364).
In un altro lavoro sono stati indagati casi di sospetta batteriemia (la presenza di batteri nel sangue). I medici partecipanti avevano ordinato ad alcuni loro pazienti esami per la coltura di organismi batterici in campioni di sangue (emocoltura). Poco dopo che gli esami erano stati prescritti si chiedeva ai medici di stimare sulla scorta dell'esame clinico la probabilità che i risultati rivelassero la presenza di batteriemia. I medici coinvolti in questa ricerca erano in totale 34, i pazienti 227. Per i 71 pazienti per cui le stime dei medici variavano fra il 16% e il 40% (media: 26,8%), l’effettiva proporzione di casi di batteriemia documentata dagli esami era del 4,2%. Per il gruppo di 74 pazienti per cui le stime variavano fra 41% e 99% (media: 62%), l’effettiva proporzione di casi di batteriemia era del 12,2%; solo due dei cinque pazienti (dunque il 40%) per i quali i medici si erano detti certi della diagnosi di batteriemia (stima di probabilità = 100%) risultarono effettivamente positivi ai test.
Come si può constatare, l’overconfidence rappresenta un problema serio per il giudizio degli esperti. Persiste, e talvolta risulta persino aggravata, in condizioni che intuitivamente dovrebbero contenerne gli effetti. Per esempio, si è potuto osservare che l’esperienza clinica tende ad accrescere l’overconfidence, anziché ridurla. Nei più esperti, cioè, la sovrastima dell’accuratezza delle proprie opinioni professionali è spesso maggiore che nei meno esperti ,come documentato da uno studio svolto a Cleveland con 198 medici alle prese con 864 pazienti in condizioni cliniche critiche. (Dawson e al.,1993).
A prima vista può apparire naturale interpretare la sicurezza soggettiva che un medico ripone nel suo giudizio come un indice dell’accuratezza di quel particolare giudizio. Questo presupposto svolge un ruolo decisivo nella comunicazione fra medico e paziente. Gli studi cognitivi sull’overconfidence mettono seriamente in discussione questa assunzione di senso comune: la sicurezza soggettiva del medico (misurata dalle stime probabilistiche che lui offre riguardo alla diagnosi) non sempre è un indice dell’affidabilità delle sue ipotesi.
Una plausibile ipotesi di lavoro individua nella tendenza a non tenere in considerazione le probabilità iniziali una delle cause principale dell’overconfidence (Koehler, Brenner, Griffin 2002). Vediamo qual è la possibile connessione fra i due fenomeni.
A scopo illustrativo, immaginiamo che un medico debba stimare la probabilità di un’ipotesi H (una diagnosi, una prognosi, o altro) alla luce della presenza di un indicatore clinico mediamente rilevante e, per esempio presente in 6 su 10 casi se l’ipotesi H è vera e solo in 2 su 10 se l’ipotesi H è falsa. Le ricerche mostrano che è probabile che egli basi la sua stima prevalentemente sui dati clinici del caso individuale e trascuri p(H), comportandosi come se la probabilità iniziale di H e di non-H si aggirassero intorno al 50%. (Wallsten, 1981). Facendo un’assunzione di questo tipo, il medico potrebbe concludere che la probabilità di H alla luce di e è di 6 contro 2, cioè del 75% (6
diviso per 6+2). Ma se la corretta probabilità iniziale fosse molto bassa, diciamo del 10% (su un totale di 10 casi, 1 contro 9), il medico avrebbe drammaticamente sopravvalutato la probabilità di H alla luce di e. Infatti, per il teorema di Bayes in forma di rapporti (R):

p(H|e)              6     1       6
———— = — . — = —-
p(non-H|e)       2     9     18

Il che significa che la probabilità di H alla luce di e è in realtà del 25% (6 diviso per 6+18), cioè un terzo di quella stimata.
Viceversa, se la probabilità iniziale corretta fosse piuttosto alta, diciamo dell’80%, il medico avrebbe significativamente sottovalutato la probabilità che l’ipotesi sia corretta. Infatti, in questo caso:
p(H|e)             6     8       48
———— = — . — = —–
p(non-H|e)      2     2        4

Il che implica che stavolta p(H|e) va a più del 92% (48 diviso per 48+4).

Prediamo l’esempio di una suora di 40 anni di età ed di una ragazza di 22 anni di età. Facciamo ad entrambe il test per la sifilide. Come sappiamo il test per la sifilide è gravato da falsi negativi e falsi positivi. Sappiamo ogni qualvolta il test esce positivo vi sarà un 20% dei pazienti che non è affetto dalla sifilide (falsi positivi). Sappiamo inoltre che quando il test è negativo ci sarà comunque un 10% dei pazienti che è affetto dalla sifilide (falsi negativi). Ammettiamo che il test esca positivo per la suora e negativo per la ragazza di 22 ani. Se teniamo conto solo del test e della sua sensibilità e specificità, daremo alla suora l’80% di probabilità di essere affetta da sifilide e alla ragazza il 10%. Se invece teniamo conto dell’anamnesi (suora non mai fatto sesso versus ragazza promiscua sessualmente, oppure suora brasiliana versus ragazza che non ha mai fatto sesso, ecc.) avremo una probabilità pre-test con cui meglio interpretare i risultati del test e le probabilità del test stesso. Se la suora è vergine e la ragazza è promiscua allora le probabilità post-test non saranno le stesse e siamo autorizzati a fare ulteriori indagini. Se invece la suora dice di avere avuto una vita sessualmente promiscua allora il test può essere considerato diagnostico molto di più dell’80%.
E’ quello che dice il teorema di Bayes. La probabilità del test deve essere sommata alla probabilità pre-test (probabilità a priori), ciò ai fini di ridurre gli errori.
Per illustrare come giudizi più o meno calibrati possano dipendere dal trascurare le probabilità iniziali è utile considerare i risultati ottenuti in uno studio condotto nel 1997 in tre diversi ospedali americani (Poses et al. 1997). I medici coinvolti hanno fornito stime di probabilità relative a più di mille pazienti colpiti da insufficienza cardiaca acuta riguardo a due esiti prognostici: sopravvivenza a tre mesi (90 giorni) e sopravvivenza a un anno. I giudizi dei medici sono stati meglio calibrati nel secondo compito che non nel primo. Per esempio, fra i pazienti cui i medici assegnavano una probabilità di sopravvivenza del 60% a tre mesi, quasi l’80% sopravviveva realmente (underconfidence), mentre le loro stime di una probabilità di sopravvivenza del 60% a un anno rispecchiavano fedelmente il tasso di sopravvivenza realmente osservato nel gruppo di pazienti corrispondente.
Come si può spiegare questa strana forma di “presbiopia predittiva” ? Previsioni più accurate per un futuro più lontano? La chiave dell’enigma potrebbe risiedere proprio nelle probabilità iniziali. In questo campione di pazienti colpiti da insufficienza cardiaca acuta, il tasso generale di sopravvivenza a tre mesi era piuttosto alto (81%).
Ammettendo che i medici lo abbiano trascurato, ci si dovrebbe aspettare precisamente che essi forniscano stime di probabilità di sopravvivenza sistematicamente pessimistiche (cioè non calibrate per difetto), come in effetti è avvenuto. Per contro, per quegli stessi pazienti il tasso di sopravvivenza a un anno era , come si può immaginare, sensibilmente inferiore (64%). Ci si dovrebbe perciò aspettare che gli effetti del trascurare le probabilità iniziali siano in questo caso più
modesti, e le stime dei medici migliori. E, come abbiamo visto, questo è proprio quanto si e osservato.
Vari studi condotti in ambito medico illustrano una preoccupante e sistematica overconfidence in problemi con probabilità iniziali molto basse (soprattutto eventi patologici rari nelle popolazioni di riferimento), (Bobbio et al. (1992), DeSmet, Fryback, Thornbury (1979) e Poses et al. (1985)). Una significativa underconfidence in presenza di probabilita iniziali alte (per esempio, per previsioni di mortalità in reparti di terapia intensiva), (Arkes et al. (1995), Detsky et al. (1981), McClish,
Powell (1989) e Poses et al. (1990).  Giudizi relativamente ben calibrati quando le probabilita iniziali sono moderate (non troppo lontane da 50%) ( MacKillop, Quirt (1997), Tierney et al. (1986) e Weeks et al. (1998)).
E improbabile che questi risultati riflettano la mancata conoscenza della probabilità iniziale pertinente (cioè della prevalenza della condizione in questione nella popolazione di riferimento) da parte dei medici, perché negli studi in cui viene chiesto loro espressamente di stimare questo tipo di dati i medici sono normalmente piuttosto accurati, con valutazioni spesso vicine a quelle fornite dalla letteratura scientifica. E pertanto più plausibile pensare che l’errore che distorce i giudizi risieda non nella disponibilità dell’informazione, quanto nell’elaborazione dell’informazione disponibile.
La diffusione dell’overconfidence negli studi sul giudizio medico potrebbe quindi almeno in parte rispecchiare il fatto che le condizioni da diagnosticare o prevedere sono spesso relativamente rare nelle popolazioni di riferimento. Poiché la bassa probabilità iniziale, anche se nota, viene trascurata, le conseguenze della presenza di dati clinici specifici risultano sopravvalutate. Nei casi in cui le probabilità iniziali sono alte tenderebbe invece a verificarsi il fenomeno opposto.
Si noti che entrambi i tipi di giudizi scarsamente calibrati (per eccesso oppure per difetto) rappresentano un potenziale problema in relazione all’impiego efficace di strumenti di sostegno per la diagnosi e la decisione medica, che si tratti di tecniche formali, linee-guida cartacee, sistemi informatici, o altro ancora. Il punto e che l’utilità effettiva di questi strumenti non sempre è percepita dall’utente: in particolare, se il medico sottostima la propria accuratezza, ricorrerà a strumenti di sostegno anche quando potrebbero essere superflui (disperdendo risorse); se invece la sovrastima, non vi farà ricorso, e le sue prestazioni saranno soggette a errori che si sarebbero potuti evitare.


Imparare dall’esperienza: Retrognosi, hindsight bias, out come bias
Chiediamoci ora come sia possibile che una sistematica sopravvalutazione delle proprie abilità di giudicare possa protrarsi nel tempo. Sul lungo periodo, infatti, è ragionevole immaginare che essa possa essere corretta ed eliminata sulla base dell’informazione che l’ambiente fornisce circa la frequenza dei nostri errori di valutazione. Come ora vedremo, uno dei motivi per cui è possibile che
sopravvalutiamo sistematicamente ciò che sappiamo è il fatto che sopravvalutiamo sistematicamente ciò che sapevamo o che avremmo potuto sapere.
L’esperienza di tutti i giorni ci insegna che c’e una grossa differenza fra predire gli sviluppi futuri di una situazione (prognosi) e spiegare il corso di eventi già accaduti (retrognosi). Col "senno di poi", infatti, siamo tutti più bravi.
Gli esseri umani sembrano avere una speciale attitudine a dare senso agli eventi passati, descrivendoli come conseguenze inevitabili (o quasi) di condizioni che erano presenti fin dall’inizio. Talvolta, questo nostro peculiare talento ci induce a credere fallacemente che fatti già avvenuti si sarebbero potuti (o dovuti) prevedere, data la situazione nota in anticipo. Quello che chiamiamo “senno di poi” si fonda spesso su un fatalismo riguardo al passato che è il frutto inconsapevole e fuorviante di uno sguardo retrospettivo. Questo fenomeno è noto agli psicologi cognitivi come “hindsight bias”, vale a dire una sorta di distorsione retrospettiva del giudizio,  messa in luce in una serie di ingegnosi lavori sperimentali da Baruch Fischhoff (1975 e 1980).
L’hindsight bias proietta sul piano della pratica medica le considerazioni di senso comune esposte in precedenza, e mette in evidenza come ragionare con il senno di poi possa incidere negativamente sull’affidabilità dei giudizi, e ridurre seriamente le possibilità di imparare dall’esperienza clinica.
In una importante indagine sull’argomento, condotta presso il Medical College del Wisconsin, si presentava a quindici medici il seguente problema (Arkes et al. 1981).
Questa e la descrizione di un caso clinico.  Vorremmo che la leggessi e decidessi quale probabilità avresti assegnato a ciascuna delle quattro possibili patologie, se ti fossi trovato a fare una diagnosi. Assegna una probabilità a ogni diagnosi, accertandoti che le probabilità sommino al 100%.
Un barista di trentasette anni è stato in buona salute finché recentemente ha sviluppato un dolore di crescente intensità al ginocchio sinistro, che e diventato caldo e gonfio. Qualche giorno dopo si sono manifestati dolore, gonfiore e calore al polso sinistro e al ginocchio destro. L’esame fisico ha in effetti rivelato gonfiore, riscaldamento e versamento a entrambe le ginocchia e al polso sinistro. Non ci sono deformità. Il fegato risulta ingrandito di due centimetri al di sotto del livello del costato. I risultati dell’esame emocromocitometrico sono normali. L’esito del test della velocità di eritrosedimentazione (VES) è 30 mm. Un Latex test è risultato negativo. Non sono ancora disponibili i risultati dei test CHEM-7 sul siero sanguigno e degli antigeni HbsAg. Il liquido sinoviale risulta contenere 20.000 globuli bianchi per mm cubo, con 80% di neutrofili e bassa viscosita. Si è trovato pus in eccesso nelle urine. Febbre a38 gradi Celsius.
Ora ti chiediamo di assegnare a ognuna delle quattro possibili diagnosi la probabilità che ritieni avresti assegnato. Accertati che le probabilità sommino a 100%.
. sindrome di Reiter (incompleta)
. artrite batterica da streptococchi
. gotta
. epatite da siero in fase anitterica

In media, i partecipanti assegnarono alla diagnosi di epatite da siero una probabilità del 16% circa. Le risposte ottenute da questo gruppo rispecchiano giudizi clinici in una condizione di autentica incertezza. Per contro, un secondo gruppo di quindici medici affrontava un questionario del tutto simile, tranne che per una importante differenza: in questo caso, la frase di apertura era questa è la descrizione di un caso di epatite da siero in fase anitterica. Stavolta, tredici medici su quindici assegnarono alla diagnosi di epatite una probabilità significativamente maggiore del 16%, con una media del 38%. Si è quindi potuto osservare un risultato simile con un’altra della quattro diagnosi (artrite batterica da streptococchi) in un ulteriore campione di quindici medici (media delle stime: 11% nel gruppo di controllo originario, 31% nel gruppo di studio con il questionario modificato).
Il solo fatto di sapere a posteriori quale era la diagnosi corretta, ci induce a ritenere sistematicamente più probabile quella diagnosi alla luce dei dati clinici che erano disponibili fin dal principio. In altre parole: le stesse informazioni inizialmente a disposizione per una previsione sembrano indicare con più forza verso un certo esito dopo aver scoperto che quel particolare esito si è verificato.
Dati sperimentali come quelli descritti hanno importanti implicazioni riguardo alle formazione dei medici. Per esempio, le “conferenze clinico patologiche” sono state considerate un utile strumento educativo, e in molte istituzioni sono parte integrante della formazione medica. In una conferenza clinicopatologica, si chiede a un medico di formulare una diagnosi riguardo a un certo paziente reale (anonimo) sulla base della storia clinica e dei risultati di alcuni esami preliminari. In seguito, si rivela all’uditorio la diagnosi corretta. L’idea è che l’esposizione a questo tipo di esercizio “per casi concreti” possa incoraggiare una valutazione critica delle proprie capacita diagnostiche. Il fenomeno dell’hindsight bias mette però in discussione questa possibilità. Infatti, quando il caso viene presentato, un partecipante potrebbe stimare la probabilità della diagnosi che si rivelerà corretta in una certa misura. Ma, se interrogato dopo che la soluzione è stata svelata, spesso egli sarà convinto che, dovendo affrontare un caso come quello discusso, avrebbe certamente associato a quella diagnosi una stima di probabilità più alta. In questo modo egli si inganna sulla reale qualità del suo giudizio clinico. E l’inganno può essere sistematico.
La rilevanza di queste osservazioni e stata mostrata in uno studio che ha coinvolto centosessanta partecipanti di conferenze clinicopatologiche tenutesi presso il Cleveland Metropolitan General Hospital (Dawson et al. 1988). Una parte di loro valutava la probabilità delle principali alternative di diagnosi prima che la diagnosi corretta venisse comunicata: solo nel 30% dei casi la diagnosi corretta era classificata come la più probabile. Un secondo gruppo di soggetti svolgeva lo stesso compito dopo che la diagnosi corretta era stata comunicata: questa volta il 50% era pronto a dichiarare che quella era la più probabile alla luce del quadro clinico inizialmente a disposizione.
Gli studi hanno inoltre documentato che uno sguardo retrospettivo (retrognosi) può avere un’influenza fuorviante sul modo in cui valutiamo non solo i giudizi, ma anche le decisioni (prognosi).
Consideriamo due casi di una stessa operazione chirurgica (come un taglio cesareo) nei quali viene effettuato un certo intervento anestesiologico (per esempio, l’anestesia spinale). Assumiamo che i due casi siano fra loro identici (condizioni cliniche della paziente, tipo di intervento praticato, dosi impiegate ecc.), tranne che per un aspetto: in un caso si verifica una complicazione che produce un esito clinico avverso temporaneo (per esempio, un arresto cardiaco durante l’operazione, a seguito del quale la madre e il neonato si riprendono pienamente); nell’altro caso, invece, lo stesso tipo di complicazione produce un esito clinico avverso permanente (per esempio, l’arresto cardiaco causa la morte della partoriente e danni cerebrali al neonato). In un sofisticato esperimento, un gruppo di studiosi del Virginia Mason Medical Center e della Facoltà di Medicina dell’Università di Washington ha costruito, a partire da episodi reali, ventuno coppie di casi simili a quella appena descritta. (per la prima osservazione sistematica e la definizione del fenomeno noto come “outcome bias” (si veda Baron, Hershey, 1988). Centododici anestesisti sono quindi stati suddivisi in due gruppi. Ai partecipanti del primo gruppo venivano presentati ventuno casi, ognuno dei quali selezionato casualmente all’interno di ciascuna delle due possibilità (esito avverso temporaneo oppure permanente). Ai partecipanti del secondo gruppo venivano presentati i ventuno casi restanti. Il compito dei medici era quello di esprimere una valutazione sul trattamento anestesiologico praticato in ognuno dei casi che si trovavano di fronte, classificandolo come “appropriato”, “non appropriato”, o “impossibile da giudicare”.
I risultati di questa indagine mostrano che il senno di poi distorce significativamente la valutazione dell’appropriatezza di una specifica decisione clinica. Si è infatti potuto rilevare che, in ben quindici delle ventuno coppie di casi considerati, la valutazione era prevalentemente positiva (intervento appropriato) in presenza di un danno temporaneo, e prevalentemente negativa (intervento inappropriato) in presenza di un danno permanente . A dispetto del fatto che, come abbiamo detto, i due casi erano identici tranne che per l’estensione del danno procurato. Un danno permanente rende pertanto il giudizio a posteriori molto più severo del giudizio basato sugli stessi elementi qualora l’esito dell’intervento si sia rivelato meno grave.

Se dall’esperienza non si impara…influenza della retrognosi sulla prognosi
Considerare i successi e fallimenti dei nostri giudizi, e delle decisioni basati su di essi e un meccanismo fondamentale dell’apprendimento e della crescita della conoscenza, e in molti casi e un esercizio perfettamente razionale che ci riesce con successo. Gli esperimenti appena descritti mostrano pero che in determinati contesti, ben documentati e prevedibili, questa naturale attitudine può essere sistematicamente distorta dal senno di poi.
Con il senno di poi è relativamente facile concludere (spesso erroneamente) che noi avremmo saputo giudicare e scegliere in modo da ottenere risultati altrettanto buoni o anche migliori di quelli osservati. Si pensi a un giovane praticante che lavora a contatto con colleghi più esperti e ufficialmente responsabili. Egli avrà in molti casi accesso ai dati clinici, alle diagnosi e alle decisioni dei suoi colleghi e, soprattutto, agli esiti dei singoli casi. In queste condizioni, sarà probabilmente indotto a sovrastimare l’accuratezza del proprio giudizio diagnostico e le sue capacita decisionali, sottovalutando sensibilmente la differenza fra elaborare correttamente una diagnosi o prendere una decisione appropriata e rifletterci su una volta che la storia ha fatto il suo corso.
Gli studi qui considerati, e molte altre indagini simili, suggeriscono i diversi modi in cui gli errori di valutazione possono indebolire gli effetti dell’apprendimento attraverso l’esperienza. I medici devono far fronte a una realtà complessa e incerta, e scenari come quelli appena descritti possono essere facilmente riprodotti nel contesto clinico. Per esempio, un medico, di fronte a un paziente con un certo quadro clinico, può elaborare la diagnosi in maniera scorretta o prescrivere un trattamento inadeguato. L’osservazione di un esito clinico positivo, che e comunque possibile per diverse ragioni (come un recupero spontaneo), può incoraggiarlo a procedere nello stesso modo in un successivo caso simile. Viceversa, un esito sfortunato può indurre un medico a mettere erroneamente in discussione un’inferenza diagnostica o una scelta terapeutica corretta, basate su conoscenze e ragionamenti solidi, e a modificare in peggio la sua pratica successiva. Ragionare con il senno di poi può quindi corroborare pratiche inadeguate, e suggerire l’abbandono ingiustificato di pratiche appropriate. Imparare dal passato può sembrare semplice e intuitivo; in realtà e un percorso pieno di insidie.


Riferimenti bibliografici

ARKES, H.R., DAWSON, N.V., SPEROFF, T., HARRELL, F.E. JR., ALZOLA, C., PHILLIPS, R.,DESBIENS, N., OYE, R.K., KNAUS, W., CONNORS, A.F. JR, THE SUPPORT INVESTIGATORS(1995), The covariance decomposition of the probability score and its use in evaluating diagnostic estimates. In Medical Decision Making, 15, pp. 120-131.

ARKES, H.R., WORTMANN, R.L., SAVILLE, P.D., HARKNESS, A.R. (1981), Hindsight bias among physicians weighing the likelihood of diagnoses. In Journal of Applied Psychology, 66, pp. 252-254.

BARON, J., HERSHEY, J.C. (1988), Outcome bias in decision evaluation. In Journal of Personality and Social Psychology, 54, pp. 569-579.

BOBBIO, M., DEORSOLA, A., PISTIS, G., BRUSCA, A., DIAMOND, G.A. (1988), Physician perception of exercise electrocardiography as a prognostic test after acute myocardial infarction. In American Journal of Cardiology, 62, pp. 675-678.

CAPLAN, R.A., POSNER, K.L., CHENEY, F.W. (1991), Effect of outcome on physicians judgments of appropriateness of care. In Journal of the American Medical Association, 265, pp. 1957-1960.

CHRISTENSEN-SZALANSKI, J.J.J., BUSHYHEAD, J.B. (1981), Physicians use of probabilistic information in a real clinical setting. In Journal of Experimental Psychology: Human Perception and Performance, 7, pp. 928-935.

DAWSON, N. V., CONNORS, A. F., JR., SPEROFF, T., KEMKA, A., SHAW, P., ARKES, H. R. (1993), Hemodynamic assessment in managing the critically ill: is physician confidence warranted?. In Medical Decision Making, 13, pp. 258-266.

DAWSON, N.V., ARKES, H.R., SICILIANO, C., BLINKHORN, R., LAKSHMANAN, M., PETRELLI, M. (1988), Hindsight bias: an impediment to accurate probability estimation in clinicopathologic conferences. In Medical Decision Making, 8, pp. 259-264.

DESMET, A.A., FRYBACK, D.G., THORNBURY, J.R. (1979), A second look at the utility of radiographic skull examination for trauma. In American Journal of Roentgenology, 132, pp. 95-99.

DETSKY, A.S., STRICKER, S.C., MULLEY, A.G., THIBAULT, G.E. (1981), Prognosis, survival, and the expenditure of hospital resources for patients in an intensive-care unit. In New England Journal of Medicine, 305, pp. 667-672.

EINHORN, H.J. (1982), Learning from experience and suboptimal rules in decision making. In KAHNEMAN, D., SLOVIC, P., TVERSKY, A.  Judgment under Uncertainty: Heuristics and Biases. Cambridge University Press, New York, pp. 269-283.

FISCHHOFF, B. (1975), Hindsight‚ foresight: the effect of outcome knowledge on judgment under uncertainty. In Journal of Experimental Psychology: Human Perception and Performance, 1, pp. 288-299.

FISCHHOFF, B. (1980), For those condemned to study the past. In SCHWEDER, R.A., FISKE, D.W. (a cura di), New Directions for Methodology of Social and Behavioral Science. Jossey-Bass, San Francisco (CA), pp. 79-93.