OBIETTIVO:
apprendere un semplice criterio di valutazione della concordanza fra due test (o della efficienza di un test)
Abbiamo visto, nelle Unità precedenti, che dopo aver applicato un test su una popolazione assumono importanza due indici: il valore predittivo positivo e il valore predittivo negativo, che misurano quanto i risultati ottenuti si avvicinano alla realtà. Ciò, però, può essere riassunto in un solo indice, detto validità (o efficienza, o accuratezza).
La validità di un test è la sua capacità di classificare correttamente sia gli animali malati che quelli sani. La validità è tanto più alta quanto più il test classifica come positivi gli animali realmente malati e come negativi quelli realmente sani. In altri termini, la validità è la capacità di generare risultati rispondenti al vero sia negli individui ammalati che in quelli sani.
La validità può essere calcolata facilmente qualora si conosca il vero stato degli individui che sono stati sottoposti al test. In tal caso, utilizzando la ben nota Tabella di contingenza, la validità si esprime con la proporzione: (a+d)/(a+b+c+d).
ESEMPIO. Abbiamo sottoposto 300 bovini al test della tubercolina per la diagnosi di tubercolosi; successivamente, i bovini sono stati macellati, e su di essi è stata effettuato un minuzioso esame anatomo-patologico di visceri e linfonodi per evidenziare le lesioni tipiche della tubercolosi. Hai ottenuto i risultati riportati nella tabella.
L'esame anatomo-patologico rappresenta il golden standard; infatti, puoi essere ragionevolmente certo che un animale privo di lesioni specifiche sia esente dall'infezione, e viceversa. La prova della tubercolina ha identificato correttamente 25 animali infetti e 253 animali sani (v. Tabella a lato). La validità della prova della tubercolina è: (25+253) / 300 = 0.928. Ciò significa che il test della tubercolina, nelle tue condizioni, ha identificato correttamente lo stato di un animale (non importa se malato o sano) nel 92.8% dei casi.
Quando si tratta di valutare la performance di un test, talvolta può essere necessario confrontarlo non con la realtà o con l'esito di golden test, bensì con un altro test, magari non eccellente ma di comune impiego nella pratica. In questo caso, non si parla più di validità, ma di «concordanza».
La concordanza può riguardare non solo il grado di accordo che si osserva fra due test, ma anche quello fra due (o più) operatori che interpretano l'esito di uno stesso test (es. radiografie, elettrocardiogramma, auscultazione cardiaca ecc.), oppure fra due letture effettuate da uno stesso operatore in tempi diversi. Non si vuole stabilire quale classificazione sia più corretta, bensí stabilire se i criteri utilizzati per l'interpretazione del test siano efficienti, e se classificazione sia riproducibile.
Il calcolo della concordanza è analogo a quello della validità. Supponendo quindi di confrontare due test (TestA e TestB), si ha quanto segue:
ESEMPIO. Hai saggiato 134 sieri suini con due test (TestA e TestB) allo scopo di verificare la presenza di paratubercolosi nel bovino, ottenendo i seguenti risultati: 18 positivi a entrambi i test; 102 negativi a entrambi i test; 8 positivi a TestA e negativi a TestB; 6 negativi a TestA e positivi a TestB. La concordanza fra i due test è: (18+102)/(18+102+8+6) = 0.896.
La concordanza calcolata come sopra descritto è criticabile in quanto non tiene conto della quota di concordanza dovuta al caso.
Esempio. Due studenti decidono di valutare, ognuno per proprio conto, una serie di 100 radiografie dell'addome di altrettanti cani con sospetto di calcolosi epato-biliare. Gli studenti sono e classificano le immagini radiologiche attraverso... il lancio di una moneta. Verosimilmente, essi otterranno risultati simili a quelli della Tabella a lato, raggiungendo una concordanza del 50% in base al calcolo seguente: (25+25)/100=0.5.
Come vedi, una classificazione puramente casuale, come quella ottenuta attraverso il lancio di una moneta, restituisce valori di concordanza prossimi a 50%, che sono ovviamente ingannevoli. Per calcolare la quota di concordanza «vera» occorre stabilire quanta parte della concordanza totale osservata è dovuta al caso, e quanta è invece dovuta al reale accordo tra gli osservatori o i test utilizzati. Ciò si ottiene attraverso un metodo statistico che, a partire dai dati della tabella di contingenza, consente di calcolare il Kappa di Cohen.
L'interpretazione dei valori Kappa si esegue secondo le seguenti linee-guida: k<0.2= concordanza scarsa; k compreso fra 0.2 e 0.4 = concordanza modesta; fra 0.41 e 0.61 = moderata; fra 0.61 e 0.80 = buona; >0.80 = eccellente.
Per maggiori informazioni sul Kappa di Cohen e per le modalità di calcolo, ti consiglio di consultare il «Libro» oppure questa presentazione animata.
Foglio di calcolo per Microsoft Excel® che calcola il Kappa di Cohen a partire da una tabella di contingenza 2x2.
NELLA PROSSIMA UNITÀ:
inizia il Capitolo «Trasmissione e mantenimento delle infezioni» in essa si definisce il concetto di «malattia trasmissibile» e di «zoonosi».