OBIETTIVO:
apprendere la base razionale di un test di significatività
apprendere un metodo di quantificazione di un test di significatività
Quando si effettua un test di significatività statistica, inizialmente si assume la cosiddetta «ipotesi zero» (o «ipotesi nulla»), secondo la quale non esiste nessuna differenza tra i gruppi riguardo al parametro considerato. Secondo l'ipotesi zero, i gruppi sono fra loro uguali e la differenza osservata va attribuita al caso.
Ovviamente l'ipotesi zero può essere vera o falsa. Ora tu devi decidere: accetti o rifiuti l'ipotesi zero?
Per decidere devi analizzare i tuoi dati con un test statistico. Se il test ti «consiglia» di rifiutare l'ipotesi zero, allora la differenza osservata viene dichiarata statisticamente significativa. Se invece il test ti «consiglia» di accettare l'ipotesi zero, allora la differenza è statisticamente non significativa.
Come sempre avviene, i risultati di un test statistico non hanno un valore di assoluta e matematica certezza, ma soltanto di probabilità. Pertanto, una decisione di respingere l'ipotesi zero (presa sulla base del «consiglio» del test statistico) è probabilmente giusta, ma potrebbe essere errata. La misura di questo rischio di cadere in errore si chiama «livello di significatività» del test.
Il livello di significatività di una prova può essere scelto a piacere dallo sperimentatore. Tuttavia, di solito si sceglie un livello di probabilità di 0.05 (5%) o di 0.01 (1%). Questa probabilità (detta valore P) rappresenta una stima quantitativa della probabilità che le differenze osservate siano dovute al caso.
Più precisamente, il valore P è "la probabilità di ottenere un risultato altrettanto estremo o più estremo di quello osservato se la diversità è interamente dovuta alla sola variabilità campionaria, assumendo quindi che l'ipotesi iniziale nulla sia vera" (Signorelli).
Notare che P è una probabilità e quindi può assumere solo valori compresi fra 0 e 1. Un valore P che si avvicina a 0 testimonia una bassa probabilità che la differenza osservata possa essere ascritta al caso.
ESEMPIO. Hai effettuato una sperimentazione su due gruppi di animali affetti da una malattia. Un gruppo è stato trattato con il farmaco A, e l'altro con il farmaco B. Hai notato che gli animali trattati con A guariscono di più rispetto a quelli trattati con B. Però questo effetto potrebbe essere dovuto al caso... sei sicuro che, ripetendo l'esperimento, otterresti ancora dati che indicano che A è migliore di B? Ovviamente no!
Allora, a partire dai tuoi dati, devi calcolare il valore P: in questo modo ottieni una stima quantitativa della probabilità che le differenze osservate siano dovute al caso. In altre parole, P è la risposta alla seguente domanda: «se in realtà non ci fossero differenze fra A e B, e se la sperimentazione fossa eseguita molte volte, quale proporzione di sperimentazioni condurrebbe alla conclusione che A è migliore di B?»
Il livello di significatività 5% viene adottato molto frequentemente in quanto si ritiene che il rapporto 1/20 (cioè 0.05) sia sufficientemente piccolo da poter concludere che sia «piuttosto improbabile» che la differenza osservata sia dovuta al semplice caso. In effetti, la differenza potrebbe essere dovuta al caso, e lo sarà 1 volta su 20. Tuttavia, questo evento è «improbabile». Ovviamente, se si vuole escludere con maggiore probabilità l'effetto del caso, si adotterà un livello di significatività inferiore (es. 1%).
Quindi:
Infine, è necessario sottolineare un concetto molto importante: «statisticamente significativo» non vuol dire importante, o di grande interesse, o rilevante. «Statisticamente significativo» significa semplicemente che ciò è stato osservato è «difficilmente dovuto al caso».
Esempio. In una ipotetica sperimentazione, è stato dimostrato che un farmaco ha una attività anti-ipertensiva: nei soggetti trattati la pressione sistolica è diminuita, in media, di 2 mm di Hg rispetto ai soggetti non trattati e questa differenza è risultata «statisticamente significativa». Ciò non implica automaticamente che il farmaco sia un buon anti-ipertensivo, anzi è verosimile che esso sia pressoché inutile in terapia, in quanto una riduzione così limitata (2mm Hg) non ha alcun interesse clinico.
Numerosi test statistici vengono usati per determinare con un certo grado di probabilità l'esistenza (o l'assenza) di differenze significative nei dati in esame o meglio, più in generale, di accettare o rigettare una ipotesi zero. Il test del «chi-quadrato» e il test t sono già stati brevemente illustrati.
Nella tabella che segue vengono elencati alcuni dei test più comunemente impiegati nella ricerca medica, e il loro campo di applicazione. Ulteriori dettagli riguardo a questi test, e ad altri non indicati nella Tabella, possono essere reperiti in tutti i libri statistica.
I test statistici, in medicina, consentono di stimare il grado di certezza di affermazioni e la precisione di misure effettuate su un campione casuale di una determinata popolazione. Per ottenere risultati validi, bisogna scegliere, fra le tante disponibili, le procedure statistiche adatte all'indagine o all'esperimento effettuato.
Le procedure statistiche presuppongono che i campioni siano stati estratti a caso dalle popolazioni studiate (v. unità didattica "Caratteri del campione" e successive). Se questo presupposto non è rispettato, i risultati che si ottengono possono non avere alcun valore.
Oltre a verificare che gli elementi del campione siano scelti a caso, occorre stabilire con esattezza quale popolazione essi rappresentino. Ciò è particolarmente importante e difficile quando i soggetti del campione provengono, come si verifica di frequente, da pazienti ricoverati in ospedali veterinari: questi animali infatti sono scarsamente rappresentativi della popolazione generale. In ogni caso, l'identificazione della popolazione di provenienza del campione è fondamentale per stabilire l'applicabilità dei risultati di una ricerca.
AFTER HOURS: Qualche curiosità su due fra i "Grandi" della Statistica
NELLA PROSSIMA UNITÀ:
proseguendo l'analisi delle associazioni si mostra l'esistenza di 3 distinti tipi di associazione, e si introduce il concetto di «errore sistematico».