OBIETTIVO:
analizzare i fattori che contribuiscono all'errore di campionamento
Abbiamo già visto che un campione non è mai perfettamente rappresentativo della popolazione da cui è stato estratto. Ciò implica che, ogni qual volta studiamo un campione, otteniamo dati che non rispecchiano la realtà: dobbiamo tener conto di un errore di campionamento.
I fattori responsabili dell' errore di campionamento sono sostanzialmente due: la variazione casuale e la selezione viziata.
La variazione casuale è dovuta al caso, cioè a quell'«insieme di fattori o cause, piccole o grandi, che agiscono su un fenomeno senza che noi possiamo o vogliamo controllarli esattamente e prevederne quindi l'azione» (Cavalli-Sforza). La variazione casuale ha portato alla nostra osservazione proprio quegli individui che costituiscono quel campione, nei quali la misura che vogliamo studiare assume un valore più alto o più basso, senza una regola precisa.
La variazione casuale fa sì che una misura effettuata su un campione non fornisca un valore identico a quello ottenibile misurando l'intera popolazione: c'è sempre - un certo errore, che viene detto errore campionario. Questo errore deriva semplicemente dal fatto che stiamo osservando soltanto una parte della popolazione.
L'EFFETTO DEL CASO.
Tutti noi ricorriamo al "caso" per giustificare, ad esempio, il motivo per cui su 100 lanci di una stessa moneta non sempre esce per 50 volte 'testa' e per le restanti 50 'croce'. Questo stesso motivo (la variazione casuale) vale a giustificare il seguente esempio.
Supponiamo di avere a disposizione due farmaci, A e B, ugualmente efficaci, nel senso che guariscono il 50% dei pazienti trattati. Supponiamo di fare un esperimento per studiare l'effetto dei due farmaci; supponiamo che, in questo esperimento, non sia presente alcun bias (vedi oltre in questa stessa unità), e quindi che i dati ottenuti siano assolutamente affidabili. Tuttavia, soprattutto se l'esperimento viene eseguito su un numero limitato di soggetti, facilmente osserveremo che il farmaco A induce guarigione con maggior frequenza rispetto al farmaco B (o viceversa). Questo effetto è dovuto, appunto, alla variazione casuale,
Ovviamente, l'errore di campionamento è condizionato dall'esistenza di variabilità tra gli individui che compongono la popolazione di partenza; se tutti - per assurdo - avessero lo stesso carattere in egual misura, l'esame di qualsiasi numero di individui fornirebbe lo stesso valore, e quindi l'errore di campionamento sarebbe nullo.
La selezione viziata è quella che viene effettuata su un segmento non rappresentativo della popolazione. Questo avviene quando la scelta delle unità che costituiranno il campione viene effettuata con regole non rigorosamente casuali. Talvolta, è lo stesso sperimentatore che, definendo delle regole estemporanee volte a neutralizzare - nelle intenzioni - gli effetti del caso e di ottenere un campione più aderente alla popolazione, commette un errore che rende i dati inutilizzabili.
Infatti, un campione che non è stato ottenuto correttamente fornisce misurazioni e risultati per i quali è impossibile calcolare il cosiddetto «errore di campionamento». La selezione viziata fa sì che all'errore campionario si sommi un altro tipo di errore, detto errore non campionario o bias.
ESEMPIO 1. Vogliamo accertare la proporzione di cani vaccinati contro il cimurro in una provincia. Non potendo esaminare tutti i cani dell'area considerata, decidi di esaminare un campione di animali. Per comodità, scegli i cani che vengono presentati presso alcuni ambulatori del capoluogo. Il campione così ottenuto sarà sicuramente distorto (affetto da "bias"), in quanto composto quasi esclusivamente da cani "cittadini" che, notoriamente, sono oggetto di maggiori cure da parte del proprietario rispetto a quelli che risiedono in campagna. Inoltre, anche il fatto stesso che il cane venga portato in ambulatorio testimonia l'attenzione da parte del proprietario verso la salute del suo animale, ed è probabile che questa attenzione si sia tradotta in una corretta profilassi vaccinale. Infatti, è ovvio che i cani trascurati non vengono vaccinati né vengono portati dal veterinario!
Quindi, il tuo campione sarà distorto perché (1) hai selezionato cani cittadini e (2) hai selezionato cani portati in ambulatorio. Presumibilmente, tutti i cani del tuo campione (distorto!) risulteranno vaccinati per il cimurro e quindi sarai portato a concludere erroneamente che "tutti i cani della provincia sono vaccinati per il cimurro".
ESEMPIO 2. Il frammento prelevato con una biopsia epatica rappresenta circa 1/50000 dell'organo. Essendo il campione così piccolo rispetto all'intero organo, esiste la possibilità di ampie variazioni da un campione all'altro. Inoltre, poiché il frammento viene esaminato, in genere, allo scopo di diagnosticare una malattia dell'intero fegato, esiste la possibilità che il processo di inferenza sia viziato. Ad esempio, si preleva un campione di tessuto sano in un organo ammalato.
In conclusione, si può affermare che soltanto quando la scelta degli individui che compongono il campione è stata dettata dal puro e semplice caso, è possibile prevedere e calcolare l'entità della differenza tra campione e popolazione.
In caso contrario, il campione si dice «distorto»». Con un campione distorto, non è possibile calcolare l'errore di campionamento e i dati ottenuti saranno difficilmente utilizzabili.
Più precisamente, per «bias» si intende "un processo, effettuato in qualsiasi stadio della inferenza, che tende a fornire risultati che si discostano sistematicamente (ossia sempre nella stessa direzione) dai valori veri".
A differenza del bias (che influenza i dati sistematicamente in una direzione o nell'altra), la variazione casuale fornisce dati che possono essere parimenti al di sopra o al di sotto del valore vero. Di conseguenza, la media di molte osservazioni non-distorte si avvicina al valore vero della popolazione, anche se i singoli dati utilizzati per ottenere la media possono discostarsi di molto dal valore vero.
ESEMPIO. Nello schema A (a lato) sono raffigurati due bersagli. Quello a sinistra (A1) è il risultato di 17 tiri effettuati da un buon tiratore che ha sparato con un buon fucile. L'insieme dei fori si può considerare come un campione delle infinite possibili combinazioni di 17 tiri che quel tiratore può ottenere sparando con quel fucile. Come vedi, i fori hanno una disposizione casuale, ma tendono a disporsi attorno al centro del bersaglio.
Il bersaglio di destra (A2) è stato utilizzato dallo stesso tiratore, ma con un fucile con il mirino disallineato. Anche in questo caso, i fori hanno una disposizione casuale, ma tendono a disporsi attorno a un punto che NON corrisponde al centro del bersaglio.
Ora supponi (schema B) di non conoscere la vera posizione del centro bersaglio (la quale, fuor di metafora, equivale alla VERA caratteristica della popolazione in studio, la quale in effetti non è mai nota).
Supponi anche di estrarre a caso un campione di 17 colpi dagli infiniti campioni possibili. Con un buon campionamento (che equivale a un buon fucile) otterrai il campione raffigurato a sinistra (B1); se, invece, il campione sarà affetto da bias, otterrai un campione come quello a destra (B2). Ora, sempre in base ai dati dello schema B, prova a "inferire" (ossia a indovinare) la posizione del centro del bersaglio.
Ragionevolmente collocherai i bersagli come indicato nello schema C: con il campione di colpi di sinistra (C1) (cioè quello del fucile preciso) l'inferenza sarà attendibile, come dimostra la corretta collocazione del centro del bersaglio rispetto alla realtà (così come raffigurato in A1). Al contrario, utilizzando il campione distorto (C2), sarai indotto a ritenere che il centro del bersaglio sia spostato rispetto al reale e non riuscirai a posizionarlo correttamente. In quest'ultimo caso, fuor di metafora, non sarai in grado di stimare correttamente la vera caratteristica della popolazione.
AFTER HOURS: Un campione di immodestia!
NELLA PROSSIMA UNITÀ:
si elencano cinque fra i metodi di campionamento più comunemente impiegati nelle indagini epidemiologiche; si fornisce anche una definizione generale di «buon campione».