9. Campionamento

Esempio di calcolo della variabilità di una stima

OBIETTIVO:

analizzare un esempio di calcolo della stima di prevalenza di una malattia in una popolazione in base ai risultati di un campione randomizzato

constatare che la variabilità di una misura effettuata su un campione non dipende dalla numerosità della popolazione

[Vai alla versione Mobile]

Un esempio esplicativo

Supponi di voler accertare, attraverso l'impiego di un test, il numero di animali colpiti da una certa malattia subclinica in un allevamento ove sono presenti 500 suini all'ingrasso, sistemati in 20 box da 25 animali ciascuno. Per rendere i calcoli più semplici, ipotizziamo che il test fornisca sempre risultati veritieri.
Non possiedi risorse sufficienti per esaminare tutti i 500 animali (che rappresentano la "popolazione di interesse"), e allora decidi di saggiare un campione costituito da 40 suini. A questo scopo, effettui un campionamento a grappolo, sottoponendo al test 2 animali per ogni box, scelti a caso. In questo modo ottieni un campione randomizzato di 40 animali.

Nota. Il campionamento a grappolo è stato scelto perché, nello scenario ipotizzato, è quello più conveniente sul piano pratico. Ai fini dell'esempio, però, avresti potuto utilizzare un altro tipo di campionamento, purché randomizzato (es. randomizzazione semplice, o randomizzazione sistematica, o stratificata).

Sottoponi al test i 40 animali del campione; 14 di essi risultano test-positivi. Quindi, nel campione la proporzione di positivi è pari a 14/40=0.35. Quindi: p=0.35, ossia 35%. Poiché il campione è randomizzato, non sono presenti fonti di distorsione (bias) e, quindi, esso è rappresentativo della popolazione di interesse (i 500 suini).
Allora, inizialmente, è ragionevole assumere che anche nella popolazione la positività sia all'incirca pari a 0.35. La situazione viene riassunta nello schema che segue:

Epidemiologia veterinaria: calcolo della variabilità di una stima

Come già detto, la composizione del campione è influenzata soltanto dal caso (non ci sono errori sistematici). Pertanto, il valore statistico che hai calcolato (0.35) è influenzato soltanto dall' errore campionario, di cui possiamo calcolare i limiti.

In altre parole, possiamo stimare quale sarà la «vera» proporzione di test-positivi nella popolazione. A questo scopo, a partire dalla proporzione p ottenuta (0.35), dobbiamo calcolare dapprima la varianza e poi, da questa, l'errore standard. Quest'ultimo rappresenta l'indice della variabilità della nostra statistica. Il calcolo si esegue come segue:

La variabilità della proporzione di animali test-positivi ottenuta dallo studio del campione può essere stimata come segue:

Con i dati del nostro esempio, abbiamo:

Se lo preferisci, puoi convertire la proporzione in valore percentuale, semplicemente moltiplicando per 100. Allora ottieni:

Ecco espresso qui sopra il concetto di «stima»: essa ti dice che puoi essere abbastanza sicuro che la vera percentuale di test-positivi nella popolazione sia compresa fra 27.5 e 42.5%. Questa stessa affermazione può essere espressa meglio così: esiste una certa probabilità che la vera percentuale di test-positivi nella popolazione sia compresa fra 27.5 e 42.5 %.

Naturalmente non possiamo accontentarci di affermare genericamente che esiste una «certa» probabilità: questa «certa» probabilità vogliamo conoscerla! È quello che faremo nella prossima Unità, in cui porteremo a termine l'esempio qui iniziato.

Dalla formula per il calcolo della varianza puoi dedurre che la grandezza dell'errore standard è in relazione inversa con la numerosità del campione, Ciò conferma quanto detto nell'Unità precedente: più è il campione, più la stima è precisa.
Invece, contrariamente a quanto si pensa comunemente, la precisione della stima non dipende dalla numerosità della popolazione da cui il campione è stato estratto (a patto che il campione sia "abbastanza" piccolo - diciamo almeno 10 volte più piccolo - rispetto alla popolazione). Nell'esempio ora concluso, l'errore standard assume lo stesso valore nel caso in cui il campione di 40 animali provenga da una popolazione di 500 o, per esempio, di 5000 o di 50000 ecc. Infatti, come puoi verificare dando un'occhiata ai calcoli, la numerosità della popolazione non compare nel procedimento di calcolo dell'errore standard.

La relazione esistente tra p ed errore standard (v. grafico a lato) è molto interessante perché ti aiuta a comprendere il motivo per cui l'errore standard è così utile per esprimere la variabilità di una proporzione. Se tutti i soggetti si trovano in una classe oppure nell'altra (ad esempio sono tutti test-negativi oppure tutti test-positivi), allora p=0 oppure p=1, e quindi la radice quadrata di p*(1-p), ossia l'errore standard, è pari a zero. Questa conclusione è ragionevole, in quanto l'errore standard è una misura di variabilità, e ovviamente se tutti gli individui della popolazione appartengono alla stessa classe la variabilità è uguale a zero.
Al contrario, la massima variabilità si ha quando ogni elemento della popolazione ha uguale probabilità di appartenere a una classe o all'altra (ossia: p=0.5). In questo caso, l'errore standard assume il massimo valore possibile, ossia 0.5.

UN CASO PARTICOLARE: un campione grande rispetto alla popolazione. Se la numerosità del campione è superiore a 1/10 della numerosità della popolazione, allora nel calcolo dell'errore standard occorre introdurre un fattore di correzione detto "correzione per una popolazione finita". Definiamo:
N la numerosità della popolazione;
n la numerosità del campione.
Il fattore di correzione si calcola come: (N-n)/N. Esso si utilizza come nell'esempio che segue.

Supponiamo di aver estratto, dalla stessa popolazione di 500 suini dell'esempio precedente, un campione di 100 animali, e di aver ottenuto la stessa proporzione di animali positivi (35%). Si tratta di un campione relativamente grande, pari a 1/5 della popolazione, e quindi nel calcolo dell'errore standard è necessario considerare il fattore di correzione per una popolazione finita. Perciò, il calcolo dell'errore standard diventa:

A rigore, il fattore di correzione dovrebbe essere utilizzato anche nel caso di campioni piccoli rispetto alla popolazione. Tuttavia quando il campione è piccolo il valore del fattore di correzione si approssima a 1, e quindi diviene ininfluente nel calcolo dell'errore standard. Per questo motivo esso viene generalmente omesso.

Foglio di calcolo per Microsoft Excel^® che visualizza, con un diagramma a torta, i limiti fiduciali in un campione a scelta.

NELLA PROSSIMA UNITÀ:
si spiega la differenza fra errore standard e deviazione standard e si mostra come l'errore standard sia utilizzato per il calcolo dei limiti fiduciali (o intervallo di confidenza).

• TEST ARGOMENTI CAPITOLO 9 • FIRMA IL GUESTBOOK, PLEASE!