Versione Mobile | Vai alla versione Desktop
Differenze tra versione Mobile e versione Desktop
OBIETTIVO:
acquisire informazioni sui criteri che regolano la scelta del numero di unità che compongono il campione da studiare ("numerosità del campione");
apprendere un semplice metodo per determinare la dimensione di un campione
Secondo l'opinione comune, la bontà dei risultati ottenibili da un campione (ad esempio i risultati di un sondaggio) dipende unicamente dal numero degli individui che compongono il campione stesso e non dal modo con cui essi sono stati selezionati. La debolezza di questo assunto è già stata dimostrata nelle unità precedenti.
Un'altra opinione comune prevede che la dimensione del campione debba essere proporzionata alla dimensione della popolazione in studio. Le leggi della statistica dimostrano invece che questo assunto è completamente falso. Ad esempio, il fatto di voler fare un sondaggio sugli abitanti di un capoluogo di provincia, su quelli di una grande città o addirittura su tutta la popolazione italiana non ha nessuna influenza sul numero di persone necessario per ottenere un campione rappresentativo. Insomma, contrariamente a quello che l'intuito potrebbe suggerire, un campione di 1000 persone può, se scelto con un metodo appropriato, rappresentare con la stessa attendibilità e gli stessi limiti la popolazione di Parma, oppure quella dell'Emilia, oppure quella dell'intera Italia, nel senso che il margine di errore dovuto al campionamento sarà sempre pari al 3% circa. Ciò a patto che la popolazione sia sufficientemente grande, ossia composta da almeno 10000 unità.
D'altra parte, a questa stessa conclusione si può giungere in base a quanto contenuto nella unità precedente, in cui si spiega che l'errore standard di una proporzione è in relazione inversa con la dimensione del campione, ma non dipende affatto dalla numerosità della popolazione in studio. Infatti - come già visto - nel calcolo dell'intervallo di confidenza 95% di una proporzione, la numerosità della popolazione da cui il campione proviene non viene considerata:
Applicando la soprastante formula che permette di calcolare l'intervallo di confidenza 95%, verifichiamo l'affermazione secondo la quale il margine di errore con un campione di 1000 unità è sempre <3%.
Supponiamo che p=0.5, ossia che la proporzione di animali immuni nel campione sia del 50%. Applicando la formula, otteniamo p = 0.5 ± 0.031, ossia 50% ± 3.1%.
Ciò nel caso in cui la varianza nella popolazione sia massima (p=0.5); negli altri casi, il margine di errore risulta ancora più basso. Ad esempio, con p=0.25, l'I.C.95% è 25% ± 2.7%.
E' abbastanza naturale che, prima di intraprendere un'indagine epidemiologica, ci si interroghi su quante «unità di interesse» (animali o allevamenti ecc.) dovranno essere esaminate per raggiungere con sufficiente attendibilità l'obiettivo desiderato.
Questa è una delle parti più delicate nella pianificazione di una indagine. Ovviamente, più grande sarà il campione e più precisi e attendibili saranno i risultati, a patto che il campione sia stato selezionato con un metodo corretto. Tuttavia, indagini su campioni di grandi dimensioni sono più costose e richiedono più tempo. Quindi, bisogna accettare un compromesso.
Il calcolo della dimensione del campione, più propriamente detta numerosità, è abbastanza complicato e, soprattutto, richiede la conoscenza di informazioni diverse. I principali fattori da considerare nell'individuazione della numerosità del campione sono due:
La varianza è una misura del grado di variazioni o oscillazioni presenti, relativamente al parametro che vogliamo stimare, nella popolazione. L'entità di queste variazioni può essere derivata, almeno approssimativamente, dall'esperienza, o dai risultati di altre analoghe indagini effettuate in precedenza, o dalla conoscenza della storia naturale della malattia, o da altri fattori.
Una popolazione in cui il parametro da misurare presenta ampie oscillazioni ha una varianza elevata; una popolazione in cui le oscillazioni sono scarse ha una varianza bassa. È intuitivo che la precisione di un campione è maggiore quando la popolazione da cui è stato estratto è tendenzialmente omogenea, mentre è minore quando la popolazione è eterogenea.
ESEMPIO. Consideriamo due diverse popolazioni. La popolazione A è costituita da bovine da latte ad alta produzione della stessa razza ed allevate in grandi allevamenti intensivi. La popolazione B è rappresentata da bovine da latte di razza diversa ed allevate in allevamenti a differente tipologia (sia intensivi che piccoli allevamenti tradizionali). Se siamo interessati al calcolo della produzione media di latte nelle due popolazioni, sarà evidente che la varianza della popolazione A sarà minore rispetto alla varianza della popolazione B.
La varianza è un fattore importante nel calcolo della numerosità del campione. In popolazioni a bassa varianza, lo studio di pochi animali fornisce comunque un buon quadro della «vera» caratteristica di popolazione.
In una popolazione teorica composta da n individui tutti identici fra loro, lo studio di 1 solo individuo è sufficiente per ottenere una indicazione precisa riguardo alla intera popolazione.
Al contrario, se la varianza è alta, sono necessari molti animali, poiché ciascuno degli animali prescelti può essere molto diverso dalla media della popolazione.
Hai una varianza elevata? Usa un campione grande!
L'intervallo di confidenza rappresenta una misura della bontà di una stima. Un intervallo di confidenza molto ampio suggerisce che non siamo molto sicuri del punto in cui si trova il «vero» valore. Viceversa, un intervallo ristretto indica che siamo abbastanza sicuri che il valore trovato è piuttosto vicino al valore vero della popolazione; in questo caso la stima sarà, quindi, più precisa.
Il livello di confidenza è una misura della sicurezza della stima: ad esempio, con un livello di confidenza 95% siamo sicuri al 95% che il valore vero cade nell'intervallo trovato. Cioè, se ripetessimo lo studio 20 volte, in media sbaglieremmo 1 volta ma saremmo nel giusto 19 volte.
Per convenzione si utilizza generalmente il livello di confidenza 95%; talvolta si impiegano anche i livelli 90% o 99% o 99.9%. La scelta del livello di confidenza è spesso dettata da considerazioni pratiche (quantità di risorse e di tempo disponibili ecc.) più che dalla teoria. È chiaro che, se desideri raggiungere un livello di confidenza elevato, dovrai esaminare un campione più grande.
Anche la performance del test che verrà utilizzato gioca un ruolo importante nel calcolo della numerosità del campione. Se il test è poco affidabile (cioè a bassa sensibilità e/o specificità), allora la numerosità del campione dovrà essere alta. Questo argomento viene trattato estensivamente nel Capitolo 11.
All'atto pratico, la determinazione della numerosità del campione dipende da considerazioni di tipo
Le prime riguardano, ad esempio, le risorse disponibili (mano d'opera e finanziamenti, l'universo di riferimento ecc.) già accennate. Le considerazioni di tipo statistico consistono nella precisione desiderata e nella frequenza attesa (ossia che si prevede di ottenere) della variabile che si vuole studiare.
PRECISIONE DESIDERATA. Viene espressa attraverso l'errore massimo tollerabile e può essere calcolata in termini assoluti o relativi.
ESEMPIO. Vuoi accertare la proporzione di animali ammalati ( "prevalenza") in una popolazione di bovini. In base ad una serie di elementi in tuo possesso (es. indagini già effettuate in precedenza nella stessa popolazione, indagini simili in popolazioni simili ecc.) prevedi che la prevalenza sia pari a 0.3 (30%). Ritieni accettabile un errore del 7%. Quanti bovini della popolazione dovranno essere studiati se la stima derivante dal campione deve cadere entro 7 punti percentuali rispetto alla vera prevalenza, con confidenza 95%?
PREVALENZA ATTESA. Sembra paradossale suggerire che occorre "indovinare" la prevalenza prima di effettuare un'indagine che ha lo scopo di accertare la prevalenza, ma... è proprio così. Molto spesso, però c'è qualche indizio che permette di avvicinarsi al valore reale. Se proprio non sai... che pesci prendere, ipotizza una prevalenza 0.5 (ossia 50%): questo approccio è di tipo conservativo, nel senso che, come potrai dedurre dalla formula che imparerai fra poco, una prevalenza del 50% ti fa adottare un campione grande.
Supponi di voler stimare la prevalenza di una malattia (o di un altro carattere) in una popolazione. Come già detto, attraverso lo studio del campione vuoi una stima della prevalenza con una determinata precisione ed a un prescelto livello di confidenza. La dimensione può essere calcolata, con un livello di confidenza 95%, attraverso la seguente formula:
Se desideri una confidenza del 99%, sostituisci il valore 1.96 con 2.58.
Ora, per mezzo di un esempio, calcolerai la dimensione del campione necessaria in una indagine.
Sospetti che la prevalenza di una malattia in una popolazione sia pari a 0.3. Vuoi studiare un campione per stimare la prevalenza della malattia nella popolazione con precisione 0.07 (ossia 7%). Ciò significa che, ammesso che il tuo pronostico di prevalenza 0.3 sia abbastanza giusto, ti aspetti che i limiti dell'intervallo di confidenza della stima siano compresi fra 0.23 e 0.37. Vuoi calcolare la dimensione del campione necessaria.
Sostituendo i valori appropriati nella formula, ottieni:
Per ottenere il tuo scopo, dovrai esaminare un campione di 165 animali.
Puoi verificare a ritroso, come descritto di seguito ed utilizzando conoscenze che hai già acquisito, che un tal campione risponda alle tue aspettative:
· hai estratto un campione di 165 animali;
· supponi che, fra questi, ne siano risultati ammalati 44 (prevalenza = 44/165= 0.26, valore abbastanza vicino alla tua previsione);
· il valore 0.26 è una stima, ne puoi calcolare la variabilità attraverso l'errore standard;
· l'errore standard risulta pari a 0.034;
· conoscendo l'errore standard puoi calcolare i limiti fiduciali 95% (o intervallo di confidenza 95%);
· ottieni un limite fiduciale inferiore di 0.19 ed un limite superiore di 0.33
· la precisione della tua stima è, come desiderato, del 7%. Infatti: 0.26-0.19=0.07 ed anche 0.26-0.33=-0.07.
Infine, resta da aggiungere che se il campione è piuttosto grande (circa 1/20 o più) rispetto alla popolazione da cui è stato estratto, se ne può ridurre la numerosità con la formula che segue:
Se, nell'esempio precedente, i 165 animali dovessero essere estratti da una popolazione di 740, allora il campione potrebbe essere ridotto a (165*740)/(165+740)=135.
NELLA PROSSIMA UNITÀ:
si illustra un caso particolare di campionamento: quello effettuato al solo scopo di determinare se una malattia è presente o no in una popolazione animale. A questo scopo si può una apposita formula, che viene presentata e discussa.