OBIETTIVO:
definire alcuni indici di variazione (o indici di dispersione) e fra essi, in particolare, la deviazione standard
È già stato accennato ad alcune caratteristiche dei più comuni indici di tendenza centrale (media, moda, mediana).
Oltre alla tendenza centrale, è spesso auspicabile individuare l'entità delle variazioni presenti in una serie di dati. Esistono numerosi indici utilizzabili come misure di variabilità. Quelli di più comune impiego sono: l'intervallo di variazione, i percentili, la deviazione standard.
Intervallo di variazione
L'intervallo di variazione si ottiene semplicemente calcolando la differenza fra il dato più alto e quello più basso (tale differenza viene detta campo di variazione o range), oppure specificando il valore del dato più alto e quello del dato più basso. L'intervallo di variazione non considera la variabilità delle osservazioni fra i due estremi e ha lo svantaggio di dipendere strettamente dal numero di osservazioni e di aumentare con l'aumentare di esse.
Esempio. La misurazione dell'altezza al garrese di 8 bracchi italiani ha fornito i seguenti valori (in cm):
54, 57, 57, 58, 59, 60, 60, 61, 66.
L'intervallo di variazione è di 66-54 = 12 cm.
Percentili
Un altro modo di esprimere le variazioni è quello di calcolare i percentili; in particolare, la dichiarazione del 25°, 50° e 75° percentile è un buon sistema per quantificare la variabilità di dati che non hanno una distribuzione Normale.
I percentili sono già considerati dettagliatamente in una precedente unità.
Deviazione standard
Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più comune indice di tendenza centrale: la media. In questo caso, per descrivere compiutamente la popolazione, è sempre necessario dichiarare anche, come indice di variazione, il valore della deviazione standard.
La deviazione standard (o scarto quadratico medio) rappresenta la distanza media dei dati dalla loro media. Essa si indica con il simbolo σ (leggi: sigma, ossia la lettera sigma minuscola dell'alfabeto greco) se ci si riferisce alla deviazione standard di una popolazione, oppure con la lettera «s» se si indica quella di un campione.
La deviazione standard è un ottimo indice di variazione dei dati quando essi sono distribuiti normalmente e rappresenta probabilmente l'indice di variazione usato più comunemente. Tuttavia è bene ripetere ancora una volta che esso deve essere utilizzato soltanto quando i dati hanno una distribuzione normale.
La deviazione standard si calcola facendo la radice quadrata della varianza (vedi l'Appendice in questa stessa Unità).
Il fatto che la sola media sia insufficiente per descrivere esaurientemente un campione o una popolazione può essere dimostrato con un semplice esempio.
Supponiamo di misurare lo stesso carattere (ad esempio la lunghezza in cm) in due campioni di pesci ornamentali contenuti in due diverse vasche, e di ottenere i seguenti dati:
CAMP.A: 2, 3, 4, 5, 6, 7, 8, 9, 10 (media=6; s=2.6)
CAMP.B: 5, 6, 6, 6, 6, 6, 6, 6, 7 (media=6; s=0.4)
Evidentemente i due campioni sono molto diversi l'uno dall'altro, ma la media assume lo stesso valore per entrambi. Se presentassimo i dati affermando, ad esempio, che "i due campioni hanno la stessa media" potremmo generare la falsa impressione che i due campioni sono molto simili fra loro.
Il modo corretto di presentare i dati prevede invece di dichiarare che " in CAMP.A la media è pari a 6 con deviazione standard di 2.6, e in CAMP.B la media è 6.0 con deviazione standard ±0.4".
Per esprimersi più brevemente: CAMP.A: 6.0±2.6, CAMP.B 6.0±0.4.
Notare che in questo modo si fornisce l'indicazione del fatto che CAMP.B era molto omogeneo, contrariamente a CAMP.A.
A questo punto potresti chiederti se, per riassumere le caratteristiche di una serie di dati, è meglio utilizzare media e deviazione standard oppure mediana e percentili.. La risposta è molto semplice ed è riassunta nello schema che segue.
La formula serve a calcolare la deviazione standard di una serie di misure. La «devianza» è la somma dei quadrati delle deviazioni dei valori individuali dalla loro media aritmetica (m), mentre i «gradi di libertà» sono il numero di osservazioni (n) di cui è composto il campione, meno 1 (cioè: gradi libertà = n-1).
Supponiamo di avere il seguente campione, di cui vogliamo calcolare media e deviazione standard: 19, 21, 24, 21, 17. valore individuale x -------------- 19 21 24 21 17 ------------- somma = 102 media = 102/5 = 20.4 Ora calcoliamo la differenza di ogni valore individuale dalla media, cioè il valore (x-m) detto anche scarto o deviazione, e quindi eleviamo al quadrato gli scarti e sommiamo tali quadrati valore individuale x scarto scarto quadr. -------------- 19 19-20.4 = -1.4 1.96 21 21-20.4 = 0.6 0.36 24 24-20.4 = 3.6 12.96 21 21-20.4 = 0.6 0.36 17 17-20.4 = -3.4 11.56 ----- 27.20 La devianza è 27.20. I gradi di libertà sono n-1, cioè 4. Dividiamo la devianza per 4: 27.2 / 4 = 6.8 e ed estraiamo la radice quadrata Radice quadrata di 6.8 = 2.61, che è la deviazione standard della serie di dati.
Nel calcolo della varianza perché dividere per n-1 anziché per n?
La risposta a questa domanda non è semplice; esiste senz'altro una spiegazione teorica della formula, che però è troppo complicata per i nostri scopi. Basterà sottolineare che la statistica sanitaria e biologica spesso si basa su un numero di osservazioni piuttosto piccolo; ciò consiglia di ottenere una particolare affidabilità dei risultati. Dividendo per n-1 si ottiene una varianza (e quindi una deviazione standard) lievemente superiore rispetto a quanto si otterrebbe dividendo semplicemente per n. Una deviazione standard un po' più elevata rappresenta un approccio "conservativo" all'analisi dei dati, nel senso che la dispersione potrà forse essere sovrastimata, ma non si cadrà mai nell'errore opposto. Ciò è particolarmente importante quando i dati vengono utilizzati per eseguire un processo di inferenza.
NELLA PROSSIMA UNITÀ:
si descrivono schematicamente i vantaggi e gli svantaggi legati all'uso di ciascuno dei 3 indici di variazione considerati.