OBIETTIVO:
rinfrescare la nozione di "mediana" quartili e centili
apprendere un metodo di calcolo della mediana e dei quartili.
Il grafico sottostante comprende un tracciato della distribuzione cumulativa delle frequenze dei dati esposti nella precedente unità. Questo tracciato è utile per determinare graficamente i centili (o percentili) di una distribuzione.
La curva è stata costruita utilizzando un sistema di assi cartesiani in cui sull'asse delle ascisse sono state riportate le classi di frequenza e sull'asse delle ordinate le percentuali cumulative. Quindi, nel quadrante sono stati individuati i punti corrispondenti a ogni classe di frequenza; questi punti sono stati infine uniti tra loro da una linea, che rappresenta appunto il tracciato della distribuzione cumulativa delle frequenze.
Per mezzo di questo grafico si possono calcolare in modo approssimativo i percentili (o centili) come segue: sull'asse delle ordinate devi scegliere il punto corrispondente alla precentuale desiderata. Ad esempio, il valore che divide il 10% delle osservazioni (nel grafico corrisponde a circa 57 cm) è detto decimo centile, e così via.
Poiché i percentili più utili e comunemente usati sono il 25°, il 50° e il 75°, nel grafico sono stati evidenziati sull'asse delle ordinate i punti corrispondenti a 25%, 50% e 75%. Da questi punti è stata tracciata una linea orizzontale fino a intersecare il tracciato e poi dal punto di intersezione è stata abbassata una perpendicolare all'asse delle x. In questo modo, sono stati individuati graficamente (e con una certa approssimazione) in ascissa i percentili prescelti. (ovviamente i percentili si possono calcolare con precisione con metodi statistici).
Nell'esempio illustrato nel grafico, il 25° percentile corrisponde a 58.8 cm circa, il 50° a poco meno di 61 cm e il 75° a 63.3 cm circa. Ciò significa che il 25% dei nostri bracchi era più basso di 58.8 cm, il 50% era più basso di 61 cm ecc. Significa anche che, dato un bracco di altezza A, possiamo calcolare come esso si colloca nella popolazione da cui deriva. Per esempio, il 90% dei bracchi è più basso di 65 cm, e quindi un cane alto 65 cm cadrà nel "90esimo percentile".
Il 25° percentile è detto anche "primo quartile" in quanto raccoglie il primo quarto della popolazione; analogamente, il 75° percentile è detto anche "terzo quartile".
Il 50° percentile, detto anche mediana, è un indice di tendenza centrale fra i più importanti, e la sua applicazione pratica verrà accennata in seguito.
Se i dati sono ordinati in senso crescente (o decrescente), calcolare la mediana è molto facile. Infatti, tenendo presente che la mediana è quel valore che lascia alla sua sinistra e alla sua destra un numero uguale di unità, allora:
Usando lo stesso sistema si possono calcolare anche i quartili e i centili. Come già detto, i quartili sono i 3 valori che separano i dati in 4 gruppi di uguale grandezza, e cioè il 25esimo, il 50esimo e il 75esimo percentile. La differenza tra il 25° e il 75° percentile comprende il 50% centrale delle osservazioni ed è chiamata distanza interquartile.
ESEMPIO. Con i seguenti 10 dati:
2, 2, 3, 4, 5, 6, 7, 7, 7, 9
la mediana è 5.5, il primo quartile 2.5 e il terzo quartile 7. La distanza interquartile è 4.5.
Un buon sistema per rappresentare graficamente i dati è la cosiddetta "Tecnica dei 5 numeri" o "Box and wiskers plot" (letteralmente: diagramma a scatola e baffi), in cui la "scatola" comprende la mediana ed è delimitata dal 25° e dal 75° percentile, mentre i "baffi" limitano i valori minimo e massimo. Nel diagramma sottostante vengono rappresentati i dati riguardanti l'altezza del bracchi della unità precedente.
Dal diagramma salta all'occhio che la distribuzione della popolazione è simmetrica: infatti la parte del box a destra della mediana e il suo wisker sono molto simili a quelli della parte sinistra. Prova a confrontare questo diagramma con il seguente, che rappresenta le altezze ottenute misurando una popolazione di cani razza Segugio italiano a pelo forte.
Si osserva che i valori minimi e massimi (ossia i wisker di sinistra e di destra) sono diminuiti entrambi, e che la distanza fra i wisker è più piccola; anche la dimensione del box è ridotta, mentre la distribuzione è rimasta simmetrica. A colpo d'occhio si può dedurre che i segugi sono più piccoli dei bracchi, e che la loro altezza è più uniforme.
Facciamo un altro esempio di confronto fra due popolazioni, sempre utilizzando il box and wisker plot. Immagina di confrontare la popolazione di bracchi già vista con un'altra ipotetica popolazione di cani della stessa razza. Ottieni i plot sottostanti, dai quali si deduce che la seconda popolazione (colore viola) è, nel complesso, più piccola della precedente e che in essa sono presenti pochi individui di taglia molto grande. È aumentata anche la distanza tra il 25° e il 75° percentile (il box è più grande), e quindi vi è più dispersione fra le altezze comprese nel 50% centrale delle osservazioni.
AFTER HOURS: Il Bracco italiano, cane nobile e antico.
NELLA PROSSIMA UNITÀ:
si tratta molto concisamente dei 3 indici di tendenza centrale più utilizzati: la moda, la media e la mediana.