OBIETTIVO:
definire la variabilità biologica;
utilizzare la distribuzione delle frequenze e la distribuzione cumulativa delle frequenze per riassumere i dati di misure biologiche;
confrontare l'esposizione dei dati in forma tabulare e in forma grafica.
Tutti i dati che derivano da osservazioni sperimentali e le misurazioni di qualsiasi grandezza fisica comportano delle variazioni. Inoltre, poiché la variabilità individuale è una proprietà intrinseca di tutti gli esseri viventi, le misure biologiche, più delle misure di altre grandezze fisiche, sono soggette a inevitabili variazioni.
Queste variazioni, oltre a derivare dall'imprecisione dello strumento di misura di volta in volta utilizzato, sono dovute alla diversità del parametro considerato fra individui e anche, nell'ambito dello stesso individuo, da un'occasione all'altra, da un osservatore all'altro ecc.
Tutti sanno che i valori della pressione arteriosa che cambiano da una persona all'altra e, nella stessa persona, cambiano nel tempo a seconda dello stato emozionale ecc.
I motivi che rendono ogni individuo diverso da ogni altro sono praticamente infiniti. La genetica, l'età il sesso, le condizioni di vita o di allevamento, l'alimentazione, il clima e un'infinità di altre variabili esercitano tutte sull'individuo un effetto grande o piccolo. Ovviamente, alcune di queste variabili sono più importanti di altre; tuttavia, è sempre la somma degli effetti di molte cause diverse che rende ogni individuo diverso dall'altro. L'insieme di tutte queste variabili (o fattori o cause) che interferiscono imprevedibilmente su un fenomeno prende il nome di «caso».
Per i motivi ora esposti, la valutazione dei dati biologici necessita di tecniche statistiche utili a ovviare agli inconvenienti che potrebbero derivare dalla variabilità dei dati stessi. Prima di esaminare i principi di base di alcune tecniche statistiche di comune impiego, è utile una breve introduzione sulle modalità di presentazione dei dati.
Supponiamo che tu sia in possesso di una serie di dati, rappresentati dalle altezze al garrese di 659 cani di razza «Bracco italiano». In pratica, si tratta di una serie di 659 valori che hai immesso, uno per ogni riga, in un foglio di calcolo come questo:
Come vedi, si tratta di un database molto semplice, con una sola variabile (l'altezza al garrese) che è stata collocata nella colonna A, mentre in ogni riga c'è una osservazione. Avresti potuto disporre, per ciascun animale, di osservazioni di altre variabili (es. sesso, età ecc.); allora, avresti dovuto utilizzare altre colonne (sesso in colonna B, età in colonna C ecc.).
Se vuoi, puoi dare un'occhiata al foglio di calcolo con il database completo. Nota che si tratta di dati fittizi (ossia generati «a tavolino»): Tuttavia questi dati sono abbastanza verosimili, in quanto rispettano lo standarddi razza, che prevede una altezza da 55 a 67 cm.
È evidente che i dati grezzi del database sono difficilmente interpretabili se non vengono organizzati in qualche modo o sottoposti a elaborazioni. A questo scopo esiste una intera branca della statistica, detta «statistica descrittiva» che aiuta appunto a descrivere i dati, e di cui qui imparerai soltanto i principi di base.
Distribuzione di frequenze
Con questa denominazione si indica un sistema di raggruppamento di serie di dati in modo da poter individuare facilmente quali valori sono più frequenti e quali più rari.
Nella Tabella che segue sono riportati i dati del database con l'altezza al garrese dei 659 esemplari di cani Bracco italiano.
La forma tabulare è facilmente comprensibile: nella colonna di sinistra sono indicate le classi utilizzate per raggruppare i dati riguardanti l'altezza del campione di cani. Nell'esempio ogni classe ha ampiezza di 1 cm. La seconda colonna è la colonna delle frequenze, in cui viene presentato il numero di osservazioni (cioè di animali) che rientra nella corrispondente classe. Quindi, le prime due colonne contengono, da sole, tutti i dati derivanti dalle misurazioni effettuate.
Nell'esempio che ti sto proponendo, ho suddiviso tutte le osservazioni in 17 classi di ampiezza 1 cm. Parlando in generale, il numero di classi in cui suddividere i dati dipende da molti fattori (es. numero di osservazioni, distanza fra il dato minimo e quello massimo ecc.). Per motivi di praticità e di facilità di interpretazione, è consigliabile che la distribuzione delle frequenze preveda un numero di classi compreso fra 5 e 20 circa.
Dividendo il numero di osservazioni di ciascuna classe per il numero totale di osservazioni (nel nostro caso: 659) e moltiplicando il risultato per 100, otteniamo la frequenza percentuale, riportata nella terza colonna.
Ad esempio, il valore 0.6 presente nella prima riga della terza colonna è stato ottenuto come segue: 4/659*100. Il valore successivo (1.1) deriva da: 7/659*100, e così via.
La frequenza percentuale è una frequenza relativa «standardizzata». Rispetto alla frequenza assoluta della seconda colonna, la frequenza percentuale offre il vantaggio di facilitare il confronto con altri dati derivanti da altre indagini o da altre casistiche nelle quali è stato esaminato un diverso numero di animali.
Nell'ultima colonna vengono riportate le «percentuali cumulative»; queste si ottengono, per ogni classe, sommando la frequenza percentuale di quella stessa classe con tutte classi che la precedono. Questo tipo di espressione dei dati è utile per valutazioni quantitative di ogni classe di frequenza. Ad esempio, possiamo rilevare che il 68% circa dei nostri ipotetici bracchi è più basso di 62 cm. In quest'ultima affermazione è insito il concetto di «percentile» (o «centile») (vedi Unità successiva).
Le distribuzioni di frequenze possono essere rappresentate anche in forma grafica; una delle forme di espressione più utilizzate a questo scopo è l'istogramma. E' evidente che la presentazione dei dati in forma grafica (vedi sotto) è molto più accattivante e immediata; nell'esempio si può osservare come la distribuzione dei dati segua un andamento particolare, in quanto le barre disegnano una sorta di 'campana' approssimativamente simmetrica attorno alla classe di maggiore frequenza. Quest'ultima, che nell'esempio corrisponde alla classe 61.00-61.99 cm (con valore centrale 61.5), viene detta «moda». La curva a campana, tipica di molti fenomeni biologici, viene detta «curva di distribuzione Normale» o «gaussiana».
L'istogramma è diverso dal diagramma a barre (vedi sotto), anche se a una prima occhiata i due tipi di grafico sembrano uguali.
L'istogramma si usa per rappresentare dati di tipo continuo, ossia che possono assumere un qualsiasi valore entro un certo intervallo. Il peso e l'altezza sono esempi di dati continui. Nell'istogramma le barre devono essere contigue, per rappresentare la continuità delle misure effettuate.
Il diagramma a barre si usa invece per rappresentare dati di tipo nominale (ad esempio il colore del mantello). Nel diagramma a barre è consigliabile che le barre siano separate da spazi.
AFTER HOURS: Sir Francis Galton e l'ordine nel caos apparente
AFTER HOURS: La variabilità biologica di Aldo Palazzeschi
NELLA PROSSIMA UNITÀ:
si mostra come tracciare una curva di distribuzione cumulativa delle frequenze, utile per comprendere il concetto di «mediana» e di «centile». Viene anche illustrato un semplice ma efficace metodo di rappresentazione dei dati: il «box and wiskers plot».