*

Versione Mobile | Vai alla versione Desktop
Differenze tra versione Mobile e versione Desktop

Il coefficiente di correlazione e la retta di regressione

OBIETTIVO:

- apprendere come quantificare la correlazione fra due variabili qualitative attraverso il coefficiente di regressione r

- apprendere il metodo di costruzione della retta di regressione

- apprendere il significato dell'equazione della retta e la sua interpretazione

 

Nella Cap. 6, Unità 10 - Dimostrazione dell'esistenza di una correlazione dose-effetto: la regressione lineare Unità precedente hai appreso i principi di base sulla regressione.

In particolare, hai imparato a desumere, osservando "a occhio" un diagramma a nuvola di punti, tre caratteristiche importanti che legano due variabili: direzione, forma e forza.

*

Tuttavia, l'occhio umano non è uno strumento adatto per misurare con precisione, osservando la nuvola di punti, direzione, forma e forza di una relazione lineare. Abbiamo bisogno di una strategia di analisi dei dati oggettiva, svincolata dal giudizio personale dell'osservatore e possibilmente che ci fornisca una misura numerica. Questa misura è detta correlazione, e contiene informazioni sulla forza e sulla direzione di una relazione lineare tra due variabili. Per quanto riguarda la forma, esistono senz'altro metodi adatti, che però sono troppo complessi per venire trattati qui.

La correlazione

Per indicare la correlazione si usa di solito la lettera "r". r viene detto "coefficiente di correlazione" e si calcola con l'aiuto di un software statistico.

Coefficiente di correlazione «r» = misura della FORZA e della DIREZIONE di una relazione lineare tra due variabili quantitative

A rigore, il coefficiente di correlazione non dovrebbe essere utilizzato per due variabili legate da una relazione causa-effetto; esso infatti descrive una semplice relazione tra due variabili. Commettiamo una piccola inesattezza in omaggio alla semplificazione.
Nel caso della regressione, il coefficiente di correlazione viene talvolta detto coefficiente di regressione.

Il coefficiente di correlazione r può assumere valori compresi fra -1 e 1. I valori positivi indicano l'esistenza di una correlazione lineare positiva; i valori negativi indicano una correlazione negativa; il valore 0 indica assenza di correlazione.

*

Ecco alcuni esempi di interpretazione di un diagramma di regressione lineare.

*

Non possono essere date regole fisse per l'interpretazione del coefficiente di correlazione, che dipende da una serie di considerazioni. Possiamo dire che in genere, nel settore biomedico ed in epidemiologia, vengono considerati "buoni" valori attorno a 0.7 (nel caso di una correlazione positiva) oppure a -0.7 (per una correlazione negativa).

Il coefficiente di correlazione ed il coefficiente di determinazione

Torniamo all'esempio dei ratti trattati con un farmaco nell'unità precedente. Per tua comodità, nella figura sottostante sono riportati i dati ottenuti ed il grafico a dispersione:

*

Immettendo i dati ottenuti in un apposito software (va bene anche Excel), puoi calcolare il valore r, che risulta pari a di 0.862:

*

Il valore r è >0, e quindi la correlazione è positiva; inoltre, il coefficiente assume un valore abbastanza alto, e ciò dimostra che la correlazione è buona. In altri termini, le due variabili vanno di pari passo, nel senso che quando aumenta il valore dell'una aumenta generalmente (e proporzionalmente) anche il valore dell'altra. Ciò significa che dal valore della variabile indipendente può essere approssimativamente desunto quello della variabile dipendente.

Una volta ottenuto r, possiamo calcolare r2 (r-quadrato), semplicemente elevando r al quadrato.
r2 viene detto anche coefficiente di determinazione ed è un indice ricco di significato, in quanto esprime la variabilità nella variabile dipendente spiegata dalla variabile indipendente. In parole più semplici, r2 rappresenta la variazione nei valori di y che può essere giustificata dalla variazione di x.

Coefficiente di determinazione r-quadrato = misura la variabilità di Y spiegata dalla variabilità di X

Nel nostro caso, r2 è pari a 0.743.

*

Perciò, ammettendo che il farmaco sia causalmente legato alla variazione di pressione (ossia, più in generale, ammettendo che x sia causalmente legato a y), allora il 75% circa di tale variazione è giustificata dall'effetto del farmaco.

Ricorda che il coefficiente di correlazione r descrive soltanto l'esistenza di una correlazione, ma non dimostra nulla riguardo alla causalità di tale associazione. Lo stesso dicasi per r2. Per dimostrare la causalità dovranno essere sviluppati altri ragionamenti, come ad esempio quelli connessi alla applicazione dei Cap. 6, Unità 10 - I 5 criteri di causalità criteri di causalità.

La retta di regressione

Hai già imparato che la regressione lineare si usa quando le variabili in studio hanno fra loro una relazione lineare, e quindi i punti del diagramma a dispersione tendono a disporsi secondo una linea retta. Hai anche utilizzato l'occhio come strumento per individuare (appunto "ad occhio e croce") la retta corrispondente.

*

Essenzialmente, il principio su cui si basa l'individuazione della retta di regressione è molto semplice. Infatti, è ragionevole pensare che la retta migliore è quella che ha distanza minore, sull'asse delle ordinate, da tutti i punti del diagramma. Costruiamo, per ogni punto, un quadrato che ha come lato la distanza verticale (ordinata) del punto dalla retta (v. figura sottostante). Ripetiamo il procedimento per ogni punto del diagramma e sommiano le aree di tutti i quadrati. La retta che meglio rappresenta la nuvola di punti è quella che fa registrare la minor superficie dei quadrati. Per questo motivo, il metodo ora descritto si chiama "metodo dei minimi quadrati". Ovviamente questo procedimento non si fa più "a mano", ma si ricorre all'aiuto del calcolatore.

*

Infine, una volta trovata la retta di regressione, si può trovare l'equazione della retta medesima. Dai ricordi delle scuole superiori, sai che l'equazione di una retta ha la forma:

*

dove x e y sono le due variabili da correlare.

Anche in questo caso, per ricavare l'equazione partendo dai dati sperimentali si ricorre al calcolatore, che con i dati del nostro esempio genera la seguente:

y= 1.13 + 1.63x

L'equazione rappresenta un sistema semplice e molto elegante per descrivere il fenomeno che hai osservato; inoltre, rappresenta anche uno strumento per fare previsioni. Ad esempio, potresti domandarti quale sarà l'incremento di pressione somministrando 5.5 mg del farmaco. Basta sostituire, nell'equazione, il valore x con 5.5. Ottieni:

y= 1.13 +(1.63 * 5.5) = 10.1

Usare cautela nel prevedere valori al di fuori del range dei dati sperimentali della variabile indipendente. Nel tuo caso il range va da 0 a 7 mg, ma potresti essere tentato di utilizzare l'equazione della retta per prevedere che, ad esempio, 30 mg del farmaco provocano un aumento di pressione di 50 mm Hg... Un tale utilizzo della retta può condurre a conclusioni poco affidabili e quindi è da evitare.

Lo schema che segue riassume tutti risultati che hai trovato a partire dai dati dell'esempio dell'Unità precedente:

*

Puoi dedurre che:

L'esperimento che abbiamo simulato nell'esempio è stato effettuato in laboratorio e quindi in condizioni rigorosamente controllate, nel senso che non sono intervenute variabili estranee. Ad esempio, sia i ratti di controllo (quelli che non hanno ricevuto il farmaco) che tutti gli altri erano uguali per sesso, età peso ecc.; l'alimentazione era la stessa; le condizioni di allevamento erano identiche ecc. Con i dati raccolti possiamo quindi concludere con ragionevole certezza che "il farmaco provoca un aumento della pressione diastolica nel ratto, e questo aumento è correlato alla dose".

In altre situazioni, sarebbe stato opportuno, prima di concludere per un rapporto dose-effetto, controllare la presenza di eventuali Cap. 5, Unità 12 - Associazioni non causali e fattori di confondimento fattori di confondimento e poi verificare i Cap. 6, Unità 6 - I cinque criteri di causalità criteri di causalità.

NELLA PROSSIMA UNITÀ:
inizia il capitolo riguardante la variabilità biologica. In essa viene sottolineata l'importanza della variazione dei dati, viene proposto un esempio di tabella con distribuzioni di frequenze e viene mostrata una delle più importanti curve di distribuzione: la curva di distribuzione normale.

Precedente Sommario Successiva


Licenza Creative Commons