COVARIANZA e CORRELAZIONE REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo dei minimi quadrati. REGRESSIONE LINEARE REGRESSIONE LINEARE Primo metodo: REGRESSIONE LINEARE Se abbiamo fatto un fit lineare, ma la dipendenza fra le due variabili non è in realtà lineare (ad esempio quadratica, esponenziale, logaritmica, etc.), il grafico dei residui rispetto ai valori predetti enfatizzerà questa dipendenza non lineare. Vediamo questo fatto con un esempio. REGRESSIONE LINEARE REGRESSIONE LINEARE REGRESSIONE LINEARE Secondo metodo: Covarianza In statistica la covarianza è un indice che misura la "contemporaneità" della variazione (in termini lineari) di due variabili casuali. Essa può assumere sia valori positivi che negativi. Nel caso di valori positivi indica che al crescere di una variabile statisticamente cresce anche l'altra, nel caso di valori negativi accade il contrario. Quando due variabili sono tra di loro indipendenti, allora la loro covarianza è nulla (l'inverso non è necessariamente verificato). Si utilizza spesso la notazione: cov(x,y) = sxy, dove essendo mx e my rispettivamente la media aritmetica di x e y. Covarianza È un operatore simmetrico, cioè A volte la covarianza viene citata mnemonicamente come la media del prodotto degli scarti dalla media. La covarianza può essere scomposta in due termini, diventando: ovvero la media dei prodotti meno il prodotto delle medie. Dividendo la covarianza per il prodotto delle deviazioni standard delle due variabili, si ottiene l‘indice di correlazione di Bravais-Pearson, di utilizzo più comune per misurare la dipendenza lineare tra due variabili: Coefficiente di correlazione lineare Il coefficiente di correlazione lineare o coefficiente di correlazione tra due variabili aleatorie o due variabili statistiche X e Y è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili: dove sxy , è la covarianza tra X e Y sx , sy sono le due deviazioni standard. Il coefficiente di correlazione è un indice di quanto bene i punti (xi, yi) si adattano ad una retta. Coefficiente di correlazione lineare Il coefficiente assume valori compresi tra -1 e +1. Se r è vicino a 1, allora i punti giacciono vicino a qualche linea retta (se r è vicino a +1 si parla di correlazione positiva, se r è vicino a -1 si parla di correlazione negativa); se r è vicino a 0, allora i punti non sono correlati (linearmente), con poca o nessuna tendenza a giacere su una linea retta. Nel caso di indipendenza il coefficiente assume valore zero, mentre non vale la conclusione opposta, ovvero dal coefficiente nullo non si può desumere l'indipendenza, cioè la condizione è necessaria, ma non sufficiente per l'indipendenza delle due variabili. Coefficiente di correlazione lineare Come possiamo decidere oggettivamente se il coefficiente di correlazione ricavato è “ragionevolmente vicino” a 1 ? Possiamo rispondere a questa domanda con il seguente ragionamento. Supponiamo che due variabili x ed y siano in realtà non correlate linearmente; al limite per un numero di misure tendente all’infinito il coefficiente di correlazione dovrebbe essere 0. Dopo un numero finito di misure, è molto improbabile che r sia esattamente 0. Si può calcolare la probabilità che r sia più grande di un qualche valore specifico r0. Il calcolo di questa probabilità è piuttosto complesso, ma i risultati per alcuni valori rappresentativi dei parametri sono riportati nella tabella seguente. Una misura più quantitativa dell’adattamento si può trovare usando la tabella sottostante, che riporta, in funzione di N e ro , la probabilità percentuale che N misure di due variabili non correlate diano un coefficiente di correlazione con valore assoluto > ro (gli spazi bianchi indicano probabilità minori dello 0.05%). ro N 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 100 94 87 81 74 67 59 51 41 29 0 4 100 90 80 70 60 50 40 30 20 10 0 5 100 87 75 62 50 39 28 19 10 3.7 0 6 100 85 70 56 43 31 21 12 5.6 1.4 0 7 100 83 67 51 37 25 15 8.0 3.1 0.6 0 8 100 81 63 47 33 21 12 5.3 1.7 0.2 0 9 100 80 61 43 29 17 8.8 3.6 1.0 0.1 0 10 100 78 58 40 25 14 6.7 2.4 0.5 0 11 100 77 56 37 22 12 5.1 1.6 0.3 0 12 100 76 53 34 20 9.8 3.9 1.1 0.2 0 13 100 75 51 32 18 8.2 3.0 0.8 0.1 0 14 100 73 49 30 16 6.9 2.3 0.5 0.1 0 15 100 72 47 28 14 5.8 1.8 0.4 0 16 100 71 46 26 12 4.9 1.4 0.3 0 17 100 70 44 24 11 4.1 1.1 0.2 0 18 100 69 43 23 10 3.5 0.8 0.1 0 19 100 68 41 21 9.0 2.9 0.7 0.1 0 20 100 67 40 20 8.1 2.5 0.5 0.1 0 25 100 63 34 15 4.8 1.1 0.2 30 100 60 29 11 2.9 0.5 0 35 100 57 25 8.0 1.7 0.2 0 40 100 54 22 6.0 1.1 0.1 0 0 Coefficiente di correlazione lineare Dopo avere calcolato r per il nostro insieme di dati, utilizziamo la tabella mostrata in precedenza: più piccola è la probabilità che ricaviamo dalla tabella, migliore è l’evidenza che le due variabili x ed y sono realmente correlate. Se la probabilità è minore del 5% diciamo che la correlazione è significativa; se è minore dell’1% che la correlazione è altamente significativa.