COVARIANZA
e
CORRELAZIONE
REGRESSIONE LINEARE
Consideriamo due variabili casuali X e Y e supponiamo di avere fatto
una regressione lineare con il metodo dei minimi quadrati.
REGRESSIONE LINEARE
REGRESSIONE LINEARE
Primo metodo:
REGRESSIONE LINEARE
Se abbiamo fatto un fit lineare, ma la dipendenza fra le due variabili
non è in realtà lineare (ad esempio quadratica, esponenziale, logaritmica,
etc.), il grafico dei residui rispetto ai valori predetti enfatizzerà questa
dipendenza non lineare. Vediamo questo fatto con un esempio.
REGRESSIONE LINEARE
REGRESSIONE LINEARE
REGRESSIONE LINEARE
Secondo metodo:
Covarianza
In statistica la covarianza è un indice che misura la
"contemporaneità" della variazione (in termini lineari) di due
variabili casuali. Essa può assumere sia valori positivi che
negativi. Nel caso di valori positivi indica che al crescere di una
variabile statisticamente cresce anche l'altra, nel caso di
valori negativi accade il contrario. Quando due variabili sono
tra di loro indipendenti, allora la loro covarianza è nulla
(l'inverso non è necessariamente verificato).
Si utilizza spesso la notazione: cov(x,y) = sxy, dove
essendo mx e my rispettivamente la media aritmetica di x e y.
Covarianza
È un operatore simmetrico, cioè
A volte la covarianza viene citata mnemonicamente come la
media del prodotto degli scarti dalla media.
La covarianza può essere scomposta in due termini, diventando:
ovvero la media dei prodotti meno il prodotto delle medie.
Dividendo la covarianza per il prodotto delle deviazioni
standard delle due variabili, si ottiene l‘indice di correlazione
di Bravais-Pearson, di utilizzo più comune per misurare la
dipendenza lineare tra due variabili:
Coefficiente di correlazione lineare
Il coefficiente di correlazione lineare o coefficiente di
correlazione tra due variabili aleatorie o due variabili statistiche
X e Y è definito come la loro covarianza divisa per il prodotto
delle deviazioni standard delle due variabili:
dove
sxy , è la covarianza tra X e Y
sx , sy sono le due deviazioni standard.
Il coefficiente di correlazione è un indice di quanto bene i
punti (xi, yi) si adattano ad una retta.
Coefficiente di correlazione lineare
Il coefficiente assume valori compresi tra -1 e +1.
Se r è vicino a 1, allora i punti giacciono vicino a qualche linea
retta (se r è vicino a +1 si parla di correlazione positiva, se r è
vicino a -1 si parla di correlazione negativa); se r è vicino a 0,
allora i punti non sono correlati (linearmente), con poca o
nessuna tendenza a giacere su una linea retta.
Nel caso di indipendenza il coefficiente assume valore zero,
mentre non vale la conclusione opposta, ovvero dal coefficiente
nullo non si può desumere l'indipendenza, cioè la condizione è
necessaria, ma non sufficiente per l'indipendenza delle due
variabili.
Coefficiente di correlazione lineare
Come possiamo decidere oggettivamente se il coefficiente di
correlazione ricavato è “ragionevolmente vicino” a 1 ?
Possiamo rispondere a questa domanda con il seguente
ragionamento. Supponiamo che due variabili x ed y siano in realtà
non correlate linearmente; al limite per un numero di misure
tendente all’infinito il coefficiente di correlazione dovrebbe essere
0. Dopo un numero finito di misure, è molto improbabile che r sia
esattamente 0. Si può calcolare la probabilità che r sia più grande
di un qualche valore specifico r0. Il calcolo di questa probabilità è
piuttosto complesso, ma i risultati per alcuni valori rappresentativi
dei parametri sono riportati nella tabella seguente.
Una misura più quantitativa dell’adattamento si può trovare usando la tabella sottostante, che riporta, in funzione
di N e ro , la probabilità percentuale che N misure di due variabili non correlate diano un coefficiente di
correlazione con valore assoluto > ro (gli spazi bianchi indicano probabilità minori dello 0.05%).
ro
N
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
3
100
94
87
81
74
67
59
51
41
29
0
4
100
90
80
70
60
50
40
30
20
10
0
5
100
87
75
62
50
39
28
19
10
3.7
0
6
100
85
70
56
43
31
21
12
5.6
1.4
0
7
100
83
67
51
37
25
15
8.0
3.1
0.6
0
8
100
81
63
47
33
21
12
5.3
1.7
0.2
0
9
100
80
61
43
29
17
8.8
3.6
1.0
0.1
0
10
100
78
58
40
25
14
6.7
2.4
0.5
0
11
100
77
56
37
22
12
5.1
1.6
0.3
0
12
100
76
53
34
20
9.8
3.9
1.1
0.2
0
13
100
75
51
32
18
8.2
3.0
0.8
0.1
0
14
100
73
49
30
16
6.9
2.3
0.5
0.1
0
15
100
72
47
28
14
5.8
1.8
0.4
0
16
100
71
46
26
12
4.9
1.4
0.3
0
17
100
70
44
24
11
4.1
1.1
0.2
0
18
100
69
43
23
10
3.5
0.8
0.1
0
19
100
68
41
21
9.0
2.9
0.7
0.1
0
20
100
67
40
20
8.1
2.5
0.5
0.1
0
25
100
63
34
15
4.8
1.1
0.2
30
100
60
29
11
2.9
0.5
0
35
100
57
25
8.0
1.7
0.2
0
40
100
54
22
6.0
1.1
0.1
0
0
Coefficiente di correlazione lineare
Dopo avere calcolato r per il nostro insieme di dati,
utilizziamo la tabella mostrata in precedenza: più
piccola è la probabilità che ricaviamo dalla tabella,
migliore è l’evidenza che le due variabili x ed y sono
realmente correlate. Se la probabilità è minore del
5% diciamo che la correlazione è significativa; se è
minore dell’1% che la correlazione è altamente
significativa.
Scarica

REGRESSIONE LINEARE