L’analisi della varianza:
la variabile dipendente è cardinale, l’indipendente è categoriale
L’analisi della varianza serve a studiare la relazione tra una variabile
categoriale (X) e una variabile cardinale (Y):
• X è in ipotesi indipendente, le sue singole categorie (modalità) si
definiscono “gruppi”;
• Y è in ipotesi dipendente da X.
Le modalità di una variabile cardinale sono troppo numerose perché una tavola di
contingenza risulti leggibile, d’altro canto è possibile utilizzare misure di sintesi (medie e
varianze) non utilizzabili per le variabili categoriali.
Dunque se la X è categoriale e la Y è cardinale possiamo confrontare queste misure di
sintesi calcolate per la Y entro i gruppi definiti dalla X.
Lo scopo dell’analisi della varianza è testare l’ipotesi che la varianza di Y
dipenda da X, o in altre parole che le medie dei gruppi costituiti dalle
modalità di X sulla variabile Y siano significativamente differenti.
Esempio: formuliamo l’ipotesi che la soddisfazione lavorativa (rilevata con
una scala di atteggiamento) dipenda dal tipo di contratto dei soggetti.
Metodologia della ricerca sociale
1
L’analisi della varianza:
la variabile dipendente è cardinale, l’indipendente è categoriale
L’analisi della varianza verifica l’ipotesi nulla:
Cioè:
H0: tutte le medie sono uguali tra di loro
H0: la soddisfazione lavorativa non dipende dal tipo di contratto
L’ipotesi alternativa è:
H1: almeno una media è diversa dalle altre
Cioè:
H1: esiste almeno un gruppo identificato dal tipo di contratto per cui la
soddisfazione lavorativa ha una media diversa da quella di un altro
L’ipotesi nulla viene rifiutata se c’è almeno un gruppo con una media
significativamente diversa da quella di un altro.
Metodologia della ricerca sociale
2
L’analisi della varianza:
la variabile dipendente è cardinale, l’indipendente è categoriale
L’analisi della varianza rientra tra le analisi statistiche inferenziali, cioè
mirate a valutare se le evidenze emerse su dati campionari sono
estendibili all’intera popolazione da cui è estratto il campione.
Perché abbia senso applicare questa analisi devono darsi le seguenti
condizioni:
•
Le osservazioni devono essere tra loro indipendenti
•
La variabile dipendente deve avere distribuzione normale
•
Le varianze all’interno degli strati devono essere omogenee
(cioè simili tra loro).
Metodologia della ricerca sociale
3
La scomposizione della varianza
Possiamo scomporre lo scarto dalla media di un singolo valore della
distribuzione di Y (ad esempio della soddisfazione lavorativa) in due
componenti:
a. Lo scarto del valore dalla media del suo gruppo (ad esempio lo scarto del
soggetto A dalla media dei soggetti con contratto a tempo determinato);
b. Lo scarto della media del gruppo dalla media generale (ad esempio lo
scarto della media dei soggetti con contratti a tempo determinato dalla media
generale).
(y
ij
- y ) º ( yi - y ) Å ( yij - yi )
Allo stesso modo è possibile scomporre la somma del quadrato degli
scarti di tutti i valori dalla media generale, cioè la devianza totale:
p
ni
åå( y
ij
i=1 j=1
p
p
ni
- y ) º å ni ( yi - y ) Å åå( yij - yi )
2
i=1
2
2
i=1 j=1
Dove p è il numero dei gruppi, n è il numero dei casi, yij il singolo valore della
distribuzione, ŷ la media generale, ŷi la media dei gruppi.
Metodologia della ricerca sociale
4
La scomposizione della varianza
La variabilità totale della variabile dipendente Y è descritta dalla devianza
totale (cioè dalla somma dei quadrati degli scarti dalla media).
p
ni
åå( y
ij
i=1 j=1
- y)
2
La somma dei quadrati di quanto la
soddisfazione lavorativa di ciascun soggetto
si discosta dalla media generale della
soddisfazione lavorativa.
La variabilità fra i gruppi (definiti dalle modalità di X) è descritta dalla
devianza tra i gruppi (cioè dalla somma dei quadrati degli scarti tra le
medie dei gruppi e la media generale, detta anche somma esterna dei
quadrati o devianza spiegata):
La somma dei quadrati di quanto la
soddisfazione lavorativa di ciascun gruppo
individuato dal tipo di contratto si discosta
dalla media generale della soddisfazione
lavorativa.
Metodologia della ricerca sociale
5
La scomposizione della varianza
La variabilità nei gruppi (entro i gruppi) è descritta dalla devianza entro i
gruppi (cioè dalla somma dei quadrati degli scarti dalla media del
gruppo, detta anche somma interna dei quadrati o devianza non
spiegata):
p
ni
åå( y
ij
i=1 j=1
- yi )
2
La somma dei quadrati di quanto la
soddisfazione lavorativa di ciascun soggetto
si discosta dalla media della soddisfazione
lavorativa del gruppo individuato dal tipo di
contratto a cui il soggetto stesso appartiene.
Devianza spiegata o non spiegata da cosa?
… dalla variabile categoriale:
• la devianza spiegata è la parte di variabilità della variabile dipendente
attribuibile alla variabile indipendente (nell’esempio è la parte della
variabilità della soddisfazione lavorativa attribuibile al tipo di contratto
dei soggetti);
• la devianza non spiegata è la parte di variabilità di Y non attribuibile a
X (cioè la parte di variabilità della soddisfazione lavorativa non
attribuibile al tipo di contratto).
Metodologia della ricerca sociale
6
La scomposizione della varianza
p
ni
åå( y
ij
i=1 j=1
p
p
ni
- y ) º å ni ( yi - y ) Å åå( yij - yi )
2
2
i=1
i=1 j=1
SQesterna=0
in caso di
assenza di relazione
SQinterna=0
in caso di
relazione perfetta
2
Il diverso peso relativo della somma dei quadrati esterna e della somma
dei quadrati interna (cioè della devianza spiegata e di quella non
spiegata) può essere utilizzato per valutare la significatività e la forza
della relazione tra X e Y.
Metodologia della ricerca sociale
7
Un esempio di scomposizione della varianza
Caso
Genere (X)
Stress lavoro
correlato (Y)
a
M
3
b
M
6
M
4,59
53
b
F
6
F
5,63
47
d
F
5
Totale
5,14
100
M
4
Media N
…
n
p
ni
åå( y
ij
i=1 j=1
p
p
ni
- y ) º å ni ( yi - y ) Å åå( yij - yi )
2
i=1
2
2
i=1 j=1
Sono gli scarti dei singoli valori dalla media complessiva:
(3-5,14)2+(6-5,14)2+(6-5,14)2+(5-5,14)2+…+(4-5,14)2= 862,162
Metodologia della ricerca sociale
8
Un esempio di scomposizione della varianza
Caso
Genere (X)
Stress lavoro
correlato (Y)
a
M
3
b
M
6
b
F
6
d
F
5
M
4
Media N
…
n
p
ni
åå( y
ij
i=1 j=1
p
p
M
4,59
53
F
5,63
47
Totale
5,14
100
ni
- y ) º å ni ( yi - y ) Å åå( yij - yi )
2
i=1
2
2
i=1 j=1
Sono gli scarti delle medie dei gruppi dalla media complessiva:
(4,59-5,14)2+(4,59-5,14)2+(5,63-5,14)2+(5,63-5,14)2+…+(4,59-5,14)2
= 53(4,59-5,14)2+47(5,63-5,14)2=27,185
Metodologia della ricerca sociale
9
Un esempio di scomposizione della varianza
Caso
Genere (X)
Stress lavoro
correlato (Y)
a
M
3
b
M
6
b
F
6
d
F
5
M
4
Media N
…
n
p
ni
åå( y
ij
i=1 j=1
p
p
M
4,59
53
F
5,63
47
Totale
5,14
100
ni
- y ) º å ni ( yi - y ) Å åå( yij - yi )
2
i=1
2
2
i=1 j=1
Sono gli scarti dei singoli valori dalla media dei gruppi:
(3-4,59)2+(6-4,59)2+(6-5,63)2+(5-5,63)2+…+(4-4,59)2= 834,977
Metodologia della ricerca sociale
10
La scomposizione della varianza
Ad ognuna delle devianze sono associati i gradi di libertà:
• la devianza totale ha n − 1 gradi di libertà (dove n è la numerosità dei casi);
• la devianza tra gruppi ha p − 1 gradi di libertà (dove p è il numero dei gruppi);
• la devianza entro i gruppi ha n - p gradi di libertà:
(n -1) º ( p -1) Å (n - p)
Dividendo la devianza per i gradi di libertà si ottiene la stima della varianza
della popolazione.
p
Varianza
tra i
gruppi:
ån ( y - y )
i
i=1
i
p -1
Metodologia della ricerca sociale
p
2
Varianza
entro i
gruppi:
ni
åå ( y
ij
i=1 j=1
- yi )
2
n- p
11
Tornando all’esempio:
Caso
Genere (X)
Media N
Stress lavoro
correlato (Y)
M
4,59
53
a
M
3
F
5,63
47
b
M
6
Totale
5,14
100
b
F
6
d
F
5
(n -1) º ( p -1) Å ( n - p)
…
n
p
M
ni
4
p
p
ni
åå( yij - y ) º åni ( yi - y ) Å åå( yij - yi )
2
i=1 j=1
(100-1)=(2-1)+(100-2)
99 = 1 + 98
2
i=1
2
862,162 = 834,977 + 27,185
i=1 j=1
Varianza tra i gruppi:
p
ån ( y - y )
i
i=1
i
Varianza entro i gruppi:
p
2
=27,185/1
=27,185
p -1
Metodologia della ricerca sociale
ni
åå ( y
ij
i=1 j=1
- yi )
2
=834,977/98
=8,520
n- p
12
La significatività della relazione: il test F
Il test F serve a verificare l’ipotesi di uguaglianza delle medie confrontando
varianza spiegata e varianza non spiegata:
var ianza - tra - gruppi
F=
var ianza - entro - gruppi
Se l’ipotesi nulla è vera le due stime della varianza sono uguali; se è falsa
la stima esterna è maggiore di quella interna.
La statistica F ha una distribuzione campionaria conosciuta, segue una
distribuzione F di Fisher, cioè si conosce il suo valore critico in base al quale
respingere o accettare H0 a seconda dei gradi di libertà delle due stime.
Esistono tabelle dei valori critici a seconda della significatività e la regola
decisionale è: Rifiuto H0 se F (calcolato) > Fα (tabulato).
Metodologia della ricerca sociale
13
La significatività della relazione: il test F
Per il test F esiste una tavola per ogni livello di significatività, riportiamo quella
per α=0,05 (che è il valore generalmente utilizzato come soglia):
n-p
Metodologia della ricerca sociale
p-1
14
La forza della relazione: l’eta-quadrato
Il confronto tra le medie dei gruppo può rendere conto della forza
della relazione: tanto più le medie differiscono tra loro maggiore sarà la
forza della relazione. Esistono però diversi coefficienti per quantificare
questa forza, il più semplice è l’eta-quadrato, dato dal rapporto tra la
somma dei quadrati esterna (cioè la devianza spiegata) e la somma
dei quadrati totale (la devianza totale).
SQspiegata
h =
SQtotale
2
Varia tra 0 (assenza di relazione) e 1 (relazione perfetta, tutta la
devianza di Y è attribuibile a X) ed è chiamato anche rapporto di
correlazione di Pearson.
L’eta-quadrato risente del numero delle categorie della variabile
categoriale, quindi si deve fare attenzione nel confrontare etaquadrati di una stessa Y con X aventi un numero di modalità differenti,
inoltre presenta dei problemi se il numero dei casi in ogni gruppo è
troppo ridotto.
Metodologia della ricerca sociale
15
Tornando all’esempio:
Caso
Genere (X)
Stress lavoro
correlato (Y)
M
4,59
53
M
3
F
5,63
47
b
M
6
Totale
5,14
100
b
F
6
d
F
5
n
M
ni
Varianza tra i gruppi: 27,185
p
Varianza entro i gruppi: 8,520
4
p
ni
åå( yij - y ) º åni ( yi - y ) Å åå( yij - yi )
2
i=1 j=1
F=
N
a
…
p
Media
i=1
2
2
862,162 = 834,977 + 27,185
i=1 j=1
var ianza - tra - gruppi
var ianza - entro - gruppi
SQspiegata
h =
SQtotale
2
Metodologia della ricerca sociale
27,185 / 8,520 = 3,191
27,185/ 862,162 = 0,32
Sig. = 0,077
η = √0,32 = 0,178
16
La significatività della F:
Le tavole prestampate dei valori soglia del test F non riportano tutti i gradi di libertà,
spesso quindi è necessario osservare l’F tabulato per un numero maggiore di g.d.l.
rispetto a quelli effettivi. Infatti se la F calcolata ha un valore più elevato anche del
valore tabulato per un g.d.l. più alto possiamo rifiutare l’ipotesi nulla. Ad esempio nella
tabella riportata dei valori di F per α=0,05 possiamo confrontare la F calcolata con
quella teorica per 1*120 g.d.l. (risulta inferiore, dunque la probabilità di errore
nell’accettare H1 è superiore allo 0,5%).
Calcolando con excel, o software simili, la significatività sappiamo che una F pari a
3,191, con 1 g.d.l. al numeratore e 98 g.d.l. al denominatore, ha α=0,077, dunque che
accettando H1 abbiamo una probabilità di errore del 7,7%.
Metodologia della ricerca sociale
17
L’analisi della varianza: esempi e calcoli
Alcune note
Il calcolo degli indici legati all’analisi della varianza sembra
complesso, in realtà non si tratta che di rapporti (divisioni) tra
somme di scarti (sottrazioni) elevati al quadrato.
Il calcolo non viene svolto a mano perché l’ANOVA ha senso se
applicata a campioni, con scopi inferenziali, dunque su molti
casi.
I principali programmi di analisi dei dati forniscono non solo tutti
gli indici necessari (cioè non solo la F e l’eta-quadro), ma anche
gli elementi che li compongono:
- Somma dei quadrati (cioè la devianza) tra i gruppi, entro i
gruppi e totale;
- Media dei quadrati (cioè la varianza) tra i gruppi, entro i
gruppi e totale;
- Gradi di libertà.
Metodologia della ricerca sociale
18
Esempi:
Analisi della varianza.
1. Assenza di relazione
Tipo di contratto a tempo
determinato
A termine
Media
Soddisfazione
lavorativa
4,92
60
N
Di breve durata
Eta
Eta quadrato
0,077
0,006
Dev. std.
2,48
Media
4,58
67
N
Occasionale
Dev. std.
2,41
Media
4,51
73
N
Totale
Fra gruppi
Soddisfazione
Entro gruppi
lavorativa
Totale
Somma dei
quadrati
6,265
1043,819
1050,084
Metodologia della ricerca sociale
gdl
Dev. std.
2,03
Media
4,66
N
200
Dev. std.
2,30
Media dei
quadrati
2
3,133
197
5,299
199
F
Sig.
,591
,555
19
Esempi:
Analisi della varianza.
2. Presenza di una relazione
Tipo di contratto a tempo
determinato
A termine
Media
Soddisfazione per
il reddito da lavoro
3,15
60
N
Di breve durata
Eta
Eta quadrato
0,538
0,29
Dev. std.
1,94
Media
6,06
67
N
Occasionale
Dev. std.
1,55
Media
4,36
73
N
Totale
Soddisfazione Fra gruppi
per il reddito Entro gruppi
da lavoro Totale
Somma dei
quadrati
273,799
671,211
945,010
Metodologia della ricerca sociale
gdl
Dev. std.
2,01
Media
4,57
N
200
Dev. std.
2,18
Media dei
quadrati
2
136,899
197
3,407
199
F
Sig.
40,180
,000
20
Regressione e correlazione
Nel caso entrambe le variabili siano cardinali è possibile analizzare sia
la forza che la forma della relazione, ma è necessario utilizzare due
differenti strumenti:
• la correlazione serve ad analizzare la forza di una relazione;
• la regressione (la più semplice e utilizzata è quella lineare) permette
di analizzarne la forma.
Questi due strumenti si differenziano anche per quanto riguarda la
direzione della relazione:
• la correlazione serve a quantificare la forza della relazione, dunque
non dipende dalla sua direzione (il valore del coefficiente è lo stesso
sia che Y dipenda da X sia che X dipenda da Y);
• la regressione identificando la forma della relazione cambia a
seconda della sua direzione: se ipotizziamo che Y dipenda da X
avremo una funzione diversa di quella che otterremmo ipotizzando
che X dipenda da Y.
Metodologia della ricerca sociale
21
La correlazione: il coefficiente r
Il coefficiente di correlazione r, detto anche coefficiente di
correlazione di Bravais-Pearson, misura la forza di una relazione tra
due variabili cardinali:
r=
å( X - X ) (Y -Y )
å( X - X ) å(Y -Y )
i
i
2
i
2
i
E’ il rapporto tra la covarianza fra X e Y e il prodotto delle deviazioni
standard di X e di Y (se infatti dividiamo tutto per N, cioè per la numerosità
campionaria otteniamo la covarianza al numeratore e il prodotto tra le
varianze al denominatore).
Questo coefficiente non dipende dalla direzione della relazione, e assume
valore +1 in caso di perfetta relazione positiva; -1 in caso di perfetta
relazione negativa e 0 in assenza di relazione (in caso di relazione perfetta i
punti sono tutti allineati su una retta di regressione). Si tratta inoltre di un
numero puro, quindi non risente dell’unità di misura delle due variabili in
analisi.
Metodologia della ricerca sociale
22
Il coefficiente r: un esempio
Caso
Soddisfazione
lavorativa
Autorealizzazione
A
4,8
5,6
B
5,6
4,3
C
5,7
6,2
D
6,3
6,6
E
7,5
6,9
5,98
5,92
Medie
r=
å( X - X ) (Y -Y )
å( X - X ) å(Y -Y )
i
i
2
i
2
i
r=[(4,8-5,98)(5,6-5,92)+(5,6-5,98)(4.3-5,92)+(5,7-5,98)(6,2-5,92)+(6,35,98)(6,6-5,92)+(7,5-5,98)(6,9-5,92)]/√{[(4,8-5,98)2+(5,6-5,98)2+(5,75,98)2+(6,3-5,98)2+(7,5-5,98)2]*[(5,6-5,92)2+(4.3-5,92)2+(6,25,92)2+(6,6-5,92)2+(6,9-5,92)2] }
=2,622/ √(4,028*4,228)=0,635
Metodologia della ricerca sociale
23
Il coefficiente di correlazione r
Il coefficiente r, presenta alcune caratteristiche che è bene tenere
presenti quando lo si utilizza:
• è un coefficiente di correlazione lineare, dunque non rileva relazione
che abbiano una forma diversa dalla linearità;
• è molto sensibile ai valori estremi;
errori legati a queste caratteristiche si possono evitare semplicemente
osservando con attenzione i diagrammi di dispersione.
Il quadrato del coefficiente r è l’R-quadrato, dunque se r è pari a 0,5
da un lato possiamo dire che il 25% della variazione della variabile
dipendente è spiegata da quella della variabile indipendente,
dall’altro non possiamo interpretare un r=0,5 come pari alla metà della
correlazione perfetta.
Per il coefficiente di correlazione r esistono dei test di significatività che
permettono di stabilire se i valori trovati sono sufficientemente elevati
da permettere di falsificare l’ipotesi nulla H0.
Metodologia della ricerca sociale
24
Esempi:
una matrice di correlazione
Una matrice di correlazioni è una tabella che presenta nelle celle i coefficienti di
correlazione tra le corrispondenti variabili in riga e colonna. La diagonale
principale è costituita da valori 1 (la correlazione di una distribuzione con se
stessa è perfetta) e n(n-1)/2 valori corrispondenti alle correlazioni fra tutte le
coppie di variabili (infatti la metà della tabella al di sopra della diagonale
principale sarebbe simmetrica e identica: l’r fra X e Y è uguale all’r fra Y e X.
Soddisfazione
lavorativa
Autorealizzazione
Soddisfazione
lavorativa
1
Autorealizzazione
0,51
1
Motivazione al
raggiungimento
degli obiettivi
-0,62
-0,37
Metodologia della ricerca sociale
Motivazione al
raggiungimento
degli obiettivi
1
25
La regressione lineare
Nello studio delle relazioni tra variabili, oltre a misurare l’entità (o forza)
del legame esistente, spesso si è anche interessati ad accertare come
varia una di esse al variare dell’altra, cioè ad individuare un’opportuna
funzione che metta in relazione la variabile indipendente e quella
dipendente.
Il modello di regressione che scegliamo di applicare dipende dalla nostra ipotesi circa la
relazione tra X e Y:
a. se ipotizziamo, ad esempio, che la soddisfazione lavorativa dipenda dal reddito in modo
tale che all’aumentare di una unità di reddito la soddisfazione aumenti di una certa
quota stiamo ipotizzando una relazione lineare dunque possiamo applicare un modello di
regressione lineare;
b. se invece la nostra ipotesi è che la soddisfazione lavorativa cresca con il reddito, ma solo
fino a una certa soglia, per poi restare stabile oppure decrescere, stiamo ipotizzando
relazioni non lineari, dunque non possiamo utilizzare un modello di regressione lineare, ma
a seconda dei casi sceglieremo una funzione più opportuna.
Bisogna dunque tenere presente che se si effettua l’analisi della
regressione lineare tra due variabili e non si riscontra una relazione lineare
non vuol dire che non ci sia relazione: potrebbe infatti sussistere una
relazione curvilinea.
Metodologia della ricerca sociale
26
La nuvola dei punti
Se non dovessimo avere un ipotesi forte circa la forma della relazione tra le
variabili che stiamo analizzando prima di usare un modello di regressione
possiamo utilizzare una rappresentazione grafica come strumento
esplorativo.
Poiché la regressione lineare semplice è applicabile esclusivamente a
variabili cardinali, la rappresentazione grafica più adatta è la
rappresentazione cartesiana: facendo corrispondere ad una delle due
variabili (quella indipendente) l’asse delle X, e all’altra l’asse delle Y, si
collocano sul piano i casi in base ai loro valori su ciascuna variabile.
Ogni individuo sarà rappresentato da un punto le cui coordinate saranno i
valori ottenuti sulla variabile indipendente (X) e dipendente (Y).
Già per la rappresentazione grafica la distinzione tra variabile indipendente
e dipendente è particolarmente importante, come vedremo infatti i valori
del coefficiente di regressione differiscono a seconda della scelta.
La rappresentazione grafica sul piano cartesiano produrrà una nuvola di
punti detta diagramma di dispersione (scattergram o scatterplot).
Metodologia della ricerca sociale
27
Alcuni esempi di nuvole dei punti:
Assenza di relazione
Relazione lineare negativa
Metodologia della ricerca sociale
Relazione lineare positiva
Relazione non lineare
28
La regressione lineare: la funzione
In una regressione lineare si analizza la variabile dipendente (Y) come
funzione della variabile indipendente (X):
Y= f(X)
Data una nuvola di punti in cui si ravvisa un andamento lineiforme,
ipotizziamo di tracciare una retta, che chiamiamo retta interpolante, la
quale meglio di tutte le altre si avvicina ai tutti i punti e che, dunque,
sintetizzi la nuvola.
Y
X
Sarebbe irrealistico pensare, almeno
nell’ambito delle scienze sociali che vi sia
relazione perfetta fra due variabili, ovvero
che per tutti i punti siano collegabili fra di
loro con una retta.
X
Più realistico invece è pensare ad un
andamento lineiforme per cui sia possibile
immaginare una retta che sintetizzi,
meglio di altre rette possibili, l’informazione
data dai punti.
Y
Metodologia della ricerca sociale
29
La regressione lineare: i parametri
Y= f(X)
Y = a + bX
Data una nuvola di punti, il problema è dunque quello di determinare
i parametri a e b della retta che, meglio di tutte le altre è in grado di
sintetizzarla, dove:
a è l’intercetta, ovvero in punto in cui la retta intercetta l’asse delle
y, ovvero l’ordinata della retta quando l’ascissa è 0;
b è il coefficiente angolare, cioè la pendenza della retta.
Il metodo dei minimi quadrati ci permette di determinare a e b a partire
dai valori delle due variabili X e Y sui casi individuando la retta che
riduce al minimo la somma dei quadrati degli scarti fra i valori teorici di Y
(sulla retta) ed i valori di Y osservati (nei dati):
(X - X)(Y -Y )
å
b=
a = Y - bX
Coefficiente di regressione
Intercetta
i
(Xi - X)
i
2
Metodologia della ricerca sociale
30
Il coefficiente di regressione
Dividendo il numeratore ed il denominatore del coefficiente di regressione
per la numerosità campionaria (N) otteniamo:
• al numeratore la covarianza tra X e Y;
• al denominatore la varianza di X.
æ
öæ
ö
åçè X i - X ÷øçèY i -Y ÷ø
SYX =
N
(X - X)(Y -Y )
å
b=
i
(Xi - X)
Dunque
i
2
æ
ö
åçè X i - X ÷ø
SX =
N
b=
covarianza fra X e Y
varianza di X
2
Questo spiega perché il coefficiente di correlazione r è il prodotto dei due
b che otterremmo analizzando la regressione di Y su X e quella di X su Y.
Metodologia della ricerca sociale
31
L’errore
Dato che la retta di regressione non da una rappresentazione perfetta
della nuvola di punti, ma solo una sua sintesi, poiché i punti non sono
mai allineati perfettamente sulla retta stessa, bisogna introdurre un
ulteriore coefficiente e detto errore o residuo:
Y= a + bX + e
Il valore di e è dato dallo scarto fra il valore predetto dall’equazione di
regressione e il valore effettivamente osservato nei dati:
Y–Ŷ=e
L’errore è dunque il residuo non spiegato, relativo a ciascuna
osservazione.
Metodologia della ricerca sociale
32
L’errore
Il residuo è definito come la differenza tra i valori osservati (Y) ed i
corrispondenti valori teorici (Ŷ), che si collocano sulla retta di
regressione:
Y
Y= a + bX + e
Q5
P3
Q3
P1
Q1
Q4
P4
Q2
P2
X1 X2
e= Y-Ŷ
e5
e5= Y(P5)-Ŷ(Q5)
P5
X3
X4
X5
X
Ciascun residuo è dunque il valore numerico, riferito a ciascuna unità,
rispetto al corrispondente valore osservato, che non è spiegato dalla
relazione lineare con la variabile indipendente.
Metodologia della ricerca sociale
33
La bontà dell’adattamento ai dati
Il metodo dei minimi quadrati garantisce l’individuazione della retta che
sintetizza in maniera ottimale la nuvola dei punti, ma bisogna controllare
che questa retta sia realmente in grado di spiegare l’andamento delle
osservazioni, cioè controllarne la bontà dell’adattamento ai dati.
Per farlo si segue un procedimento simile alla scomposizione della varianza
nell’Anova, la scomposizione della devianza:
Dev(Y ) = Dev(Yˆ )+ Dev(E)
Dove:
n
Devianza totale dei valori della variabile dipendente;
misura la variazione dei valori di y intorno alla loro
media.
Dev(Y ) = å(yi - y)2
i=1
n
Devianza dei valori stimati (o devianza di
regressione); variazione spiegata attribuibile alla
relazione fra X e Y.
Dev(Yˆ ) = å( ŷi - y)2
i=1
n
n
Dev(E) = å(yi - ŷi ) = åei2 Devianza dei residui (o residua); attribuibile a fattori
2
i=1
i=1
estranei alla relazione fra X e Y.
Metodologia della ricerca sociale
34
La bontà dell’adattamento ai dati
Dunque la devianza totale è composta da:
SST
=
SSR
+
SSE
Somma totale dei quadrati = Somma dei quadrati della regressione + Somma dei quadrati degli errori
La devianza è una misura di variabilità: pertanto la devianza delle
osservazioni è il risultato del contributo di due componenti:
• La variabilità dei valori stimati; espressa dalla devianza di regressione.
la parte “spiegata” dalla relazione lineare;
• La variabilità dei punti attorno alla retta; espressa dalla devianza
residua.
Anche se la sua prossimità (Dev (E)) allo 0 indica che la rappresentazione
(sintesi) fornita dalla retta di regressione è soddisfacente, il valore della
devianza residua non è direttamente utilizzabile per misurare la bontà
dell’adattamento perché il suo valore numerico è influenzato dall’ordine
di grandezza delle variabili utilizzate
Metodologia della ricerca sociale
35
La bontà dell’adattamento ai dati:
l’indice di determinazione lineare
Dato che la devianza residua non basta a rendere conto della bontà
dell’adattamento si utilizza l’indice di determinazione lineare R-quadrato.
L’R-quandrato è dato dal rapporto tra devianza di regressione (SSE) e
devianza totale (SST):
Dev(Yˆ )
Dev(E)
SSE
R =
=1=1Dev(Y )
Dev(Y )
SST
2
Essendo un rapporto al tutto, ha un campo di variazione compreso tra 0 e 1,
dove 0 indica un pessimo adattamento della retta ai dati e 1 indica un
adattamento perfetto.
Metodologia della ricerca sociale
36
Esempi:
Assenza di relazione
Soddisfazione lavorativa
12
10
8
y = 0,094x + 4,367
R² = 0,008
6
4
2
0
0
2
4
6
8
Reddito complessivo familiare
Metodologia della ricerca sociale
10
12
37
Esempi:
Relazione lineare diretta.
Soddisfazione lavorativa
12
10
y = 0,627x + 0,511
R² = 0,672
8
6
4
2
0
0
2
4
6
8
Reddito da lavoro
Metodologia della ricerca sociale
10
12
38
Esempi:
Relazione lineare inversa.
12
Soccisfazione lavorativa
10
8
6
4
y = -0,696x + 8,904
R² = 0,775
2
0
0
2
4
6
8
Stress lavoro-correlato
Metodologia della ricerca sociale
10
12
39