TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
Lezione B.6
Scomporre la varianza
In questa lezione..
In questa lezione facciamo la conoscenza con un’altra via per misurare la
dipendenza di una variabile Y (explanandum) da un’altra X (explanans).
Essa consiste nel calcolare quanta parte dell’intera variabilità di Y (misurata dalla sua varianza) è ‘spiegata’ scomponendo la popolazione analizzata in più sottopopolazioni, distinte in base all’explanans.
Un esempio di domanda a cui si risponde con questo approccio può essere: in che misura (in che percentuale) la variabilità di un test clinico è
‘spiegata’ se noi teniamo distinti uomini da donne?
Già da questo esempio si capisce che questa strada richiede di avere a
che fare con una variabile da spiegare quantitativa, ma non pone nessun
limite al livello di misurazione dell’altra variabile, quella esplicativa, che
può essere anche nominale (o categoriale).
Prima di formalizzare misure e tecniche di misurazione introdurremo il
concetto di scomposizione della varianza, a partire da un classico
esempio tratto da un grande precursore.
Partiamo da Durkeim
Durkheim ha per primo studiato la relazione tra due caratteri di una popolazione con
una logica innovativa, analizzando la
composizione per credo religioso e il tasso
di suicidi in otto province della Baviera.
Regione
% cattolici
Suicidi x00000
Palatinato renano
Minoranza
167
Franconia centrale
Minoranza
207
Alta Franconia
Minoranza
204
Bassa Franconia
Maggioranza
157
Noi sappiamo già tradurre questi dati sotto
forma di distribuzione congiunta in due
modi distinti. Il primo consiste nel compattare i dati in una tabella a doppia entrata, che evidenzia una forte connessione.
Svevia
Maggioranza
118
Alto Palatinato
Quasi totalità
64
Alta Baviera
Quasi totalità
114
Bassa Baviera
Quasi totalità
49
X
Y
40100
100160
160220
to
t
Minoranza
0
0
3
3
Maggioranza
0
2
0
Totalità
2
1
Tot
2
3
njio
nj
ni
njio2/njxni
3
3
3
1,000
2
2
3
0,667
2
2
3
2
0,667
0
3
1
3
3
0,111
3
8
 = 2,445
2=8(2,445-1) =
= 11,56
2max=8(3-1)=16
2*=0,722
Un secondo modo per cogliere
una associazione
Conosciamo anche un secondo modo per rappresentare questi dati in modo da
cogliere l’eventuale associazione.
Una delle due variabili è qualitativa ordinale, l’altra è quantitativa. Se diamo a
ogni modalità della variabile ordinale un codice numerico in sequenza, possiamo
rappresentare la distribuzione congiunta in forma di diagramma di dispersione.
Certo, la metrica dell’asse
orizzontale
non
ci
dà
garanzie. Ma il grafico ha
comunque una sua forte
capacità di parlare.
Esso ci lascia l’impressione
di una relazione inversa tra
X e Y: al crescere della % di
cattolici nei laender cala il
tasso di suicidio.
240
200
160
120
80
40
0
1
2
3
4
Le medie vincolate
Come mai questo grafico ci lascia questa netta impressione?
Una prima risposta si ha calcolando, per ogni subpopolazione definita dalla quota
di presenza cattolica, la media della distribuzione di frequenza dei tassi di suicidio:
Xi Yj
Y1
Y2
Y3
Yj..
ni
E(Y|xi)=[jyjnij]/ni
I
167
204
207
…
3
[167+204+207]/3=192,7
II
118
157
…
…
2
[118+157]/2=137,5
III
49
64
114
…
3
[49+64+114]/3=75,7
Verificatelo!
Se congiungo in una spez240
zata i punti di coordinate
{xi, E(Y|xi)} vedo chiara- 200
mente che al crescere di X 160
la media vincolata diminui- 120
sce sempre. Questo è un
buon modo per formalizza- 80
re la nostra impressione di 40
associazione tra X e Y.
0
1
Media vincolata E(Y|xi)
di Y rispetto a una subpopolazione {X=xi} è
la media della corrispondente distribuzione vincolata.
Attenzione. La media ponderata delle
medie vincolate è
proprio pari alla media generale:
[iE(Y|xi)ni]/N=E(Y)
2
3
4
La spezzata (o linea)
di regressione
La spezzata che interpola i dati del
diagramma di dispersione, congiungendo a due a due i punti di
coordinate {xi, E(Y|xi)} è quindi un
ottimo strumento di visualizzazione delle tendenze nascoste nel
diagramma. La chiamiamo linea (o
spezzata) di regressione.
240
200
160
120
80
40
0
le modalità di Y sono i valori centrali
Xi Yj
70
130
190
ni
E(Y|xi)=[jyjnij]/ni
I
0
0
3
3
[(190x3)]/3=190
II
0
2
0
2
[(130x2)]/2=130
III
2
1
0
3
[(70x2)+(130x1)]/3=90
Tot
2
3
3
8
1
2
3
Nota: possiamo calcolare le
medie vincolate anche dopo
avere riaggregato le coppie
di dati osservati in classi.
Naturalmente, sostituendo a
ogni valore osservato il valore centrale della classe corrispondente, il risultato numerico sarà un po’ diverso.
4
La spezzata, crinale tra due
dispersioni
Zummiamo
ancora
sulla
spezzata,
e
tracciamo una linea
orizzontale di altezza
pari a E(Y)=135.
Vediamo che la distanza tra uno qualunque dei valori di Y
(per es. yj=49) e la
media generale di Y
è la somma di due
distanze: quella tra
yj e la media vincolata della corrispondente subpopolazione E(Y|xi) e quella
tra questa media
vincolata e la media
generale E(Y).
240
200
160
E(Y)=135
120
80
E(Y|x)=75,7
40
Yj = 49
0
1
2
3
4
La linea delle medie vincolate costituisce una sorta
di crinale tra due tipi di dispersioni delle modalità
di Y: a) la dispersione delle modalità di Y osservate
entro ogni sottogruppo, intorno alla media
vincolata EY|xi; b) la dispersione delle medie
vincolate stesse intorno alla media generale di Y.
Dalle medie alle varianze
vincolate
Si fosse fermato a valutare la ‘significatività’ di una relazione statistica solo
dall’andamento monotono decrescente delle medie vincolate, Durkheim non
avrebbe poi fatto granché. Il fatto è che non si ferma lì: anche senza usare grafici
o tabelle, Durkheim nota che i dati mostrano due proprietà:
240
a)
al crescere di X il carattere Y mediamente diminuisce (è la re- 200
lazione già discussa tra xi e
160
E(Y|xi));
b)
“Tutte le cifre (del primo sotto- 120
gruppo) sono maggiori di quelle
80
del secondo, queste maggiori di
quelle del terzo, senza la minima 40
irregolarità..” cioè:
0
1
2
3
4
Non solo le medie vincolate, entro i gruppi definiti dal carattere X, crescono con
continuità, ma entro ogni gruppo i valori osservati di Y sono ben addensati intorno alla loro media: hanno insomma varianza intorno alla media vincolata
(cioè varianza vincolata) contenuta, rispetto alla varianza totale di Y.
Varianze vincolate
Sappiamo che la li- 240
nea delle medie vincolate fa da crinale 200
tra le distanze (linea graffa marrone)
160
|yj-E(Y|xi)| e quelle
|E(Y|xi)-E(Y)| (blu).
La somma di queste 120
due distanze corrisponde, per ogni 80
singolo yj, alla distanza |yj-E(Y|xi)|.
40
Ma la somma delle
distanze |yj-E(Y|xi)|
al quadrato (divisa
per N) è la varianza
di Y. Possiamo calcolare analoghe ‘varianze’ anche per le
due distanze parziali
E(Y)=135
E(Y/x)=75,7
Yj = 49
0
1
2
3
4
Per ogni sottopopolazione possiamo calcolare la
varianza vincolata Var(Y|xi), cioè la varianza di una distribuzione vincolata intorno alla sua media
 y
Var(Y / x ) 
j
i
j

 E (Y / xi )2 nij
ni
Varianza entro e tra i gruppi
In ogni sottogruppo posso dunque V
V (Y / xi ) f i 
W G  E V (Y / xi  
calcolare una varianza vincolata.
i
Avrò tante varianze vincolate


2
quante sono le subpopolazioni.

y j  E Y / xi   f j   f i 


Posso farne la sintesi calcolando
una media ponderata in cui ogni
varianza vincolata è pesata con la
dimensione del sottogruppo.
 
i



j




2
  E (Y 2 / xi )  E (Y / xi   ni  / N
 i

La chiamiamo ‘VARIANZA ENTRO I GRUPPI’
Specularmente, calcoleremo la varianza tra le medie vincolate, e la chiameremo
‘VARIANZA TRA I GRUPPI’.
VBG  VarE (Y / xi  
 E Y
/ xi   E (Y )  ni / N
2
i
Calcoliamo allora le varianze ‘entro’ e ‘tra’ di Y per il database di Emile Durkheim.
Durkheim e la varianza
scomposta
Sottogruppi Xi
Xi = 1
Xi = 2
Xi = 3
tot
Yxi
(Yxi – E(y))2 (Yxi – E(Yxi))2 (E(Yxi)-E(Y))2*ni
167
1024
658.8
207
5184
205.4
204
4761
128.4
 = 578
 = 992.7
E(Y1)= 192.7
V(Y1)= 330.9
157
484
380.2
118
289
380.2
 = 275
 = 760.5
E(Y2)= 137.5
V(Y2)=380.3
64
5041
136.1
114
441
1469.4
49
7396
711.1
 = 227
 = 2316.7
E(Y3)= 75.7
V(Y3)=772.2
 = 1080
 = 24620
 = 4069.8
E(Y) = 135 VarT = 3077.5 VarWG = 508.7
(192.7–135)2*3
=
= 9976.3
Attenti ai simboli:
VarT(Y) = varianza
totale di Y;
Var
(Y) = varianza
(media
varianze parziali);
WG
(137.5-135)2*2 =
intra-gruppi
= 12.5
(75.7-135)2*3 =
=10561.4
VarBG(Y) = varianza
tra i gruppi (varianza
delle medie parziali);
 = 20550.2
VarBG = 2568.8
ni = numerosità di
ciascun gruppo.
Dai dati emerge un risultato sorprendente: La varianza totale di Y si scompone esattamente nella somma di due parti:
VarWG(Y)+ VarBG(Y)=508,7+2568,8=3077,5= VarT(Y)
E’ pura coincidenza
o è un risultato
generalizzabile?
Simulazione 1: cresce la
varianza entro i gruppi
Per capire se è un caso fortuito o una regola facciamo alcuni esperimenti. Modifichiamo il database di Durkheim, rispettando ogni volta qualcosa dei dati originali.
Come prima simulazione, costruiamo un database in cui i tassi di suicidio sono
molto più dispersi entro ogni sottogruppo, con abbondanti sovrapposizioni tra loro,
ma restano inalterate sia la media generale che le medie vincolate.
320
280
240
200
160
120
80
40
La seconda condizione di
Durkheim (“tutte le cifre
del primo sottogruppo
sono maggiori di quelle del
se-condo, quelle del
secondo maggiori di quelle
del ter-zo, senza la
minima irre-golarità”) non
è più soddisfatta..
0
1
2
3
4
Simulazione 1: calcolo
Sottogruppi Xi
Yxi
(Yxi – E(Y))2
(Yxi – E(Yx i))2
Xi = 1
308
200
70
 = 578
E(Y/1)= 192.7
225
50
 = 275
E(Y/2)= 137.5
150
50
27
 = 227
E(Y/3)= 75.7
 = 1080
E(Y)= 135
29929
4225
4225
13301.8
53.8
15047.1
 = 28402.7
V(Y/1)= 9467.6
7656.3
8656.3
 = 15312.5
V(Y/2)= 7656.3
5525.4
658.8
2368.4
 = 8552.7
V(Y/3)=2850.9
 = 52267.8
VarWG = 6533.5
Xi = 2
Xi = 3
tot
8100
7225
225
7225
11664
 = 72818
VarT = 9102.3
(E(Yx i)-E(Y))2*ni
(192.7-135)2*3 =
= 9976.3
(137.5-135)2*2 =
= 12.5
(75.7-135)2*3
Constatiamo che anche in questo caso la
somma delle due varianze parziali, entro
e tra i gruppi, è pari
alla varianza generale di Y:
VarWG(Y)+ VarBG(Y)=
=
= 10561.3
 = 20550.2
VarBG = 2568.8
=6533,5+2568,8=
=9102,3= VarT(Y)
Ma notiamo anche:
In questa simulazione la varianza generale di Y è molto maggiore (per forza!
Abbiamo volutamente disperso i dati).
Questa varianza in più è tutta nella varianza residua: la varianza tra gruppi è
immutata (e infatti l’abbiamo tenuta ferma!).
Ne risulta che – sul totale della V(Y) – quella residua pesa molto di più: 6533,5
su 9102,3 è oltre il 70%, mentre 508,7 su 3077,5 era solo il 16,5%!
Simulazione 2: medie vincolate
costanti
Facciamo una seconda simulazione. Costruiamo i dati in modo da mantenere
invariata la media generale di Y, ma anche da rendere costanti le medie vincolate.
Ovvio che se le medie vincolate sono tutte uguali, sono anche uguali a E(Y).
Che significato ha questo caso? Avevamo a suo tempo detto che Y era stocasticamente indipendente da X se al variare di X restava invariata l’intera distribuzione vincolata. Una condizione molto forte!
280
240
200
160
120
80
40
0
Ma anche in questo caso Y è in
qualche modo indipendente da
X. Al crescere della presenza
cattolica il tasso di suicidio non
sale né scende. Insomma la
composizione religiosa non sembra avere influenza sul comportamento suicidario.
0
1
2
3
4
Indipendenza in media
Diciamo che c’è indipendenza ‘in media’ (o ‘regressiva’) di Y da X se al
variare di X le medie vincolate E(Y|X) non variano.
Sappiamo che se c’è indipendenza stocastica
di Y da X c’è anche indipendenza di X a da Y.
E’ una proprietà simmetrica. Invece l’indipendenza in media non è una proprietà
simmetrica. In questo esempio sono uguali
tra loro le E(X|y) (c’è indipendenza in media
di X da Y) ma non le E(Y|x) (non c’è indipendenza in media di Y da X).
Xi Yj
5
10
40
ni
E(Y|xi)
1
2
4
1
7
12,86
2
2
2
2
6
18,33
3
2
4
1
7
12,86
nj
6
10
4
20
14.50
E(X|yj)
2
2
2
Insomma, l’indipendenza in media nasconde trappole. Eppure è davvero la più
frequentata nei libri, nei giornali, nel parlato comune. Pensate a questi esempi:
•Il voto medio all’esame di maturità è lo stesso per ragazzi e ragazze (ma
le une han tutte prestazioni accettabili, tra i ragazzi ci sono geni e somari..)
•La performance media dei diversi atleti è la stessa (ma Tizio ha prestazioni
costanti, mentre Caio fa tempi eccezionali in prova e poi in gara fa schifo..)
Indipendenza in media e
stocastica a tre dimensioni
100
Se al variare di X restano invariate le intere
distribuzioni vincolate, l’indipendenza (stocastica) è davvero forte. Ma se al variare di X
100
sono costanti le medie vincolate le distribuzioni vincolate possono cambiare anche molto. 80
Poniamo allineati in prospettiva
tre istogrammi con uguale media
ma distribuzione, inizialmente regolare e simmetrica, via via sempre più polarizzata. Ecco una rappresentazione ‘a tre dimensioni’
di una distribuzione congiunta
con indipendenza in media ma
non indipendenza stocastica.
80
60
40
20
X=3
60
0
100
40
80
20
60
0
0
40
60
20
40
60
20
80
X=1
0
0
20
80
100
X=2
0
40
20
40
60
80
100
120
Se c’è indipendenza stocastica c’è anche indipendenza in media
ma non viceversa (come in questo esempio). L’indipendenza
stocastica include quella in media, ma non viceversa.
100
120
120
Simulazione 2: calcolo
Sottogruppi Xi
Xi = 1
Xi = 2
Xi = 3
Tot
Yxi
(Yxi – E(Y))2
(Yxi – E(Yxi))2
250
135
20
 = 405
E(Y1)=135
150
120
 = 270
E(Y2)=135
200
135
70
 = 405
E(Y3)=135
 = 1080
E(Y) = 135
13225
0
13225
13225
0
13225
 = 26450
V(Y1)=8816.7
225
225
 = 450
V(Y2)=225
4225
0
4225
 = 8450
V(Y2)=2814.7
 = 35350
VarWG = 4418.8
225
225
4225
0
4225
 = 35350
VarT = 4418.7
(E(Yxi)-E(Y))2*ni
(135 - 135)2*3 =
=0
(135-135)2*2 =
=0
(135-135)2*3 =
=0
=0
VarBG = 0
Anche qui la somma delle due varianze parziali, entro e tra i gruppi, è
pari alla varianza
generale di Y:
VarWG(Y)+VarBG(Y)
=4418,7= VarT(Y)
E notiamo anche
un’altra cosa:
In questa simulazione la varianza ‘tra gruppi’ è proprio zero. Logico: essa è la
dispersione delle medie vincolate (poste da noi tutte uguali) intorno a E(Y).
Dunque quando c’è indipendenza in media di Y da X la varianza ‘tra i gruppi’ è
nulla. In altre parole, la variabilità di Y non è per niente ‘spiegata’ da una qualche
influenza di X. Abituiamoci a chiamare VarBG(Y) ‘VARIANZA SPIEGATA’.
Parallelamente, chiameremo VarWG(Y) ‘VARIANZA RESIDUA’.
Simulazione 3: perfetta
dipendenza funzionale
Facciamo allora l’ipotesi opposta: che ci sia perfetta dipendenza del suicidio dalla
composizione religiosa del contesto. Questo significa che le medie vincolate varieranno nei tre sottogruppi (supponiamo che restino le stesse rilevate da Durkheim,
e identica resti anche la media generale), ma ora dentro ogni sottogruppo le osservazioni siano tutte uguali.
Per es. i laender cattolici han tutti tasso di suicidio 75, quelli protestanti tutti 192.
Il comportamento dipende rigidamente dalla religione dominante nel contesto.
In questo caso Y la composizione
per religione professata è connessa con (e quindi influenza?) il
comportamento in questione.
280
240
200
160
120
80
40
0
Tutte le osservazioni ‘giacciono’
sulla linea di regressione, e questa rappresenta perfettamente la
forma della relazione funzionale.
0
1
2
3
4
Dipendenza funzionale a tre
dimensioni
100
Se per ogni valore di X la variabile Y
assume una e una sola modalità, con
frequenza 1, c’è perfetta dipendenza100
funzionale di Y da X.
80
80
60
40
20
Anche la perfetta dipendenza
funzionale è una proprietà non
necessariamente simmetrica
(provate voi a costruire una tabella di perfetta dipendenza bilaterale che abbia un numero differente di righe e di colonne: per
esempio due e tre).
60
0
100
40
80
20
60
0
40
0
20
40
60
80 X=3
100
100
X=2120
0
20
40
60
80
20
40
60
80
100
X=1 120
20
0
0
Nella rappresentazione a 3 dimensioni di un caso di dipendenza
funzionale vediamo che sul piano cartesiano (qui è il ‘pavimento’ del
grafico) le osservazioni stanno tutte su una sola linea (rossa).
120
Simulazione 3: calcolo
Sottogruppi Xi
Xi = 1
Xi = 2
Xi = 3
tot
Yxi
(Yxi – E(Y))2
(Yxi – E(Yxi))2
192.7
192.7
192.7
 = 578
E(Y1)=192.7
137.5
137.5
 = 275
E(Y2)=137.5
75.7
75.7
75.7
 = 405
E(Y3)=75.7
 = 1080
E(Y) = 135
3325.4
3325.4
3325.4
0
0
0
=0
V(Y1)=0
0
0
=0
V(Y2)=0
0
0
0
=0
V(Y3)=0
=0
VarWG = 0
6.3
6.3
3520.4
3520.4
3520.4
 = 20550.2
VarT = 2568.8
(E(Yxi)- E(Y))2*ni
(192.7-135)2*3 =
= 9976.3
(137.5-135)2*2 =
= 12.5
(75.7-135)2*3
Ancora una volta
constatiamo quella
che ormai dobbiamo ritenere una
regola contabile:
VarWG(Y)+ VarBG(Y)
=2568,8= VarT(Y)
=
= 10561.3
 = 20550.2
VarBG = 2568.8
E ancora una volta
notiamo alcune
altre cose:
Nel caso di indipendenza in media la varianza ‘spiegata’ (tra gruppi) era zero,
cioè non contribuiva per nulla alla varianza totale. In questa simulazione, di
perfetta dipendenza funzionale, la varianza ‘spiegata’ è invece pari proprio alla
varianza totale. Possiamo dire che contribuisce al 100% alla varianza totale.
Viceversa, nel caso di indipendenza in media la varianza ‘residua’ era il 100% di
quella totale: nulla era spiegato dalla relazione (Y/x). Qui invece tutta la variabilità
di Y è ‘spiegata’ dalla dipendenza funzionale da X: non resta variabilità residua.
Principio di scomposizione
della varianza
Tiriamo le fila delle regolarità emerse dalle simulazioni presentate. Esse possono
essere sintetizzate nel principio qui riportato (è talmente generale che possiamo
anche arrivarci attraverso una dimostrazione analitica, ma ve ne facciamo grazia)
PRINCIPIO DI SCOMPOSIZIONE DELLA VARIANZA: “La varianza di una
variabile che vogliamo spiegare (explanandum) è scomponibile nella
somma di due fattori: la varianza ‘spiegata’ dalla dipendenza da
un’altra variabile (explanans), e calcolata come varianza tra le medie
vincolate E(Y|x), e la varianza non spiegata da quella relazione, o
‘residua, calcolata come media delle varianze entro le singole
distribuzioni di Y vincolate a X:
VarWG + VarBG = VarT(Y)
Misurare la dipendenza:
Eta quadro di Pearson
Come misurare allora il grado di dipendenza di Y da X? Ci vorrebbe una bella
misura crescente col crescere della dipendenza, minima se c’è indipendenza in
media, e magari normalizzata tra zero e uno…
Voila. Dall’identità contabile del principio di scomposizione della varianza,
dividendo entrambe le parti dell’equazione per VarT(Y) si ottiene:
VarW G (Y ) VarBG (Y )

1
VarT (Y ) VarT (Y )
Per misurare allora il grado di dipendenza in media di una variabile (Y) da
un’altra (X) costruiamo un indice normalizzato, rapportando la varianza
‘spiegata’ al suo massimo. Chiamiamo ETA QUADRO la misura
0 
2
YX
VarBG (Y )
VarW G (Y )

 1
1
VarT (Y )
VarT (Y )
Ancora su eta quadro
Eta quadro è dunque una misura mai negativa (è il rapporto tra due varianze) e
che non può mai superare 1, dato che il numeratore è una parte del denominatore. Riassumiamo i valori che assume 2YX nelle simulazioni precedenti:
Database ‘originale’: VarT(Y)=3077,5; VarWG=508,7; VarBG=2568,8; 2YX=0,835=83,5%
Prima simulazione: VarT(Y)=9102,3; VarWG=6533,5; VarBG=2568,8; 2YX=0,282=28,2%
Indipendenza in media: VarT(Y)=4418,7; VarWG=4418,7; VarBG=0; 2YX=0,00=0%
Dipendenza funzionale: VarT(Y)=2568,8; VarWG=0; VarBG=2568,8; 2YX=1,00=100%
Eta quadro misura la quota (percentuale) di varianza dell’explanandum
(Y) ‘spiegata’ da una qualche dipendenza in media dall’explanans (X). La
dipendenza in media può essere qualunque tipo di dipendenza funzionale.
Può anche legare un explanandum quantitativo a un explanans nominale.
NOTA: Le qualità operative di 2YX non ci devono fare perdere di vista che esso si
appoggia su una proprietà fondamentale della spezzata di regressione, cioè della
linea delle medie vincolate. Essa è quel crinale tra la variabilità totale di Y e la
variabilità entro sottogruppi parziali per il quale vale il principio di scomposizione
della varianza. Questo principio non vale per qualunque funzione Y=(X), anzi per
la verità non vale ‘quasi’ mai! (ma tra un po’ troveremo un’eccezione rilevante).
Un esempio di calcolo
Problema: A un test clinico si sono sottoposti 8 studenti. Tre di loro (il cui test dà
come esito 12, 15, 21) conducono una vita normale, con moderata attività sportiva. Altri tre (i cui esiti del test sono 8, 11, 17) fanno vita totalmente sedentaria. Gli ultimi due (test= 16, 24) fanno sport agonistico. In che misura l’esito del
test dipende dal tipo di vita (sedentaria o attiva) svolta?
Il gruppo di appartenenza (Moderati, Sedentari, Agonisti) sia la variabile X, explanans (è nominale, ma non c’è problema). Y, explanandum, è l’esito del test:
Xi gruppo
yj=test
ni
E(Y|xi)
E(Y|xi)ni
E(Y|xi)2ni
E(Y2|xi)
Var(Y|xi)
Var(Y|xi) ni
Moderati
12,15,21
3
16
48
768
270
14
42
Sedentari
8,11,17
3
12
36
432
158
14
42
Agonisti
16,24
2
20
40
800
416
16
32
8
15,5
124
2000
Totale
116
E(Y)=15,5; E(Y2)=[E(Y2|xi) ni]/N=2116/8=264,5; VarT(Y)=264,5-(15,5)2=24,25
VarWG(Y)= [Var(Y|xi) ni]/N=116/8=14,5
VarBG(Y)=E(Y)2-[E(Y)]2=(2000/8)-(15,5)2=9,75
VarWG(Y)+ VarBG(Y)= VarT(Y)
come volevasi dimostrare
(entro cornici uguali trovate identici parametri)
2YX=VarBG(Y)/VarT(Y)=40,2%
Scarica

TQA.B06.ScompVar - Dipartimento di Sociologia