statistica
analisi bidimensionale #2
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
29 aprile 2015
Generalità
Obiettivo
Nella sezione precedente abbiamo esaminato i principali metodi per
l’analisi di fenomeni complessi, la cui osservazione in un collettivo
comporta la considerazione congiunta di più caratteri qualitativi,
limitandoci all’analisi bidimensionale
Estendiamo adesso l’analisi al caso di variabili statistiche doppie c.d.
miste, cioè composte da una mutabile statistica definita su scala
nominale/ordinale e da una variabile definita su scala quantitativa
Ovviamente, nel caso di variabili statistiche doppie miste è possibile,
come in precedenza, analizzare la distribuzione congiunta delle
frequenze (assolute e relative) allo scopo di accertare l’eventuale
presenza di connessione tra le due variabili statistiche componenti la
variabile statistica doppia
Generalità
Obiettivo
Del resto, il fatto che una delle due variabili componenti sia definita su
uno spazio numerico apre la strada a nuove interessanti possibilità di
indagine: infatti, se al mutamento di stato della variabile qualitativa si
verifica una variazione nei valori della variabile quantitativa (effetto
segnalato dalla «polarizzazione» delle osservazioni in precise regioni
dell’insieme ℝ), allora significa che le due variabili statistiche non
soltanto sono connesse, ma vi è un «qualcosa in più» che lega tra loro le
due variabili: in breve, è lo stesso concetto di connessione che va
riformulato
La proprietà che caratterizza una coppia di variabili statistiche, di cui una
qualitativa ed una quantitativa, componenti una variabile statistica
doppia mista è indicata come dipendenza in media
Generalità
La dipendenza in media
Esempio 1. Ipotizziamo di essere interessati ad accertare se il reddito medio delle
famiglie italiane è influenzato dalla ripartizione geografica. A tale scopo, rileviamo
il reddito medio in un collettivo di 𝑛 = 500 famiglie residenti nelle tre ripartizioni
geografiche del territorio nazionale. Il risultato della rilevazione è contenuto nel
seguente prospetto:
Tabella 1. Prospetto di rilevazione del reddito medio annuo in un collettivo di
500 famiglie. Classi di reddito in migliaia di euro
Reddito annuale (000 euro)
Ripartizione
geografica
Totale
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Nord
Centro
Sud e isole
15
3
32
23
23
44
59
32
49
132
29
19
21
13
6
250
100
150
Totale
50
90
140
180
40
500
Generalità
La dipendenza in media
Con riferimento alla precedente tabella, potremmo procedere con
l’analisi della connessione e calcolare quindi gli indici 𝜙 2 e 𝑉, tuttavia
le due variabili non sono equivalenti su un piano logico, in quanto
siamo interessati a verificare se al passaggio dall’una all’altra ripartizione
geografica, varia il reddito medio annuo familiare, mentre la relazione
inversa non ha giustificazione logica o, semplicemente, non è
interessante
Quindi, in presenza di variabili statistiche doppie miste, lo studio delle
relazioni tra le variabili componenti è asimmetrico, in quanto mira ad
accertare la risposta della variabile quantitativa ai cambiamenti di stato
della variabile qualitativa (variazione del reddito medio al mutare della
ripartizione geografica), o la risposta della variabile qualitativa ad una
variazione della variabile quantitativa (attenuazione dei sintomi per una
determinata patologia a seguito di un aumento nel dosaggio di un
farmaco), ma di solito non mira a verificare la relazione inversa
Generalità
La dipendenza in media
Con riferimento ai dati riportati nella Tabella 1, per accertare se al
passaggio dall’una all’altra ripartizione il reddito medio varia, possiamo
calcolare le medie delle quattro distribuzioni univariate del reddito ─
quelle che caratterizzano le tre ripartizioni geografiche e quella riferita
all’intero territorio nazionale
Se al passaggio dall’una all’altra ripartizione del territorio nazionale il
reddito medio non varia e assume un valore prossimo o al limite uguale a
quello medio nazionale, ciò indica assenza di legame tra ripartizione
geografica e reddito. Poiché per accertare tale proprietà abbiamo fatto
riferimento a medie (più precisamente, medie condizionate, come vedremo
tra poco), indicheremo tale situazione come assenza di dipendenza in
media, o meglio di indipendenza in media
Traduciamo la precedente intuizione nei termini che seguono
Generalità
La dipendenza in media
Calcoliamo il reddito medio nella ripartizione dell’Italia settentrionale,
il che equivale a «lavorare» sui dati della prima riga del quadro centrale
della Tabella 1 e applicare la metodologia standard per il calcolo di una
media aritmetica. Impostiamo il prospetto di calcolo:
Tabella 2. Distribuzione del reddito in Italia
settentrionale
Reddito
annuale
(000 euro)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Totale
5
15
25
35
45
15
23
59
132
21
0,060
0,092
0,236
0,528
0,084
0,300
1,380
5,900
18,480
3,780
250
1,000
29,840
Generalità
La dipendenza in media
Procediamo adesso a determinare il reddito medio con riferimento
all’Italia centrale (seconda riga del quadro centrale della Tabella 1),
seguendo la stessa procedura. Otteniamo:
Tabella 3. Distribuzione del reddito in Italia centrale
Reddito
annuale
(000 euro)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Totale
5
15
25
35
45
3
23
32
29
13
0,030
0,230
0,320
0,290
0,130
0,150
3,450
8,000
10,150
5,850
100
1,000
27,600
Generalità
La dipendenza in media
Analogamente, calcoliamo il reddito medio che caratterizza l’Italia
meridionale e insulare (terza riga del quadro centrale della Tabella 1),
impostando il seguente prospetto di calcolo:
Tabella 4. Distribuzione del reddito in Italia
meridionale e insulare
Reddito
annuale
(000 euro)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Totale
5
15
25
35
45
32
44
49
19
6
0,213
0,293
0,327
0,127
0,040
1,067
4,400
8,167
4,433
1,800
150
1,000
19,867
Generalità
La dipendenza in media
Infine, determiniamo il reddito medio sull’intero territorio nazionale
(riga dei totali della Tabella 1), seguendo la stessa impostazione:
Tabella 5. Distribuzione del reddito in Italia
Reddito
annuale
(000 euro)
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
Totale
5
15
25
35
45
50
90
140
180
40
0,100
0,180
0,280
0,360
0,080
0,500
2,700
7,000
12,600
3,600
500
1,000
26,400
Poiché la media aritmetica del reddito in questo caso è stata calcolata
utilizzando la distribuzione marginale delle frequenze, la indicheremo come
media marginale
Generalità
La dipendenza in media
Raccogliamo i risultati precedenti in un prospetto di sintesi e
rappresentiamoli graficamente:
Media marginale
Ripartizione
geografica
Nord
Centro
Sud e isole
29,840
27,600
19,867
Italia
26,400
Dall’esame della spezzata di
regressione, appare evidente che
passando da «nord» a «sud» il
reddito medio diminuisce
Medie
condizionate
Spezzata di regressione
Generalità
La dipendenza in media
Con riferimento al grafico precedente, appare chiaro che deve esistere
una qualche relazione di dipendenza in media tra «ripartizione
geografica» e «reddito»
Se viceversa tale situazione non si fosse verificata e ci fossimo trovati in
un caso di indipendenza in media, avremmo riscontrato che le medie
del reddito nelle tre ripartizioni geografiche sarebbero risultate tutte
uguali fra loro e uguali alla media marginale del reddito
Notare che nella procedura che abbiamo adottato per il calcolo del
reddito medio a livello di ripartizione geografica, le frequenze relative
sono state ottenute rapportando le frequenze assolute congiunte ai
rispettivi totali riga: in sostanza, abbiamo calcolato le medie utilizzando
le frequenze relative condizionate, per cui il reddito medio a livello di
ripartizione è a tutti gli effetti una media condizionata
Generalità
La dipendenza in media
Formalizziamo le operazioni di calcolo appena svolte. Consideriamo la
generica tabella di contingenza:
𝑿\𝒀
1
…
𝑥1
11
…
…
𝑥𝑖
…
…
𝑖1
…
…
ℎ
1
…
1ℎ
…
…
…
…
…
𝑖
…
…
…
…
𝑖ℎ
…
𝑥𝑘
𝑘1
…
𝑘
…
𝑘ℎ
𝑇𝑜𝑡𝑎𝑙𝑒
.1
…
.
…
.ℎ
𝑇𝑜𝑡𝑎𝑙𝑒
1.
…
𝑖.
…
𝑘.
𝑛
Generalità
La dipendenza in media
Richiamando le convenzioni adottate nella precedente sezione, nella
tabella di contingenza le 𝑘 modalità della variabile 𝑿 sono riportate in
fiancata, mentre le ℎ modalità della 𝒀 sono riportate in testata
Se restringiamo la nostra attenzione alle singole righe della tabella di
contingenza (è il caso considerato nell’esempio), ciò equivale ad
introdurre la nozione di variabile statistica condizionata; se
consideriamo la 𝑖 −esima modalità del carattere 𝑿 come «evento
condizionante» e ci concentriamo sulla distribuzione di 𝒀 in tale
partizione, indichiamo con 𝑌 𝑋 = 𝑥𝑖 la variabile 𝒀 condizionata alla
modalità 𝑥𝑖 di 𝑿
Generalità
La dipendenza in media
Indicando con la notazione 𝑌 𝑋= 𝑖 le frequenze relative condizionate
associate alla variabile 𝑌 𝑋 = 𝑥𝑖 , queste possono essere calcolate
rapportando le frequenze (assolute o relative) congiunte collocate sull’
𝑖 −esima riga della tabella di contingenza ai rispettivi totali riga. Con
riferimento alla 𝑗 −esima modalità della 𝒀, la relativa frequenza
condizionata, in simboli, sarà data da
𝑖
=
𝑖
𝑖.
Notare che la variabile condizionata 𝑌 𝑋 = 𝑥𝑖 è a tutti gli effetti una
variabile statistica univariata, quindi possiamo determinarne l’intero set
di parametri di posizione, di variabilità e di forma
Generalità
La dipendenza in media
In generale, la media condizionata è definita dalla relazione
ℎ
𝑌 𝑋= 𝑖
=
𝑖
=1
mentre la media marginale (che nell’esempio è rappresentata dal
reddito medio sull’intero territorio nazionale) è definita come
ℎ
𝑌
=
=1
.
Generalità
La dipendenza in media
Se si verificasse un caso di indipendenza in media di 𝒀 da 𝑿, allora al
variare di 𝑥𝑖 le medie condizionate 𝑌 𝑋= 𝑖 risulterebbero tutte uguali
fra loro e pari al valore della media marginale. In simboli:
𝑌 𝑋= 1
=
= …=
𝑌 𝑋= 2
𝑌 𝑋= 𝑘
≡
𝑌
Dimostriamo tale equivalenza. Abbiamo già visto che in caso di assenza
di connessione le distribuzioni condizionate sono tutte uguali tra loro e
uguali alla distribuzione marginale. Nel problema in esame, questo
equivale a dire che
𝑖
=
.
Generalità
La dipendenza in media
Con riferimento alla generica media condizionata
che
ℎ
𝑌 𝑋= 𝑖
=
=1
𝑌 𝑋= 𝑖
avremo quindi
ℎ
𝑖
=
=1
.
=
𝑌
Da un punto di vista grafico, nel caso di indipendenza in media la
spezzata di regressione risulterebbe parallela all’asse delle ascisse e
coinciderebbe con la media marginale
Viceversa, quanto più vi è dipendenza in media, tanto più le medie
condizionate differiranno fra loro e differiranno dalla media marginale.
Da un punto di vista grafico, la spezzata di regressione assumerà valori
ben distinti, maggiori o minori della media marginale
Generalità
La dipendenza in media
Un’interessante proprietà delle medie condizionate è che la loro media
aritmetica è pari alla media marginale. Dimostriamolo con riferimento
all’esempio precedente, calcolando la media aritmetica delle medie
condizionate tramite il seguente prospetto di calcolo:
Tabella 6. Prospetto di calcolo della media aritmetica
delle medie condizionate
Ripartizione
geografica
𝑌 𝑋=
Nord
Centro
Sud e isole
29,840
27,600
19,867
Totale
𝑖
𝑖.
𝑖.
𝑌 𝑋=
𝑖
250
100
150
0,500
0,200
0,300
14,920
5,520
5,960
500
1,000
26,400
𝑖.
Generalità
La dipendenza in media
Formalmente, scriveremo che
𝑘
𝑖=1
𝑌 𝑋= 𝑖
𝑖.
=
𝑌
Questo risultato è importante, in quanto in precedenza abbiamo
osservato che all’aumentare del legame di dipendenza in media, le
medie condizionate tenderanno a differenziarsi sempre più fra loro e
rispetto alla media marginale
Ma se la media aritmetica delle medie condizionate è la media
marginale, ciò equivale a dire che all’aumentare del legame di
dipendenza in media, la dispersione delle medie condizionate attorno
alla loro media tende ad aumentare, dispersione che è possibile
misurare calcolando la varianza delle medie condizionate
Generalità
La dipendenza in media
Con riferimento al nostro esempio, possiamo calcolare la varianza delle
medie condizionate organizzando il seguente prospetto di calcolo:
Tabella 7. Prospetto di calcolo della varianza delle medie condizionate
Ripartizione
geografica
𝑌 𝑋=
Nord
Centro
Sud e isole
29,840
27,600
19,867
2
𝑖.
𝑖
Totale
𝑖.
𝑌 𝑋=
𝑖
250
100
150
0,500
0,200
0,300
445,2128
152,3520
118,4053
500
1,000
715,970
𝑖.
La varianza delle medie condizionate sarà data da
𝜎𝜇2𝑌 𝑋
𝑘
=
𝑖=1
2
𝑌 𝑋= 𝑖
𝑖.
−
2
𝑌
= 715,97 − 26,42 = 19,01
Generalità
La dipendenza in media
Sviluppiamo ulteriormente il ragionamento, introducendo il concetto di
varianza condizionata
Calcoliamo le varianze condizionate in quanto, come si è sottolineato in
precedenza, essendo la variabile condizionata 𝑌 𝑋 = 𝑥𝑖 a tutti gli
effetti una variabile statistica univariata, possiamo determinarne tutti i
parametri di posizione, di variabilità e di forma
Abbiamo già determinato le medie delle 3 distribuzioni condizionate.
Procediamo adesso a calcolarne le varianze, allo scopo di evidenziare le
differenze con cui, nelle tre ripartizioni geografiche considerate, i redditi
si disperdono attorno alle rispettive medie condizionate
Generalità
La dipendenza in media
Con riferimento alla distribuzione del reddito in Italia settentrionale,
impostiamo il prospetto per il calcolo della varianza condizionate:
Tabella 8. Varianza della distribuzione del reddito in
Italia settentrionale
Reddito
annuale
(000 euro)
2
𝑋 = 𝑥1
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
5
15
25
35
45
Totale
15
23
59
132
21
0,060
0,092
0,236
0,528
0,084
1,50
20,70
147,50
646,80
170,10
250
1,000
986,60
La varianza della prima distribuzione condizionata sarà data da
𝜎𝑌2 𝑋= 1
ℎ
=
=1
𝑋 = 𝑥1
.
−
2
𝑌 𝑋= 1
= 986,6 − 29,842 = 96,174
Generalità
La dipendenza in media
Procediamo a determinare la varianza condizionata della distribuzione del
reddito in Italia centrale, seguendo la stessa procedura:
Tabella 9. Varianza della distribuzione del reddito in
Italia centrale
Reddito
annuale
(000 euro)
2
𝑋 = 𝑥2
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
5
15
25
35
45
Totale
3
23
32
29
13
0,030
0,230
0,320
0,290
0,130
0,75
51,75
200,00
355,25
263,25
100
1,000
871,00
La varianza della seconda distribuzione condizionata sarà data da
𝜎𝑌2 𝑋= 2
ℎ
=
=1
𝑋 = 𝑥2
.
−
2
𝑌 𝑋= 2
= 871,0 − 27,62 = 109,240
Generalità
La dipendenza in media
Analogamente, calcoliamo la varianza condizionata della distribuzione del
reddito in Italia meridionale e insulare:
Tabella 10. Varianza della distribuzione del reddito in
Italia meridionale e insulare
Reddito
annuale
(000 euro)
2
𝑋=𝑥
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
5
15
25
35
45
Totale
32
44
49
19
6
0,213
0,293
0,327
0,127
0,040
5,33
66,00
204,17
155,17
81,00
150
1,000
511,67
La varianza della terza distribuzione condizionata sarà data da
𝜎𝑌2 𝑋= 3
ℎ
=
𝑋=𝑥
=1
.
−
2
𝑌 𝑋= 3
= 511,67 − 19,8672 = 116,982
Generalità
La dipendenza in media
Poiché le varianze condizionate, nel passaggio dall’una all’altra modalità
della 𝑿, hanno valori differenti, sintetizziamone la distribuzione attraverso il
calcolo della loro media aritmetica:
Tabella 11. Prospetto di calcolo della media aritmetica
delle varianze condizionate
𝜎𝑌2 𝑋=
Ripartizione
geografica
Nord
Centro
Sud e isole
𝑖.
𝑖
96,174
109,240
116,982
Totale
𝑖.
𝜎𝑌2 𝑋=
𝑖
250
100
150
0,500
0,200
0,300
48,087
21,848
35,095
500
1,000
105,030
La media aritmetica delle varianze condizionate è ottenuta come
𝑘
𝜎𝑌2 𝑋
=
𝑖=1
𝜎𝑌2 𝑋=
𝑖
𝑖.
= 105,03
𝑖.
Generalità
La dipendenza in media
Infine, per ragioni che saranno immediatamente evidenti, ci interessa anche
la varianza della variabile statistica 𝒀, di cui riportiamo il prospetto di
calcolo:
Tabella 12. Prospetto di calcolo per la varianza del
reddito
Reddito
annuale
(000 euro)
2
[0, 10)
[10, 20)
[20, 30)
[30, 40)
[40, 50]
5
15
25
35
45
Totale
50
90
140
180
40
0,100
0,180
0,280
0,360
0,080
2,50
40,50
175,00
441,00
162,00
500
1,000
821,00
La varianza di 𝒀 è data dalla
seguente relazione:
2
𝜎𝑌2
ℎ
=
=1
2
.
−
2
𝑌
= 821 − 26,42 = 124,04
Generalità
Variabilità «between» e variabilità «within»
Perché ci siamo complicati la vita calcolando i parametri distributivi delle
medie e delle varianze condizionate?
Per un motivo molto semplice: abbiamo appena calcolato la varianza
marginale della variabile 𝒀, verificando che è pari a 𝜎𝑌2 = 124,04
Tale valore misura la dispersione del reddito a livello nazionale, a
prescindere dalla conoscenza di come il reddito si distribuisce nelle
ripartizioni geografiche in cui si articola il territorio italiano
Generalità
Variabilità «between» e variabilità «within»
Adesso, sommiamo la varianza delle medie condizionate 𝜎𝜇2𝑌 𝑋 e la
media delle varianze condizionate 𝜎2 ottenute in precedenza:
𝑌𝑋
𝜎𝜇2𝑌 𝑋 +
𝜎𝑌2 𝑋
= 19,01 + 105,03 = 124,04 ≡ 𝜎𝑌2
Quindi la varianza della variabile 𝒀, note le sue relazioni con una seconda
variabile 𝑿 (che può essere qualitativa o quantitativa), può essere
decomposta in due componenti, di cui una misura la variabilità «fra»
distribuzioni condizionate (between groups), mentre l’altra misura la
variabilità media «entro» le distribuzioni condizionate (within groups)
Generalità
Variabilità «between» e variabilità «within»
Questa informazione è di estremo interesse. Infatti, se osservassimo la
distribuzione del reddito nazionale nel complesso, quindi senza
considerare le differenze tra ripartizioni territoriali, il calcolo della misura
di dispersione ci fornirebbe una informazione «descrittiva» senza
ulteriori connotazioni
Nota la distribuzione del reddito tra ripartizioni territoriali, viceversa,
siamo in grado di risalire alle «cause» della dispersione osservata a livello
nazionale: un reddito medio che differisce tra ripartizioni territoriali
(misurato dalla dispersione delle medie condizionate attorno al valore
medio del reddito rilevato a livello nazionale: varianza between) e una
diversa distribuzione del reddito all’interno delle singole ripartizioni
territoriali (di cui consideriamo un valore medio: varianza within)
Generalità
Proprietà della media condizionata
Generalizziamo i risultati ottenuti enunciando le due proprietà della media
condizionata, che abbiamo già dimostrato con un procedimento induttivo
1. Proprietà della media iterata. Data una variabile statistica doppia 𝑿, 𝒀 , il
valore medio delle medie condizionate 𝑌 𝑋 è uguale al valore medio della
variabile 𝒀. In simboli:
𝑘
𝑌
=
𝑖=1
𝑌 𝑋= 𝑖
𝑖.
2. Proprietà di decomposizione della varianza. La varianza della variabile 𝑌 è
pari alla somma della varianza delle medie condizionate (varianza between)
e della media delle varianze condizionate (o varianza within). In simboli:
𝜎𝑌2 = 𝜎𝜇2𝑌 𝑋 +
𝜎𝑌2 𝑋
Generalità
La misura di dipendenza in media 𝜼𝟐
La seconda proprietà della media condizionata ci fornisce anche un’indicazione
per costruire una misura di dipendenza in media. Infatti, poiché all’aumentare
della dipendenza in media aumenta la variabilità «fra» distribuzioni condizionate,
una misura di dipendenza in media è data dal rapporto
𝜂𝑌2 𝑋 =
𝜎𝜇2𝑌 𝑋
𝜎𝑌2
in cui al numeratore figura la varianza delle medie condizionate (o varianza
between), mentre al denominatore figura la varianza totale della 𝒀. La misura
𝜂𝑌2 𝑋 è indicata come rapporto di correlazione di Pearson
Come di consueto, analizziamo i casi limite, cioè gli estremi dell’intervallo di
definizione di 𝜂𝑌2 𝑋
Generalità
La misura di dipendenza in media 𝜼𝟐
• 𝜂𝑌2 𝑋 = 0 se e solo se è nullo il numeratore del rapporto, cioè se 𝜎𝜇2𝑌 𝑋 = 0,
circostanza che si verifica, come sappiamo, in caso di indipendenza in media,
cioè di assenza di legame tra 𝑿 e 𝒀
• 𝜂𝑌2 𝑋 = 1 se e solo se 𝜎𝜇2𝑌 𝑋 = 𝜎𝑌2 , cioè quando il numeratore e il denominatore
del rapporto sono uguali, circostanza che si verifica se la seconda componente in
cui può essere decomposta la varianza è nulla e quindi 𝜎2 = 0. In questo caso
𝑌𝑋
l’unica «causa» di dispersione è la variabilità «fra» distribuzioni condizionate,
mentre in media non vi è dispersione «entro» le distribuzioni. Un esempio si ha
quando ad ogni modalità della 𝑿 corrisponde un solo valore di 𝒀, per cui le
varianza condizionate sono tutte nulle e quindi è nulla anche la loro media
• In tutti i casi intermedi si avrà che 0 < 𝜂𝑌2 𝑋 < 1. Si tratta di un’intera gamma di
situazioni in cui il legame tra 𝑿 e 𝒀 contribuirà in maniera crescente a spiegare la
variabilità del carattere 𝒀
Generalità
La misura di dipendenza in media 𝜼𝟐
Con riferimento al precedente esempio, essendo 𝜎𝑌2 = 124,04 e 𝜎𝜇2𝑌 𝑋 = 19,01
la misura di dipendenza in media sarà data da
𝜂𝑌2 𝑋 =
19,01
≅ 0,153
124,04
Ne deduciamo che il legame di dipendenza in media di 𝒀 da 𝑿 è alquanto debole,
in quanto la principale causa di variabilità della 𝒀 deriva dalla distribuzione del
reddito all’interno delle singole ripartizioni territoriali ( 𝜎2 = 105,03), mentre
𝑌𝑋
l’influsso esercitato sulla reddito dalla diversa appartenenza territoriale spiega
appena il 15,3% della variabilità complessiva
Scarica

Generalità