STATISTICA DESCRITTIVA
BIVARIATA
Studio simultaneo di due caratteri distinti della popolazione
Consideriamo un gruppo di 9 studenti dei quali
vengono raccolte informazioni su sesso e
regione di provenienza.
Nome
Sesso Regione
P. Neri
M
Sardegna
G. Lanzarotti
F
Marche
A. Bianchi
M
Lombardia
V. Rossi
M
Lombardia
E. Mariononi
F
Marche
M. Driu
F
Sardegna
E. Erba
F
Sardegna
V. Arrigoni
M
Lombardia
M. Mauri
M
Sardegna
Popolazione statistica?
Variabili statistiche?
Sesso
Regione
Tabella di distribuzione
doppia disaggregata
Una distribuzione doppia può essere:
* Quantitativa se entrambe le variabili sono quantitative
* Qualitativa se entrambe le variabili sono qualitative
* Mista negli altri casi
TABELLA DELLA DISTRIBUZIONE CONGIUNTA
Regione
Sardegna
Marche
Lombardia
M
2
0
3
F
2
2
0
Sesso
Ogni casella contiene la
FREQUENZA CONGIUNTA
delle 2 variabili
Vantaggio: facilità di lettura dati
DISTRIBUZIONI MARGINALI
Regione
Sardegna
Marche
Lombardia
Totale
M
2
0
3
5
F
2
2
0
4
Totale
4
2
3
9
Sesso
Sommando le frequenze per
riga si ottengono le
FREQUENZE MARGINALI per la
VS sesso
Sesso
Frequenza
M
5
F
4
Sommando le frequenze per
colonna si ottengono le
FREQUENZE MARGINALI per la VS
regione
Regione
Frequenza
Sardegna
4
Marche
2
Lombardia
3
Si dice distribuzione marginale ogni
distribuzione di frequenza che si ottiene
considerando le frequenze associate a una
sola variabile, indipendentemente dall’altra.
Ci si può domandare come si distribuisce la variabile
sesso per gli studenti che provengono da una certa
regione.
Ad esempio considerando la regione Lombardia
In questo caso si studia la variabile sesso CONDIZIONATA
dalla variabile regione
Regione = Lombardia
Sesso
Frequenze
Relative
Percentuali
M
3
1
100%
F
0
0
0%
Totale
3
1
100%
VS Sesso | Regione = Lombardia
Data una distribuzione doppia (X,Y) si ottiene la distribuzione
condizionata di Y rispetto a xi osservando come si distribuisce
Y solo per i soggetti della popolazione che hanno per la
variabile X il valore fissato xi
In simboli Y|(X = xi )
N.B: Nelle frequenze condizionate si formano tante tabelle
quante le modalità della variabile X
Lo scopo dell’analisi di una distribuzione doppia è stabilire un
legame tra le due variabili X e Y
E’ stata effettuata un’indagine sulla soddisfazione di 1316
utenti di una compagnia ferroviaria rispetto al tipo di treno su
cui hanno viaggiato
Soddisfazione
Tipo di treno
AV
IC
R
Totale
Si
203
118
178
499
No
122
167
528
817
Totale
325
285
706
1316
Calcoliamo le frequenze condizionate
della soddisfazione X al tipo di treno Y
Soddisfazione
AV
Si
0,62
No
0,38
Soddisfazione AV
IC
R
Totale
Si
0,62
0,41
0,25
0,38
No
0,38
0,59
0,75
0,62
Totale
1
1
1
La soddisfazione dipende dal treno!
La variabile X dipende da Y
Se la tabella delle frequenza condizionate fosse stata
Soddisfazione AV
IC
R
Totale
Si
0,38
0,38
0,38
0,38
No
0,62
0,62
0,62
0,62
Totale
1
1
1
La soddisfazione sarebbe stata indipendente dal tipo di treno
Soddisfazione
AV
IC
R
Totale
Si
499
0
0
499
No
0
298
528
817
Totale
499
298
528
1316
La variabile soddisfazione dipende perfettamente dal tipo di treno
Come misurare il grado di dipendenza tra 2 variabili?
Test del 2
Pearson 1900
Come si calcola questo indice?
Frequenza teorica in caso di indipendenza
Soddisfatti dei treni AV
1) Si calcola la frequenza relativa dei soddisfatti
499/1316
2) Si moltiplica la frequenza relativa per il numero di utenti del
treno AV
(499/1316 )*325
FREQUENZA TEORICA IN
CASO DI INDIPENDENZA
Frequenza teorica in caso di indipendenza
insoddisfatti dei treni AV
1) Si calcola la frequenza relativa degli insoddisfatti 817/1316
2) Si moltiplica la frequenza relativa per il numero di utenti del
treno AV
(817/1316 )*325
FREQUENZA TEORICA IN
CASO DI INDIPENDENZA
ECC. ECC.
Calcolo della contingenza
Frequenza
misurata
Frequenza
teorica
Contingenze Quadrato
delle
contingenze
Si
203
123,23
79,77
6362,73
No
122
201,77
-79,77
6362,73
Treno AV
Contingenza = frequenza misurata – frequenza teorica in caso di indipendenza
Si ripete il calcolo delle contingenze per tutte le
tipologie di treno
Si dividono i quadrati delle contingenze per le
frequenze teoriche
AV
IC
R
51,63
0,80
30,06
31,54
0,49
18,36
La somma degli elementi della tabella è l’indice 2
Qual è il suo significato?
Se i 2 caratteri sono indipendenti, la somma
delle contingenze è nulla
2
è uguale a zero
Se i 2 caratteri sono dipendenti, il valore di chi-quadro
aumenta all’aumentare della dipendenza
2
NORMALIZZATO
C
2
=
N (h-1)
N = numero di unità statistiche considerate
h = minore tra il numero delle righe e delle colonne
0<C<1
Scarica

STATISTICA DESCRITTIVA BIVARIATA