Corso di
Analisi Statistica per le Imprese
Cross tabulation e relazioni tra
variabili
Prof. L. Neri
a.a. 2014-2015
1
Distribuzione doppia di frequenza
Genere
respons
6
M
6
M
10
F
10
F
7
M

3
M

3
M
6
F
4
F
Genere
responsabile
Addetti
Addet
ti
M
F
3
2
0
4
0
1
6
2
1
7
1
0
10
0
2
Quanti sono i punti vendita con 3 addetti,
il cui responsabile è un maschio?
2
Quanti sono i punti vendita con 3 addetti,
il cui responsabile è una femmina?
0
2
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
1 è la frequenza
congiunta associata
alla modalità 4 del
Numero di addetti e
alla modalità F del
Genere responsabile
3
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
Distribuzione marginale del
genere del responsabile
(distribuzione di frequenza
semplice del carattere “genere
del responsabile”)
Qual è la proporzione di punti vendita il cui responsabile è una femmina?
4
p 
 0,44 (44%)
9
4
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
Distribuzione marginale degli
addetti
(distribuzione di frequenza
semplice del carattere “numero
di addetti”)
5
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
Distribuzione parziale
del numero di addetti,
condizionata alla
modalità “maschio” del
carattere “genere del
responsabile”
Distribuzione del numero
di addetti dato che il
genere del responsabile
è “maschio”
Qual è il numero medio di addetti dei punti vendita il cui responsabile è un
uomo?
6
Distribuzione doppia di frequenza
Genere
responsabile
Tot
F
3
2
0
2
4
0
1
1
6
2
1
3
7
1
0
1
10
0
2
2
5
4
9
Addetti
M
Tot
Distribuzione parziale
del genere del
responsabile,
condizionata alla
modalità “6” del
carattere “numero di
addetti”
Distribuzione del genere
del responsabile dato che
il numero di addetti è pari
a6
Considerando i punti vendita con 6 addetti, qual è la proporzione il cui
responsabile è una femmina?
7
Distribuzione doppia di frequenza
Ubicazione Vendita
on line
centro
si
periferia
si
Semicentro
no
periferia
no
centro
no
centro
no
Ubicazione
Vendita on
line
periferia
no
Tot
Semicentro
no
centro
si
Tot
si
no
Centro
2
2
4
Semic
entro
0
2
2
Perif.
1
2
3
3
6
9
8
Distribuzione doppia di frequenza
Ubicazione
Vendita on
line
Tot
Tot
si
no
Centro
2
2
4
Semic
entro
0
2
2
Perif.
1
2
3
3
6
9
Qual è la proporzione di
p.v. ubicati in centro?
Nel sottoinsieme dei p.v.
che effettuano anche la
vendita on line, qual è
la proporzione di p.v.
ubicati in centro?
Qual è la proporzione di
p.v. che vendono anche
on line?
Nel sottoinsieme di p.v.
ubicati in periferia, qual è
la proporzione di p.v. che
vendono anche on line?
9
Distribuzione doppia di frequenza
Y
y1
X1
…
yj
Tot
…
yK
n11
n1j
n1k
n1.
ni1
nij
nik
ni.
nH1
nHj
nHK
nH.
n.1
n.j
n.K
n
…
X
Xi
…
xH
Tot
2 distribuzioni marginali
H distribuzioni parziali di Y, condizionate ad ogni valore di X
K distribuzioni parziali di X, condizionate ad ogni valore di Y
10
Relazioni tra variabili:
indipendenza
Quando si osservano due caratteri X e Y
diventa interessante studiare la relazione tra
di essi
Se tra X e Y non c’è alcun legame
X e Y sono indipendenti statisticamente
Tra due caratteri esiste indipendenza
statistica quando la conoscenza della
modalità di uno dei due caratteri non
migliora la “previsione” della modalità
dell’altro
11
Associazione
In presenza di un qualche legame
(associazione) tra X e Y, lo studio della
relazione tra i due caratteri richiede di:
• distinguere la tipologia di caratteri che si
esaminano
• specificare se si è interessati a studiare la
dipendenza o l’interdipendenza
12
Dipendenza e interdipendenza
Dipendenza:
studia come le modalità di un carattere
dipendano da quelle di un altro carattere
secondo un legame unidirezionale
Interdipendenza:
Si assume che i due caratteri abbiano lo
stesso ruolo e che il legame sia bidirezionale
13
Caratteri qualitativi sconnessi
Tabella doppia di frequenza
Frequenze osservate nij
Frequenze teoriche (quelle che si
osserverebbero in caso di indipendenza
ni.  n.j
statistica) '
nij 
n
La condizione di indipendenza statistica si
verifica a partire dalle differenze cij tra
ciascuna frequenza osservata e la
corrispondente frequenza teorica cij  nij  nij'
14
Freq. osservate e freq. teoriche
Y
y1
X1
…
yj
Tot
…
Freq. osservate
yK
n11
n1j
n1k
n1.
ni1
nij
nik
ni.
…
X
Xi
…
xH
Tot
nH1
nHj
nHK
nH.
n.1
n.j
n.K
n
Freq. che si
utilizzano per
ricavare le
freq. teoriche
ni.  n. j
n 
n
'
ij
15
Frequenze osservate
Ubicazione
Vendita on
line
Tot
Tot
si
no
Centro
2
2
4
Semice
ntro
0
2
2
Perif.
1
2
3
3
6
9
16
Frequenze teoriche
Ubicazione
Vendita on
line
Tot
Tot
si
no
Centro
43
9
46
9
4
Semice
ntro
23
9
33
9
26
9
36
9
2
3
6
9
Perif.
Se ci fosse
indipendenza
statistica quali
sarebbero le
frequenze
congiunte?
3
17
Frequenze osservate e teoriche
Tot
Tot
Teoriche
si
no
Centro
2
2
4
Semice
ntro
0
2
2
Perif.
1
2
3
Ubicazione
Ubicazione
Osservate
Vendita on
line
3
6
9
Tot
Vendita on
line
Tot
si
no
Centro
1,33
2,67
4
Semice
ntro
0,67
1,33
2
Perif.
1
2
3
3
6
9
Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate
Non c’è indipendenza statistica tra i due caratteri
Qual è il grado di associazione tra i due caratteri?
18
Interdipendenza:
Indice Chi-quadrato
Studia l’interdipendenza tra due caratteri
qualitativi sconnessi a partire da una tabella
doppia
c
2
  
i1 j1 n
H
2  0
2  0
K
2
ij
'
ij
cij  nij  n
'
ij
indipendenza statistica
interdipendenza
19
Interdipendenza: Indice V di
Cramer
Indice relativo per misurare l’associazione
(interdipendenza) tra due caratteri qualitativi
V
V=0
V=1
2 / n
minH  1, K  1
0 V 1
indipendenza statistica
associazione perfetta
Più V si avvicina ad 1 e più aumenta il grado
di associazione tra X e Y
20
Calcolo di χ2 e V
2
2
2

2  1,33 2  2,67 


1,33

0  0,67 

2
0,67

1  1

2
1
2,67

2  1,33

2
1,33


 2  0,33  0,17 
 0,33  0,67  1,5

2  2

2
2
H=3, K=2 quindi il minimo
tra H-1 e K-1 è uguale a 1
V 
1,50
 0,41
9
21
Per caratteri che non sono
qualitativi sconnessi
Se X e/o Y sono qualitativi ordinati o
quantitativi (in classi), un’analisi esplorativa
sulla tabella doppia con l’indice Chi-quadrato
è sempre possibile
Tuttavia ci sono indici più opportuni da
utilizzare
22
Un carattere quantitativo e uno
qualsiasi
Se Y è un carattere quantitativo e X è
qualitativo o quantitativo discreto o
quantitativo continuo ma raggruppato in
classi si può costruire un indice che misuri
l’intensità della dipendenza in media di Y da
X, si parla di rapporto di correlazione.
23
Caratteri quantitativi
Se X e Y sono quantitativi si può costruire un
indice che misuri l’intensità del legame
lineare tra le variabili (covarianza,
coefficiente di correlazione).
24
Rappresentazione grafica
Grafico di dispersione
400
300
Costi
Due variabili quantitative
Ricavi sull’asse X
Costi sull’asse Y
Ogni punto rappresenta
una unità (un punto
vendita)
Le coordinate (x,y) del
punto rappresentano i
valori rispettivamente dei
ricavi e dei costi osservati
per quel punto vendita
200
100
0
0
100
200
300
400
500
600
700
Ricavi
n=9 coppie di valori del tipo (xi,yi)
25
Grafico di dispersione
400
300
Costi
Da come si dispongono i
punti sul piano possiamo
capire il tipo di relazione
(se esiste) tra le due
variabili
In questo caso, a ricavi
alti corrispondono costi
alti e, viceversa, a ricavi
bassi corrispondono
costi bassi
C’è una relazione lineare
positiva (concordanza)
tra costi e ricavi
200
100
0
0
100
200
300
400
500
600
700
Ricavi
26
Interdipendenza tra due
caratteri quantitativi
Covarianza: Indice simmetrico di associazione tra due
variabili quantitative
Cov(X, Y)   XY
1 n
  xi  x yi  y 
n i1
Cov > 0 se prevalgono scostamenti concordi di X e Y
(bassi valori di X corrispondenti a bassi valori di Y
oppure alti valori di X corrispondenti a alti valori di Y).
Cov < 0 se prevalgono scostamenti discordi (alti valori
di una variabile associati a bassi valori dell’altra
variabile)
Cov = 0 in assenza di relazione lineare tra X e Y
27
Covarianza nulla
Cov(X,Y)=0
28
Covarianza positiva (concordanza)
Cov(X,Y)>0
29
Covarianza negativa (discordanza)
Cov(X,Y)<0
30
Legame non lineare
La relazione tra X e Y
non è di tipo lineare
Ci aspettiamo un
valore di Cov(X,Y)
prossimo allo 0, il che
indica assenza di
legame lineare
X e Y NON sono
indipendenti, ma legati
da una forte relazione
di tipo non lineare
31
Correlazione lineare
Indice relativo di concordanza/discordanza
n
Corr(X, Y)   XY 
 XY

X  Y
 x
i1
i
 x yi  y 
n
2




x

x
y

y
 i
 i
i1
 XY  1
n
 1   XY  1
2
i1
perfetta discordanza
 1  XY  0 discordanza
 XY  0
assenza di legame lineare
0  XY  1 concordanza
 XY  1
concordanza perfetta
32
Concordanza e discordanza
perfetta
ρ=1
Perfetta concordanza
ρ=-1
Perfetta discordanza
33
Calcolo della covarianza
Media
Scarti
X
Scarti
Y
(Scarti X) x
(Scarti Y)
Ricavi
(X)
Costi
(Y)
350
205
25
16,11
402,8
200
100
-125
-88,99
11111,1
600
350
275
161,11
44305,6
500
270
175
81,11
14194,4
270
200
-55
11,11
-611,1
180
120
-145
-68,89
9988,9
205
105
-120
-83,89
10066,7
340
210
15
21,11
316,7
280
140
-45
-48,89
2200,0
325
188,89
1 n
xi  x   yi  y   Cov(X, Y)  91975  10219 ,44

n i1
9
34
Calcolo del coefficiente di
correlazione
Ricavi
(X)
Media
Costi
(Y)
350
205
200
100
600
350
500
270
270
200
180
120
205
105
340
210
280
140
325
188,89
Dev std 134,66
Cov(X, Y)  10219,44
 XY
10219 ,44


 0,97
 X   Y 134,66  78,48
C’è una forte concordanza
tra ricavi e costi
78,48
35
Ancora sulla covarianza
Codevianza(X, Y) 
n
n
xi  x yi  y    xiyi  nx y

i1
i1
Codev(X, Y ) 1 n
Cov(X, Y ) 
  xiy y  x y
n
n i1
36
Relazioni tra variabili: riepilogo
Tipo di relazione Caratteri
Struttura
dati
Indici
Interdipendenza qualsiasi
(se qualitativi
tra X e Y
Tabella
doppia di
frequenze
χ2
Dipendenza in
media di Y da X
Valori
η2 (relativo)
raggruppati
in base alle
modalità di X
sconnessi è l’unico
tipo di relazione da
studiare)
Y quantitativo
X qualsiasi
(se quantitativo
continuo, in classi)
Interdipendenza quantitativi
tra X e Y
(concordanza/di
scordanza)
Coppie di
valori
V (relativo)
Cov
ρ (relativo)
37
Relazioni tra variabili: applicazioni
Si vuole investire nel mercato azionario italiano e in
quello di un altro Paese con l’obiettivo di diversificare
il portafoglio.
Sulla base delle serie mensili delle variazioni del
Morgan Stanley Capital Index (MSCI) riferito a Italia,
Germania, Francia e Singapore si hanno i seguenti
risultati:
ρ
Italia-Francia
0.87
Italia-Germania
0.88
Italia-Singapore
0.63
Il suggerimento è di investire in titoli azionari
italiani e di Singapore. Perché?
38
Relazioni tra variabili: applicazioni
Dalla teoria economica sappiamo che esiste una
relazione tra la variabile produzione (misurata
tramite il valore aggiunto) e gli input fattore capitale
e fattore lavoro.
Dalle serie storiche (1970-1983) delle tre variabili si
ottengono i grafici di dispersione del valore aggiunto
e, rispettivamente, l’input di capitale e l’input di
lavoro
39
Relazioni tra variabili: applicazioni
Il valore aggiunto ha una correlazione maggiore
con l’input di capitale (grafico a sinistra) che con
l’input di lavoro (grafico a destra)
40
Scarica

Rip5 - Italiano