ESERCITAZIONE
RIEPILOGO di Statistica
Descrittiva
1
ESERCITAZIONE
MISURE DI TENDENZA CENTRALE
2
Il Monte dei Paschi di Siena vuole fare una propaganda mirata per emettere più carte
di credito ricaricabili. Se la banca dispone delle seguenti informazioni su quale gruppo
di individui sicuramente avrà più presa se fa una propaganda mirata?
Livello di istruzione dei
titolari attuali
Licenza elementare
Licenza media
Licenza media superiore
laurea
Numero di titolari
100
150
250
400
Il carattere è qualitativo ordinale posso calcolare la mediana
3
Livello di
istruzione dei
titolari attuali
Numero di Nj
titolari
Fj
Licenza
elementare
100
100
0.11
Licenza media
150
250
0.28
Licenza media
superiore
250
500
0.56
laurea
400
900
1.00
Me=licenza media
inferiore
Il carattere è qualitativo ordinale la miglior misura di tendenza centrale è
la mediana. La banca potrebbe decidere di fare una pubblicità target su
coloro che hanno titolo minore o uguale alla Mediana cioè la licenza
media superiore.
4
Supponiamo di aver letto sui giornali le seguenti informazioni sulla % di
pubblicità che viene effettuata Italia e in Germania.
TV
54,8%
TV
31,9%
Stampa
28,7%
Stampa
51,9%
Radio
5,9%
Radio
4,8%
Internet
2,5%
Internet
4,5%
altro
8,1%
altro
6,9%
Con quale misura di tendenza centrale potremmo sintetizzare l’informazione?
5
I dati riportati sono le quotazioni di un titolo in borsa rilevati negli
ultimi cinque mesi:
2.5, 1.8, 3, 2.6, 4
Se il valore 2.6 fosse erroneamente trascritto come 26 quale sarebbe
l'effetto sulle seguenti misure di tendenza centrale e perché?
a) Un incremento della media aritmetica.
b) Un incremento della mediana.
c) Un incremento della moda.
6
La seguente tabella riporta il numero di rimorchiatori osservati in 10 giorni nel
porto di Napoli.
Giorni
1°
rimorchiatori 4
2°
5
3°
3
4°
2
5°
1
6°
5
7°
3
8°
2
9°
1
10°
3
a)In media nel porto ci sono più rimorchiatori nei primi 5 giorni o nei
restanti 5?
7
Alla sede centrale delle poste di Firenze si rilevano i tempi di
attesa per usufruire del servizio su cinque clienti.
50 30 25 15 10
Entra un nuovo cliente che ha molta fretta e domanda all’impiegato
quanto più o meno deve attendere in fila. L’impiegato risponde non
più di 10 minuti. Valutare tale risposta sulla base dei dati a
disposizione.
Se fosse attendibile l’affermazione dell’impiegato dovrei osservare una
media dei tempi di attesa inferiore o al massimo uguale a 10. Uno sguardo
ai dati fa capire che tale affermazione è completamente arbitraria, perché?
8
Supponiamo che un ricercatore sia interessato a
valutare se la distanza tra il valore aggiunto pro-capite
delle aziende più ricche e di quelle più povere sia
sostanzialmente diverso tra Sicilia e Piemonte sulla
base delle seguenti informazioni.
sicilia
25
32
81
50
49
43
64
48
piemonte
48
43
20
28
26
23
29
80
9
SICILIA:
Q3/Q1=50/32=1,56
v.a.
Fi
25
32
43
48
49
50
64
81
0,125
0,25
0,375
0,5
0,625
0,75
0,875
1
PIEMONTE:
Q3/Q1=43/23=1,89
v.a.
Fi
20
23
26
28
29
43
0,125
0,25
0,375
0,5
0,625
0,75
48
80
0,875
1
C’è più distanza
tra i valori
aggiunti in
Piemonte che in
Sicilia
10
Esercizi vari
11
I valori standardizzati
Se il carattere quantitativo X ha media µ e
deviazione standard σ allora è possibile
sempre ottenere i suoi valori standardizzati
yi 
xi  

i=1…n
La distribuzione del carattere Y avrà allora media zero e
deviazione standard uguale ad 1
12
esempio
Supponiamo di aver osservato i seguenti
valori
2, 4, 5, 5 , 6, 8, 10, 12, 18, 20
µ=9
σ =5.73
I valori standardizzati saranno dati da:
y1=(2-9)/5,73=-1.22
y2=(4-9)/5,73=-0.35 ecc..
13
Caso di studio
L’andamento dei
consumi e dei redditi in
USA negli anni (19211942)
Un ricercatore vuole
studiare l’andamento dei
consumi e dei redditi in
USA negli anni 19211942. Ha a disposizione
la seguente serie storica
dei consumi e redditi in
USA dal 1921 al 1942.
ANNO
1921
1922
1923
1924
1925
1926
1927
1928
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941
1942
CONSUMO
39,20
41,90
45,00
49,20
50,60
52,60
55,10
56,20
57,30
57,80
55,00
50,90
45,60
46,50
48,70
51,30
57,70
58,70
57,50
61,60
65,00
69,70
REDDITO
43,70
40,60
49,10
55,40
56,40
58,70
60,30
61,30
64,00
67,00
57,70
50,70
41,30
45,30
48,90
53,30
61,80
65,00
61,20
68,40
74,10
85,30
14
Sviluppare lo studio del ricercatore.
Tenendo presente che le domande a cui
vuole rispondere sono le seguenti:
• la media del consumo di quanto è
inferiore a quella del reddito?
• la serie dei consumi e dei redditi
presentano la stessa variabilità?
• a quanto ammontano le mediane del
consumo e del reddito?
15
Analisi del caso di studio: SINTESI DEI
RISULTATI
La media del consumo è 53.22 dollari
Quella del reddito è di 57.66 dollari
La deviazione standard è 7.39 e 10.94
La mediana è 52.7 e 57.75
Allora possiamo dire che il reddito medio è in genere più
alto che il consumo medio.
La variabilità del reddito rispetto alla media sembra più alto
CV(consumo)=53.22/7.40=0.13
CV(reddito)=57.66/10.94=0.18
In conclusione la variabilità del reddito è più alta di
quella del consumo
16
100,00
80,00
60,00
CONSUMO
REDDITO
40,00
20,00
22
19
16
13
10
7
4
1
0,00
I consumi e i redditi hanno un andamento crescente per i primi
10 anni. Intorno agli anni ’30 (recessione) cominciano a
decrescere per poi risalire inseguito
17
Esercizio 1
Su un gruppo di 10 individui sono state raccolte le seguenti informazioni: X=genere, Y=stipendio
medio mensile, Z=giudizio personale sul livello di reddito percepito (I=insufficiente, M=Medio,
B=Buono)
Individui
1
2
3
4
5
6
7
8
9
10
X
M
F
F
F
M
M
F
F
F
M
Y
1350
1420
1230
1100
870
1100
1200
1210
1300
1400
Z
B
B
M
M
I
I
B
B
M
B
a)
b)
c)
d)
e)
per ciascuna variabile si definisca la scala di misura
quale rappresentazione grafica si potrebbe fare per ognuna delle tre variabili?
per ciascuna variabile si costruisca la distribuzione di frequenza
per ciascuna variabile si calcoli l’indice di tendenza centrale più appropriato
si consideri il carattere Y, e si supponga che in un altro gruppo di individui si sia ottenuta una
media pari a 1100 e una varianza pari a 23000, in quale dei due gruppi si ha la variabilità
maggiore?
Giustificare le risposte con la teoria.
18
Esercizio
Si consideri la distribuzione degli alunni della scuola
secondaria di primo grado per giudizio riportato
all’esame di Stato nell’Anno scolastico 2006/07 in
Italia (dati Istat)
Giudizio
Licenziati
Sufficiente
37,1
Buono
26,4
Distinto
19,2
Ottimo
17,3
100,0
a) Determinare la moda e la mediana.
b) Misurare l’eterogeneità della distribuzione
19
19
Si tratta di una distribuzione percentuale
Fj
Giudizio
Licenziati
fj
Sufficiente
37,1
0,371
0,371
Buono
26,4
0,264
0,635
Distinto
19,2
0,192
0,827
Ottimo
17,3
0,173
1
100,0
1,000
La moda, ossia la modalità più frequente, è
sufficiente
Per il calcolo della mediana sulla colonna delle
frequenze relative cumulate si individua la prima Fj
che è uguale o maggiore di 0,5
La mediana è Buono
20
20
b) Eterogeneità della distribuzione
Giudizio
Licenziati
Sufficiente
37,1
0,371
0,1376
Buono
26,4
0,264
0,0697
Distinto
19,2
0,192
0,0369
Ottimo
17,3
0,173
0,0299
100,0
1,000
0,2741
fj
f2j
K
E1  1   fj2  1  0,2741  0,7259
j1
0  E1 
e1 
K 1 3
  0,75
K
4
0,7259
 0,968
0,75
21
21
Esercizio
Si consideri la seguente distribuzione di 100
imprese per classi di fatturato:
Classi di fatturato
(migliaia di euro)
(0-20]
(20-50]
(50-100]
Totale
N.
imprese
30
50
20
100
a) Rappresentare graficamente la distribuzione
b) Determinare la moda
22
22
a) Costruzione dell’istogramma.
Le classi hanno diversa ampiezza. E’
necessario calcolare la densità di frequenza
Classi di fatturato
(migliaia di euro)
nj
Ampiezza
classe
(aj)
Densità di
freq
(hj)
0-20
30
20
1,5
20-50
50
30
1,67
50-100
20
50
0,4
Totale
100
b) La classe modale è quella che ha la densità di
frequenza maggiore. Quindi la classe modale è 20-50
23
23
ISTOGRAMMA
hi
1,7
1,5
0
20
50
100
24
24
Scarica

Eserc_riepilogo