Elaborazione Statistica dei Dati Sperimentali
Facoltà di Scienze MM FF e NN, Università Sannio
Rappresentazione dei
dati con istogrammi
Giovanni Filatrella ([email protected])
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
1
Dati grezzi
I dati sperimentali si presentano in genere
sotto forma di tabelle:
Tasso di fecondità totale per 1.000 donne in età 15-49 per regione di residenza - Anni 1982-1997
Table 10.1 continue - Total fertility rate per 1.000 women aged 15-49 by region of residence - Years 1982-1997
REGIONI E RIPARTIZIONI
1990
1991
1992
1993
Piemonte
1101
1124
1080
1046
Valle d'Aosta
1.183
1.160
1.116
1.013
Lombardia
1.147
1.124
1.125
1.100
Trentino-Alto Adige
1.402
1.410
1.420
1.345
Veneto
.159
1.115
1.138
1.092
Friuli-Venezia Giulia
1.029
1.024
1.043
950
Liguria
1.011
1.007
1.027
960
Emilia-Romagna
1.013
1.007
993
968
Toscana
1.082
1.052
1.048
1.019
Umbria
1.176
1.162
1.176
1.108
Marche
1.230
1.207
1.187
1.131
Lazio
1.280
1.233
1.259
1.208
Abruzzo
1.394
1.353
1.349
1.296
Molise
1.425
1.406
1.421
1.326
Campania
1.809
1.810
1.794
1.663
Puglia
1.654
1.601
1.584
1.486
Basilicata
1.660
1.557
1.570
1.435
Calabria
1.744
1.668
1.653
1.564
Sicilia
1.853
1.775
1.792
1.670
Sardegna
1.370
1.291
1.223
1.164
Nord
1.117
1.104
1.101
1.064
Centro
1.206
1.169
1.179
1.134
Sud
1.712
1.664
1.654
1.547
ITALIA
1.358
1.328
1.326
1.262
(a) Dati provvisori.
(a) Provisional data.
Fonte: ISTAT - Servizio "Popolazione e cultura".
Source: ISTAT - Unit "Popolazione e cultura".
1994
1026
1.082
1.068
1.339
1.064
942
928
956
982
1.074
1.087
1.168
1.245
1.280
1.601
1.437
1.363
1.432
1.548
1.089
1.040
1.094
1.466
1.215
1995
1028
1.102
1.074
1.335
1.073
941
915
967
979
1.061
1.107
1.109
1.175
1.209
1.499
1.369
1.327
1.396
1.455
1.055
1.043
1.068
1.391
1.187
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
1996
1047
1.196
1.099
1.385
1.101
975
938
1.006
995
1.068
1.085
1.121
1.191
1.166
1.570
1.367
1.269
1.351
1.468
1.030
1.075
1.076
1.403
1.205
1997 (a)
1088
1.314
1.141
1.436
1.150
1.02
969
1.035
1.03
1.097
1.116
1.167
1.185
1.211
1.573
1.386
1.284
1.329
1.487
1.108
1.115
1.116
1.419
1.217
2
Analisi dei dati
I dati così raccolti devono essere elaborati
per rispondere a delle domande:
1. Il tasso di fertilità è stato maggiore nel
1992 o nel 1993?
2. Le variazioni da una regione all’altra sono
grandi?
3. Quale potrebbe essere stato sulla base di
questi dati il tasso nel 1998?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
3
Come si risponde in presenza di
variabilità:
Il tasso di fertilità
è stato maggiore nel
1992 o nel 1993?
I valori sottolineati
sono quelli
maggiori, e non
sempre
appartengono allo
stesso anno.
1991
1992
1.124
1.160
1.124
1.410
1.115
1.024
1.007
1.007
1.052
1.162
1.207
1.233
1.353
1.406
1.810
1.601
1.557
1.668
1.775
1.291
1.080
1.116
1.125
1.420
1.138
1.043
1.027
993
1.048
1.176
1.187
1.259
1.349
1.421
1.794
1.584
1.570
1.653
1.792
1.223
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
L’analisi
statistica
di questi dati
dovrebbe
dare una
risposta
quantitativa
4
Importante
In presenza di variabilità la domanda “qual è
più grande” potrebbe dipendere da molti
fattori – in seguito vedremo quindi vari
approcci che potrebbero quindi dare
risultati diversi per lo stesso insieme di
dati.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
5
Definizioni
• Individui:
i soggetti delle misure
• Variabile casuale:
Una grandezza misurabile che assume
valori in principio diversi per i diversi
individui
Ex: nella tabella (1) se si seleziona una
regione un “individuo” è un anno. La
variabile casuale è il tasso di fertilità.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
6
Applicazione del concetto di
“individuo” e “variabile casuale”
1990
Val d'Aosta 1.183
1991
1.160
1992
1.116
1993
1.013
1994
1.082
1995
1.102
1996
1.196
1997
1.314
In corrispondenza di ogni anno (ovvero di ogni
individuo) si misura una quantità: il numero di
figli nati in quell’anno per 1000 donne (la
variabile casuale).
Nell’analisi di qualsiasi tipo di dati è essenziale
innanzitutto comprendere quali siano gli
“individui” e quale sia la “variabile casuale”.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
7
Nomenclatura dei diversi tipi di
variabili casuali
Una grandezza misurabile, cioè una variabile
casuale, può comunque appartenere a diverse
categorie:
1) Continua: può assumere un qualsiasi valore fra i
numeri reali;
2) Discreta: può assumere un qualsiasi valore fra i
numeri interi;
3) Nominale: può assumere diversi valori, ma fra
questi non vi è nessun ovvio ordinamento.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
8
Esempi di variabile continua:
1. Misurare l’altezza di coloro che seguono
questo corso;
2. Misurare il peso di coloro che seguono
questo corso;
3. Misurare la distanza che percorre ognuno
di coloro che seguono questo corso per
raggiungere la Facoltà.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
9
Esempi di variabile discreta:
1. Misurare l’anno di nascita di coloro che
seguono questo corso;
2. Misurare il numero di fratelli e sorelle di
coloro che seguono questo corso;
3. Misurare il numero di crediti già
conseguiti da coloro che seguono questo
corso.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
10
Esempi di variabile nominale:
1. Misurare il luogo di nascita di coloro che
seguono questo corso;
2. Misurare la scuola di provenienza di
coloro che seguono questo corso;
3. Misurare il Codice di Avviamento Postale
della residenza di coloro che seguono
questo corso.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
11
Applicazione alla tabella sul
tasso di fertilità:
REGIONI E RIPARTIZIONI
Valle d'Aosta
Lombardia
Trentino-Alto Adige
Veneto
Friuli-Venezia Giulia
Liguria
Emilia-Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
1990
1.183
1.147
1.402
.159
1.029
1.011
1.013
1.082
1.176
1.230
1.280
1.394
1.425
1.809
1.654
1.660
1.744
1.853
1.370
1991
1.160
1.124
1.410
1.115
1.024
1.007
1.007
1.052
1.162
1.207
1.233
1.353
1.406
1.810
1.601
1.557
1.668
1.775
1.291
1992
1.116
1.125
1.420
1.138
1.043
1.027
993
1.048
1.176
1.187
1.259
1.349
1.421
1.794
1.584
1.570
1.653
1.792
1.223
1993
1.013
1.100
1.345
1.092
950
960
968
1.019
1.108
1.131
1.208
1.296
1.326
1.663
1.486
1.435
1.564
1.670
1.164
1994
1.082
1.068
1.339
1.064
942
928
956
982
1.074
1.087
1.168
1.245
1.280
1.601
1.437
1.363
1.432
1.548
1.089
1995
1.102
1.074
1.335
1.073
941
915
967
979
1.061
1.107
1.109
1.175
1.209
1.499
1.369
1.327
1.396
1.455
1.055
1996
1.196
1.099
1.385
1.101
975
938
1.006
995
1.068
1.085
1.121
1.191
1.166
1.570
1.367
1.269
1.351
1.468
1.030
1997
1.314
1.141
1.436
1.150
1.02
969
1.035
1.03
1.097
1.116
1.167
1.185
1.211
1.573
1.386
1.284
1.329
1.487
1.108
Per le tre variabili casuali:
x1  {Il tasso di fertilità per il 1991 nelle varie regioni}
x2  {L’anno in cui ogni regione ha mostrato il minimo tasso di fertilità}
x3  {La regione che ogni anno ha mostrato il massimo tasso di fertilità}
stabilire di quale tipo si tratti
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
12
Risposte
1. x1  {Il tasso di fertilità per il 1991 nelle
varie regioni}
continua
2. x2  {L’anno in cui ogni regione ha
mostrato il minimo tasso di fertilità}
discreta
3. x3  {La regione che ogni anno ha mostrato
il massimo tasso di fertilità}
nominale
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
13
Problema
Il tasso di fertilità è il numero di figli, quindi
dovrebbe essere un intero. Perché invece
asseriamo che può assumere un qualsiasi
valore e quindi è una variabile continua?
Rispondere a casa scrivendo la motivazione.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
14
Importanza dell’elaborazione
dei dati
Es.: per le variabili x2 e x3, anche se la tabella
contiene sicuramente l’informazione, non è
ovvio sapere cosa succede.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
15
x1  {Il tasso di fertilità misurato
nel 1991}
1,124
1,162
1,775
1,160
1,207
1,291
1,124
1,233
1,410
1,353
1991
1,115 1,024
1,406 1,810
1,007
1,601
1,007
1,557
1,052
1,668
OSSERVAZIONI
•
•
Gli individui sono le regioni
La variabile casuale è continua
Ma aver isolato i dati non basta a darci un’idea
di cosa succeda.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
16
Ordinare i dati dal più piccolo al
più grande è utile:
1,007
1,007
1,024
1,052
1,115
1,124
1,124
1,160
1,162
1,207
1,233
1,291
1,353
1,406
1,410
1,557
1,601
1,668
1,775
1,810
Questa prima
elaborazione aiuta
a comprendere
cosa succede.
D: cosa si nota
dalla tabella
ordinata?
1,007
1,007
1,024
1,052
1,115
1,124
1,124
1,160
1,162
1,207
1,233
1,291
1,353
1,406
1,410
1,557
1,601
1,668
1,775
1,810
individui per i quali la variabile
compresa fra 1 ed 1,2
individui per i quali la variabile è
compresa fra 1,2 ed 1,4
individui per i quali la variabile è
compresa fra 1,4 ed 1,6
individui per i quali la variabile è
compresa fra 1,6 ed 1,8
individui per i quali la variabile è
compresa fra 1,8 e 2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
17
Suddivisione in “Classi”
Gli intervalli della slide
precedente si dicono
“classi”:
I classe: 1 b  1.2
II classe: 1.2 b  1.4
III classe: 1.4 b  1.6
IV classe: 1.6 b  1.8
V classe: 2 b
b{tasso di natalità}
Il numero di individui in
una classe è la
“frequenza assoluta” :
9
4
3
3
1
Ni{frequenza assoluta}
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
18
Definizioni
• Si dice “Classe” un intervallo di valori della
variabile casuale cui un individuo può appartenere
o no. Il numero di classi in cui suddividere dei
dati grezzi dipende da come risulta più efficace
la rappresentazione.
• L’intervallo della variabile casuale compreso in
una classe si dice “Ampiezza della classe”. Anche
le ampiezze delle classi non possono essere
decise a priori. Ove possibile, è preferibile che
siano tutte uguali.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
19
Rappresentazione efficace della
suddivisione in “Classi”
La “freq. assoluta” diviso
il totale N di individui è
la “frequenza relativa”:
0.45
0.20
0.15
0.15
0.05
fi=Ni/N{frequenza relativa}
La “freq. assoluta” può
essere espressa in
percentuali:
45%
20%
15%
15%
5%
una percentuale {fiX100}
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
20
No
b
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1,0071
1,007
1,024
1,052
1,115
1,124
1,124
1,160
1,162
1,207
1,233
1,291
1,353
1,4063
1,410
1,557
1,6014
1,668
1,775
1,8105
Totali
Classe
20
frequenza frequenza
assoluta relativa
9
0.45
4
0.20
frequenza
relativa %
45.00%
20.00%
Tabella
riassuntiva
Una tabella dei dati
ordinati contiene gli
elementi essenziali per
rappresentare le misure:
Ni
% fi

 100
N
Ni
relativa
fi

N
assoluta
fi
 Ni
relativa
3
0.15
15.00%
3
0.15
15.00%
1
0.05
5.00%
1
100.00%
i  1,2,...M
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
21
Rappresentazione grafica:
l’Istogramma
Alcune regole:
1. Chiarire cosa c’è sugli
assi;
2. Indicare solo pochi
valori a distanze
uniformi;
3. Scegliere dimensioni
tali che simboli e
numeri siano
facilmente leggibili.
Frequenza rel.
0.4
0.3
0.2
0.1
1.0
1.2 1.4
1.6
1.8 2.0
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
b (variabile
casuale)22
La scelta delle classi influenza
l’aspetto degli istogrammi
Può capitare che i dati
siano distribuiti in
modo tale che la
divisione in classi ne
influenzi molto
l’aspetto:
Percentuale di boschi andati a fuoco
nel 1985 nelle varie regioni italiane
(Fonte: ISTAT).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Piemonte
Valle D'Aosta
Lombardia
Trentino - Alto Adige
Veneto
Friuli - Venezia Giulia
Liguria
Emilia - Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
S (%)
0,34
0,45
0,27
0,04
0,27
0,20
2,34
0,12
0,64
0,74
0,93
2,27
0,73
1,48
4,91
3,63
1,52
2,43
0,87
1,75
23
No
S(%)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
0,04
0,12
0,20
0,27
0,27
0,34
0,45
0,64
0,73
0,74
0,87
0,93
1,48
1,52
1,75
2,27
2,34
2,43
19
3,63
20
4,91
Totali
Tabella
distribuzione
superficie
incendi 1985
Classe
frequenza frequenza
assoluta relativa
frequenza
relativa %
1
7
35%
0,35
2
3
5
1
0,25
0,05
25%
5%
4
2
0,10
10%
5
6
7
8
9
10
3
0
0
1
0
1
0,15
0,00
0,00
0,05
0,00
0,05
15%
0%
0%
5%
0%
5%
20
1,00
100%
E’ difficile
rappresentare i
dati in questa
forma perché
molte classi
risultano vuote.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
24
Istogrammi di dati distribuiti in
modo “anomalo”
I problemi che
sono sorti:
1. I valori per piccole
superfici cadono
tutti nella stessa
classe
2. I singoli valori per
grandi superfici
sembrano costituire
dei picchi con un
significato
Frequenza rel.
Ampiezza: 0.4
0.5%
0.3
0.2
0.1
5.0 % Superficie
25
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
incendiata
0.0 1.0
2.0
3.0 4.0
Un diverso tipo di suddivisione
in classi
Molte regioni
sono afflitte da piccoli
incendi
In poche regioni gli incend
sono devastanti
Frequenza rel.
Ampiezza: 0.8
1%
0.6
Rimane il problema che
il 60% è appiattito in
una sola classe.
0.4
0.2
5.0 % Superficie
26
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
incendiata
0.0 1.0
2.0
3.0 4.0
Istogrammi di dati non
uniformemente separati
Per ovviare a questi inconvenienti a volte la
soluzione è scegliere classi di ampiezza non
uniforme.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
27
No
S(%)
1
0,04
2
0,12
3
0,20
4
0,27
5
0,27
6
0,34
7
0,45
8
0,64
9
0,73
10
0,74
11
0,87
12
0,93
13
1,48
14
1,52
15
1,75
16
2,27
17
2,34
18
2,43
19
3,63
20
4,91
Totali
Classe
Area
del rett.
altezza
0.25%
0,6
3
0,15
15%
2
0,25%
0,8
4
0,2
20%
3
0,5%
0,5
5
0,25
25%
4
1%
0,15
3
0,15
15%
5
6
7
1%
1%
1%
0,15
0,05
0,05
3
1
1
20
0,15
0,05
0,05
1,00
15%
5%
5%
100%
1
freq.
freq.
assoluta relativa
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Freq.
relativa %
II
elab
Si sono
scelte
classi di
ampiezza
diversa
28
Istogrammi con ampiezza delle
classi non uniforme
Densità di
frequenza
0.8
Ampiezza
variabile 0.6
Si riescono a distinguere
i dati anche vicino allo 0%
Però:
1. La frequenza è prop.
all’area dei rettangoli
2. L’asse verticale è
una densità di
frequenza
0.4
0.2
5.0 % Superficie
29
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
incendiata
0.0 1.0
2.0
3.0 4.0
Scarica

Statistica descrittiva: istogrammi