Elaborazione Statistica dei Dati Sperimentali
Facoltà di Scienze MM FF e NN, Università Sannio
Misure di posizione
Giovanni Filatrella ([email protected])
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
1
Sintesi dei dati
Un istogramma o una tabella di dati
contengono molte informazioni
E’ utile talvolta riassumere i dati con degli
indicatori (indici)
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
2
“Indici” o “misure” di posizione
D: Esiste un singolo valore
che possa dare qualche
indicazione su come si
distribuisce la variabile
casuale?
Frequenza rel.
0.4
0.3
0.2
0.1
1.0
1.2 1.4
1.6
1.8 2.0
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
tasso 3di
fertilità
A cosa serve questo valore?
• Per riassumere i dati occorre avere in
mente una domanda
• A seconda del tipo di analisi che si vuole
fare il tipo di “riassunto” dei dati è diverso.
NON vi è una risposta in assoluto “corretta”
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
4
Esempi
Il tipo di analisi più comune è la media aritmetica:
n
x
x
i 1
i
n
Proprietà di cui gode:conserva le trasformazioni di scala
operate sui dati:
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
5
Alternative:
Mediana:
La mediana divide la distribuzione in due
parti uguali. E’ definita come quel valore (centrale) che,
una volta ordinati i dati del campione, lascia alla sua
sinistra e alla sua destra la metà del campione, cioè
divide a metà la distribuzione dei dati.
Per esempio:
2, 5, 6, 8, 13, 15, 19, 22, 38
hanno mediana 13 (il 5° di 9
valori)
3, 4, 8, 9, 13, 16, 17, 20, 21, 22 hanno mediana 14,5 (la
media fra il 5° e il 6° di 10
valori)
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
6
Formalmente:
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
7
Procedura:
6, 6.7, 3.8, 7, 5.8
I valori ordinati sono:
3.8, 5.8, 6, 6.7, 7
mediana
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
8
Esempio (2)
6, 6.7, 3.8, 7, 5.8, 9.975
I valori ordinati sono:
3.8, 5.8, 6, 6.7, 7, 9.975
6  6. 7
Mediana 
 6.35
2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
9
Cosa fare se i dati sono già
raggruppati in classi:
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
10
Esempio
La classe che contiene la mediana è la numero 3, (58 ┤ 70),
Quindi la mediana è:
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
11
Importante
• La mediana non gode delle proprietà
matematiche della media!
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
12
III esempio di indice di
posizione: la MODA
Si definisce Moda il valore della variabile casuale
della classe che si presenta con maggiore
frequenza
(rispetto alle
classi
adiacenti se esiste un
ordinamento,
variabili discrete o
continue):
Relative Frequency Histogram
35
Relative Frequency (in %)
30
25
20
15
10
5
0
0
2
4
6
x-Axis
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
8
10
12
13
La moda di una distribuzione di
dati potrebbe non
corrispondere ad un solo valore:
Relative Frequency Histogram
40
Relative Frequency (in %)
35
30
25
20
15
10
5
0
0
2
4
6
x-Axis
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
8
10
12
14
Moda dai dati grezzi
Per i dati sperimentali non si può calcolare un indice
a prescindere dalla scelta di “individui” e
“variabile casuale”:
Tasso di fecondità totale per 1.000 donne in età 15-49 per regione di residenza - Anni 1982-1997
Table 10.1 continue - Total fertility rate per 1.000 women aged 15-49 by region of residence - Years 1982-1997
REGIONI E RIPARTIZIONI
1990
1991
1992
1993
Piemonte
1101
1124
1080
1046
Valle d'Aosta
1.183
1.160
1.116
1.013
Lombardia
1.147
1.124
1.125
1.100
Trentino-Alto Adige
1.402
1.410
1.420
1.345
Veneto
.159
1.115
1.138
1.092
Friuli-Venezia Giulia
1.029
1.024
1.043
950
Liguria
1.011
1.007
1.027
960
Emilia-Romagna
1.013
1.007
993
968
Toscana
1.082
1.052
1.048
1.019
Umbria
1.176
1.162
1.176
1.108
Marche
1.230
1.207
1.187
1.131
Lazio
1.280
1.233
1.259
1.208
Abruzzo
1.394
1.353
1.349
1.296
Molise
1.425
1.406
1.421
1.326
Campania
1.809
1.810
1.794
1.663
Puglia
1.654
1.601
1.584
1.486
Basilicata
1.660
1.557
1.570
1.435
Calabria
1.744
1.668
1.653
1.564
Sicilia
1.853
1.775
1.792
1.670
Sardegna
1.370
1.291
1.223
1.164
Nord
1.117
1.104
1.101
1.064
Centro
1.206
1.169
1.179
1.134
Sud
1.712
1.664
1.654
1.547
ITALIA
1.358
1.328
1.326
1.262
(a) Dati provvisori.
(a) Provisional data.
Fonte: ISTAT - Servizio "Popolazione e cultura".
Source: ISTAT - Unit "Popolazione e cultura".
1994
1026
1.082
1.068
1.339
1.064
942
928
956
982
1.074
1.087
1.168
1.245
1.280
1.601
1.437
1.363
1.432
1.548
1.089
1.040
1.094
1.466
1.215
1995
1028
1.102
1.074
1.335
1.073
941
915
967
979
1.061
1.107
1.109
1.175
1.209
1.499
1.369
1.327
1.396
1.455
1.055
1.043
1.068
1.391
1.187
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
1996
1047
1.196
1.099
1.385
1.101
975
938
1.006
995
1.068
1.085
1.121
1.191
1.166
1.570
1.367
1.269
1.351
1.468
1.030
1.075
1.076
1.403
1.205
1997 (a)
1088
1.314
1.141
1.436
1.150
1.02
969
1.035
1.03
1.097
1.116
1.167
1.185
1.211
1.573
1.386
1.284
1.329
1.487
1.108
1.115
1.116
1.419
1.217
15
D: A quali dati si possono
applicare i vari indici?
• Media: solo alle variabili casuali intere o
reali
• Mediana: solo alle variabili casuali intere o
reali
• Moda: a qualsiasi distribuzione di dati
(anche a quelli nominali)
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
16
Esempi di applicazione delle
misure di posizione
I guasti in un sistema produttivo risultano
causati da:
1. Errore umano
12
2. Problemi dell’impianto
22
3. Malfunzionamenti software
7
4. Difetti dei materiali
5
5. Cause sconosciute
6
D.: Cosa scegliereste e perché?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
17
II esempio di applicazione delle
misure di posizione
I guasti in un sistema produttivo hanno provocato
delle interruzioni di:
1. 0-1h
26
2. 1-3h
10
3. 3h-1d
2
4. 1-7d
1
D.: Cosa scegliereste e perché? e come
procedereste con i calcoli?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
18
III esempio di applicazione
delle misure di posizione
I tempi di attesa di un prodotto da parte dei clienti
risultano essere stati:
1. 0-2d
2
2. 2-4d
11
3. 4-6d
5
4. 28d
1
D.: Cosa scegliereste e perché? e come
procedereste con i calcoli?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
19
Attenzione:
Sono riportate spesso delle relazioni
empiriche fra moda, mediana e media. Non
prendetele troppo sul serio!
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
20
Altra caratterizzazione delle
distribuzioni: i percentili
Percentile: il p-mo percentile è il minimo
dato di una lista tale che almeno p% dei
valori della lista siano minori o uguali ad
esso.
Pertanto per ottenere i percentili da un
insieme di dati è necessario ordinarli in
una lista.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
21
Nomenclatura:
• 25mo percentile  I Quartile, o Lower
Quartile
• 50mo percentile  Mediana
• 75mo percentile  III Quartile, o Upper
Quartile
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
22
Esercizio:
Classi di
altezza
171-175
176-180
181-185
186-190
191-195
196-200
Totale
Numero
atleti
14
18
28
33
17
15
125
Determinare:
1. Media aritmetica
2. Mediana
3. Moda
4. 10°, 50°, 90° percentile
5. 1°, 2°, 3° Quartile
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
23
Scarica

Statistica descrittiva: misure di posizione