Valori Medi
LE MEDIE
La media aritmetica
La media geometrica
La mediana
La moda
I percentili
2/3
Introduzione
Medie di
posizione
non richiedono operazioni
algebriche sulle modalitàModa- Mediana- Quantili
calcolate con operazioni
Medie
analitiche
algebriche sulle modalità,
richiedono dei caratteri
quantitativi
Media aritmetica- Media armonica Media geometrica - Media
quadratica
3/3
La media aritmetica è quel valore che
sostituito alle singole osservazioni ne
lascia inalterata la SOMMA
x1  x2  ...  xk  M  M...  M   k * M
k
M
 xi
i 1
k
5/3
La Media Aritmetica
Tempo impiegato per raggiungere il
posto di lavoro
tempo impiegato (min.)
tempo impiegato (min.)
giorno
auto
metro
giorno
auto
metro
1
23
22
7
28
24
2
32
24
8
33
28
3
44
22
9
45
32
4
21
33
10
34
31
5
36
26
11
29
37
6
30
31
12
31
24
x a ( auto ) 
(23+32+44+21+36+30+28+33+45+34+29+31)/12 =
=386/12 = 32,17
x a ( metro) 
(22+24+22+33+26+31+24+28+32+31+37+24)/12
= 334/12 = 27,83
Media aritmetica
La media aritmetica di un insieme di n
valori x1, x2, … xn di un carattere
quantitativo X è data da:
1
1n
xa   x1  x2  ...  xn    xi
n
n i 1
Se il carattere X è quantitativo discreto e
conosciamo la sua distribuzione di frequenza:
6/3
1K
xa   x j n j
n j 1
K
xa   x j f j
j 1
Esempio
Esempio 1. In un campione di 30 studenti si rileva il voto di maturità. Si riporta
la distribuzione di frequenze assolute:
xi
ni
xi*ni
62
66
70
73
75
76
79
81
83
86
92
94
Totale
Media aritmetica
2
2
3
3
4
4
1
2
3
2
1
3
30
xi
124
132
210
219
300
304
79
162
249
172
92
282
2325
77.5
ni
62
66
70
73
75
76
79
81
83
86
92
94
Totale
fi
2
2
3
3
4
4
1
2
3
2
1
3
30
fi%
0.067
0.067
0.100
0.100
0.133
0.133
0.033
0.067
0.100
0.067
0.033
0.100
1.000
xi*fi
6.7
6.7
10.0
10.0
13.3
13.3
3.3
6.7
10.0
6.7
3.3
10.0
100.0
4.13
4.40
7.00
7.30
10.00
10.13
2.63
5.40
8.30
5.73
3.07
9.40
77.50
xi*fi%
413.3333
440
700
730
1000
1013.333
263.3333
540
830
573.3333
306.6667
940
7750.00
k
M
 x i * ni
i 1
k
 ni
i 1
 2325 : 30  77.5 M 
k
k
 xi * fi  77.5
i 1
M
 xi * fi %
i 1
100

7750
 77.5
100
Valore centrale della classe
Nel caso di una distribuzione di frequenze per un carattere X suddiviso
in classi, possiamo approssimare la media utilizzando il valore
centrale della classe cj
xa
8/3
1K
  c jn j
n j 1
Esempio
Prezzi di farmaci e quantità acquistate da un
ospedale
9/3
xa
v.c.
Prezzo a
confezione
(€)
Numero
Confezioni
(migliaia)
Ammontare
carattere
(costo) ml. (€)
25
20 – 30
11
25*11=
32.5
30 – 35
5
32.5*5= 162.5
37.5
35 – 40
15
37.5*15= 562.5
45
40 – 50
9
45*9 =
Totale
40
275.0
405.0
1405
= 1405/40 = 35.72 € (a confezione)
(approssimato)
Media aritmetica ponderata
La media aritmetica ponderata di un insieme
di n valori osservati di un carattere
quantitativo X con pesi non negativi, è data
da:
k
x1p1  x2 p2  xk pk
xa 

p1  p2  pk
 x j pj
j 1
k
 pj
j 1
10/3
Considerazioni
La Media aritmetica dipende da tutti i valori
osservati e quindi risente dei valori estremi
(valori anomali);
La Media aritmetica sintetizza la distribuzione
di un carattere con un solo valore;
11/3
Proprietà della media aritmetica
1)
La somma dei valori osservati è uguale al valore medio moltiplicato
per il numero di unità ; k
 xi  ni x
i 1
2) La somma delle differenze tra i valori e la loro media aritmetica, è
k
k
pari a zero;
 x
i
i 1

x 0
 x  x n
i 1
i
i
0
3) La somma degli scarti al quadrato dei valori da una costante c è
minima quando c è uguale alla media aritmetica;
 x  x    x  c 
k
i 1
2
i
k
i 1
2
i
4) Se un collettivo viene suddiviso in L sottoinsiemi disgiunti, allora la
media aritmetica generale si può ottenere come media ponderata
delle medie dei sottoinsiemi con pesi uguali alle loro numerosità.
Proprietà della media aritmetica
5) E’ associativa
x1+ (x2+x3)=(x1+x2).+x3
7) È invariante per traslazioni, cioè per cambiamenti
dell’origine:
x1, x2….xk
M= 
x1+b, x2+b,….xk+b
M=  + b
8) È invariante per cambiamenti dell’unità di misura:
x1, x2….xk
M= 
x1b, x2b,….xkb
M=  b
9) la media è sempe un valore compreso tra il valore minimo e
massimo della distribuzione;
La media geometrica è quel valore che
sostituito alle singole osservazioni ne
lascia inalterato il PRODOTTO
x1 * x2 *... * xn  X g * X g *... * X g  X g
n
La media geometrica
calcolo sulla distribuzione unitaria
xg  n x1  x2    xn
calcolo sulla distribuzione di frequenze
xg 
n
n1
n2
x1  x2 ...
nK
xK
oppure
xg 
15/3
f1
f2
x1  x2
....
fK
xK
Proprietà della media geometrica
1)
2)
x1  x2 

 
 xn  xg
n
1 n
log x g   log (xi )
n i 1
Un modo semplice per calcolare la media
geometrica si ottiene dalla proprietà 2)
16/3
Valori medi
La media geometrica può essere anche calcolata anche ricorrendo ai
logaritmi, essendo equivalente alla quantità:
n1 log x1  n2 log x2  ...nk log xk
log M g 
N
PROPRIETA’
a) La media geometrica è non superiore alla media aritmetica (Mg≤M)
b) E’ non esterna all’intervallo (x1, xk), ossia compresa tra il valore
minimo e massimo della distribuzione
c) Non è invariante per le traslazioni
d) E’ invariante per cambiamenti dell’unità di misura:
x1, x2….xk
x1b, x2b,….xkb
Mg= 
Mg=  b
con b>0
Esempio: i numeri Indice


A base fissa: consentono di confrontare tutte le osservazioni di una serie storica ( o
geografica) con un’unica osservazione di riferimento
La variazione relativa= I-1
2000
2001
2002
2003
2004
2005
2006
2007
2008
xt
I   100
x0
R.O. Indice
Variazione %
123
1143 1.162601626
16.26
143 1.162601626
16.26
134 1.089430894
8.94
115
0.93495935
-6.50
162 1.317073171
31.71
140 1.138211382
13.82
132 1.073170732
7.32
139 1.130081301
13.01
Media geometrica
1.121523041
Varizione media
12.2
Per calcolare la
variazione media nel
periodo 2000-2008
occorre calcolare la
Mg degli 8 indici a
base fissa
Esempio: i numeri Indice

A base mobile: consentono di confrontare ciascuna osservazione di una serie storica ( o
geografica) con la precedente, assunta come osservazione di riferimento
xt
I
 100
xt 1

La variazione relativa= I-1
2000
2001
2002
2003
2004
2005
2006
2007
2008
R.O.
123
143
143
134
115
162
140
132
139
Indice
1.1626
1
0.9371
0.8582
1.4087
0.8642
0.9429
1.053
media geometrica
Variazione %
0.162601626
0
-0.06293706
-0.14179104
0.408695652
-0.13580247
-0.05714286
0.053030303
1.015403629
1.13
Per calcolare la
variazione annuale
media nel periodo
2000-2008 occorre
calcolare la Mg
degli 8 indici a base
mobile
La Mediana
E’ la modalità presentata dall’unità centrale del
collettivo. Essa divide il collettivo in due
sottoinsiemi di uguale numerosità: uno con
modalità di ordine più basso e l’altro con
modalità di ordine più alto.
Il calcolo della mediana è possibile solo per
caratteri quantitativi o qualitativi ordinabili.
20/3
Esempio
Esempio 2. Distribuzione secondo la spesa delle Unità sanitarie. Calcolare la spesa
media
Si ipotizza che
tutte le unità di
Classe di
(valore
N. Unità
xi *ni
ogni classe siano
spesa (in
centrale
sanitarie ni
equidistribuite
migliaia di
classe) xi
al’interno della
euro)
classe
0-3
1,5
7.976
11.964
3-6
4,5
8.763
39.433,5
6-9
7,5
4.130
30.975
9-15
12
1.176
14.112
15-25
20
297
5.940
25-50
37,5
105
3.937,5
50-100
75
18
1.350
Oltre 100
125
3
325
22.468
108.087
Totale
M = 108.087 : 22.468 = 4,81 mila
Tuttavia si
perde
informazione
reddito medio
Esempio
Esempio 2 bis. Distribuzione secondo il reddito dei dichiaranti dei redditi
percepiti. Calcolare il reddito medio
Classe di
spesa (in
N. Unità ni
migliaia di
euro)
Ammontare
spesa Xi
(in migliaia di
euro)
Reddito medio
xi  X i  ni
0-3
7.976
12.792
1,60
3-6
8.763
40.650
4,64
6-9
4.130
29.320
7,10
9-15
1.176
12.932
11,0
15-25
297
5.580
18,79
25-50
105
3.405
32,43
50-100
18
1.172
65,11
Oltre 100
3
532
177,33
Totale
22.468
106.383
M= 106.383 : 22.468 = 4,73 mila
Non è necessaria
nessuna ipotesi,
perché si
conosce
l’ammontare
totale della
classe
Il valore del
reddito medio è
più preciso
diverso dal reddito medio calcolato nell’es. 2
Esempio
Carattere - Frequenz Frequenza Frequenza
Voto
a assoluta cum ulata
relativa
62
2
2
0.067
66
2
4
0.067
70
3
7
0.100
73
3
10
0.100
75
4
14
0.133
76
4
18
0.133
79
1
19
0.033
81
2
21
0.067
83
3
24
0.100
86
2
26
0.067
92
1
27
0.033
94
3
30
0.100
Totale
30
1.000
Mediana = 76
Frequenza
relativa
cum ulata
0.067
0.133
0.233
0.333
0.467
0.600
0.633
0.700
0.800
0.867
0.900
1.000
Distribuzione per classi di valori
Mediana
Distribuzione per classi di valori del carattere osservato (classi della
stessa ampiezza). Si può individuare la classe mediana oppure
ipotizzando la distribuzione uniforme all’interno dell’intervallo si calcola
il valore puntuale della mediana.
Quindi:
Me  x( r )
x( r 1)  xr  N  1 r 1 

  ni 

nr
i 1
 2

Dove x(r) e x(r+1) sono gli estremi inferiore e superiore della classe
mediana ed nr la frequenza assoluta della classe mediana. Se N è pari,
si deve sostituire a (N+1)/2 una volta N/2 e una volta (N/2+1) e poi fare
la semisomma dei due valori mediani.
L’ultimo termine della formula rappresenta la frequenza cumulata della
classe che precede la classe mediana.
Distribuzione per classi di valori
Voto x i
60-|70
70-|80
80-|90
90-|100
fi
ni
Fi
7
12
7
4
30
0.233
0.400
0.233
0.133
1.000
0.233
0.633
0.867
1.000
Con la proporzione:
.23
70
Equivale alla formula:
.50
Me
.63
80
Me  70 
80  70
0.5  0.23
0.4
80  70 : Me  70  .63  .23 : (.50  .23)
Moda
 La moda di un collettivo è quella modalità del carattere alla quale è
associata la massima frequenza.
Se la distribuzione è per classi di valori del carattere osservato (tutte
della stessa ampiezza) la classe modale è quella con la maggiore
frequenza. Se le classi hanno diversa ampiezza, si divide la
frequenza per l’ampiezza della classe e si sceglie il valore massimo
dei quozienti ottenuti, detti densità di frequenza
 Se la distribuzione presenta una sola moda, è detta unimodale.
Se vi sono due mode è detta bimodale, se ve sono tre è
trimodale,…
 La moda può essere individuata anche graficamente.
Ad es.: in un grafico a colonne o a nastri, la colonna più alta o il
nastro più lungo individua la moda della distribuzione.
Considerazioni sulla moda
La moda fornisce informazioni solo su una modalità del
carattere;
La moda dipende solo dalle frequenze;
La moda acquista validità solo se vi è una netta prevalenza di
una modalità/intensità;
La moda si calcola su tutti i tipi di caratteri;
27/3
La moda
Tipologia di farmaco
28/3
Numero reparti
Frequenze %
Antidolorifico
100
25
Antibiotico
200
50
Antiblastico
80
20
Altro
20
5
Totale
400
100
Consumi
ml.(€)
N. reparti
10
20
Consumi
ml.(€)
12
80
5 – 25
31
90
40
N. reparti
La moda
è la modalità
prevalente
del carattere
Ampiezza
classe
Densità
frequenza
100
20
100/20 = 5
25 – 35
90
10
90/10 = 9
140
35 – 60
210
25
210/25 = 8.4
52
70
Totale
400
Totale
400
Distribuzione uni-modale
25
20
15
10
5
0
Distribuzione bi-modale
30
25
20
15
10
5
0
Calcolo della moda
ES. Distribuzione per classi
Classi)
Frequenze Densità di
frequenza
<3
3138
1046
3-6
4084
1361
6-10
5740
1435
10-20
10269
1027
20-30
6302
630
30 e oltre
3237
324
Si sceglierà il
valore max tra le
densità di
frequenza.
La classe modale è
6-10 anni
Quantili
Quantili
Un quantile-p, dove p[0,1] è quel valore che divide una
distribuzione statistica in p parti uguali, ognuna delle quali
contiene la p-esima parte della numerosità della distribuzione
totale
E’ un numero più grande del 100 x p % dei valori osservati e più
piccolo del restante 100 (1-p) %.
Es. Un quantile di 0,1 deve essere un valore che lascia a sinistra
il 10% delle osservazioni e a destra il rimanente 90%
Quantili
 Se p= 4
 Se p=10
 Se p=100
Quartili: dividono la distribuzione in quattro parti uguali
Decili: dividono la distribuzione in dieci parti uguali
Percentili: dividono la distribuzione in cento parti uguali
In generale si definisce -percentile quel valore a destra del quale
cade (1- )% dei casi e a sinistra l’ % dei casi.
(p=0,01, 0,02…..0,99)
 La mediana si può considerare il 2° quartile e il 50° percentile.
Quartili
Le quattro distribuzioni individuate dai quartili contengono ognuna il
25% della numerosità totale.
Così il 1° quartile contiene il 25% e la distribuzione rimanente è il
75% del totale
Capacità di informazione delle medie
Tutte le medie sono capaci di fornire la stessa quantità
di informazione sulla distribuzione o la capacità
informativa è diversa da una media all’altra?
Scala di misura
del Carattere
Misura di
tendenza
Nominale
Moda
Ordinale
Mediana
Intervallo/
Rapporti
Media
Capacità di
informazione
Robustezza
Cautela nell’utilizzo della mediana
Studente
X
Y
Z
W
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
18
30
18
18
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
30
30
30
18
M
Me
23.65
18
24.35
30
30
30
18
18
La mediana non va bene quando la differenza tra due popolazioni è
rilevante proprio nel centro della distribuzione ordinata delle
modalità
Il box plot
Q3+1.5IR
3° quartile
mediana
1° quartile
Q1-1.5IR
Il box plot
è un grafico caratterizzato da tre elementi principali:
1. Una linea o un punto, che indicano la posizione del centro della
distribuzione (mediana);
2. Un rettangolo (box) la cui altezza indica la variabilità dei valori
“prossimi” alla media (IR= terzo quartile-primo quartile);
3. Due segmenti (baffi) che partono dai lati minori del rettangolo e che
terminano in corrispondenza del più piccolo e del più grande valore non
outlier.
4. Dei punti, detti outliers, che giacciono 1,5*IR al di sotto del primo
quartile e 1,5*IR al di sopra del terzo quartile
Rapporti statistici
1. di composizione: esprimono il rapporto tra la quantità relativa ad
una modalità e l’ammontare complessivo. Si applica alle
distribuzioni di quantità
2. di coesistenza: esprime il rapporto tra la frequenza (quantità)
relativa ad una modalità e la frequenza (quantità) relativa ad
una altra modalità. Esempio: rapporto di mascolinità Pm/Pf*100;
indice di vecchiaia P>=65/P<=14*100
3. di derivazione o tasso: numero di casi di un evento che si verifica
in un determinato periodo di tempo rapportato alla popolazione
totale di quel periodo. Esempi: tasso di mortalità M/P*1000;
quoziente di natalità N/P*1000; tasso di abortività ab/P*1000;
tasso di mortalità infantile M0-365/NV*1000
Scarica

lezione 4 - valori medi