Indici Statistici
Per confrontare tra loro due o più campioni, o le variazioni
della stessa popolazione in diversi periodi, non basta aver
raccolto i dati e averli riuniti in tabelle di frequenza, è
necessario determinare misure di sintesi numerica (media,
mediana, moda) attorno a cui i dati si “addensano” e calcolare
in che misura ciò accade, ovvero studiare la variabilità dei dati
(range, deviazione standard, varianza, coefficiente di
variazione).
Se non ci fosse variabilità all’interno di una popolazione, non ci
sarebbe bisogno della statistica. Una singola unità sarebbe
sufficiente a descrivere l’intera popolazione.
Indici di posizione e di variabilità
La caratteristica più studiata di un collettivo di dati è il suo
centro o il valore in cui le osservazioni tendono ad aggregarsi.
Gli indici di posizione più utilizzati sono:
• Media
• Mediana
• Moda
Le misure di variabilità (o dispersione) più note:
• Range
• Deviazione standard e Varianza
• Coefficiente di variazione
La media aritmetica
La media di un insieme di n misurazioni è data da:
n
x  x2  ...  xn
x 1

n
x
i 1
i
n
E’ un indice di misura di tendenza centrale che può essere determinato solo per le
variabili quantitative sia discrete che continue.
Non è adatta per dati qualitativi nominali (non ha senso dire il color medio degli
occhi). A volte per questo tipo di dati però i numeri vengono utilizzati come
etichette. Ricordate sopravvissuti nell’es.Titanic
Esempio
Ad esempio se scegliamo di indicare il gruppo sanguigno: zero, A, B, AB con i
numeri 1, 2, 3, 4 un gruppo sanguigno medio di 1.8 non ha alcun significato come
non ha senso l’ordine insito nei numeri il gruppo 1 non è minore del gruppo 2 e cosi
via …..
La media è molto sensibile a valori estremi: se osserviamo pressioni diastoliche
(“minima”) in un paziente in 7 momenti differenti: 60, 68, 72, 69, 80, 77, 190 la
pressione media risentirà di quest’ultimo valore atipico non rappresentando così
l’andamento medio. Potremmo pensare ad un errore di misurazione (la sistolica
anziché la diastolica).
Esempio: media utilizzata con formula inversa
La media per dati raggruppati
Se i dati sono sintetizzati in classi detto mi il punto medio della i-sima
classe e fj la frequenza assoluta per determinare la media si può usare la
formula seguente:
s
m1 f 1  m2 f 2  ...  m s f s
x

f 1  f 2  ...  f s
m
i 1
i
fi
n
Questa formula è valida anche se non si hanno le classi ma singoli valori
sintetizzati in una distribuzione di frequenza in tal caso i valori
sostituiranno, banalmente, i punti medi
ESEMPIO: media per singoli valori ma dati in distribuzione di frequenza
La seguente tabella mostra la distribuzione di frequenza assoluta dell’età dei ragazzi che
frequentano un liceo scientifico. Qual è l’età la media dei ragazzi?
Età
Freq. assoluta
14
30
15
25
16
10
17
15
18
5
m1 f1  m2 f 2  ...  ms f s 14 * 30  15 * 25  16 *10  17 *15  18 * 5
x

 15.3
f1  f 2  ...  f s
30  25  10  15  5
ESEMPIO: media per dati raggruppati in classe
La tabella che segue mostra gli stipendi di una fabbrica di operai suddivisi per classi.
Calcolare il salario medio degli operai:
x
Classi di
salario
N°di operai
[1100;1200]
50
(1200;1300]
30
(1300;1400]
20
m1 f1  m2 f 2  ...  ms f s 1150 * 50  1250 * 30  1350 * 20

 1220
f1  f 2  ...  f s
100
La media per dati raggruppati
Classe birth Frequenza assoluta
weight
non fumatrici
50-59
60-69
70-79
80-89
90-99
100-109
110-119
120-129
130-139
140-149
150-159
160-169
170-179
TOTALE
1
3
8
13
31
76
166
198
140
62
27
11
6
742
s
x

m1 f1  m2 f 2  ...  ms f s

f1  f 2  ...  f s
m
i 1
n
i
fi

54.5 *1  64.5 * 3  74.5 * 8  ...  174.5 * 6
 123.031
742
La mediana
Un’altra misura di tendenza centrale è la mediana.
La mediana è quel valore della variabile quantitativa ma anche qualitativa ordinale che,
nella successione di valori osservati, disposti in ordine crescente, occupa la posizione
centrale.
E’ quel numero che lascia alla sua destra tante osservazioni quante ne lascia a sinistra.
Questo non significa che la mediana è esattamente il valore più grande diviso 2,
dipende dalle frequenze con cui si presentano i valori
Per variabili quantitative:
 se n è dispari la mediana è il valore corrispondente all’unità di posizione (n+1)/2
nella distribuzione ordinata;
 se n è pari la mediana è il valor medio tra le osservazioni che hanno posizione n/2 e
(n/2+1).
Proprietà:

La mediana non è sempre uno dei valori osservati.
 Non è sensibile ai dati atipici e per questo motivo si dice che è più “robusta” rispetto
alla media.
Esempio: la mediana
Un soggetto affetto da disturbi dell’alimentazione affronta contemporaneamente
sedute psicoanalitiche e una dieta ferrea. Il suo peso dai 240 Kg iniziali cala
drasticamente a 120 Kg. In successive pesature si riscontra: 118; 128; 125; 122; 120.
Chiaramente se calcolassimo il peso medio sarebbe influenzato dalla prima
misurazione. Determino la mediana come misura di tendenza centrale: (n=7)
Procedimento:
 n dispari: ordino i valori in senso crescente : 118; 120; 120; 122; 125; 128; 240
il valore in posizione: (n+1)/2=4  Mediana =122
 n pari: aggiungo un’altra pesatura: 124 Kg Ordino i valori: 118; 120; 120; 122; 124;
125; 128; 240.
media tra i valori in n/2=4° e (n/2)+1= 5° posizione  Mediana =123
La mediana per dati raggruppati in classi
La classe mediana è quella classe che contiene l’elemento N/2 dove N è il totale delle
frequenze. La mediana M, una volta individuata la classe mediana, è data dalla formula:
N
 ( freq) inf
M  Inf  ( 2
) * amp
freq.classemedi ana
Dove:
- Inf è estremo inferiore della classe mediana
- ( freq)inf somma delle frequenze delle classi precedenti quella mediana
- freq.classe mediana
- amp è l’ampiezza della classe mediana.
Come per la media anche la mediana si calcola se non si hanno le classi ma singoli
valori
Esempio di mediana di var. discreta
In un campione di 100 famiglie il numero di figli è così distribuito. Calcolare il
numero mediano di figli a famiglia nel campione
N° figli
frequenze
0
15
1
33
2
25
3
20
4
6
5
1
N/2=50 sommando le frequenze la classe mediana è 2 
M=2
Esempio di mediana di var. discreta
Si vuole studiare il tempo di durata mediano di un determinato componente meccanico
soggetti a carichi variabili di stress. Si ha disposizione un campione di N=911 e se ne
valuta il loro tempo di rottura in mesi. Calcolare la durata mediana:
n°di
componenti
frequenze
5
135
7
123
10
97
11
123
21
99
29
51
35
43
38
51
39
80
40
109
Si osserva che le osservazioni sono già espresse in
senso crescente.
N/2=911/2=405.5 sommando via via le frequenze:
135+123+97=355 mentre 135+123+97+123=478
M=11
Mediana per dati raggruppati in classi
Distribuzione di frequenza , distribuita in classi, dei pesi di N=26 ragazzi (in Kg):
classi
46-50
50-54
54-58
58-62
62-66
66-70
70-74
frequenze
2
3
5
6
5
3
2
N/2=13 sommando successivamente le frequenze in
quale classe cade 13? 2+3+5+6
la classe mediana è 58-62
N
 ( freq) inf
M  Inf  ( 2
) * amp
freq.classemedi ana
M=58+[(13-10)/6]*4 = 60
©2009 29elode.it – Tutti i diritti riservati
La moda o modalità prevalente
 La moda è utilizzabile per tutti i tipi di dati ed è il valore (o la modalità)
prevalente del carattere ossia quella a cui è associata la frequenza
massima.
 Si
possono avere distribuzioni poli-modali qualora le frequenze
massime siano le stesse per più di una modalità.
 Assume
particolarmente importanza quando si vuole un indice di
posizione per caratteri qualitativi sconnessi.
Moda
Determinare la moda della distribuzione “Gruppo sanguigno”
Gruppo sanguigno
Frequenze
0 (zero)
38
AB
25
B
32
A
38
La distribuzione è bimodale: 0 ed A
©2009 29elode.it – Tutti i diritti riservati
Indici di dispersione o variabilità
Gli indici di posizione (misure di tendenza centrale) dicono
attorno a quale valore le osservazioni sono centrate e sono
tanto più significativi quanto più i dati sono concentrati
intorno ad essi.
Per ottenere un’informazione più accurata, è quindi
necessario misurare il grado di dispersione dei dati intorno a
tali indici. Questo è possibile, soltanto per i caratteri
quantitativi, associando alle misure di tendenza centrale
delle misure di dispersione o variabilità.
Indici di dispersione o variabilità
Variabilità
Range
Range
Interquartile
Varianza
Deviazione
Standard
Stesso indice di posizione, differente
dispersione
Coefficiente di
variazione
Range
Un numero che può essere utilizzato per descrivere la variabilità dei
dati è il range o campo di variazione.
E’ definito come la differenza tra l’osservazione più grande e quella più
piccola.
L’utilità
di
questo
indice
è
molto
limitata
dato
che:
• considera solo i valori estremi di una serie di dati e pertanto, come la
media, è molto sensibile a valori eccezionalmente grandi o piccoli.
Esempio: 1,1,1,2,2,2,2,3,3,4,5,6,120
•
Range=119
ignora come i dati sono distribuiti.
Esempio: 6,8,9,11,12
6,6,7,10,12,12,12
Range=12-6=6 lo stesso anche se le due distribuzioni sono differenti
Peso alla nascita
Non F
F
Min
55
Q1
113 102
Q2
123
Q3
134 126
Max
176 163
R a nge
121 105
R a nge i nt e r qua r t i l e
21
58
115
24
Rappresentazione grafica: il box plot
Il Box-Plot rappresenta in modo compatto la distribuzione statistica
attraverso alcuni indici sintetici: il range delle misure attraverso un
segmento verticale, i 3 quartili della distribuzione mediante un rettangolo
(box), tagliato internamente da un segmento che rappresenta la mediana.
25%
Minimum
25%
1st
Quartile
Median
25%
3rd
Quartile
25%
Maximum
Il box è il range interquartile e contiene il 50% centrale della
distribuzione. La dimensione della base (o altezza se messo in
orizzontale) del rettangolo non rappresenta alcuna informazione, come
pure la posizione del Box-Plot, che può essere posto sia verticalmente che
orizzontalmente.
©2009 29elode.it – Tutti i diritti riservati
Il Box-Plot
La varianza e la deviazione standard
La misura di dispersione più comunemente utilizzata è la deviazione
standard perché ha la stessa unità di misura della media ed insieme ad
essa rappresentano i due parametri chiave delle distribuzioni teoriche di
probabilità.
La varianza è definita come il quadrato della deviazione standard e misura
l’entità della dispersione dei dati dalla media.
Maggiore è il suo valore e minore è la capacità della media di
rappresentare tutte le osservazioni, maggiore risulta la perdita di
informazione che essa comporta.
L’unità di misura della varianza è il quadrato di quella della variabile per
questo motivo e per facilitarne l’interpretazione si utilizza la deviazione
standard: .
Minore è la deviazione standard più le osservazioni sono omogenee e
concentrate intorno alla media.
La deviazione standard
Molti testi riportano la formula della varianza chiamandola Var anziché S2 e dividono per
n anziché n-1.
Esempio: calcolo della varianza e della deviazione standard
In uno studio che esamina le cause di morte in soggetti affetti da asma
grave è stata raccolta la frequenza cardiaca su 11 pazienti asmatici arrivati
in ospedale con arresto respiratorio . I valori in battiti al minuto sono i
seguenti:
167; 150; 125; 120; 150; 150; 140; 136; 120; 150; 148.
Si determina la media: 141.45 e quindi la varianza (battiti al minuto)2:
 2  S2 
1
[(167  141.5) 2  (150  141.5) 2  (125  141.5) 2  ...  (148  141.5) 2 ]  221.07
10
Ed infine la deviazione standard in battiti al minuto:
  S 2  221.07  14.87
Varianza e deviazione standard raggruppate in classi
Per determinare varianza e deviazione standard su dati raggruppati innanzitutto
bisogna calcolare la media tramite la relativa formula:
s
x
m1 f 1  m2 f 2  ...  m s f s

f 1  f 2  ...  f s
m
i 1
i
fi
n
Dopodiché varianza e deviazione standard:
s
S2 
 (m
i 1
2
i
 x) f i
n 1
s
S2
Varianza e deviazione standard raggruppate in classi
Classe birth Frequenza assoluta
weight
non fumatrici
50-59
60-69
70-79
80-89
90-99
100-109
110-119
120-129
130-139
140-149
150-159
160-169
170-179
TOTALE
1
3
8
13
31
76
166
198
140
62
27
11
6
742
s
x
s
S2 
 (m
m
i 1
n
i
fi
 123.031
2
i
 x) f i

n 1
(54.5  123.031) 2  3(64.5  123.031) 2  8(75.5  123.031) 2  ...  6(175.5  123.031) 2

 304.32
741
i 1
s  304.3  17.44
Coefficiente di variazione
Confrontare due deviazioni standard provenienti da due serie di
dati non ha molto senso dato che potrebbero avere unità di misura
differente, ad esempio due distribuzioni con s molto simili non
hanno necessariamente un’analoga dispersione. A tal proposito si
utilizza il coefficiente di variazione CV che mette in relazione la
deviazione standard con la sua media:
s
CV   100%
x
E’ una misura di variabilità adimensionale (deviazione e media
hanno la stessa unità di misura) e relativa.
CV esprime l’ampiezza percentuale di s rispetto a x è utile per
confrontare serie di dati differenti.
Coefficiente di Variazione: CV
Negli Stati Uniti la statura viene rilevata in pollici in Italia in cm. Come è possibile confrontare
stature medie misurate con unità di misura differenti? Si confrontano i CV!!
Un gruppo di studenti americani ha una statura media di 65 pollici con uno scostamento
quadratico medio di 2.8 pollici.
Un gruppo di studenti italiani ha una statura media di 175.3 cm e scostamento quadratico medio di
6 cm.
In quale dei due gruppi la statura è più variabile?
Americani altezza media = 69 inch
s = 2.4 inch
Italiani statura media = 175.3 cm s = 7.7 cm
CV =2.8/65*100= 4.3%
CV = 6/175.3*100= 3.4%
L’altezza è più variabile nel gruppo di studenti americani.
Peso alla nascita in once
I valori degli indici, in particolare il CV, conferma che le due distribuzioni
sono molto simili e differiscono solo per gli indici di posizione: media,
mediana, moda.
Fumatrici
s=18,10 m=114,11 CV=15,86%
Non Fumatrici s=17,40 m=123,05 CV=14,14%
Scarica

mediana - associazionerospo.org