STATISTICA
a.a. 2003-2004
– DISTRIBUZIONI DI FREQUENZE
– RAPPRESENTAZIONE DEI DATI
– MISURE DI POSIZIONE: MEDIA, MEDIANA,
MODA
– MISURE DI DISPERSIONE: DEVIANZA,
VARIANZA,DEVIAZIONE STANDARD
METODO DELLE DISTRIBUZIONI
DI FREQUENZE
– Rappresentazione dei dati per qualsiasi tipo di
misura
– Serie di rettangoli
– Ognuno una data osservazione
– AREA proporzionale al numero di volte in cui
l’osservazione viene registrata
METODO DELLE DISTRIBUZIONI
DI FREQUENZE
– Per dati nominali ed ordinali:
– Ogni rettangolo è una classe di osservazione
(Es. colore nero dei capelli)
– Per dati intervallari e razionali :
– Prima si determina l’intervallo di variazione
(differenza fra valore più alto e più basso)
– Poi lo si divide in un certo numero di intervalli uguali
– Le basi dei rettangoli sono uguali
– Le aree sono proporzionali alle frequenze
– Quindi le altezze sono proporzionali alle frequenze.
METODO DELLE DISTRIBUZIONI
DI FREQUENZE
Esempio:
– Distribuzione di frequenze di 1300 osservazioni di
neonati :
•
•
•
•
capelli (scala nominale)
condizioni di salute (scala ordinale)
temperatura (scala intervallare)
peso (scala razionale).
METODO DELLE DISTRIBUZIONI
DI FREQUENZE
RAPPRESENTAZIONE E SINTESI
DEI DATI QUALITATIVI
– Deve essere curata la comprensibilità,
l’indicazione della fonte e la data di rilevamento.
IDEOGRAMMI
RAPPRESENTAZIONE E SINTESI
DEI DATI QUALITATIVI
PIE DIAGRAMS
RAPPRESENTAZIONE E SINTESI
DEI DATI QUALITATIVI
ISTOGRAMMI A CANNE D’ORGANO
RAPPRESENTAZIONE E SINTESI
DEI DATI QUALITATIVI
TABELLE DI CONTINGENZA
E.
Coli
Klebs S.
Aur.
Pseud Clostr Bact. Fungi
N°
55
12
21
%
34.16 7.45
48
5
29.81 13.04 3.11
18
2
11.18 1.24
SINTESI DEI DATI QUANTITATIVI
Si effettua attraverso misure di posizione e misure di
dispersione.
MISURE DI POSIZIONE
– media aritmetica
– media geometrica
– mediana
– moda
SINTESI DEI DATI QUANTITATIVI
La media aritmetica rappresenta il valore che ogni
dato avrebbe se tutti i dati avessero lo stesso
valore e se la somma dei valori dei dati rimanesse
la stessa.
Il valor medio si rappresenta con
x1 1xx2 2......xxn n
x
xx
nn
ed è pari alla somma dei valori di tutti i dati diviso
per il numero dei dati: x  nx
i
x

x
n
i
SINTESI DEI DATI QUANTITATIVI
o se i dati sono raccolti in distribuzioni di frequenza
x
x f
f
i
i
i
fi numero delle osservazioni che cadono nell’intervallino di
cui xi è il valore centrale.
x
x
n
i
SINTESI DEI DATI QUANTITATIVI
x
x
n
i
SINTESI DEI DATI QUANTITATIVI
x
12  30  28  40  50  50  22  60  18  70
 48.8
12  28  50  22  8
o usando la frequenza percentuale
30  10  40  23.3  50  41.x7 
 x60  18.4  70  6.6
x
 48.8
n
100
i
PROPRIETA’ DELLA MEDIA
Sommando o sottraendo un valore k da tutti i dati, la
media risulta aumentata o diminuita di quel valore:
 (x
i
 k)
n
 xk
Moltiplicando o dividendo tutti i dati per un
valore k, la media risulta moltiplicata o divisa
x
x
per quel valore:
n
i
 kx
i
n
 kx
PROPRIETA’ DELLA MEDIA
Se chiamiamo scarto di un dato valore dalla media la
differenza tra quel valore e la media, avremo che la
somma degli scarti di tutti i valori dalla media è uguale a
zero:
 ( x  x)  0
i
La somma dei quadrati degli scarti dei valori dalla media è
sempre minore della somma dei quadrati degli scarti dei
valori da un qualsiasi altro valore v:
x
x
i
n
 ( x  x)   ( x v)
2
i
i
2
MEDIA GEOMETRICA
Altro tipo di media è la media geometrica, ossia la radice
ennesima del prodotto degli n dati:
G  n x1  x2  ....  xn
Gn
x
i
L’importanza della media geometrica emerge nel caso di
grandezze che non seguono progressioni lineari ma
geometriche.
MEDIA GEOMETRICA
Progressione aritmetica è una serie di numeri per
cui la differenza fra due numeri contigui (d, ragione)
è sempre la stessa:
an = d + an-1
Una progressione geometrica è una serie di numeri
per cui il rapporto fra un numero e il precedente (q,
ragione) è sempre uguale :
an = q  an-1
MEDIA GEOMETRICA
Esempio.
Il farmaco A e il farmaco B servono ad aumentare un certo
valore fisiologico.
Per ambedue i farmaci quanto più alta è la dose tanto
maggiore è l’aumento del valore fisiologico:
FARMACO A
FARMACO B
Mg somm.
Aumento ott. Mg. Somm.
Aumento ott.
15
1U
3
1U
30
2U
9
2U
45
3U
27
3U
60
4U
81
4U
75
5U
243
5U
MEDIA GEOMETRICA
Per il farmaco B i migliori effetti si hanno a basse
dosi, mentre ad alte dosi l’aumento è minimo.
Quanti mg di A occorrono per far salire di 3.5 U il
valore fisiologico ?
Il rapporto dose/effetto è costante, per cui la dose
da somministrare sarà la media fra 45 e 60 mg,
ossia 52.5 mg.
MEDIA GEOMETRICA
farmaco A
MEDIA GEOMETRICA
Per il farmaco B: vediamo che l’effetto di B varia
come il logaritmo della dose, ossia gli effetti di B
seguono una progressione aritmetica mentre le dosi
seguono una progressione geometrica. Quindi
volendo ottenere un effetto pari a 3.5 U (media fra 3
e 4 U), dovremo usare una dose pari a 46.76 mg
(media geometrica fra 27 e 81 mg.
MEDIA GEOMETRICA
farmaco B
MISURE DI POSIZIONE
La mediana è quella misura di posizione il cui valore è
inferiore al valore del 50% dei dati, e superiore al valore
dell’altro 50%.
Divide i dati in due metà numericamente uguali.
Non è precisa come la media perché valori estremi
molto grandi o molto piccoli non ne modificano il valore
Il valore è determinato solo dai valori centrali.
Se il numero delle osservazioni è dispari, il valore della
mediana coincide con il valore del dato (n+1)/2.
Se il numero delle osservazioni è pari, viene assunto
come valore la media aritmetica dei valori dei dati n/2 e
(n+2)/2.
MISURE DI POSIZIONE
Se il campione è più numeroso (es. 3500):
Vogliamo trovare il valore della 1750esima osservazione.
Costruiamo una tabella che riporti frequenze e frequenze
cumulative delle varie classi (somma della frequenza di
una classe e delle frequenze di tutte le classi
precedenti):
MISURE DI POSIZIONE
Se il campione è più numeroso (es. 3500):
MISURE DI POSIZIONE
Valore
160-180
180-200
200-220
220-240
240-260
260-280
280-300
300-320
340-360
Frequenza
106
271
317
450
683
648
395
291
96
Freq. Cum.
106
377
694
1144
1827
2475
2870
3161
3500
MISURE DI POSIZIONE
La 1750esima osservazione sta nella classe 240-260.
Se supponiamo le osservazioni uniformemente distribuite
della classe,
MISURE DI POSIZIONE
La 1750esima osservazione sta nella classe 240-260.
Se supponiamo le osservazioni uniformemente distribuite
nella classe,
dovrà valere la seguente proporzione:
(1750 – 1144) : (1827 – 1144) = (x – 240) : (260 – 240)
dove x è il valore della 1750esima osservazione.
Risulta x = 257.74.
MISURE DI POSIZIONE
Analogamente alla mediana si definiscono e si calcolano:
•quartili
•decili
•percentili
1° quartile: superiore o uguale al 25% delle osservazioni
inferiore al restante 75%
2° quartile coincide con la mediana
3° quartile : inferiore o uguale al 25% delle osservazioni
e superiore al 75%
1° decile: superiore o uguale al 10% e inferiore al 90%
delle osservazioni
1° percentile inferiore o uguale al 99% e superiore all’1%
delle osservazioni,
ecc.
MISURE DI POSIZIONE
La moda è il valore più frequente di una distribuzione.
Nella distribuzione precedente l’intervallo con il maggior
numero di osservazioni era 240-260.
Il valore centrale dell’intervallo (media aritmetica degli estremi)
viene assunto come valore della moda, in questo caso 250.
La media della distribuzione sarà
x
170  106  190  271  210  317  230  450  ...
3500
903840

 258.24
3500
quindi i tre valori mediana (257.74), moda (250) e media (258.24) sono
molto vicini.
Questo vale solo quando la distribuzione è approssimativamente
normale (v. avanti).
MISURE DI DISPERSIONE
Le misure di posizione danno un’idea del valore centrale di una
popolazione
Le misure di dispersione danno un’idea di quanto i dati si
scostano dal valore centrale.
– RANGE o intervallo di variazione: differenza fra valore massimo e
minimo.
– Se il range è elevato la media non dà una buona indicazione.
– Tuttavia se anche un solo bambino ha un’altezza molto bassa il
range risulta molto grande ma la media è ancora una buona
stima: il range non è una misura affidabile.
– SOMMA DEGLI SCARTI dei valori della media. E’ sempre uguale
a zero.
MISURE DI DISPERSIONE
DEVIANZA o somma dei quadrati degli scarti dalla media.
D   ( xi  x ) 2
Ma la devianza è influenzata dalle dimensioni del campione (quanto più
grande il campione tanto più numerosi gli scarti)
E’ impossibile confrontare due campioni di dimensioni diverse attraverso
la devianza.
VARIANZA è la devianza divisa per il numero di osservazioni.
D
V 
n
2
(
x

x
)
 i
n
MISURE DI DISPERSIONE
In genere la si calcola con
D   xi2 
C
( xi ) 2
n
( xi ) 2
n
C “termine di correzione”
perché in questo modo non richiede la conoscenza della media.
Ma la varianza deve misurare la variabilità dei dati:
Vanno escluse tutte le costanti.
MISURE DI DISPERSIONE
Chiamiamo GRADI DI LIBERTA’ il numero di dati
significativi di un campione.
Conoscendo la media e n-1 dati, l’n-esimo è ricavabile.
Quindi il numero di gradi di libertà è n-1 e la formula
corretta è
V
2
(
x

x
)
 i
n 1
Quando il campione è numeroso la variazione è minima.
MISURE DI DISPERSIONE
DEVIAZIONE STANDARD è la radice quadrata della
varianza:
ds 
2
(
x

x
)
 i
n 1
• In questo modo ds ha le stesse dimensioni fisiche delle osservazioni.
• In genere si scrive la media di un campione seguita dalla sua
deviazione standard, es. 14  3.
•La deviazione standard della popolazione si indica con s , la varianza
con s2 .
•La deviazione standard del campione si indica con s , la varianza
campionaria con s2 .
Scarica

Statistica descrittiva