Statistica per la ricerca sperimentale
(II anno)
Dott.ssa Michela Franchini
Coordinatrice Epidemiologia
AUSL 11 Empoli
MARZO/ APRILE 2006
Programma del modulo
L’approccio all’indagine
Come riassumere i dati:
* Misure di posizione e di variabilità
* Distribuzioni di frequenza
Come analizzare e confrontare i dati
* Le distribuzioni di probabilità (Binomiale, di Poisson e Normale)
* Il concetto di inferenza statistica, di test ad ipotesi ed alcuni esempi di
utilizzo
* I metodi di standardizzazione diretta e indiretta
Come presentare i dati:
* Tabelle
* Istogrammi
* Linee
* Torte
* Dispersione
modalità comuni di approccio all’indagine
Definizione dell’obiettivo
pianificazione del
razionale dell’indagine
(studio ad hoc, analisi
di archivi standard)
valutazione delle fonti di
dati a disposizione
?
definizione della
metodologia di analisi e
di sintesi dei risultati
individuazione degli
standard di riferimento
Pianificazione del razionale dell’indagine : alcune delle domande che
dovremmo porci
Si lavora a livello di popolazione? Conosco tutte le variabili che mi interessano??
Si lavora analizzando dei campioni? Come li estraggo???
L’outcome di interesse di che tipo è?
Conosco la distribuzione di probabilità che più si avvicina alla realtà??
Quali fonti di dati posso utilizzare??
Qual è la loro affidabilità??
Esistono degli standard di riferimento?
Quali strumenti di analisi ho a disposizione??
Che tipo di approccio statistico intendo seguire??
[…..]
Alcuni concetti di statistica
Variabile continua : può assumere qualsiasi valore all’interno di un ragionevole range (es.
altezza, peso, pressione arteriosa
Variabile discreta : può assumere soltanto alcuni valori fissi (es. n. figli, età al compleanno)
Variabile dicotomica: può assumere solo due modalità (es. sesso, lancio di una moneta)
campioni
n1
Popolazione
n2
n3
nn
popolazione
campione
Numeros.
N
n
media
µ
ŷ
varianza.
σ2
s2
Dev. St
σ
s
Distribuzione di frequenza assoluta
N figli
Numero di donne che presentano ognuna
delle modalità
Distribuzione di frequenza assoluta del numero figli procapite in
un campione di 100 donne
freq donne
freq relativa
fr cumulata
0 figli
20
20 / 100
20 %
1figlio
40
40 / 100
60 %
2 figli
40
40 / 100
100 %
totale
100
100
120
100
80
numero
figli
procapite
60
40
20
0
0
1
2
Distribuzione di frequenza cumulativa
totale
Sommatoria delle singole percentuali
relative ad ogni modalità
Distribuzione di frequenza relativa
Proporzione di donne che presentano
ognuna delle modalità, rapportata al
numero totale di donne
% cumulata
frequenza percentuale cumulativa
Distribuzione percentuale del numero figli
20%
40%
0
1
2
40%
120
100
80
60
40
20
0
0
1
2
numero di figli
totale
Anno
Visualizzazione
dell’andamento di dati
num. di aborti
conf.% con 1982
var assoluta
var percent
1978
68700
29,26
1979
187456
79,84
118.756
172,86
1980
222363
94,70
34.907
18,62
1981
224067
95,43
1.704
0,77
1982
234801
100,00
10.734
4,79
1983
233976
99,65
-825
-0,35
1984
227446
96,87
-6.530
-2,79
1985
210597
89,69
-16.849
-7,41
1986
198375
84,49
-12.222
-5,80
1987
191469
81,55
-6.906
-3,48
1988
179103
76,28
-12.366
-6,46
1989
171684
73,12
-7.419
-4,14
1990
165845
70,63
-5.839
-3,40
num. di aborti - tendenza nel tempo
1000000
100000
10000
1000
100
10
19
78
19
79
19
80
19
81
19
82
19
83
19
84
19
85
19
86
19
87
19
88
19
89
19
90
1
num. di aborti
n. soggetti
n. soggetti
Distribuzioni di frequenza
2.0
3.5
4.00
1.65
4.5
1.70
1.75
1.80
(variabile continua asimmetrica verso sinistra)
(variabile continua approssimativamente simmetrica)
n. soggetti
Altezza degli uomini adulti
n. soggetti
Peso medio dei nati vivi alla nascita
0
6
12
18
24
30
36
0
1
2
Tempo di sopravvivenza (mesi) dopo diagnosi di
un particolare tumore maligno
Numero di figli per donna
(variabile continua con forma esponenziale)
(variabile discreta)
Misure di posizione (o grandezza)
Media: somma di tutti i valori / numero delle osservazioni
Mediana: valore centrale quando le osservazioni sono ordinate in ordine crescente;
la mediana è quel valore che divide la distribuzione di frequenza in due parti uguali
Moda: valore che si presenta più frequentemente
Supponiamo di avere
questa serie di dati:
10
12
24
2
5
7
9
18
13
4
3
11
14
6
8
MEDIA : (10+ 12+24+2+….+8)/ 15 = 146/15 = 9,7
MEDIANA: ordino i dati in modo crescente e individuo il valore
centrale della serie
2
3
4
5
50%
6
7
8
9
10
11
12
13
14
50%
MODA: non esiste una moda perchè ogni valore è presente una sola
volta
18
24
Come calcolare le misure di posizione (o grandezza)
in tabelle di frequenza
Diametro
(val centr.int)
frequenza
13,07
1
13,07
0,2
0,2
Media: 6713,2 / 500= 13,43
13,12
4
52,48
0,8
1
Mediana: 13,42
13,17
4
52,68
0,8
1,8
13,22
18
237,96
3,6
5,4
13,27
38
504,26
7,6
13
13,32
56
745,92
11,2
24,2
13,37
69
922,53
13,8
38
13,42
96
1288,32
19,2
57,2
13,47
72
969,84
14,4
71,6
13,52
68
919,36
13,6
85,2
13,57
41
556,37
8,2
93,4
13,62
18
245,16
3,6
97
13,67
12
164,04
2,4
99,4
13,72
2
27,44
0,4
99,8
13,77
1
13,77
0,2
100
6713,2
100
Moda: 13,42
totale
500
diam*freq
freq
%
freq %
cumulata
Misure di variabilità
Range: differenza fra l’osservazione più grande e quella più piccola
Percentili: valore che separa l’n% delle osservazioni dal resto delle osservazioni in una
distribuzione cumulativa delle frequenze relative (25% ovvero 25° percentile o
quartile; 50% ovvero 50° percentile o mediana)
Varianza: si basa sulla differenza fra ogni osservazione e la media
varianza in una popolazione
σ2=Σ(y-µ)2/N
Varianza in un campione
s2=Σ(y-ŷ)2/(n-1)
Deviazione standard: radice quadrata della varianza; è una sorta di deviazione media
delle osservazioni dalla media
Coefficiente di variazione: 100 σ/µ misura la variabilità delle osservazioni
relativamente alla loro grandezza totale
Supponiamo di avere
questa serie di dati:
10
12
24
2
5
7
9
18
13
4
3
11
14
RANGE : 24-2 = 22
MEDIA : 146/15 = 9,7
VARIANZA: [(10-9,7)2+ (12-9,7)2+ ……..+(8-9,6)2] / (15-1)= 35,21
DEVIAZIONE STANDARD : √Varianza = 5,93
COEFFICIENTE DI VARIAZIONE : 100* 5,93/9,7 = 61,13
6
8
Probabilità
La probabilità di un evento è definita come la proporzione delle volte in cui si
verifica l’evento sul totale delle prove realizzate in una lunga serie casuale.
In una popolazione di uomini, il 10% è più alto di 2 metri. Se un uomo venisse
selezionato a caso da questa popolazione si potrebbe dire che la probabilità che la
sua altezza sia maggiore di 2 metri è 1/10 o 0.1 perché in media questo accade in
un uomo su 10.
Distribuzioni di probabilità
E’ assimilabile ad una distribuzione di frequenza relativa calcolata però NON su un
campione di osservazioni, ma su un’intera popolazione.
Ciò significa che se noi costruissimo un istogramma con le frequenze cumulative
relative ad ogni valore di altezza rilevato sull’intera popolazione mondiale otterremmo
una distribuzione di densità di probabilità.
Le distribuzioni di probabilità più significative sono:
•Binomiale (che riguarda variabili di tipo dicotomico,per esempio testa o croce)
Pr(T) + PR(C) = 1
0.5 + 0.5 = 1 questo è un esempio molto semplice di distr. Binomiale
Supponiamo di effettuare 8 lanci (n) di una moneta, quindi con Pr(T)=Pr(C)= ½
K rappresenta il numero dei successi
La funzione di probabilità sarà
K
0
P(K)
qn
P(K)
1/256
1
n qn-1 p n
1
8/256
8* ½ 1*½ 7
2
3
4
5
6
7
8
….
…..
….
….
….
….
pn
28/256
56/256
70/256
56/256
28/256
8/256
1/256
(8*7)/ (1*2)* ½ 2*½ 6
Distribuzione di probabilità binomiale con n=8 e P=q=1/2
0,3
0,25
0,2
0,15
0,1
0,05
0
0
1
2
3
4
5
6
Distribuzione binomiale
Valore medio
µ = n*p
Varianza
σ2= n*p*q
Deviazione standard
σ = √(n*p*q)
7
8
di Poisson (che riguarda eventi che si verificano
in un periodo di tempo definito:per esempio n° di chiamate al 118 in un’ora)
Si supponga che il 2% dei pezzi prodotti da una fabbrica siano difettosi. Si determini
la probabilità che in un campione di 100 pezzi ve ne siano 3 difettosi.
La formula è la seguente : p(k;λ) = (λk * e
– λ)/
K! con K=0,1,2,3….
Quindi P (3;2) =( 23*e-2)/3! = 0.180
Distribuzione di posson con λ= 2 con k=0,1,2,3
Distribuzione di Poisson
0,3
Valore medio
µ=λ
0,2
Varianza
σ2= λ
0,1
Deviazione standard
σ= √ λ
0
0
1
2
3
Applicazione della distribuzione di Poisson in Epidemiologia
Per molte malattie croniche la distribuzione dei casi avviene in modo casuale nel
tempo e se si considera un periodo non troppo lungo si può assumere un tasso
costante di incidenza.
Così il numero osservato di casi d in un periodo definito di tempo sarà una
variabile poissoniana.
Se n è il numero di persone osservate in un anno o il numero di anni-persona di
esposizione al rischio, il tasso poissoniano è pari a d/n e la deviazione standard
è uguale a √d/n.
Questi risultati vengono utilizzati per trarre conclusioni relativamente alla
precisione dei tassi e per i test di siginificatività
normale (o di Gauss-LaPlace)
La normale è la distribuzione statistica più famosa ed utilizzata. Le tre
ragioni principali sono:
•essa si adatta bene alla rappresentazione grafica di molti fenomeni fisici,
biologi, sociali, ecc.;
•essa è fondamentale in inferenza statistica;
La formula matematica che descrive la funzione della densità di probabilità
normale è la seguente:
dove µ e σ rappresentano la popolazione
media e lo scarto quadratico medio (o deviazione standard). L'equazione della
funzione di densità è costruita in modo tale che l'area sottesa alla curva
rappresenti la probabilità. Perciò, l'area totale è uguale a 1.
Distribuzione normale
Valore medio
µ
Varianza
σ2
Deviazione standard
σ
diametro frequenza
13.07
1
13.12
4
13.17
4
13.22
18
13.27
38
13.32
56
13.37
69
13.42
96
13.47
72
13.52
68
13.57
41
13.62
18
13.67
12
13.72
2
13.77
1
Questi dati si riferiscono al diametro in millimetri della
testa di n = 500 rivetti, classificati in k = 15 intervalli,
ognuno dell'ampiezza di h = 0.05 mm. Le frequenze
riportate nella tabella si riferiscono al numero di
misurazioni che rientrano nell'intervallo indicato dal
corrispondente valore nella prima colonna. Il lotto dei 500
rivetti può essere considerato un semplice campione
casuale preso da una distribuzione di probabilità. Si
presuppone che questa distribuzione sia una normale. In
questo caso, questa scelta è fatta solamente basandosi
sull'osservazione che un simile tipo di rilevazioni spesso si
mostra in accordo con una distribuzione normale.
Distribuzione di
frequenza con media
x e deviazione
standard DS
Distribuzione di
probabilità con la
stessa media e
deviazione standard
della distribuzione di
frequenza
Distr. Normale:
Riguarda variabili continue
Ha forma a campana
µ
È simmetrica intorno alla media µ
É determinata da due quantità: la
media ( µ ) e la deviazione standard (σ)
Distr. Normale Standardizzata:
Poiché le tavole della distribuzione
normale non possono essere tabulate per
tutti i possibili valori di µ e σ, si utilizza
la normale standardizzata che ha media
=0 e deviazione standard =1.
L’area al di sotto della curva normale
standardizzata corrisponde a 1
I valori relativi al campione in osservazione si
standardizzano secondo la formula
68% ( µ± σ )
95% ( µ± 1.96σ )
Z= (x-µ) / σ
e si confrontano con la tavola della normale
standardizzata per sapere a quale valore di
probabilità coincidono
99% ( µ± 2.58σ )
Inferenza : stima di un parametro riguardante una popolazione attraverso
l’uso di un campione
MEDIA
camp
DS
camp
ŷ1
s1
ŷ2
s2
ŷ3
s3
ŷn
sn
Popolazione 1
CAMPIONE 1
MEDIA pop
DS pop
µ
CAMPIONE 2
σ
CAMPIONE 3
CAMPIONE n
Inferenza : alcune fra le varie possibilità di procedere
1) supponiamo di volere stimare la
media µ di una popolazione utilizzando
un campione con media ŷ
2) supponiamo di volere confrontare la
media di un campione e la media di una
popolazione
3) supponiamo di volere confrontare la
media di un DUE campioni dipendenti
(prima/dopo)
3) supponiamo di volere confrontare la
media
di
un
DUE
campioni
INdipendenti
Popolazione 1
Popolazione 1
CAMPIONE 1
prima
CAMPIONE 1
CAMPIONE 1
CAMPIONE 1
CAMPIONE 1
dopo
CAMPIONE 2
Primo approccio: costruire l’intervallo di confidenza per la media µ.
Per esempio: supponiamo di volere stimare la media µ di una popolazione
utilizzando un campione con media ŷ
Ciò che ci interessa è sapere in che misura la media campionaria è una stima
precisa della media sconosciuta della popolazione.
Sappiamo che la distribuzione di tutte le possibile medie campionarie è una
distribuzione normale con media µ e deviazione standard σ/√n (ovvero uguale
all’errore standard ES)
[Teorema del limite centrale]
1) Quindi essendo la media campionaria ŷ un singolo valore della distribuzione di
tutte le possibili medie campionarie, la probabilità che tale valore stia entro µ±1.96
ES è pari al 95%
µ (media)
Ciò significa che c’è un 95%
di possibilità che la media
campionaria si trovi all’interno
dell’intervallo µ±1.96 ES(ŷ)
95% ( µ± 1.96ES )
Quindi la probabilità che l’intervallo ŷ±1.96 ES(ŷ) contenga la media
sconosciuta della popolazione (µ) è pari a 0.95 o 95%.
L’intervallo ŷ±1.96 ES(ŷ) è chiamato Intervallo di confidenza al 95% di µ ed
è una misura della precisione della media campionaria ŷ quale stima della
media della popolazione
2) Se come di solito accade σ (deviazione standard nella popolazione) non si
conosce e deve essere stimata attraverso un campione, c’è bisogno di un
piccolo aggiustamento.
Se la varianza di y è stimata dal campione attraverso la formula
s2=Σ(y-ŷ)2/(n-1)
è necessario usare il valore critico della distribuzione t con n-1 gradi di libertà
Allora l’intervallo di confidenza diventa
ŷ ±t(n-1)s/√n
Problema n.3
Una popolazione di altezze di uomini ha una DS di 6.6 cm e la media dei campioni è
pari a 180 cm. Qual è l’errore standard della media di un campione casuale di : a) 25
uomini b) 100 uomini ?
Qual’e l’intervallo di confidenza al 95% della media campionaria?
DATI:
Media dei campioni= 180 cm
Deviazione standard della popolazione (σ)= 6.6 cm
Numerosità campionaria: a) n=25 uomini
b) n= 100 uomini
SOLUZIONE:
Errore Standard della media campionaria = σ/√n
a) ES (ŷ) = 6.6 / √25= 1.32
b) ES (ŷ) = 6.6 / √100= 0.66
Intervallo di confidenza al 95% = ŷ ±1.96*ES(ŷ)
a) 180±1.96*1.32 [177.4 – 182.6]
b) 180±1.96*0.66 [178.7 – 181.3]
Problema n.3
Una popolazione di altezze di uomini ha una DS sconosciuta e la media del campione è
pari a 180 cm. Qual è l’errore standard della media di un campione casuale di 25
uomini ?
Supponendo che il campione abbia un DS pari a 4.5 cm qual’e l’intervallo di
confidenza al 95% della media campionaria?
DATI:
Media del campione = 180 cm
Deviazione standard della popolazione (σ) sconosciuta
Numerosità campionaria: n=25 uomini
Deviazione Standard del campione (s) =4.5 cm
SOLUZIONE:
Errore Standard della media campionaria ES(ŷ)= s/√n = 4.5 /√25 = 0.9
Intervallo di confidenza al 95% = ŷ ±t(n-1)*ES(ŷ) in cui n-1=25-1=24
e t(n-1) dalle tavole della distribuzione t è pari a 1.711
quindi
180±1.711*0.9 [178.5 – 181.5]
Secondo approccio: confrontare la media di un campione e la media di una
popolazione
Per esempio: supponiamo di volere valutare il rischio per la salute legato ad una certa
occupazione: la media di pressione sistolica misurata in un campione di 20 uomini (3039 anni) impiegati in quel tipo di occupazione è pari a 141.4 mmHg mentre in uomini
della stessa età nella popolazione generale la media della pressione sistolica è pari a
133.2 mmHg con una deviazione standard σ di 15.1 mmHg.
La nostra ipotesi nulla è che non ci sia un cambiamento nella pressione sistolica dovuto
a quel tipo di occupazione e che i 20 lavoratori rappresentino un campione random
selezionato dalla popolazione generale.
Se l’ipotesi fosse vera la media del campione sarebbe distribuita normalmente intorno
alla media della popolazione (133.2) con una deviazione standard pari a 15.1/√20=
3.38mmHg (errore standard) ovvero la media del campione dovrebbe stare entro
l’intervallo 133.2 ± 1.96*3.38 [126.6 – 139.8]
In realtà la media del campione (141.4) stà al di fuori di questo IC 95% , ovvero cade in
quel 5% di probabilità che ci fà dire che esiste una differenza significativa fra la
pressione sistolica del campione e quella della popolazione generale maschile della
stessa età.
Questo approccio è tecnicamnte noto come TEST DI SIGNIFICATIVITA’ O TEST AD
IPOTESI
Test ad ipotesi
Supponiamo di voler valutare se la media della popolazione (µ) è uguale ad un
valore prefissato µ0
Ipotesi nulla
H0: µ=µ0
Popolazione 1
Popolazione 2
Ipotesi alternativa
HA: µ≠µ0
realtà
µ
µ0
popolazione
accetto H0
risultato del
test
rifiuto H0
α: probabilità di rifiutare
H0 quando questa è vera
µ=µ0
µ≠µ0
corretto
β
α
corretto
β: probabilità di accettare
H0 quando questa è falsa
1- β: potenza del test ovvero la
probabilità di rifiutare H0 quando
questa è falsa
Test t su campioni dipendenti
A 5 soggetti è stata somministrata una dose di ipotensivo e si sono registrati i
valori di pressione arteriosa sistolica prima e dopo la somministrazione ottenendo
i seguenti risultati in mmHg:
Prima
Dopo
Soggetto 1
180
160
Soggetto 2
210
205
Soggetto 3
240
200
Soggetto 4
195
195
Soggetto 5
170
160
Esiste differenza tra i valori
medi della pressione prima e
dopo la somministrazione (α=
0.05)?
Si procede calcolando la differenza fra i valori pressori prima del trattamento e
dopo lo stesso
Soggetto 1
Soggetto 2
Soggetto 3
Soggetto 4
Soggetto 5
Prima
180
210
240
195
170
Dopo
160
205
200
195
160
differenza (d)
20
5
40
0
10
75
Fissiamo anche l’ipotesi nulla
Ha: µprima ≠ µdopo
d2
400
25
1600
0
100
2125
H0: µprima = µdopo e l’ipotesi alternativa
La formula del test t per dati appaiati è la seguente
t = dmedia /ES (d media)
Per applicare questa formula dobbiamo calcolare la DS della differenza
sapendo che Σd= 75
dmedia= 75/5=15
Σ (d- dmedia)2= Σd2- (Σd)2/n=(2125-5625/5)=1000
S2(d)= Σ (d- dmedia)2/ (n-1)=1000/4=250 e ES(dmedia)= √s2(d)/n=√250/5=7.07
Quindi t = dmedia /ES (d media)= 15 /7.07=2.12
I gradi di libertà da considerare sono: numero delle osservazioni meno 1,
ovvero 5-1=4 e dalle tavole t(0.05) sulle due code è =2.776
Accetto H0
Rifiuto H0
Rifiuto H0
-2.776
2.776
2.12
Poiché il valore che risulta dal test t cade nella zona di accettazione
dell’ipotesi nulla, posso affermare che non c’è differenza fra i valori di
pressione prima e dopo il trattamento, sapendo di avere una percentuale di
errore nell’affermare ciò pari al 5%
Test t su campioni INdipendenti
E’ stata misurata la velocità di eritrosedimentazione in un gruppo di pazienti
(gruppo A) che avevano una certa infezione. Per controllo le stesse misurazioni
sono state condotte in un gruppo di controllo (gruppo B). I dati ottenuti sono i
seguenti:
gruppo A
3 9 8 6 5 5 7 3 10 8 10 4
gruppo B
10 13 6 11 10 7 8 8 5 9
H0: µA= µB
gruppo A
gruppo B
Esiste
una
differenza
significativa
nella
velocità
media di sedimentazione tra il
gruppo A e il gruppo B ?
HA: µA≠ µB
9 81 64 36 25 25 49 9 100 64 100 16 Σx2= 578
100 169 36 121 100 49 64 64 25 81
Σx2= 809
media gruppo A=
87/ 10=8.7
media gruppo B= 78/12= 6.5
Per applicare il test t su dati indipendenti devo valutate l’omogeneità delle varianze
dei due gruppi
Σ(x-xmedioA)2= ΣxA2-(ΣxA)2/nA=809- (87)2/10=52.1 ovvero DEVIANZA nel gruppo A
e Σ(x-xmedioB)2= 71 ovvero DEVIANZA nel gruppo B
Calcolo allora le Devianze:
Σ(x-xmedioA)2= ΣxA2-(ΣxA)2/nA=809- (87)2/10=52.1 ovvero DEVIANZA nel gruppo A
e Σ(x-xmedioB)2= 71 ovvero DEVIANZA nel gruppo B
E successivamente le varianze = devianza/ n-1
Varianza di A 71/(12-1)= 6.45
Varianza di B 52.1/(10-1)= 5.78
Verifico ora l’omogeneità attraverso un test F sue varianze
F=Varianza più grande / varianza più piccola = 6.45/5.78= 1.11
Gradi di libertà del numeratore= 12-1=11
H0 σA=σB
H0 σA≠σB
Gradi di libertà del denominatore= 10-1=9
Dalle tavole della distribuzione F si rileva che F (11;9; 0.05)= 3.07
Accetto H0
Rifiuto H0
1.11
3.07
Accettiamo l’ipotesi nulla di
omogeneità delle varianze,
allora posso applicare il test t
Calcoliamo la varianza combinata
S2(combinata)= dev A+ dev B/( nA+nB-2)= 71+52.1/20= 6.16
Dalle tavole
XmedioB-XmedioA
t=
= 2.08
t (20;0.050)= 2.086
√ S2(combinata)/nA + S2(combinata)/nB
Accetto H0
Rifiuto H0
Rifiuto H0
-2.086
2.086
2.080
Accetto l’ipotesi nulla, ovvero
non c’è differenza fra i due
gruppi
Come confrontare due tassi
Supponiamo di dover confrontare i livelli di mortalità dell’USL22 rispetto al livello
medio regionale del Veneto. Questi sono i dati a disposizione:
Deceduti per età e sesso – USL22
M
F
popolazione per età e sesso –
USL22 (POP in esame)
TOT
M
F
Tassi grezzi per sesso *10.000ab
– USL22
TOT
M
F
TOT
1,942141
3,303083
2,630206
0-9
0
0
0
0-9
12221
11718
23939
10-19
0
0
0
10-19
12337
11701
24038
20-29
0
0
0
20-29
18380
17738
36118
30-39
0
0
0
30-39
21339
20135
41474
40-49
0
0
0
40-49
16897
16072
32969
50-59
0
0
0
50-59
15518
15025
30543
60-69
1
1
2
60-69
11796
12495
24291
0-9
0
0
0
70-79
1
4
5
70-79
7319
10337
17656
10-19
0
0
0
>80
21
35
56
>80
2619
5878
8497
20-29
0
0
0
TOT
23
40
63
TOT
118426
121099
239525
30-39
0
0
0
40-49
0
0
0
50-59
0
0
0
60-69
0,847745
0,80032
0,82335
70-79
1,366307
3,869595
2,831899
>80
80,18328
59,54406
65,90561
tot
1,942141
3,303083
2,630206
TOT
Tassi specifici per età e sesso
*10.000ab– USL22
M
F
TOT
Metodo diretto
popolazione per età e sesso
– Veneto (POP standard)
Tassi specifici per età e
sesso*10.000ab – USL22
M
F
M
TOT
0-9
0
0
0
10-19
0
0
0
20-29
0
0
0
30-39
0
0
0
40-49
0
0
0
50-59
0
0
0
60-69
0,847745
0,80032
0,82335
70-79
1,366307
3,869595
2,831899
>80
80,18328
59,54406
65,90561
F
Decessi attesi utilizzando la
popolazione del Veneto
M
TOT
F
TOT
0-9
204791
193642
398433
5-9
0
0
0
10-19
212955
201804
414759
15-19
0
0
0
20-29
337781
322679
660460
25-29
0
0
0
30-39
392281
370314
762595
35-39
0
0
0
40-49
313951
304108
618059
45-49
0
0
0
50-59
291134
295181
586315
55-59
0
0
0
60-69
230853
262130
492983
65-69
19,57045
20,97879
40,58977
70-79
149621
225816
375437
70-79
20,44282
87,38164
106,3199
52110
126409
178519
>80
417,8351
752,6905
1176,54
2185477
2302083
4487560
TOT
457,8483
861,051
1323,45
?80
TOT
Tasso standardizzato diretto di mortalità per USL22
TOT
M
F
TOT
2,094958
3,740312
2,949153
= 457,8483/2.185.477
Tassi grezzi per sesso –
USL22
TOT
M
F
TOT
1,942141
3,303083
2,630206
Metodo INdiretto
popolazione per età e sesso –
USL22 (POP in esame)
M
M
F
TOT
0-9
12221
11718
23939
10-19
12337
11701
24038
20-29
18380
17738
36118
30-39
21339
20135
41474
40-49
16897
16072
32969
50-59
15518
15025
30543
60-69
11796
12495
24291
70-79
7319
10337
17656
>80
2619
5878
8497
118426
121099
239525
TOT
Tassi specifici per età e sesso –
Veneto (POP standard)
0
0
0
10-19
0
0
0
20-29
0
0
0
30-39
0
0
0
40-49
0
0
0
50-59
0
0
0
60-69
0,75
0,82
0,86
70-79
1,5
3,7
2,4
80,3
59,2
63,9
SMR (osservati/ attesi)
Deceduti per età e sesso – USL22
F
M
TOT
F
TOT
0-9
>80
Casi attesi per USL 22
M
F
M
TOT
F
TOT
0-9
0
0
0
0-9
0
0
0
0-9
0
0
0
10-19
0
0
0
10-19
0
0
0
10-19
0
0
0
20-29
0
0
0
20-29
0
0
0
20-29
0
0
0
30-39
0
0
0
30-39
0
0
0
30-39
0
0
0
40-49
0
0
0
40-49
0
0
0
40-49
0
0
0
50-59
0
0
0
50-59
0
0
0
50-59
0
0
0
60-69
0,8847
1,02459
2,089026
60-69
1
1
2
60-69
1,130327
0,976
0,957384
70-79
1,09785
3,82469
4,23744
70-79
1
4
5
70-79
0,910871
1,045836
1,179958
>80
21,03057
34,79776
54,29583
>80
21
35
56
?80
0,998546
1,005812
1,031387
tot
23,01312
39,64704
60,6223
TOT
23
40
63
tot
0,99943
1,008903
1,039222
Come presentare i propri dati
Sesso
Ricoveri per ernia
Maschio
35
Femmina
43
totale
78
Tabella ad una entrata
Frequenza assoluta dei ricoveri per ernia
disaggregati per sesso
Sesso/età
≤65anni
>65 anni
totale
Maschio
12
23
35
Femmina
18
25
43
totale
30
48
78
Tabella a doppia entrata
Frequenza assoluta dei ricoveri per
ernia disaggregati per sesso e classi di
età
Rappresentazioni grafiche
frequenza assoluta dei ricoveri per età e sesso
Le frequenze o numeri
assoluti possono essere
visualizzate attraverso
dei grafici a linee
quando
vogliono
evidenziare
una
tendenza nel tempo (età,
singoli anni di un periodo
di osservazione, ecc.)
1600
1200
800
400
0
50
maschi
70
80
90
100
femmine
Numero di fratture di femore per comune di residenza
500
400
300
200
Total
Vinci
Santa Croce
sull'Arno
San Miniato
Montespertoli
Montelupo
Fiorentino
Montaione
femmine
Montopoli in Val
d'Arno
maschi
Gambassi
Terme
0
Fucecchio
100
Empoli
Quando invece si vuole
visualizzare
la
differenza in numero
assoluto
fra
diversi
livelli di aggregazione
del dato (sesso, comuni,
ecc.) che non hanno un
riferimento temporale,
si possono usare gli
istogrammi (o grafici a
barre)
60
Certaldo
40
Cerreto Guidi
30
Castelfranco di
Sotto
20
Castelfiorentino
10
Capraia e
Limite
0
frequenze percentuali del tipo di ricovero per frattura di femore
1,69
0,38
0,75
0,19
neonati
26,55
progr non urg
urgente
TSO
TSV
70,43
Se
la
distribuzione
percentuale che si sta
graficando prevede una
stratificazione
della
variabile in più livelli di
altre
due
caratteristiche (età e
comune di residenza) è
necessario utilizzare una
forma
grafica
che
visualizzi
contestualmente tutte
le informazioni previste.
con preosp
Le frequenze percentuali di
una sola variabile (tipo di
ricovero) distribuita in base
alle sue modalità (neonati,
ricoveri programmati non
urgenti,
urgenti,
ecc.)
possono essere visualizzate
attraverso dei grafici a
torta nei quali è immediato
rilevare il contributo delle
singole
modalità sulla
variabile in osservazione
Distribuzione percentuale dei ricoveri per frattura di femore per
comune di residenza (Zona Valdarno)
MASCHI
100%
50%
0%
Castelfra
Fucecchio
<1
1-14
Montopoli
15-64
65-74
San Minia
75-84
85++
Santa Cro
lunghezza (cm)
Peso e lunghezza dei bambini nati ad Empoli - anno 2000
65
60
55
50
45
40
35
30
25
20
15
10
5
0
lunghezza
0
500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
peso (grammi)
Se si vuole visualizzare l’andamento contestuale di due variabili che si suppone
siano correlate si utilizza il grafico a dispersione.
Questo grafico evidenzia la possibile relazione esistente fra le due variabili:
se i punti di dispersione sono distribuiti lungo un’ipotetica retta la relazione si
definisce lineare.
I miei recapiti:
Dott. Michela Franchini
Coordinatore Epidemiologia – ASL 11 Empoli
Telefono ufficio: 0571-702932
Cellulare aziendale : 335/5722279
Testi di consultazione consigliati:
Glantz
Statistica per discipline biomediche
Ed. McGraw-Hill
Pagano – Gauvreau
Biostatistica
Ed. Idelson-Gnocchi
Scarica

Document