C. di L. Specialistica
Lauree per le Professioni Sanitarie
Corso Integrato di Informatica Statistica ed Epidemiologia
Statistica
Prof. Claudio Bonifazzi
Dip. Scienze Biomediche e TT.AA.
[email protected]
www.aulaf5.unife.it/Default.html
http://utenti.unife.it/claudio.bonifazzi/
Indice degli Argomenti
•
Statistica descrittiva. Dati Univariati
– Rappresentazione grafica dei dati
– Indici di posizione e dispersione
• Probabilità e Distribuzioni di Probabilità
– Distribuzione Normale e Binomiale
• Elementi di Statistica Inferenziale.
– Stime puntuali e di Intervallo
• Verifica di Ipotesi sulla Media di popolazione
– Grandi e piccoli campioni
• Verifica di Ipotesi sulla differenza fra due popolazione
– Confronto fra medie
• Test di Indipendenza o Omogeneità (test c2)
– dati categoriali
• Verifica di Ipotesi sulla differenza fra più di due popolazione (ANOVA)
Testi Utilizzati
• Norman-Steiner
– BIOSTATISTICA (Ambrosiana 2000)
• M.R. Middleton.
– ANALISI STATISTICA CON EXCEL (Apogeo 2004)
• David S. Moore
– Statistica di Base (Apogeo 2005)
• Esempi ed Esercizi in Excel
– Funzioni statistiche predefinite
– Work Book ‘Analisi dei dati’
– XL-Stat
Basi della Statistica
• Statistica Descrittiva
– Organizzazione, presentazione e sintesi dei dati.
• Statistica Inferenziale
– Generalizzazione delle informazioni ricavate da piccoli campioni
a grandi popolazione.
• Variabili o Caratteri statistici
– Quantità o entità misurate o osservate (Dati)
– PO2 nel sangue, pH delle urine, peso, …
– Genere
(Maschile/Femminile);
Parere
(Favorevole/Contrario/Non
so);
Responsività ad una terapia (Migliorato/Invariato/Peggiorato), ecc..
• Variabili Dipendenti e Indipendenti
– Variazione ottenuta (dipendente) in risposta a un qualche intervento
(indipendente).
– Somministrazione di un diuretico e riduzione della pressione.
Rappresentazione Grafica dei Dati
• Tipo di Dato
–
–
–
–
Variabili Quantitative e Qualitative
Dati grezzi (Raw Data),
Dati Raggruppati (Distribuzione delle frequenze)
Dati Ordinati
• Diagramma a Barre; Dot-Plot
• Istogramma; Ogiva
• Grafico tipo Torta (Pie Chart)
• Diagramma Gambo-Foglia (Steam-Leaf display)
• Box-and-Wiskers plot
Tipi di Dati
Quantitativo
Continuo
Discreto
Pressione sanguigna, pH, [Na+], volume Numero figli in una famiglia; frequenza
polmonare, altezza, peso, età, ecc..
degli attacchi d’asma; sedute terapeutiche;
frequenza cardiaca; gg di assenza dal
lavoro, ecc..
Qualitativo o Categorico
Ordinale
Nominale
Stato del Paziente (MM, M, I, P, MP, D); Sesso (M/F); stato civile (Ce, Nu, Co, Di);
stadio del Tumore (I, IA, II, IIA, …); grado gruppo sanguigno (A, B, AB, 0);
di soddisfazione (Insufficiente, Sufficiente, Vivo/Morto.
Buono, …)
Variabile di Intervallo
Variabile di Rapporto
Variabile ordinale con intervalli costanti e Variabile di Intervallo con “zero”
“zero” arbitrario. Stadio della patologia: pari rappresentativo. Variabile quantitativa
gravità fra I e IA, IA e II,…; Quoziente di
intelligenza (QI). Soglia di povertà.
Diagramma a Barre; Dot-Plot
Variabili Qualitative o Categoriali
•
Ciascuna domanda è un
esperimento; la risposta il
risultato dell’esperimento.
•
Variabile categorica: il corso.
Osservazioni: No. studenti
•
Tab. 2-1 distribuzione delle
frequenze.
I grafico a barre è una
rappresentazione grafica della
distribuzione delle frequenze
•
Esempi: Anagrafe.xls
Istogramma, Poligonale
Variabili Quantitative
FIGURA 2-5
Istogramma
con il No. di
attività seguite
dai 100
studenti del
DU per
Infermiere
• Variabile quantitativa Discreta
– Dati grezzi  Ordinati per Rango
– Individuazione delle Classi
• Frequenza e Fr. Cumulativa per Classe
• Istogramma e Poligono
– No. Studenti  Altezza barra
– Barre Contigue
– Poligono  Valori Continui
Esempi: Tirocinio, EsStatDesc, StudentiSM
Diagramma Gambo-Foglia
Lo Steam-Leaf display (Tukey 1977), è una Tabella con l’aspetto di un
Istogramma che mantiene il dettaglio dei valori originali.
Concentrazione urinaria di Pb in 15 bambini di un insediamento residenziale (mmol/24h).
0.6
2.6
0.1
1.1
0.4
2.0
0.8
1.3
Procedura in 3 passi
1. Intervallo. Valori Max e Min
2. Gambi. Classi di valori che sintetizzano i dati.
3. Foglie. Valori misurati in modo ordinato.
1.
2.
3.
3.2
1.7
1.9
1.9
Gambo
1.5
2.2
1.2
Foglie
0
1
4
6
8
1
1
2
3
5 7 9 9
2
0
2
6
3
2
Intervallo. Min=0.1, Max = 3.6
Esempi:DurezzaPunte
Gambi. [Pb] per unità discrete: 0, 1, 2, 3 mmol/24h
Foglie. Decimali della [Pb] in [0.1, 0.9], [1.0, 1.9], [2.0, 2.9], [3.0, 3.9]
Indici di tendenza centrale, dispersione e posizione.
Mediana = 1.5; valore centrale (8°); Range = Max - Min = 3.5.
Quartili: Q1 = 0.8 (4° valore), Q2 = 1.5 (8° valore), Q3 = 2.0 (12° valore)
Pie-Charte (Torta)
Pie Chart. Confronta il contributo di ciascuna categoria rispetto al
totale. È formato da un cerchio (Totale) la cui area è suddivisa in
settori di area è proporzionale al Singolo Contributo. L’area di ciascun
settore è pari a (Singolo Contributo/Tot)*360; la somma dei settori è
pari all’area del cerchio
Ex. Pre Iscrizioni ai C.d.L. Triennali.
Categorie
Frequenza Fr. Relativa Probabilità (%)
Altri
12
0.39
39
Economia
6
0.20
20
Ingegneria
5
0.17
17
Medico Sanitario
5
0.17
17
Scienze di base
2
0.07
7
Somma
30
1.00
100
Esempi: AnalisiDS1
Scienze di
Base
7%
Medico
Sanitario
17%
Altri
39%
Ingegneria
17%
Economia
20%
Indicatori Riassuntivi
1. Notazioni
• Data-Set, Singolo Dato, Sommatoria, ….
2. Indicatori di Tendenza centrale
• Media, Mediana e Moda.
3. Indicatori di Dispersione
• Intervallo Minimo-Massimo (Range),
• Intervallo Interquartile (IQR),
• Varianza e Deviazione Standard.
4. Indicatori di Asimmetria e Forma
• Skewness e Curtosi
5. Indicatori di Posizione
• Quartili, Percentili, Rango Percentile.
6. Esempi
Notazioni Algebriche
• Data-set X: insieme di valori risultato di un’analisi, di un esperimento, di
un questionario, ….
– [Pb] Urinaria nei bambini in mM/24h. Insediamento Urbano.
– X={0.6, 2.6, 0.1, 1.1, 0.4, 2.0, 0.8, 1.3, 3.2, 1.7, 1.9, 1.9, 1.5, 2.2, 1.2}
• Singolo dato Xi ; X1 = 0.6; X12 = 1.9 mM/24h
• Dimensione: numero di valori (soggetti) nel data-set
– popolazione N, campione n, (n =15), più campioni nj , j=1,2, ..
– somma dei valori
n
S Xi
i =1
([Pb] totale nei 15 soggetti)
Indici di Tendenza Centrale
Media, Mediana, Moda
•
La Media Aritmetica o Media è l’indice di tendenza centrale “tipico”,
utilizzato per descrivere un data set Quantitativo, (Qualitativo con valori di
Intervallo o di Rapporto).
n
n
S X i ; Campione
S Xi
– Popolazione
X = i =1
m = i =1
n
N
• La Mediana è il valore che separa il data-set in due parti uguali: metà
delle osservazioni e inferiore alla mediana, l’altra metà è superiore alla
mediana
– n dispari  valore centrale; n pari  media dei valori centrali
– Regola generale: valore in posizione (n+1)/2
• La Moda è il valore del data-set (o la categoria) che si presenta
con maggiore frequenza
Uso di Media e Moda
Attività di Tirocinio degli studenti
Gruppo 1: n1= 100; SX = 3083; X = 30.83
Gruppo 2: n2= 100; SX = 4583; X = 45.83
Gruppo 3: n3= 50; SX = 2291; X = 45.82
Esame di Analisi superiore. Test di
metà semestre. Valutazioni: A, …,D….
La valutazione assegnata agli studenti
ha una distribuzione bimodale; le
mode sono i giudizi (A) e (D)
Esempi: Tirocinio, EsStatDesc
Confronto fra Ind. Pos. Cent.
[Pb] urinaria mM/24h A) Urbano nA=15, B) Extraurbano nB=16
A={0.1, 0.4, 0.6, 0.8, 1.1, 1.2, 1.3, 1.5, 1.7, 1.9, 1.9, 2.0, 2.2, 2.6, 3.2 }
B={0.2, 0.3, 0.6, 0.7, 0.8, 1.5, 1.7, 1.8, 1.9, 1.9, 2.0, 2.0, 2.1, 2.8, 3.1, 3.4 }
• Media Aritmetica: XA= 1.49; XB= 1.68 mM/24h
• Mediana: A) n=15 MedA = 1.5; B) n=16, MedB = (1.8+1.9)/2=1.85;
• Moda: A) Moda = 1.9; B) Moda = 1.9, 2.0
• La Media dipende dai valori Estremi (Outliers)
C = {0.1, 0.2, 0.4, 1.1}; D = {0.1, 0.2, 0.4, 1.1, 21.9};
XC= 0.45, XD= 4.74 mM/24h; MedA = 0.3, MedB = 0.4 mM/24h
Data set qualitativo: quale indice di posizione centrale utilizzare?
Esempi: Tirocinio, StDescrittiva_Pb
Indici di Dispersione
Una misura di dispersione indica quanto vicino si posizionano
(raggruppano), i valori presenti nel data-set, intorno ad una misura di
tendenza centrale.
•
Intervallo minimo-massimo (100% dei dati)
Range = Massimo - Minimo
•
Intervallo interquartile (50% dei dati)
IQR = Q3 - Q1= 1° Quartile – 3° Quartile
• Scarto Medio. Somma degli scarti intorno alla media
S
Scarto Medio MD =
•
Xi - X
=
S
N
x
N
Varianza e Deviazione Standard
s2 =
S (X
- X)
; s = s2
n -1
2
i
s2 =
S (X
i
-X
N
)
2
;s = s2
N, n-1 ?
Dispersione
No. pause caffè in un giorno lavorativo
1
2
3
4
5
6
7
8
9
10
Somma
Pause
X-X
1
3
4
7
9
9
11
12
16
18
90
-8
-6
-5
-2
0
0
2
3
7
9
0
|X - X |
8
6
5
2
0
0
2
3
7
9
42
(X - X)^2
64
36
25
4
0
0
4
9
49
81
272
• N = 10 ;
• SX = 90
• X = SX / N = 9
• S(X – X) = 0
• S|X – X| / N = 4.2
• S(X – X)2 / N = 27.2
• s = 27.2 = 5.2
•
La media è il baricentro dei valori di X  la somma delle differenze rispetto alla media é = 0.
•
La somma delle differenze in valore assoluto o delle differenze elevate al quadrato è un valore > 0.
•Scarto medio MD=S|X-X|/N e varianza s2 =S(X-X)2/N calcolano la distanza media di Xi dalla media X.
•
La deviazione standard s è la distanza media di ciascun valore dalla media in unità di misura di Xi
Esempi: Tirocinio, StDescrittiva_Pb
Asimmetria e Curtosi
Il grado asimmetria (skewness) descrive quantitativamente la
dispersione dei valori a Dx e Sx della media.
• Asimmetrica verso Dx o positiva
• Asimmetrica verso Sx o negativa
La curtosi descrive quantitativamente il grado di appiattimento della curva
Curve simmetrica
A. Mesocurtica
B. Leptocurtica
C. Platicurtica
Uso degli Indicatori
Esempi: Studenti
Note: Indicatori di Asimmetria e Forma
Box-and-Wiskers plot
Indicatori di Posizione per Dati Ordinati
• Minimo e Massimo
• Percentili
• Quartile Q1, Q2 (Mediana), Q3
• Rango percentile
Esempi: dboxp_Pb, durezzabox
Uso Ind. Posizione
Lunghezza
n
Minimo
Massimo
Intervallo
91
449
479
517
169
452
481
519
305
455
485
530
330 389 393 394 402 410 420
459 465 468 471 472 474 475
486 487 505 508 509 511 512
537
34
91
537
446
Q1 412.5
Q2=Mediana 471.5
Q3 500.5
IQR
88
lover inner fence 280.5
upper inner fence 632.5
lover outer fence 148.5
upper outer fence 676.5
• Il 50% dei valori è racchiuso in IQR;
• Valore anomalo (169) < Q1 – 1.5*IQR
• Valore Estremamente Anomalo (91) < Q1 –3*IQR
Esempi: Iris Flowers; Molluschi
Statistica Descrittiva
Strumenti di Calcolo
A. Funzioni predefiniti di Excel
B. Work-book Analisi dei Dati
C. Add-In XLStat
Funzioni Statistiche Predefinite
• Statistica descrittiva
• Frequenza, Indicatori, …
• Distribuzioni Probabilità
• Dirette e Inverse
Work Book ANALISI DATI
Esempi: Tirocinio, Molluschi
XLStat
Probabilità
Spazio dei campioni S, Evento E
• Lancio di un dado a 4 facce. Esperimento S={E1, E2, E3, E4} = {1, 2, 3, 4}
•
S = spazio dei campioni campionario; Ei = eventi, osservazioni, risultati.
•
Evento semplice A={1,2, 3, 4}; Eventi composti A={Pari}; B={Dispari}
• Qual è la probabilità che il risultato del lancio sia
• Esattamente uguale a 1, P(Ei=1)?
• Sia un numero pari, P(A) = P(Ei = 2 oppure Ei = 4) ?
Probabilità.
Valore numerico che da informazioni sulla verosimiglianza che un dato
evento possa o non possa accadere in rapporto agli altri eventi.
La probabilità di un evento è un valore compreso fra 0 ed 1; ad un evento certo si
assegna il valore P(E)=1, ad un evento impossibile il valore P(E)=0
0  P(E)  1; 0  P(A)  1
La somma delle probabilità degli eventi semplici di un esperimento è sempre uguale a 1
S P(E) = P(E1) + P(E2)+…+ P(E4) =1
Calcolo delle Probabilità
Approccio teorico
Eventi equiprobabili. Due o più eventi che hanno la medesima probabilità di
verificarsi sono detti equiprobabili.
P (Ei ) =
1
Numero Totale degli Eventi
P (A) =
Numero di Eventi A
Numero Totale degli Eventi
Lancio di un dado onesto a 4 facce: P(Ei)=1/4 ; P(A)=P(pari) = P(dispari) = 1/2
Esempi.
Lancio di una moneta bilanciata: P{Testa}=?; P={Croce}=?.
Associazione con 100 iscritti 40 Donne e 60 Uomini. Si elegge il presidente per estrazione
casuale di un nominativo: P{Donna}=?; P={Uomo}=?.
Calcolo delle Probabilità
Approccio empirico
Frequenza relativa
P(A) =
Tentativi di Corteggiamento
Motivo
Tentativi
Successi
% Successo
Successi A
Totale
A
Fisico
10
3
30.00
B
Intelligenza
12
5
41.67
Frequenza A
P(A) =
N
C
Ricchezza
5
1
20.00
D Disperazione
23
21
91.30
50
30
60.00
Totale
I valori calcolati della probabilità P possono essere utilizzati per fare previsioni solo
assumendo che nulla sia cambiato.
Famiglie che possiedono la casa in cui abitano
Legge dei grandi numeri.
Se un esperimento è ripetuto
molte volte la probabilità
calcolata come frequenza
relativa approssima il valore
della teorico della probabilità
Evento
Frequenza
Fr.Relativa
Proprietario
630
0.63
Inquilino
370
0.37
Totale
1000
1.00
Calcolo delle Probabilità
Eventi mutuamente esclusivi. Due eventi X ed Y sono mutuamente esclusivi se
l’occorrenza dell’uno esclude l’occorrenza dell’altro.
• Esempi: A) Espressione di voto: partito D o partito S. B) Acidosi ed alcalosi respiratoria (?). C)
dolore toracico: riflusso gastro-esofageo o sospetto infarto (?).
Eventi Condizionati. Due eventi X ed Y sono condizionati se il verificarsi di Y dipende
da X o il verificarsi di X dipende da Y.
• Probabilità che 5 sia il risultato del lancio simultaneo di due dadi
–
N = 36 eventi possibili: A={1,2,3,4,5,6}; B={1,2,3,4,5,6};
–
P(E) = 1/36
–
P(5) = P(1 e 4) + P(2 e 3) + P(3 e 2) + P(4 e 1) = 4/36= 11.1%
• Probabilità 5 che sia il risultato del lancio del secondo dado B se il dado A ha dato valore 1
–
N = 6 eventi possibili: A={1}; B={1,2,3,4,5,6};
–
P(E) = 1/6
–
P(5) = P(B|A) = 1/6= 16.7%
• ESEMPI: A) Aspettativa di vita media (luogo e anno di nascita, sesso, razza, …); B) Successi nel
corteggiamento; C) Orario di Lavoro
Calcolo delle Probabilità
Eventi mutuamente esclusivi e proprietà additiva della probabilità
Ricoverati Medicina I
VPA, UII, SIS patologie mutuamente esclusive
Probabilità che il prossimo ricoverato sia affetto da
VPC o UII? Eventi mutuamente esclusivi
P(VPC o UII) = P(VPC) + P(UII) = 0.40 o 40%
Se X ed Y sono eventi mutuamente
esclusivi la probabilità che accada X o Y è
la somma della probabilità P(X) più la
probabilità P(Y)
P(X o Y) = P(X) + P(Y)
Esempio. Nel lancio di una dado a 6 facce: P(pari) = P(2) + P(4) + P(6).
Calcolo delle Probabilità
Eventi condizionati e proprietà moltiplicativa della probabilità
Ricoverati Medicina I
VPA, UII, SIS patologie mutuamente esclusive
• Calcolare la Probabilità che il prossimo ricoverato
sia maschio e affetto da SIS?.
Probabilità condizionata
A) Calcolo della Tabella per 100 pazienti
48 uomini ricoverati per SIS. P(U|SIS) = 48%
B) Totali di Riga e di Colonna. Dati marginali
• P(SIS)
= 60/100
• P(U)
= 48/60
• P(U|SIS) = 60/100 x 48/60 = 0.48
Proprietà Moltiplicativa. Se X ed Y sono eventi
legati, la probabilità che accadano entrambi gli
eventi è data da
P(X e Y) = P(X) x P(Y|X)
Esempio: Orario di Lavoro
Calcolo delle Probabilità
Eventi Indipendenti e Complementari
Test di Laboratorio. Falsi Positivi
Evento indipendente
S = {N, P}; N = Negativo; P = Positivo
P(P)=0.05; P(N)=0.95; P(P)+P(N)=1
Il medico ha richiesto 3 esami, qual’è la
probabilità che si verifichi almeno un falso
positivo?
Evento complementare
P(Almeno 1 sia P) = 1 – P(Nessuno P)
Nessun esame P equivale ad ottenere 3 esami
con esito N.
P(Nessuno P) = P(N) x P(N) x P(N) = 0.953
P(Almeno 1 sia P) = 1 – 0.953 =0.857
Distribuzione Normale
Distribuzione Normale o di Gauss. Curva a campana
• Le variabili casuali sono distribuite secondo la Normale?
– Si. Misura di Peso e Altezza. Valore della Pressione Arteriosa in soggetti
normali. Tempo del percorso Automobilistico casa-Lavoro. Parametri di un
processo industriale in “controllo”, ecc.
– No. Aspettativa di vita media. Tempo di remissione di una malattia,
Efficienza di una apparecchiatura elettronica. Opinioni espresse in un
questionario, ….
– Non è possibile determinarlo  test di normalità
• La media campionaria X é distribuita secondo la Normale
– Qualunque sia la distribuzione originale della variabile (X) presa in
esame, se prendiamo M di campioni di dimensioni ragionevoli (n), e
costruiamo la distribuzione di probabilità delle medie campionarie , Xi
i=1,2, …, M, questa distribuzione è normale
La curva Normale
Proprietà della Normale
-4s
-3s
1.
Media, mediana e moda hanno il
medesimo valore
2.
La curva è simmetrica rispetto alla
media m: simmetria = 0; curtosi = 0
3.
La curva è asintotica all’asse delle X
4.
L’area al di sotto della curva Normale è
uguale a 1.
• L’area sottesa alla Normale fra X=m ed X=1s è pari al 34.1% dell’area totale
– L’area sottesa alla Normale fra X=-1s ed X=1s è pari al 68.2% dell’area totale
• L’area sottesa alla Normale fra X=m ed X=2s è pari al 47.7% dell’area totale
– L’area sottesa alla Normale fra X=-2s ed X=2s è pari al 95.4% dell’area totale
– L’area sottesa alla Normale fra X=-3s ed X=3s è pari 99.8% dell’area totale
Distribuzione Normale standard
Distribuzione con media 0 e Deviazione Standard 1, ottenuta dalla
trasformazione della variabile casuale X in unità di deviazione standard
(variabile z).
No. Pause caffè. X = 9, s=5.22
X
1
3
4
7
9
9
11
12
16
18
z
-1.53
-1.15
-0.96
-0.38
0.0
0.0
0.38
0.57
1.34
1.72
Reparto A: X = 9; s = 5.22
variabile z: z =
(Xi - X )
s
(9 - 9)
=
=0
X=X=9: z
5.22
–
–
(X

s)
–
X
)
X=Xs: z=
= 
s
NB. Se X = 3.5; s = 2.71, o z-score per X = X
ed X = X  s non cambia
Dati z = – 0.8, X = 3.5 ed s=2.71 è possibile calcolare X: X = zs+X = 5.7
Tabella della Curva Normale
Calcolo dell’Area (Probabilità) nota z. L’Area
al di sotto della normale standard per valori di z =
0 e z = 1.95. Il valore z = 1.95 è diviso in una
radice 1.9, intero e I decimale, ed il II decimale
0.05. Individuiamo 1.9 nella colonna etichettata z
e seguendo la riga z=1.9 individuiamo la colonna
etichettata 0.05. Il valore individuato dalla
intersezione fra la riga 1.9 e la colonna 0.05 è
l’area sottesa nell’intervallo [0, 1.95] ed è pari a
0.4744.
Calcolo di z nota l’area o Probabilità. Valore
di z per il quale l’area sottesa dalla Normale
standard compresa fra 0 e z è pari 0.4251.
Il valore dell’area 0.4521 all’interno della tabella
è l’intersezione di una riga ed una colonna dalle
quali si ricava la radice ed il II decimale dello zscore. Dalla Tabella 6.4 si ricava facilmente che
l’area pari a 0.4251 è compresa nell’intervalli
z=0, z=1.44.
Calcolo di X data l’area e noti X ed s. Dal
valore di z-score è possibile risalire al valore di X
noti il valore medio e la deviazione standard della
distribuzione normale:
X = zs + X
Esempio di Uso della Normale
Indagine sull’uso di un Sistema contraccettivo: n = 2000 persone, media annuale X=
100, s =15.
A) Quante persone usano questo metodo almeno 115 volte
all’anno?
Area colorata = 0.5000 + 0.3413
z=
(115 - 100) =
15
1.00
84% delle persone usa il metodo
al più 115 volte in un anno.
B) Quante persone usano questo metodo meno (al più) di 70 volte
all’anno?
z
(70
=
- 100 )
15
Area colorata = 0.5000 - 0.4772
= -2.00
2.28% delle persone usa il metodo
meno 70 volte in un anno.
C) Quante persone usano questo metodo fra le 106 e 112 volte
all’anno?
Area colorata = 0.2881 - 0.1544
z1= 0.40, z2= 0.80
13.3% delle persone usa il metodo
fra le 106 e 112 volte in un anno.
Esempi: DN_Esempi, DN_Esercizi
Distribuzione Binomiale
La distribuzione binomiale mostra la probabilità che si verifichino diversi eventi
casuali fra loro indipendenti, ognuno dei quali può assumere solo uno fra due
valori diversi: Successo o Fallimento.
Infilare le scarpe correttamente. S={Giusto, Sbagliato}. Supponiamo che gli
eventi siano indipendenti e che la probabilità di ciascun evento p=0.5. Un solo tentativo
P(G) = P(S) = 0.5
• 2 tentativi S={GG,GS,SG,SS}. P(SS)=P(S)xP(S)= 0.5*0.5=0.25; P(GS o SG) = 0.5
• 3 tentativi S={GGG,GGS,GSG,SGG,SSG,SGS,GSS,SSS}
• 10 tentativi, qual è la probabilità che 7 siano sbagliati e 3 giusti?
Sviluppo Binomiale
Esempio: Sviluppo_Binomiale
•
Due Eventi: {Successo, Fallimento}
•
Numero di tentativi n= 10
•
Numero di risultati favorevoli r=7
•
La probabilità di Successo p=0.5 e q = 1- p la probabilità di Fallimento
 n
n!
p r q n r =   p r q n r
r!(n - r )!
r
dove n!= (n - 1) (n - 2) K  1
Proprietà della Binomiale
Infezioni postoperatorie
1.
n= 15 , p = 0.2, q = 1- p = 0.8
2.
n = 15 ,p = 0.3, q = 1- p = 0.7
3.
n = 30, p = 0.3, q = 1- p = 0.7
Media = np
Varianza = npq
Deviazione standard = npq
Esempio: Sviluppo_Binomiale
Binomiale e Normale
Per p=0.5 all’aumentare del numero di tentativi n la distribuzione
binomiale tende alla distribuzione normale
Esempi: dbinomiale_forma, dbinomiale_esvolti
Statistica Inferenziale
• Popolazione e Campione
• Inferenza Statistica
– Verifica di significatività statistica
• Ipotesi zero H0 e Ipotesi alternativa H1
– Inferenza statistica con Livello di Significatività a
• Test a una coda e a due code
• Errori tipo I (a), Tipo II (b), Potenza del Test
• Intervallo di confidenza
Inferenza sulla media di popolazione m
– Dimensioni del campione: Test z e Test t.
– Distribuzione Normale Standard e t-student
• Inferenza sulla differenza fra medie di popolazione m, m2, m3, ..
– No 2 popolazioni: campioni indipendenti o appaiati
– No k>2 popolazioni: Analisi della varianza ANOVA
• Test di Indipendenza e Omogeneità (c2)
Basi della Statistica Inferenziale
A partire dall’analisi eseguita su un campione, la statistica inferenziale
permette di dare indicazioni quantitative (calcolare media, varianza, …)
sulla popolazione soggetto dell’indagine (target).
Popolazione e Campione
La stima della media (varianza, …) calcolata a partire da un campione
estratto casualmente dalla popolazione che vogliamo esaminare, differirà
dal valore vero della media di una piccola quantità, questa differenza è
prodotta da una serie di eventi casuali.
Il caso produce differenze di entità diversa, quindi se confrontiamo due
campioni questi sono sempre in una qualche misura diversi. Quindi, se non
si considerano gli effetti dovuti al caso non è possibile
A. dedurre dal campione informazioni sulla popolazione
B. dedurre se i due campioni sono uguali entro le fluttuazioni del caso.
Esempio: Prova in Itinere
Teorema del Limite Centrale
Presa una serie di campioni di uguali dimensioni da una distribuzione normale o
non normale, la distribuzione delle medie di questi campioni sarà comunque
normale purché la dimensioni del campione, n, sia “abbastanza” grande(*).
• Lancio un dado 600 volte la distribuzione dei valori è uniforme (LimCen)
• Lancio due dadi 2, 4, 8 volte per successivi 600 esperimenti e calcolo la media dei valori
ottenuti in ciascun lancio. La distribuzione della media assume la forma di una campana
all’aumentare della numerosità del campione
Se la distribuzione è approssimativamente normale n può essere molto piccolo (n=5); se non è normale è
consigliabile utilizzare campioni di dimensioni n 30.
(*)
Media di Popolazione
Verifica d’Ipotesi
• Gli esami degli elettroliti eseguiti su un gruppo di “dirigenti sanitari” indicano che la
[Na+] nel siero di un campione di 25 soggetti è pari a 138 mM/l. In letteratura è riportato
che i valori di [Na+] nella popolazione hanno distribuzione normale con media m=140 mM/l
e s=2.5 mM/l. Possiamo affermare che tutti i dirigenti sanitari soffrono di iponatriemia?
• Sulla etichetta di una lattina contenente una bibita analcolica è dichiarato un contenuto
medio pari a 12 once (circa 330 ml). In un campione 100 lattine prelevate a caso si è
riscontrato un contenuto medio medio di 11.89 once. Possiamo dedurre che tutte le lattine
contengono meno di quanto dichiarato?
• La regione ha rilevato nel passato che le persone di età compresa fra 18-24 anni vanno
dal medico in media 3.6 volte all’anno. Nel 2003 è stato messo in evidenza, su un campione
di 350 giovanotti, che questi hanno consultato il medico in media X=3.9 volte con una
deviazione standard di s=1.6. Possiamo affermare che tutte le persone di questa fascia di
età hanno maggiore necessità del medico rispetto al passato?
• Una compagnia telefonica ha valutato che la durata media di una telefonata fuori
distretto è pari a 12.44 minuti. Una verifica fatta su un campione di 150 telefonate ha
messo in evidenza una durata media X=13.71 ed una deviazione standard s=2.65 minuti.
Possiamo affermare che tutte le telefonate interurbane sono significativamente più lunghe
di quanto rilevato in precedenza, ed è necessario aumentare le tariffe?
Verifica d’Ipotesi Statistica
Data la stima (media campionaria X, differenza d= X1- X2, varianza s2) del parametro di
una popolazione (m, m-m2, s2), si accetta il parametro come vero/falso confrontando il
valore calcolato con una regione di evidenza sperimentale (intervallo di valori) che tiene
conto dell’incertezza presente nella stima del parametro. La regione di evidenza
sperimentale è caratterizzata una curva di distribuzione di probabilità: distribuzione
normale, distribuzione t-student (m, m1-m2), distribuzione c2.
Data una Ipotesi Iniziale (H0) ed una Ipotesi Alternativa (H1), la regione di evidenza
sperimentale é divisa in una regione di Non Rifiuto e una regione di Rifiuto; la separazione
è eseguita a partire da una valore di probabilità a detto livello di significatività del test.
Scelto il valore di probabilità a ad esso corrisponde un valore critico (limite) della statistica
utilizzata per il test, z-limite (zc), t-limite (tc), c2-limite (cc2), che separa la regione di
evidenza sperimentale in regione di Non Rifiuto e regione di Rifiuto di H0.
La regione di Rifiuto può essere a sinistra o a destra del valore critico (Test ad una
coda); la regione di Non Rifiuto del test è posta al centro di due regioni di rifiuto del test
(Test a due code). Dalla stima del parametro si calcola il valore della Statistica del Test (z0,
t0, c02), se questo cade nelle regione di Non Rifiuto l’ipotesi H0 è accettata sulla base della
evidenza sperimentale, se cade nella regione di Rifiuto è rigettata a favore di H1.
Ipotesi Nulla ed Alternativa
Controllo di qualità sul contenuto della lattina di soda. Il contenuto medio corrisponde a
quanto dichiarato? Possiamo dedurre che l’etichetta dichiara il vero?
Ipotesi nulla:
H0: m  12 once
Ipotesi alternativa:
H1: m < 12 once
Ipotesi Nulla H0. Assumiamo che le lattine contengano quanto dichiarato. L’asserzione
fatta considerata vera m sino a che l’evidenza sperimentale non la contraddice
Ipotesi Alternativa H1. Se l’evidenza sperimentale dimostra che H0 è falsa si assume che
sia vera l’ipotesi alternativa, H1, cioè che le lattine contengano meno di quanto dichiarato
L’evidenza sperimentale è il valore della media campionaria X, cioè una variabile casuale distribuita
secondo la distribuzione di probabilità normale.
Grado di evidenza sperimentale.
Valore critico di separazione una
regione di non rifiuto ed una
regione di rifiuto
Non c’è sufficiente
evidenza sperimentale per
dire che l’etichetta dichiari
il falso, quindi non
rifiutiamo l’ipotesi nulla
C’è sufficiente evidenza
sperimentale per dire che
l’etichetta dichiara il falso,
quindi rifiutiamo l’ipotesi
nulla
Regione di non rifiuto
Regione di rifiuto
Valore critico
Test d’Ipotesi – Code del Test
Test a due code. Nel 1998 la famiglia media americana era composta da 3.18
unità. Attualmente la sua dimensione è variata?
H0: m=3.18
dimensione media invariata
H1: m 3.18
dimensione media variata
Verifichiamo se la dimensione media è aumentata o diminuita, scegliendo due
valori critici: c1 e c2 nella coda Sx e Dx che delimitano le regioni di rifiuto.
Right-Tail Test. Nel 2002 lo stipendio medio lordo di un insegnate di scuola era
28000€. Attualmente è aumentato?
H0: m=28000€
è invariato
H1: m>28000€
è aumentato
Verifichiamo la correttezza del contenuto scegliendo un valore critico c nella coda
Dx della distribuzione, valori di Xc cadono nella regione di rigetto
Left-Tail Test. Quanto dichiarato sulla etichetta della lattina di soda corrisponde
al contenuto medio dichiarato, o è inferiore?
H0: m=12 il contenuto medio è pari a 12 once
H1: m<12 il contenuto medio è minore di 12 once
Verifichiamo la correttezza del contenuto scegliendo un valore critico c nella coda
Sx della distribuzione, valori di Xc cadono nella regione di rigetto
Test d’Ipotesi - Procedura
Esecuzione di un Test di Ipotesi. Un test di ipotesi statistica è una procedura
in cinque passi
1. Definire l’ipotesi nulla e l’ipotesi alternativa
2. Scegliere la distribuzione da utilizzare
3. Definire le regioni di rifiuto e di non rifiuto
4. Calcolare il valore della Statistica del test
5. Prendere una decisione
Esempio. Vogliamo verificare se l’età media degli studenti iscritti al C.d.L. in Medicina e Chirurgia è
pari a 24 anni. Valore stimato X = 25.2 anni, test a due code.
1) H0 = 24 l’età media non è variata, H1  24 l’età media è variata
2) Gli studenti sono n=500 cioè il campione ha grandi dimensioni, ed utilizziamo la Normale standard
3) Scelgo a quale livello di affidabilità del test; individuo l’area a/2 nella coda Dx e Sx della distribuzione
4) Calcolo il valore della Statistica del Test
5) Il valore della Statistica del Test cade nella regione di rifiuto o di non rifiuto?
Test d’ipotesi per la media m
Grandi Campioni – Test z
Per il teorema del limite centrale la distribuzione della media
campionaria X è approssimativamente normale per n30.
Statistica del Test. Nel Test d’ipotesi per grandi campioni (n 30)
la variabile casuale z0 è detta Statistica del Test.
z=
X -m
sX
dove s X =
, se s è nota; z =
s
n
, e sX =
s
n
X -m
, se s non è nota
sX
è la Deviazione Standard di X
La Statistica del Test è il criterio in base al quale accettiamo o
rifiutiamo l’ipotesi H0.
Esempio 1. Durata delle Telefonate Interurbane. Test a due code con a=0.05
Esempio 2. Iponatriemia dei dirigenti. Test ad una coda (Sx) con a=0.01
Statistica z. Test d’ipotesi per m
Esempio 1. Una compagnia telefonica ha valutato che la durata media di una telefonata fuori
distretto è pari a 12.44 minuti. Una verifica fatta su un campione di n=150 telefonate ha messo in
evidenza una durata media X=13.71 ed una deviazione standard s=2.65 minuti. Possiamo
affermare con livello di significatività a=0.05 che la durata media delle telefonate è significativamente
cambiata?
1. H0: m = m0 = 12.44; H1: m 12.44
2. Usiamo la distribuzione normale (n30)
3. Regione di Rifiuto e Non rifiuto.
• Livello di significatività del test a = 0.05
• Test a due code zc=±1.96
4. Valore della statistica test z0 = 5.87
5. Rifiuto H0: m  m0
ll valore della statistica del test z=5.87 è molto maggiore
del valore critico zc2 =1.96 che delimita la regione di rifiuto
nella coda di Dx, quindi rifiutiamo H0 e diciamo che, sulla
base dell’evidenza sperimentale, la lunghezza media delle
telefonate interurbane non è uguale a 12.44 minuti.
z=
sX =
X - m 0 13.71 - 12.44
=
= 5.87
sX
0.22
s0
2.65
=
= 0.22
n
150
Esempio: Telefono
Piccoli Campioni n < 30
Verifica d’ipotesi per la media di popolazione
Nel caso in cui il campione sia di piccole dimensioni (n<30), che la
distribuzione di X sia approssimativamente normale e la deviazione
standard s non nota, è sempre possibile eseguire la verifica di ipotesi
per la media della popolazione utilizzando la distribuzione t-Student
Statistica del Test. Nel Test d’ipotesi per la media campionaria X
nel caso in cui n <30 la Statistica del Test è rappresentata dalla
variabile casuale t
t=
X -m
s
, dove s X =
sX
n
Distribuzione t-Student (1, 2) (W. S. Gosset nel 1908 )
Simulazione: Verifica d’Ipotesi
La distribuzione-t ha code più alte, fianchi più stretti e varianza
maggiore rispetto alla Gaussiana standard:
all' aumentare dei gradi di libertà la distribuzione "t" di Student tende
rapidamente alla Gaussiana standard
x -m
~ t di Student (con n=n-1 g.d.l.)
s/ n
f(t)
0.4
gaussiana
0.3
0.2
p=0.1
p=0.1
n
t di Student (n=2)
0.1
0
l l
-8
-6
-4
-2
0 1.28 1.89
2
4
6
t8
Statistica t. Test d’ipotesi per m
Uno studio pubblicato di recente da una rivista di Psicologia ha dimostrato che l’età
media alla quale i bambini iniziano a camminare è 12.5 mesi. Da un campione di n=18
bambini degli asili nido della città si è calcolato che l’età media dei primi passi è X=12.9
mesi con una deviazione standard s di 0.8 mesi. Possiamo dire con un livello di
significatività a = 1% che il valore di X è diverso dal dato pubblicato.
1. H0: m = 12.5; H1: m 12.5
2. Usiamo la distribuzione t con df = n -1 = 17
3. Regione di Rifiuto e Non rifiuto.
• Livello di significatività del test a = 0.01
• Test a due code zc1=-2.898, zc2=+2.898
4. Valore della statistica test t = 2.12
5. Accetto H0: m  m0
Tabella della Distribuzione t
t=
X - m 12.9 - 12.5
=
= 2.12
sX
0.19
sX =
0.8
= 0.19
18
Esempio: Primi passi
Il valore della statistica del test t=2.12 cade fra i punti critici zc1 e zc2 cioè nella regione
di Non Rigetto. Quindi l’evidenza sperimentale non ci permette di rigettare H0 e
affermiamo che la differenza fra media campionaria X=12.9 e media di popolazione
m=12.5 è piccola ed è dovuta ad errori di campionamento.
Rapporto Segnale Rumore
La sostanza di una verifica di ipotesi statistica sta nell’assegnare una probabilità ad una
quantità che chiamiamo rapporto segnale rumore: il segnale è una quantità legata alla
differenza media campionaria (X) e media della popolazione (m); il rumore è una quantità
che indica la variabilità delle osservazioni tra gli individui appartenenti al medesimo
campione.
X - m segnale
=
s n rumore
Segnali provenienti da un satellite ai quali si sovrappongono rumori casuali di diversa natura.
Segnale media +1.1 mV, Rumore media +0.7 mV: il “blip” ha un valore intermedio fra questi due
1.
2.
3.
4.
Abbiamo creduto di ascoltare il segnale che non c’era
Abbiamo creduto di ascoltare il segnale che c’era effettivamente
Abbiamo ritenuto che non ci fosse alcun segnale quando invece c’era effettivamente
Non abbiamo sentito alcun segnale ed effettivamente non c’era alcun segnale
Errore Tipo I (a) e Tipo II (b)
H0: m  12;
H1: m < 12
1.
Il contenuto della lattina è in media 12 once, ma la media del campione analizzato è minore
del valore dichiarato ed erroneamente rifiutiamo H0
2.
Il contenuto della lattina è realmente inferiore a 12 once, la media del campione esaminato lo
ha messo in evidenza e correttamente rifiutiamo H0
L’errore di Tipo I è l’errore commesso quando una ipotesi nulla vera è rigettata.
a = P(H0 è rifiutata | H0 è vera)
Il valore a è detto livello di significatività del test, e rappresenta la probabilità di commettere un
errore Tipo I
1.
Il contenuto della lattina è in media pari a 12 once, il campione esaminato ha media
campionaria pari a 11.83 once e quindi correttamente accettiamo H0
2.
Il contenuto della lattina è in media inferiore a 12 once ma il campione estratto ha media
campionaria pari a 12.36 once ed erroneamente non rifiutiamo H0
L’errore di Tipo II è l’errore commesso quando una ipotesi nulla falsa è non rigettata. Il
valore b rappresenta la probabilità di commettere un errore di Tipo II.
b = P(H0 è non rifiutata | H0 è falsa)
Il valore 1-b è detto Potenza del test e rappresenta la probabilità di non commettere un errore
di Tipo II
Errori a e b - Potenza del Test
Situazione Effettiva
Decisione
H0 è vera
H0 è falsa
Non rifiuto H0
Decisione corretta
Errore Tipo II o b
Rifiuto H0
Errore Tipo I o a
Decisione corretta
Ridurre la probabilità di commettere un errore di Tipo I o II?
Gli errori che si possono verificare in un test di ipotesi, errori di Tipo I e di
Tipo II sono fra loro dipendenti.
In un test di ipotesi eseguito su un campione di dimensione pari ad n non
è possibile diminuire simultaneamente i valori di a e di b: se diminuiamo il
valore di a contemporaneamente aumenta il valore di b e viceversa.
Tuttavia, è possibile diminuire contemporaneamente i valori di a e b
aumentando le dimensioni del campione.
Errore a - Conclusioni Errate
Gli esami degli elettroliti eseguiti su un gruppo di “dirigenti” indicano che la
[Na+] nel siero di un campione di 25 soggetti è pari a 138 mM/l. Sapendo dalla
letteratura che i valori della popolazione sono distribuiti secondo la normale con
valore medio m=140 mM/l e s=2.5 mM/l, possiamo affermare che tutti i dirigenti
soffrono di iponatriemia?
1. H0: Non c’è differenza; H1: C’è differenza
2. Usiamo la distribuzione normale (n=25)
3. Regione di Rifiuto e Non rifiuto.
• Livello di significatività del test a = 0.05
• Test a una coda Sx
4. Valore della statistica test z = - 4.00
5. Rifiuto H0: C’e differenza!
La probabilità di concludere che il campione deriva da un’altra
popolazione, cioè che esiste una differenza significativa quando questo
non è vero (Errore Tipo I o Errore a ) è pari al 5%.
Errore tipo a e tipo b.
Potenza del Test
Non possiamo conoscere la distribuzione alternativa ma facciamo l’ipotesi che il
campione “dirigenti” provenga da una popolazione con media 137.5mM/l e s=2.5.
Rifacciamo il Test di ipotesi per H1
1. H0: Non c’è differenza
2. Usiamo la distribuzione normale di Sx (n=25)
3. Regione di Rifiuto e Non rifiuto. a = 0.05
4. Valore della statistica test z0 = 1.00
5. La [Na+] media rilevata nel campione è la
medesima misurata nella popolazione dei dirigenti
L'area della campana di Sx a destra di zc si protrae sotto la curva di H0, questa è il
valore di probabilità dell’errore di Tipo II o b, cioè di dichiarare che non c’è alcuna
differenza quando questa esiste.
b = 0.16 La potenza del Test P = 1 – b
La Potenza del Test è funzione delle dimensioni del campione n. Maggiore è il valore di
n più elevata è la potenza del Test. Esempio: Dirigenti
Confronto fra Medie
Verifica d’Ipotesi
• La Regione ha rilevato che lo stipendio medio lordo annuale dei Radiologi e dei
Chirurghi è rispettivamente pari a 130000€ e 125000€ con s1=28000€ e s2=32000€; i valori
sono ricavati da campioni di dimensioni n1=300 e n2=400. Possiamo affermare che le due
categorie hanno la stessa retribuzione?
• Una casa farmaceutica ha dichiarato che il farmaco A, un analgesico da essa prodotto,
agisce più rapidamente del farmaco B prodotto da una ditta concorrente. Un test eseguito
su due gruppi di pazienti ha dato i seguenti
Farmaco
n
Latenza X Dev. St.
valori. Possiamo affermare che il farmaco A
A
25
44 ore
11
è più efficace del farmaco B?. Con quale
livello di significatività
B
23
49 ore
9
• Per verificare l’efficacia di una dieta sul contenimento della pressione sistolica, un
campione di adulti ipertesi è stato sottoposto a questo regime alimentare per tre mesi. La
pressione sistolica in mmHg dei pazienti registrata prima e dopo la dieta è la seguente:
Prima
210
180
195
220
231
199
224
Dopo
193
186
186
223
220
183
233
Possiamo affermare che la pressione sistolica dopo la dieta è in media più bassa? Con
quale livello di significatività?
Una/Due Popolazioni
Una popolazione
•
•
•
•
•
Media m
Deviazione standard s
Stima di m, X; stima di s, s
Dimensioni n
Errore standard
 sX = s/n, sX = s/n
• Statistica del Test
 z0=(X – m)/sX ; z=(X – m)/ sX
Due popolazioni
•
•
•
•
•
Media m e m2; Differenza m-m2
Deviazione Standard s e s2
Stima X1 e X2, X1-X2
Dimensioni n1 ed n2
Errore standard
 sX1 = s1/n1, sX2 = s2/n2
 sX1 = s1/n1, sX2 = s2/n2
 sX1-X2 e sX1-X2 ….
• Statistica del Test

Z0 = [(X1 – X2)-(m – m2)] /sX1-X2
Distribuzione campionaria di X1-X2
•
Media m X1 - X 2 = m1 - m2
•
Deviazione standard
s X -X =
1
•
2
s 12
n1

• Media
s 22
n2
Deviazione standard
campionaria
s X1 - X 2 =
s12 s22

n1 n2
• Teorema del limite centrale
Per campioni di grandi dimensioni n1 ed n2, la distribuzione della variabile casuale differenza, X1–
X2, ha approssimativamente la forma di una normale, indipendentemente dalla forma delle
distribuzioni di X1 ed X2.
Se n1 ed n2 sono grandi, la differenza fra due variabili casuali , X1–X2,, è una variabile casuale
distribuita secondo la normale.
Test di Ipotesi su m1-m2
Campioni Indipendenti – n1>30, n2>30
• La Regione ha rilevato che lo stipendio medio lordo annuale dei Radiologi e
dei Chirurghi è rispettivamente pari a 230000€ e 225000€ con s1=28000€ e
s2=32000€; i valori sono ricavati da campioni di dimensioni n1=300 e n2=400.
Possiamo affermare con livello di significatività a=0.01 che le due categorie
hanno la stessa retribuzione?
1. H0: m - m2 = 0. H1: m - m2  0.
2. Distribuzione normale
3. Regione di Rifiuto e Non rifiuto.
 a = 0.01, a/2 = 0.005
• zc1 = -2.58, zc2 =+2.58
4. Valore della statistica test z0 = 2.20
5. Non Rifiuto H0: m - m2 = 0
Esempio: DifferenzaMedie
z0
(
X
=
=
1
- X 2 ) - (m1 - m 2 )
s X1 - X 2
(230000 - 225000) - 0 = 2.20
s X1 - X 2 =
2274.50
s12 s22

= 2274.50
n1 n2
Test su m1-m2 - Campioni Indipendenti
(n1<30, n2<30; distribuzione t) – s1 = s2 , non note
Statistica di test t per X1-X2. La statistica di test
t è data dalla formula a lato e stima il rapporto
Segnale/Rumore. Il valore m1-m2 è sostituito dalla
ipotesi nulla.
t=
Deviazione standard di X1-X2. Data la deviazione
standard raggruppata, sp, la stima della deviazione
standard campionaria sX1-X2 è data dalla formula.
Deviazione standard raggruppata. Possiamo
raggruppare le deviazioni standard dei campioni. La
deviazione standard raggruppata (pooled) sp è
Dati n1,n2 ed s1,s2 le dimensioni e la deviazione
standard dei campioni, i valori n1-1 ed n2-2 sono
rispettivamente i gradi di libertà del I e del II campione;
ed il valore n1+n2-2 indica i gradi di libertà dei campioni
raggruppati
(X
1
- X 2 ) - (m1 - m 2 )
s X1 - X 2
s X1 - X 2 = s p
sp =
1 1

n1 n2
(n1 - 1)s12  (n2 - 1)s22
n1  n2 - 2
Test d’ipotesi su m1-m2 con s1=s2
Vogliamo verificare il contenuto calorico di due bibite dietetiche. I campioni
hanno dimensioni n1 = 14 ed n2 = 16, i valori di media e deviazione standard
campionaria sono rispettivamente: X1= 23, s1 = 3 e X2= 25, s2 = 4. Il livello di
significatività richiesto è a = 0.01.
1. H0: m - m2 = 0. H1: m - m2  0.
2. Distribuzione t
sp =
(14 - 1) 9  (16 - 1)16 = 3.57
28
3. Regione di Rifiuto e Non rifiuto.
 a = 0.01, a/2 = 0.005
 Gradi di libertà n1+n2-2=28
s X1 - X 2
 tc1 = -2.763, tc2 =+2.763
4. Valore della statistica test t = -1.531
5. Non Rifiuto H0. Il contenuto di calorie è il medesimo
Esempio: DifferenzaMedie
t=
1 1
= 3.57

14 16
(23 - 25) - 0 - 1.531
1.31
Test su m1-m2 - Campioni Indipendenti
n1<30, n2<30 – s1, s2 diverse e non note
Statistica del test t per X1-X2. La statistica di
test t è data dalla formula a lato ed è una stima del
rapporto Segnale/Rumore. Nella formula il valore m1-m2 è
sostituito dalla ipotesi nulla.
Deviazione standard di X1-X2. Data la deviazione
standard raggruppata, sp, la stima della deviazione standard
campionaria sX1-X2 è data dalla formula.
Gradi di libertà. Se i campioni di dimensioni n1<30,
n2<30 provengono da distribuzioni approssimativamente
normali con s1  s2 non note, la distribuzione t che descrive
la differenza fra le medie ha gradi df di libertà.
Dati n1, n2, ed s1,s2 rispettivamente le dimensioni e la
deviazione standard dei campioni, le quantità n1-1 ed n2-1
sono i gradi di libertà del I e e del II campione.
(
X
t=
1
- X 2 ) - (m1 - m 2 )
s X1 - X 2
s X1 - X 2 =
s12
n1

s 22
n2
2
 s12 s22 
  
n1 n2 

df =
2
2
1  s1 
1  s2 
  
 
n1 - 1  n1  n2 - 1  n2 
Test su m1-m2 - Campioni Appaiati
Campioni appaiati. Due campioni A e B sono detti appaiati quando ciascun
valore di A ha un valore corrispondente in B, ed entrambi questi valori
provengono dalla medesima sorgente.
1. Calo del peso corporeo di 15 persone che seguono una dieta mirata ed
eseguono attività fisica: il data-set A = {15 valori del peso rilevati prima della
dieta}; il data-set B = {15 valori del peso rilevati dopo la dieta}.
2. Produzione di patate in q/ht ottenuti da 10 appezzamenti di terreno trattati
con il fertilizzante A ed il fertilizzante B: gli appezzamenti sono stati divisi in due
parti. I Data set sono composti da A={10 valori di q/ht}; B={10 valori di q/ht}.
In campioni appaiati la differenza fra i due valori associati al medesimo
soggetto è detta differenza appaiata ed è indicata con d. Poiché il numero dei
valori in A e B è il medesimo consideriamo i valori della differenza d come un
unico campione ed eseguiamo il test di potesti ponendo quale ipotesi zero una
condizione sui valori della distanza d.
Differenze appaiate d
Con differenze appaiate d si indicano i valori di una variabile casuale calcolata
come differenza fra le coppie di valori presenti nei due campioni. Dati i campioni
appaiati A e B, di dimensioni n, il campione con le differenze d ha dimensioni n e
gradi di libertà n-1. Indichiamo con
― md e sd la media e la deviazione standard della popolazione differenze appaiate
― d e sd la media e la deviazione standard del campione delle differenze appaiate
A. Se n è grande (n30), per il teorema del limite
centrale la distribuzione campionaria di d è
approssimativamente normalecon media md=md e
deviazione standard sd = sd/n. La distribuzione
normale standard descrive i valori della distanza d e
per la verifica di ipotesi si usa il test z.
B. Se n è piccolo (n<30), sd è non nota, e la
popolazione delle differenze d è approssimativamente
normale, per fare una inferenza statistica sulla media
delle differenze si utilizza la distribuzione-t. In questo
caso il valore di sd = sd/n è una stima della
deviazione standard campionaria.
(
d)

d - n
2
d=
d
n
2
; sd =
n -1
md = md ; s d =
sd =
sd
n
sd
n
Test d’ipotesi sulla media md
• Per verificare l’efficacia di una dieta sul contenimento della pressione sistolica, un
campione di adulti, sospetti ipertesi, è stato sottoposto a questo regime alimentare per tre
mesi. La pressione sistolica in mmHg dei pazienti registrata prima e dopo la dieta è indicata
in tabella; con livello di confidenza pari al 5% possiamo concludere che la media delle
differenza appaiate è diverso da zero cioè che la dieta è efficace?
Prima
Dopo
d
d2
210
193
17
289
180
186
-6
36
195
186
9
81
220
223
-3
9
231
220
11
121
199
183
16
256
224
233
-9
81
Sd=35
Sd 2=873
Esempio: Appaiati
d=
n
 d - ( d )
2
2
sd =
 d = 35 = 5
n -1
sd = sd
n
7
873 - (35) 7
=
= 10.79
6
n = 10.79
2
7 = 4.08
– H0: md=0; H1: md0
– n=7  distribuzione t con df=n-1 = 6
– a= 0.05; a/2= 0.025; tc=  2.447
– Statistica t0: t 0 = (t - m d ) = 5 = 1.226
sd
4.08
– Accetto H0
Test Chi-Quadro (c2)
1. Verifica di Ipotesi dati categorizzati:Test di bontà di un
adattamento (fit).
2. Verifica di Ipotesi per una Tabella di Contingenza: Test
di Indipendenza e/o Omogeneità.
3. Verifica di Ipotesi varianza di una Popolazione s2.
Le verifiche di ipotesi utilizzano la distribuzione del chi-quadro (c2).
n
2 -1
-x2
x e
f ( x) = n
, x  0; n = df
2
2 (n 2)
Esempi: TestChi2; Tabella c2
Verifica di Ipotesi - Dati Multinomiali
1. Ad un campione di 100 persone che soffrono di allergie è stato
chiesto in quale stagione dell'anno ne risentono maggiormente.
Utilizzando un livello di significatività pari all'1% si vuole verificare
l'ipotesi nulla: NON esiste una stagione particolare nella quale la
sintomatologia è accentuata.
2. Ad un campione di 300 insegnanti è stato posto il seguente quesito:
"Sei favorevole ad inasprire le punizioni per gli studenti indisciplinati
e violenti“? Utilizzando un livello di significatività pari all'1% si vuole
verificare se la risposta non dipende dal insegnante uomo o donna.
3. Negli AA 2003/04 e 2004/05 il punteggio medio ottenuto dagli
studenti immatricolati al CdL in MC è molto simile. Vogliamo
verificare se gli studenti hanno la medesima preparazione mettendo
a confronto la distribuzione delle frequenze del punteggio d’esame.
La verifica d’ipotesi è eseguita con il 5% di affidabilità
Esperimento Multinomiale
1. L’esperimento è costituito da n prove (ripetizioni) identiche
2. L’esperimento ha k>2 possibili risultati (categorie, classi)
3. Le prove eseguite durante l’esperimento sono indipendenti
4. La probabilità dei k risultati rimane costante durante l’esperimento
A) Valutazione dei corsi: “Soddisfatto”, “Non soddisfatto”, “Non so”
B) Punteggi ottenuti al Test di Ammissione divisi in classi
C) Tempo di Corretto funzionamento di un’ Apparecchiatura
Esempio: test di Ipotesi per esperimenti con più categorie: test di
bontà dell’adattamento (fit).
1. Valori raggruppati in classi, il numero di eventi/classe è detto Frequenze
Osservate
2. Il Test sulla bontà di un fit verifica la validità dell’ipotesi nulla H0: le frequenze
osservate hanno un ben preciso comportamento: una data distribuzione teorica.
3. La distribuzione teorica fornisce una serie di Frequenze Attese. L’ipotesi H0 viene
accettata o rifiutata sulla base delle differenze fra le Frequenze Osservate e le
Frequenze Attese
Distribuzione Chi-Quadro (c2 )
• Area Totale sotto la curva = 1
•
Asimmetrica verso destra
• Valori c2  0
• Media m = df
• Deviazione Standard s=2xdf
x 2 -1e - 2
f ( x) = n
, x  0; n = df
2 2 (n 2)
n
x
Distribuzione c2.
La distribuzione-c2 è posta a destra dell’asse delle ascisse, ed è completamente descritta
da un solo parametro, i Gradi di Libertà df. Per piccoli valori di df, ha forma asimmetrica
verso destra, e diviene simmetrica per grandi valori di df. I Gradi di Libertà df sono definiti
in modo diverso a seconda del test che utilizza la statistica c2.
Esempi: TestChi2; Tabella c2
Tabella della Distribuzione c2 – A
Valore del c2 per un valore dell’area nella coda Dx = 0.1 e df=7
Tabella della Distribuzione c2 – B
Valore del c2 per il valore dell’area nella coda Sx = 0.05 e df=12
Area nella coda Sx = 1 – Area nella coda Dx
Test di Bontà di un Fit
Frequenze Osservate e Attese. Le frequenze ottenute dall’esperimento si dicono
Frequenze Osservate (O). Per una data classe o categoria le Frequenze Attese (E) sono
date dalla formula
.
= 
Frequenza Attesa E
n p
Dove n indica le dimensioni del campione, e p la probabilità che un elemento del
campione appartenga ad una data classe (categoria) se l’ipotesi H0 è vera.
Gradi di Libertà. Nel Test di Bontà di un Fit i gradi di libertà df sono dati dalla formula
df = k - 1
Gradi di Libertà
Dove k indica il numero di risultati (classi, categorie) possibili dell’esperimento.
Statistica del Test. La Statistica test del Test di Bontà di un Fit è il c2 dato dalla
relazione
(O - E ) 2
c2 = 
E
Il numeratore della frazione, la differenza (O–E ), è il segnale ed il denominatore E è il
rumore. Il Test di Bontà di un Fit è ad una coda.
Test di Bontà di un Fit - Esempi
Distribuzione dell’età di 100 persone fermate per guida in stato di ebbrezza
Età
16 - 25
26 – 35
36-45
45-55
56 -
No.
32
25
19
16
8
Con livello di significatività 1% vogliamo rigettare l’ipotesi nulla che le persone fermate siano
distribuite uniformemente su ciascuna fascia di età
Ipotesi Nulla H0 ed Ipotesi Alternativa H1
H0: Distribuzione uniforme: p1 = p2 = p3 = p4 = p5 = 0.2
H1: Distribuzione non uniforme: almeno due valori di pi sono  0.2
Regione di Accettazione e Rigetto
Accetta H0
Valore critico di c2
a = 0.01
Livello di Significatività 0.01
Area nella coda Dx = a = 0.01
Gradi di Libertà df = k –1 = 5-1 = 4
Valore critico c2 = 13.277
Categoria
16 – 25
26 – 35
36 – 45
46 – 55
56 – …
Somma
O
p
32
25
19
16
8
n =100
0.20
0.20
0.20
0.20
0.20
E = np
20
20
20
20
20
Rigetta H0
(O – E)
12
5
-1
-4
-12
(O – E)2
144
25
1
16
144
(O – E)2 / E
7.200
1.250
0.050
0.800
7.200
c2 = 16.50
Decisione
Il valore della statistica c2 = 16. 500 è maggiore
del valore critico c2 = 13. 277 e cade nella
regione di rigetto. Quindi non c’e sufficiente
evidenza per accettare H0, cioè la distribuzione
delle persone è non uniforme
Tabella di Contingenza
Contratto dei Dipendenti dell’Azienda Ospedaliera &%$£=“!
Indeterminato
Determinato
Totale
Maschi
3768
2615
6383
Femmine
4658
3717
8375
Totale
8426
6232
14758
Tabella di Classificazione o di Contingenza a 2 Vie
• 1 Osservazione (il Dipendente) con 2 Attributi o Variabili (Genere, Contratto)
• 2 Righe per il Genere e 2 Colonne per il Contratto
• 4 Celle dove sono riportate le frequenze osservate per ciascuna coppia di attributi
• 2 Totali di Riga e 2 Totali di Colonna
N.B. La tabella di contingenza può avere un numero qualsiasi di Righe e Colonne ed è
indicata come tabella RxC
Test di Indipendenza
Test di Indipendenza. In un Test di Indipendenza per una tabella di contingenza
verifichiamo l’ipotesi nulla H0 che gli Attributi di una popolazione NON SONO fra loro
dipendenti (sono indipendenti), contro l’ipotesi alternativa H1 che i due caratteri SONO
dipendenti. Esempi. Genere e Contratto; Reddito e Affiliazione ad un Partito;
Gradi di Libertà. Nel Test di Indipendenza verifichiamo l’ipotesi nulla che due Attributi
di una popolazione sono Indipendenti. Poiché questi sono specificati come Righe e
Colonne di una tabella, i gradi di libertà df per il test di indipendenza sono dati dalla
formula
df = (R - 1) (C - 1) )
Dove R e C sono rispettivamente il numero di Righe e Colonne.
Statistica del Test di Indipendenza. Il valore della statistica test c2 per il test di
indipendenza è dato dalla formula
2
c 2 =  (O
- E)
E
Dove O ed E sono rispettivamente le frequenze Osservate (O) ed Attese (E) per
ciascuna cella.
Test di Indipendenza
Calcolo delle Frequenze Attese E
Punizioni agli studenti violenti e indisciplinati. Insegnanti U e D; parere F, C, NS
Ipotesi
Frequenze Osservate O
Favorevole
Contrario
Non So
Totale
Uomo
93
70
12
175
Donna
87
32
6
125
Totale
180
102
18
300
Probabilità. Assumendo che
gli attributi siano indipendenti,
la probabilità che l’insegnante
sia un Uomo e che questi sia
Favorevole, P(U and F), si
calcola come prodotto dei
valori P(U) e P(F)
H0: U/D medesimo parere
H1: U/D pareri diversi
Step per la Verifica
1.
2.
3.
Assumiamo vera H0
Calcoliamo la P(Cella)
Calcoliamo il valore E
P (Uomo) = P (U ) = 175 / 300
P (Favorevole) = P (F ) = 180 / 300
P (U and F ) = P (U )  P (F ) = (175 / 300 )  (180 / 300 )
Valore di E per U ed F = 300  P (U and F )
= 300 
175 180 175  180

=
300 300
300
Frequenze Attese. Per Ciascuna Cella il valore Atteso E è dato dalla formula
E=
(Totale di Riga)  (Totale di Colonna)
Dimensioni del Campione
Test di Indipendenza - Esempio
Punizioni agli studenti violenti ed indisciplinati
Frequenze Osservate O ed Attese (E )
Ipotesi
H0: Genere e Opinione Indipendenti
H1: Genere e Opinione Dipendenti
Favorevole
Contrario
Non So
Totale
Uomo
93
(105)
70
(59.5)
12
(10.5)
175
Donna
87
(75)
32
(42.5)
6
7.5)
125
GL : df = (R-1)x(C-1) =(2-1)x(3-1) = 2
Alfa : 0.01 (1%)
Totale
180
102
18
300
c2 : 9.210
Calcolo della Statistica test c2
c =
2
(O - E )2
E
2
2
(
(
93 - 105)
6 - 7.5)
=

105
7.5
= 1.371    0.300 = 8.252
Esempi: TestChi2
Valore Limite
Decisione
Il valore della statistica test c2 = 8. 252 è minore del
valore critico c2 = 9. 210 e cade nella regione di non
rigetto di H0. Quindi nel data set esaminato non c’e
sufficiente evidenza per rifiutare H0, a livello di
confidenza pari a 1%. In altri termini gli attributi scelti a
rappresentare la popolazione degli insegnati, Genere e
Opinione sull’inasprimento della disciplina sono
indipendenti
Test di Omogeneità
Test di Omogeneità. Il Test di Omogeneità è utilizzato per verificare se due o più
popolazioni sono simili o omogenee rispetto alla distribuzione di una loro caratteristica.
A) Preso un campione di Famiglie Monoreddito residenti nelle province di Ferrara e
Bologna, si vuole verificare l’ipotesi nulla H0 che per entrambe le province queste
famiglie e sono distribuite uniformemente nelle fasce di reddito “Basso”, “Medio” e
“Alto”.
B) Gli Studenti che superano il test di ingresso a Medicina negli AA 2003/04 2004/05
hanno la medesima preparazione se suddivisi per classi di punteggio?. I) Punteggio 40;
II) 40< Punteggio  50; III) 50< Punteggio  80.
Punteggio Test Ammissione
AA 2003/04
AA 2004/05
P  40
77
84
161
40< P  50
54
58
112
50< P  80
12
8
20
143
150
293
Totale
Esempi: TestChi2
Totale
Il Test di Omogeneità esegue la
verifica di ipotesi nulla (H0) che
la proporzione delle osservazioni
con certe caratteristiche in due o
più popolazioni diverse è la
medesima,
contro
l’ipotesi
alternativa (H1) che questa
proporzione è diversa.
Test di Omogeneità - Esempio
Distribuzione delle famiglie Monoreddito per Classi
Frequenze Osservate O ed Attese (E )
Totale
Frequenze Attese
(Totale di Riga )  (Totale di Colonna )
Bologna
Ferrara
Alto
70
(65)
34
(39)
104
Medio
80
(75)
40
(45)
120
H0: La distribuzione É la medesima
H1: La distribuzione NON è la medesima
Basso
100
(110)
76
(66)
176
Valore Limite
Totale
250
150
400
GL : df = (R-1)x(C-1) =(3-1)x(2-1) = 2
Alfa : 0.025 (2.5%)
E=
Totale di Entrambi i Campioni
Ipotesi
c2c : 7.378
Calcolo della Statistica test c2:
c2 = 
(O - E )
2
E
= 4.339
Decisione
Il valore della statistica Chi2 = 4.339 è inferiore al Valore Limite
per il livello di confidenza scelto (Chi2 = 7.378) e cade nella
regione di Accettazione. Quindi affermiamo che nel campione
esaminato non c'è sufficiente evidenza per rifiutare l'ipotesi H0 e
cioè le famiglie monoreddito di Ferrara e Bologna sono distribuite
in modo omogeneo nelle classi di reddito prese in esame.
Inferenza circa la s2 di popolazione
Accanto al test di ipotesi sulla media di popolazione è necessario dare una
stima e fare un test di ipotesi sulla varianza s2 di una popolazione.
Esempio. Supponiamo di volere verificare se le confezioni di biscotti prodotte da una
macchina hanno peso pari a 32 once, e supposto che il peso reale sia diverso dal peso
dichiarato vogliamo verificare se queste variazioni in difetto o in eccesso sono contenute
entro limiti prefissati.
Distribuzione della varianza campionaria. Se la popolazione
dalla quale è estratto il campione è approssimativamente normale,
il rapporto fra varianza campionaria e varianza di popolazione ha
distribuzione chi-quadro con n-1 gradi di libertà.
Test d’ipotesi su s2. Il valore della statistica del test c2 è
dato dal rapporto fra varianza campionaria s2 e varianza di
popolazione moltiplicato per il numero di gradi di libertà n-1.
(n - 1)s 2
s2
(
n - 1)s 2
c2 =
s2
Nota. Il test di ipotesi sulla varianza di popolazione s2 può essere ad
una o due code
Test d’Ipotesi sulla s2
Una ditta dolciaria produce un tipo di biscotti in confezioni di peso netto pari a a 32 once,
con una varianza dichiara di s2=0.015 once al quadrato. Periodicamente il servizio di controllo
della qualità seleziona un campione di confezioni, calcola la varianza del peso netto di questi
pacchetti ed esegue un test di ipotesi sulla varianza di popolazione. L’ultimo test è stato
effettuato su un campione di n=25 confezioni, la cui varianza è risultata pari a s2=0.029
once al quadrato. Possiamo affermare con un livello di affidabilità pari ad a=0,01 che la linea
di produzione delle confezioni di biscotti funziona correttamente?
Test di ipotesi
1) H0 s2  0.015; H0 s2>0.015; Test a una coda Dx
2) Distribuzione del c2 con df=n1-1=24 a=0,01
3) Valore critico c2 per df=24, a= 0.01 è pari 42,980
4) c2 =(n-1)s2/s2=24*(0.029/0.015)=46,400
5) Decisione: Rifiuto H0.
Il valore della statistica test c2=46,400 è maggiore del valore critico c2=42,980 e cade
nella regione di rifiuto di H0. Ne deduciamo che la varainza di popolazione non è entro
limiti accettabili ed è opportuno calibrare nuovamente le macchine
Esempi: TestChi2B
One-way ANOVA
– Esempio
– La descrizione dei dati
– Le assunzioni del modello
– Il modello lineare e le ipotesi
– Il Rapporto di Varianza (statistica del test)
– La distribuzione di Fisher
– La regola di decisione
Comparazione di 4 dentifrici
Valutazione della azione sbiancante
Quattro tipi diversi di dentifricio sono esaminati per verificare il loro potere
sbiancante; i dentifrici, indicati con la sigla T1, T2, T3, e T4 sono prodotti con la
medesima ricetta e si differenziano solo per la sostanza sbiancante. Il bianco prodotto da
ciascun dentifricio è valutato da sei volontari su una scala di valori compresa fra 0 a 30
gradi. In precedenza i volontari avevano usato il medesimo dentifricio.
Vogliamo rispondere alle seguenti domande: A) esiste una minima differenza fra i 4
dentifrici? B) Se esiste una differenza vogliamo individuare quale prodotto è il migliore?
Per verificare se i 4 dentifrici hanno il medesimo potere sbiancante potremmo
utilizzare la VI fra le medie di popolazioni, eseguendo 6 VI fra coppie di Ti. Ciascuna
VI ha probabilità (1-a) di essere accettata e, poiché le 6 VI sono fra loro indipendenti, per
a=0,05 la probabilità di accettare l’ipotesi H0: non c’è differenza fra i dentifrici è uguale a
(1-a)6=0,75, molto più bassa del livello di significatività di una sola VI
Per rispondere alla domanda A) senza ridurre il livello di significatività dobbiamo
eseguire la verifica di ipotesi: H0: mT1=mT2=mT3=mT4 contro l’ipotesi alternativa H1: non
tutte le medie sono uguali. Nel caso in cui H0 sia rifiutata la media mTi con il valore più
elevato risponde alla domanda B).
Descrizione dei Dati
Box plots
Valori misurati yji
35
33
v1
v2
v3
v4
v5
v6
Sostanza
T1
16
17
17
19
21
24
T2
18
20
20
21
22
23
T3
19
27
28
29
32
34
T4
20
23
24
25
26
29
Statistica
T1
T2
T3
T4
18.0
20.5
28.5
24.5
Range
8.0
5.0
15.0
9.0
IQR
3.5
1.8
4.0
2.50
Media
19.0
20.6
28.2
24.5
Deviazione standard
3.05
1.75
5.19
3.02
Mediana
Grado di bianco
31
Soggetti
29
27
25
23
21
19
17
15
T1
T2
T3
T4
La linea orizzontale all’interno del Box
indica la mediana; il simbolo “+” la media.
Le sostanze sbiancati sembrano
avere efficacia diversa. Il valore
medio m2, il simbolo (+), è di poco
superiore a m1, mentre i valori
medi m3 e m4 sono nettamente
diversi.
Le assunzioni del modello
–
Il data-set è costituito da I campioni casuali indipendenti, ognuno è estratto da una
popolazione diversa.
–
Ognuna delle popolazioni, dai quali sono estratti i campioni, è normale con media mi
e la medesima varianza s
A) Tre popolazioni con media
simile e medesima varianza
B) Tre popolazioni con media
diversa e varianza diversa
Dal confronto fra i Box-andwisker plots è possibile
ricavare informazioni sulle
popolazioni?
Simulazione
B
A
Somma e Media dei Quadrati
Soggetti
Totale
Media
Varianza
v1
v2
v3
v4
v5
v6
n
yi.
yi.
SQW
T1
16
17
17
19
21
24
6
114
19.0
9.20
T2
18
20
20
21
22
23
6
124
20.7
3.07
T3
19
27
28
29
32
34
6
169
28.2
26.97
T4
20
23
24
25
26
29
6
147
24.5
9.10
k
4
4
4
4
4
4
- yij : valori misurati;
i - gruppo;
j - soggetto
- SQB : segnale
- SQW : rumore
Modello Lineare e Ipotesi
Modello lineare:
yij = m   i   ij ;
yij -  i =  i   ij ;
 i = 1, K , k

 j = 1, K , n
- m : media generale - media di tutte le medie
-  i : media della popolazione " i"-effetto trattament o
-  ij : termine di errore - differenza di y ij rispetto  j
Ipotesi
H0: m1 = m2 = m3 = m4
H0: 1 = 2 = 3 = 4 = 0
H1: non tutte le mi sono uguali
H1: non tutte le i sono uguali
Stime di s2 e Rapporto di Varianza
La 1° stima di s2. All’interno di ogni gruppo la media quadratica, MSW , fornisce una
stima non distorta della varianza della popolazione dalla quale proviene il campione.
s 2  MSW =  j =1 (yij - yi. )2 k (n - 1); W : within groups
nk
La 2° stima di s2. La media quadratica fra i gruppi, MSB, fornisce una stima non
distorta della varianza comune a tutte le popolazioni.
ns x2  MSB = i =1 ( yi. - y..)
k
2
(k -1);
B : between groups
Se l’ipotesi H0 è vera ci dovremmo aspettare che le due stime di s2 siano in valore
assoluto abbastanza simili. Se l’ipotesi H0 è falsa, ovvero se tutte le medie delle
popolazioni non sono uguali, ci dovremmo aspettare che la media quadratica fra i gruppi
(MSB) sia più grande della media quadratica all’interno dei gruppi (MSW).
Il Rapporto Segnale Rumore. Per confrontare le due stime di s2 utilizziamo il rapporto
segnale/rumore (SNR) che è la statistica del test
MSB
media quadratica fra i gruppi
SNR =
=
MSW media quadratica all' interno dei gruppi
Se le due stime sono pressoché uguali, allora il RV è vicino a 1. Il valore di SNR vicino a
1 tende ad avvalorare l’ipotesi che le medie delle popolazioni siano uguali. Se SNR è
molto maggiore di 1, l’ipotesi di uguaglianza fra le medie di popolazione cade.
Distribuzione di Fisher – Test F
La distribuzione di probabilità di Fisher descrivere la
distribuzione dei valori del rapporto
s12
s 12
s22
s 22
2
s
1
s


1 =s 2 =s
df=(num,den)
s22
s12 e s22
- s12 ed s22 sono la varianza campionaria dei
campioni estratti dalle popolazioni normali di
varianza s12 ed s22 . La distribuzione F è una
famiglia di distribuzioni descritta da due parametri:
• il numero dei gradi di libertà della varianza campionaria che sta al numeratore della
statistica F (num); il numero di gradi di libertà della varianza campionaria che sta al
numeratore (den)
• Il rapporto SNR =MSB/MSW (varianza fra gruppi/varianza dentro i gruppi), la varianza al
numeratore ha k-1 gradi di libertà (numero di gruppi -1), mentre i gradi di libertà al
denominatore sono N-k (numero totale di osservazioni – k).
• Definita la distribuzione di Fisher, è scelto il livello di significatività a, la dimensione del
SNR rappresenta l’evidenza sperimentale in base alla quale accettare o rifiutare H0.
Tabella ANOVA
Tabella della ANOVA1- ANOVA ad una via
Fonte
di variazione
Somma dei
quadrati
k
Fra gruppi
SSB =  ( yi. - y.. )
MSB =
SSB
k -1
SSW =  (yij - y. j )
N -k
MSW =
SSW
N -k
SST =  (yij - y.. )
N -1
2
j =1
nk
2
i =1 j =1
k
Totale
Media
quadratica
k -1
k
All’interno dei
gruppi
Gradi
di
libertà
nk
2
Rapporto di
varianza
R.V . = F =
i =1 j =1
N –numero totale osservazioni; k – numero gruppi; nk – numero osservazioni/gruppo
MSB
MSW
Decisione
v1
Excel - ANOVA1
Dentifricio; Esempi
v2
v3
v4
v5
v6
T1
16
17
17
19
21
24
T2
18
20
20
21
22
23
T3
19
27
28
29
32
34
T4
20
23
24
25
26
29
RIEPILOGO
Gruppi
Conteggio
Somma
Media
Varianza
T1
6
114
19.0
9.2
T2
6
124
20.7
3.1
T3
6
169
28.2
27.0
T4
6
147
24.5
9.1
ANALISI VARIANZA
Origine della variazione
SQ
gdl
MQ
Tra gruppi
302.17
3
100.72
In gruppi
241.67
20
12.08
Totale
543.83
23
Valore di
significatività
F
8.34
0.00
F crit
3.10
Appendice A
Excel – Funzioni Statistiche Predefinite
• Statistica descrittiva
• Frequenza, Indicatori, …
• Distribuzioni Probabilità
• Dirette e Inverse
Appendice B
Excel – Work Book ANALISI DATI
yi . =
yi . =
SQT =
y
ij
y
ij
j =1, n
j =1, n
: somma per gruppo;
 (y
i =1, k ; j =1, n
n : media per gruppo;
- y.. ) ; somma totale dei quadrati
2
ij
SQB =  ( yi. - y.. ) : varianza tra gruppi
2
MQB =
SQB
; k - 1 : gradi di libertà tra gruppi
k -1
SQW =  ( yij - yi. ) : varianza entro i gruppi
2
MQW =
SQW
; k (n - 1) : gradi di libertà entro i gruppi
k (n - 1)
s 2  MSW =  j =1 (yij - yi. )2 k (n - 1); W : within groups
nk
Scarica

statistica (file Power Point) - Università degli Studi di Ferrara