Test parametrici

I test studiati nelle lezioni precedenti (testt, test-z) consentono la verifica di ipotesi
relative al valore di specifici parametri di
popolazione
– Esempio: differenza fra due medie

Condizioni di validità dei test parametrici
– Variabili numeriche
– Distribuzione normale della popolazione
– Varianza omogenea
Test non-parametrici

I test non-parametrici consentono la
verifica di ipotesi relative a:
– Variabili non-numeriche
Variabili ordinali
 Variabili categoriche

– Distribuzioni diverse dal normale oppure
ignote
Test non-parametrici




I test non-parametrici consentono la verifica
di ipotesi relative alla distribuzione di una
variabile categorica
Numero ministri donna vs. numero ministri
uomo
Volume di vendita di due (o più) prodotti
concorrenti
Numero di morti per tumore in due diverse
popolazioni
Il test χ2 (chi-quadro)

Verifica di ipotesi
relative a
distribuzioni di
frequenza
Organizzazione dei dati
per Il test χ2
N. soggetti
Categoria A
Categoria B
90
10
“Goodness of fit”



I dati: distribuzione di frequenza di
una variabile categorica (ad es. sesso
dei soggetti in un campione)
H0: distribuzione “attesa”
H1: distribuzione diversa da quella
attesa
Esercitazione

Ipotesi: le automobili sportive hanno
più incidenti rispetto alle automobili di
altro tipo
Sinistri osservati
Immatricolate
Sportive
Utilitarie
Medie
Berline
Totale
20
10%
14
40%
7
30%
9
20%
50
2
(
f

f
)
2
  o a
fa
Esercitazione
Sinistri osservati
Immatricolate
Sinistri attesi
Scarto^2
Scarto^2/FE
Chi2
Gdl
Chi2critico (alfa=0,05)
Sportive
Utilitarie
Medie
Berline
Totale
20
10%
14
40%
7
30%
9
20%
50
Sportive
Utilitarie
Medie
Berline
Totale
5
20
15
10
50
225
45,00
36
1,80
64
4,27
1
0,10
0
51,17
3
7,81
Si rifiuta l’ipotesi nulla
Il χ2 come test di
indipendenza

Il test di indipendenza è utilizzato per verificare la
presenza di una relazione fra due variabili
– Assenza di relazione: le due variabili sono indipendenti

Due variabili sono indipendenti quando la
distribuzione della prima variabile è priva di
rapporto con la distribuzione per la seconda
variabile
– La distribuzione di frequenza per la prima variabile è la
stessa per tutte le categorie della seconda variabile
Personalità e preferenza
per i colori

H0: la preferenza per i colori
è indipendente rispetto alla
personalità del soggetto
– La distribuzione delle
preferenze è uguale per i
due gruppi

H1: la preferenza per i colori
non è indipendente rispetto
alla personalità
– Le distribuzioni sono
diverse
Introverso
Estroverso
Totale
Rosso
Giallo
Verde
Blu Totale
20
180
200
6
34
40
30
50
80
44
100
36
300
80 n=400
Come nel caso del
“goodness of fit” la logica
del test di indipendenza
dipende dal confronto fra
frequenze osservate e
frequenze attese (se H0 è
vero)
Calcolo delle frequenze attese
Introverso
Estroverso
Totale
Rosso
Giallo
Verde
Blu Totale
20
180
200
6
34
40
30
50
80
44
100
36
300
80 n=400
fr fc
fa 
n
100 * 200
rosso_intr oversoe 
400
20.000

400
 50
Confronto frequenze
osservate / frequenze attese
Frequenze osservate
Rosso
Giallo
Verde
20
180
200
6
34
40
30
50
80
Introverso
Estroverso
Totale
Blu
Totale
44
100
36
300
80 n=400
Frequenze attese
Rosso
Giallo
Verde
50
150
200
10
30
40
20
60
80
Introverso
Estroverso
Totale
Blu
Totale
20
100
60
300
80 n=400
Rosso Giallo
Introverso
Estroverso
900
900
Verde Blu
16
16
100 576
100 576
Chi2
Scarti2/Fa
Scarti^2/FE
Introverso
Estroverso
Rosso Giallo
18,00
6,00
1,60
0,53
( fo  fa )
 
fa
2
2
Scarti2
Scarti^2
fr fc
fa 
n
Verde
Blu
5,00 28,80
1,67 9,60
71,2
Calcolo dei gradi di libertà
gdl  ( R  1)(C  1)
 1* 3
3
Verifica dell’ipotesi
  71,2
2
valore critico  7,81
Si rifiuta l’ipotesi nulla
Condizioni di validità del
test χ2



Campioni casuali
Osservazioni indipendenti
Per ogni “cella” il valore di fa deve
essere superiore a 4
Tecniche e applicazioni
avanzate




Dati e informazione
Il data mining
Cluster analysis
Modelli predittivi
– Estrazione di regole
– Reti neurali
– Limiti del data mining
Scarica

chi2 - e