Test parametrici I test studiati nelle lezioni precedenti (testt, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri di popolazione – Esempio: differenza fra due medie Condizioni di validità dei test parametrici – Variabili numeriche – Distribuzione normale della popolazione – Varianza omogenea Test non-parametrici I test non-parametrici consentono la verifica di ipotesi relative a: – Variabili non-numeriche Variabili ordinali Variabili categoriche – Distribuzioni diverse dal normale oppure ignote Test non-parametrici I test non-parametrici consentono la verifica di ipotesi relative alla distribuzione di una variabile categorica Numero ministri donna vs. numero ministri uomo Volume di vendita di due (o più) prodotti concorrenti Numero di morti per tumore in due diverse popolazioni Il test χ2 (chi-quadro) Verifica di ipotesi relative a distribuzioni di frequenza Organizzazione dei dati per Il test χ2 N. soggetti Categoria A Categoria B 90 10 “Goodness of fit” I dati: distribuzione di frequenza di una variabile categorica (ad es. sesso dei soggetti in un campione) H0: distribuzione “attesa” H1: distribuzione diversa da quella attesa Esercitazione Ipotesi: le automobili sportive hanno più incidenti rispetto alle automobili di altro tipo Sinistri osservati Immatricolate Sportive Utilitarie Medie Berline Totale 20 10% 14 40% 7 30% 9 20% 50 2 ( f f ) 2 o a fa Esercitazione Sinistri osservati Immatricolate Sinistri attesi Scarto^2 Scarto^2/FE Chi2 Gdl Chi2critico (alfa=0,05) Sportive Utilitarie Medie Berline Totale 20 10% 14 40% 7 30% 9 20% 50 Sportive Utilitarie Medie Berline Totale 5 20 15 10 50 225 45,00 36 1,80 64 4,27 1 0,10 0 51,17 3 7,81 Si rifiuta l’ipotesi nulla Il χ2 come test di indipendenza Il test di indipendenza è utilizzato per verificare la presenza di una relazione fra due variabili – Assenza di relazione: le due variabili sono indipendenti Due variabili sono indipendenti quando la distribuzione della prima variabile è priva di rapporto con la distribuzione per la seconda variabile – La distribuzione di frequenza per la prima variabile è la stessa per tutte le categorie della seconda variabile Personalità e preferenza per i colori H0: la preferenza per i colori è indipendente rispetto alla personalità del soggetto – La distribuzione delle preferenze è uguale per i due gruppi H1: la preferenza per i colori non è indipendente rispetto alla personalità – Le distribuzioni sono diverse Introverso Estroverso Totale Rosso Giallo Verde Blu Totale 20 180 200 6 34 40 30 50 80 44 100 36 300 80 n=400 Come nel caso del “goodness of fit” la logica del test di indipendenza dipende dal confronto fra frequenze osservate e frequenze attese (se H0 è vero) Calcolo delle frequenze attese Introverso Estroverso Totale Rosso Giallo Verde Blu Totale 20 180 200 6 34 40 30 50 80 44 100 36 300 80 n=400 fr fc fa n 100 * 200 rosso_intr oversoe 400 20.000 400 50 Confronto frequenze osservate / frequenze attese Frequenze osservate Rosso Giallo Verde 20 180 200 6 34 40 30 50 80 Introverso Estroverso Totale Blu Totale 44 100 36 300 80 n=400 Frequenze attese Rosso Giallo Verde 50 150 200 10 30 40 20 60 80 Introverso Estroverso Totale Blu Totale 20 100 60 300 80 n=400 Rosso Giallo Introverso Estroverso 900 900 Verde Blu 16 16 100 576 100 576 Chi2 Scarti2/Fa Scarti^2/FE Introverso Estroverso Rosso Giallo 18,00 6,00 1,60 0,53 ( fo fa ) fa 2 2 Scarti2 Scarti^2 fr fc fa n Verde Blu 5,00 28,80 1,67 9,60 71,2 Calcolo dei gradi di libertà gdl ( R 1)(C 1) 1* 3 3 Verifica dell’ipotesi 71,2 2 valore critico 7,81 Si rifiuta l’ipotesi nulla Condizioni di validità del test χ2 Campioni casuali Osservazioni indipendenti Per ogni “cella” il valore di fa deve essere superiore a 4 Tecniche e applicazioni avanzate Dati e informazione Il data mining Cluster analysis Modelli predittivi – Estrazione di regole – Reti neurali – Limiti del data mining