Teorie e Tecniche di Psicometria Roberto Bolzani & Mariagrazia Benassi Programma del Corso Introduzione • Legge statistica e legge deterministica • Le principali definizioni di probabilità • Proprietà della probabilità Programma del Corso Parametri statistici • • • • Parametri descrittivi Distribuzioni di probabilità Densità di probabilità Le principali distribuzioni di probabilità Programma del Corso Il test statistico • • • • • Logica del test statistico L’ipotesi nulla Significatività Potenza del test Numerosità del campione Programma del Corso Test parametrici • • • • • • Il t-test Analisi della varianza Analisi della regressione Analisi per prove ripetute Analisi multivariata Il modello lineare generale Programma del Corso Test non-parametrici • Confronto fra variabili qualitative • Le tavole di contingenza • La regressione logistica Bibliografia Bolzani R., Canestrari R. (1994) Logica del test statistico. Milano, Casa Editrice Ambrosiana. Bolzani R. (1999) Problemi di statistica. Milano, Casa Editrice Ambrosiana. Bolzani R., Benassi M. (2003) Tecniche Psicometriche. Roma, Carocci Introduzione • Legge deterministica: corrispondenza univoca fra due eventi, causa ed effetto. • Legge probabilistica: corrispondenza fra un evento e un insieme di possibili eventi Finalità della Ricerca Scientifica • Dimostrazione di leggi scientifiche su base sperimentale • Interpretazione dei dati sperimentali Definizioni di probabilità • Classica. Dato un insieme di eventi equiprobabili la probabilità di un evento è data da numero di eventi favorevoli numero di casi possibili • Frequentista. La probabilità di un evento è la frequenza con cui esso si presenta in un numero molto elevato di prove. Definizioni di probabilità • Assiomatica. La probabilità è definita dalle condizioni: • Ad ogni evento A corrisponde un valore p(A) maggiore o uguale a zero • La probabilità di tutti gli eventi possibili è uno • La probabilità che si verifichi A o B, essendo A e B mutuamente escludenti, è data dalla somma della probabilità di A e della probabilità di B In formule: • p(A) 0 • p() = 1 • p(A o B) = p(A) + p(B) se p(A&B)=0 Definizioni di probabilità • Soggettiva. La probabilità di un evento E è la misura del grado di fiducia che un individuo coerente attribuisce, secondo le sue informazioni, all’avverarsi di E. • coerenza • informazione Il Paradosso di Bertrand Problema: Calcolare la probabilità di trovare una corda casuale di una circonferenza più lunga del lato del triangolo equilatero iscritto. Il Paradosso di Bertrand 1a Soluzione: Scegliere un punto interno alla circonferenza inscritta p=1/4 Il Paradosso di Bertrand 2a Soluzione: Scegliamo il punto d’origine della corda nell’apice del triangolo p=1/3 Il Paradosso di Bertrand 3a Soluzione: Scegliere un punto casuale su un raggio della circonferenza p=1/2 Proprietà della Probabilità La probabilità di un evento impossibile è zero. Non vale la proposizione inversa. Se la probabilità è zero l'evento non è necessariamente impossibile. • Es. La probabilità di ottenere 7 nel lancio di un dado a sei facce è zero. La probabilità di avere su infiniti lanci di una moneta nemmeno un risultato 'testa' è zero ma l'evento non è impossibile. Proprietà della Probabilità La probabilità di un evento certo è uno. Non vale la proposizione inversa. Es. La probabilità di ottenere un numero compreso fra uno e sei in un lancio di un dado è uno. La probabilità di avere su infiniti lanci di una moneta almeno un risultato 'testa' è uno pur non essendo l'evento certo. Proprietà della Probabilità Probabilità condizionata: p(A|B) = probabilità che avvenga A essendo avvenuto B. Es. probabilità di ottenere 12 in due lanci di un dado sapendo che nel primo lancio è risultato 6. Proprietà della Probabilità Eventi indipendenti: A e B sono indipendenti quando l’avverarsi di uno non influenza l’avverarsi dell’altro. Cioè p(A|B) = p(A) Es. la probabilità di avere testa nel primo lancio e croce nel secondo Proprietà della Probabilità Eventi disgiunti: A e B sono eventi disgiunti se il verificarsi dell'uno esclude il verificarsi dell'altro. Es. testa e croce Proprietà della Probabilità Evento prodotto: Evento in cui si verifica sia A che B: p(A&B) = p(A) p(B|A). Se A e B sono indipendenti: p(A&B)= p(A) p(B) Proprietà della Probabilità Evento somma: Evento in cui si verifica A o B o, se non sono disgiunti, entrambi: p(A+B) = p(A) + p(B) - p(A&B) Es. Nel lancio di un dado: P(pari)=1/2 P(<4)= 1/2 P(pari e <4) = 1/6 P(pari o <4)= 1/2+1/2-1/6 = 5/6 Proprietà della Probabilità Evento complementare: Evento in cui non si verifica A: p(Ã)=1 - p(A). Es. il complementare del risultato 6 è il risultato 1 o 2 o 3 o 4 o 5. Parametri descrittivi Variabili Qualitative Quantitative Discrete Continue • Frequenza di un evento: Numero di volte in cui si verifica un evento diviso per il numero totale delle occorrenze. Parametri descrittivi • Media: somma di tutti i valori di una variabile divisa per il numero totale dei valori. n x= 1 xi n • Varianza: somma dei quadrati degli scarti dei singoli valori dalla media divisa per i gradi di libertà. n s = 2 xi x 2 n1 1 • Deviazione standard: radice quadrata della varianza Parametri descrittivi • Valore atteso (Expected value) – caso discreto n E ( x) = xi p( xi ) 1 – caso continuo E ( x) = x f ( x ) dx • Varianza: valore atteso degli scarti al quadrato VAR( x) = E[( x E ( x)) 2 ] Parametri descrittivi • Legge dei grandi numeri: Al crescere del numero delle prove P(| pE - f E |< ) 1 dove pE è la probabilità dell'evento E, fE la sua frequenza, una costante qualsiasi > 0. Parametri descrittivi • Percentile: ordinando i casi secondo il valore di una variabile, l'n-esimo percentile è il limite al di sotto del quale si trova l'n% dei casi. • Mediana: punto che divide la popolazione in due parti di uguale numerosità. Corrisponde al 50 percentile. • Moda: valore per cui si ha un picco di frequenza. Caratterizza la distribuzione, che risulta unimodale, bimodale etc. a seconda dei picchi presenti. Distribuzioni di Probabilità Insieme dei valori di probabilità che competono a ciascun valore della variabile. Funzione di distribuzione: funzione che rappresenta per ogni x la probabilità di ottenere un valore minore o uguale a x. Distribuzioni di Probabilità • Se la variabile è discreta abbiamo una probabilità per ogni valore x discreto della variabile. • La funzione di distribuzione si ottiene sommando le probabilità di tutti i casi aventi un valore inferiore ad X. Distribuzioni di Probabilità • Se la variabile è continua la probabilità di un singolo valore della variabile è nulla essendo la probabilità di un valore su infiniti valori possibili. La funzione di distribuzione viene allora definita da X F(X) = p(x < X) = f(x)dx - • La funzione f(x) è la densità di probabilità e rappresenta la probabilità che il valore di x sia compreso in un intervallo infinitesimo, diviso per l’ampiezza dell’intervallo. Distribuzioni di Probabilità DISTRIBUZIONE UNIFORME Distribuzione relativa ad una variabile discreta o continua avente uguale probabilità per ciascun suo valore. 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 1 2 3 4 5 6 7 Distribuzioni di Probabilità Distribuzione Binomiale Se il risultato di una prova può essere il successo S o l'insuccesso I con uguale probabilità p=q=1/2, i risultati possibili di due prove sono SS SI IS II ciascuno con probabilità 1/4. Distribuzione Binomiale In generale su n prove la probabilità di s successi è data da: 1 n p(s) = n 2 s dove n n! = s s! (n - s)! Distribuzione Binomiale • Se p=q=1/2 1 n p = n 2 s La distribuzione sarà simmetrica Distribuzione Binomiale con p=0.5 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 numero di successi 7 8 9 10 Distribuzione Binomiale Funzione di Distribuzione (Distribuzione Cumulativa) Distribuzione Binomiale con p=0.5 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 numero di successi 7 8 9 10 Distribuzione Binomiale Se la probabilità di successo p è diversa dalla probabilità di insuccesso q=1-p allora la probabilità di s successi è data da n p(s) = p q s s i Distribuzione Binomiale Se pq n p = p q s La distribuzione sarà asimmetrica s i Distribuzione Binomiale con p=0.25 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 numero successi 7 8 9 10 Distribuzione Binomiale Funzione di Distribuzione (Distribuzione Cumulativa) Distribuzione Binomiale con p=0.25 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 numero successi 7 8 9 10 Test con la distribuzione binomiale Binomiale 5 prove 0.350 0.313 0.313 0.300 probabilità 0.250 0.200 0.156 0.156 0.150 0.100 0.050 0.031 0.031 0.000 0 1 2 3 successi 4 5 Test con la distribuzione binomiale Binomiale 6 prove 0.350 0.313 0.300 0.234 probabilità 0.250 0.234 0.200 0.150 0.094 0.100 0.094 0.050 0.016 0.016 0.000 0 1 2 3 successi 4 5 6 Test con la distribuzione binomiale Binomiale 12 prove 0.250 0.226 0.193 probabilità 0.200 0.193 0.150 0.121 0.121 0.100 0.054 0.054 0.050 0.016 0.016 0.000 0.003 0.003 0.000 0.000 0 1 2 3 4 5 6 successi 7 8 9 10 11 12 Distribuzioni di Probabilità DISTRIBUZIONE NORMALE (GAUSSIANA) • Limite della distribuzione binomiale. • Curva degli errori. • Distribuzione a massima entropia. DISTRIBUZIONE NORMALE (GAUSSIANA) Limite della distribuzione binomiale. Al crescere di n la distribuzione binomiale tende ad una distribuzione normale con media np e varianza npq. DISTRIBUZIONE NORMALE (GAUSSIANA) Curva degli errori. Condizioni: • un errore è la somma di molte componenti di uguale ampiezza • le diverse componenti sono fra loro indipendenti • ciascuna componente è positiva o negativa con uguale probabilità allora l'ampiezza dell'errore ha una distribuzione normale. DISTRIBUZIONE NORMALE (GAUSSIANA) Distribuzione a massima entropia. La distribuzione normale è la distribuzione di probabilità con la massima entropia per una variabile compresa fra - e + ed avente un data media e varianza. È quindi la distribuzione meno strutturata, la più casuale. DISTRIBUZIONE NORMALE (GAUSSIANA) Una generica variabile normale con media e varianza ² è indicata con N(,²) e la sua densità di probabilità è f(x)= 1 2 (x- )2 2 2 e 2 DISTRIBUZIONE NORMALE (GAUSSIANA) Essendo la distribuzione di una variabile continua il suo valore per un dato x corrisponde alla densità di probabilità per quel valore. DISTRIBUZIONE NORMALE (GAUSSIANA) Distribuzione Cumulativa Normale 1 0,9 0,8 probabilità 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -5 -4 -3 -2 -1 0 valori z 1 2 3 4 5 DISTRIBUZIONE NORMALE (GAUSSIANA) • Posizione massima (giace sulla media) • Altezza del massimo (tanto più è grande la varianza tanto più la curva è allargata) DISTRIBUZIONE NORMALE (GAUSSIANA) Una variabile normale a media zero e varianza unitaria è detta variabile z o standard, si indica con N(0,1) e la sua densità di probabilità è data da f(z) = 2 z 1 e 2 2 dove z e x sono legati dalla relazione z x ; x z Distribuzioni di Probabilità DISTRIBUZIONE 2 Essendo la distribuzione di una variabile continua il suo valore per un dato x corrisponde alla densità di probabilità per quel valore. 2 = z12+ z22+ z32+…..+ zn2 n 2 2 n-1 - 1 2 2 ( ) e 2 f( ) = n ( ) 2 2 - z: N(0,1) Distribuzioni di Probabilità Distribuzione χ² 0.20 0.18 χ² 4 gl 0.16 0.14 0.12 0.10 χ² 10 gl 0.08 0.06 0.04 0.02 0.00 0 5 10 15 20 25 30 Distribuzioni di Probabilità DISTRIBUZIONE t Distribuzione di una variabile rapporto fra una variabile N(0,1) e la radice quadrata di una variabile 2 divisa per i gradi di libertà.È simmetrica e tende alla normale. Ha espressione n+1 ( ) 1 2 f(t) = 2 n+1 n t n( ) (1 + ) 2 2 n Distribuzioni di Probabilità DISTRIBUZIONE F Distribuzione di una variabile rapporto di due variabili 2 divise per i rispettivi gradi di libertà. Ha espressione n 1 + n2 ( ) -n1+n2 n1 n1-2 n n 1 1 2 f(F) = ( ) 2 F 2 (1 + F ) 2 n2 ( n1 ) ( n2 ) n2 2 2 Statistica descrittiva Rappresentazione sintetica dei diversi valori relativi ai soggetti di un determinato gruppo (media, frequenza, percentuale etc.) Riguarda esclusivamente i soggetti esaminati. RACCOLTA DATI DESCRIZIONE DATI IDEA GENERALE Statistica inferenziale -Saggia l'influenza di alcuni fattori sui parametri -Classifica soggetti in vari gruppi -Prevede l'andamento di certi parametri. Riguarda concetti generali e quindi tutti i possibili soggetti che rispondono a certe caratteristiche. Statistica inferenziale Procedimento Idea Generale Ipotesi Sperimentale Formulazione Ho Scelta Campione casuale e idoneo Raccolta Dati e Descrizione Variabili Test Statistico (stima del parametro) falsifico l'ipotesi nulla non falsifico l'ipotesi nulla Statistica inferenziale Procedimento Ipotesi Sperimentale Ipotesi Nulla Ho Ipotesi la cui accettazione renderebbe falsa l'idea da verificare. Viene in genere indicata con H0. Statistica inferenziale Procedimento Ipotesi Sperimentale Ipotesi Nulla Ho Scelta del Campione Campione • Idoneo a confermare l'idea. • Rappresentativo dell'intera popolazione (casuale, sufficientemente ampio) • Conforme alle richieste del test che si intende utilizzare (distribuzione, indipendenza) Statistica inferenziale Procedimento Ipotesi Sperimentale Ipotesi Nulla Ho Scelta del Campione Test Statistico TEST • Creati per essere applicati in modo indipendente. • Richiedono che i dati sperimentali abbiano determinate distribuzioni teoriche (continuità, normalità ..) • In grado di falsificare tipi determinati di ipotesi nulle Statistica inferenziale Procedimento Ipotesi Sperimentale Ipotesi Nulla Ho Scelta del Campione Significatività p Test Statistico SIGNIFICATIVITÀ: Probabilità di respingere l'ipotesi nulla pur essendo questa vera. Si stabilisce a priori quale probabilità di errore consideriamo accettabile per la verifica (livello di significatività normalmente 0.05 o 0.01). Statistica inferenziale Procedimento Ipotesi Sperimentale Ipotesi Nulla Ho Scelta del Campione Test Statistico Respingo Ho Significatività p Non respingo Ho Processi Decisionali Statistica inferenziale Falsificazione Ho Errori di Decisione H0 vera H0 falsa H1 falsa H1 vera Respingo H0 errore I tipo corretto Non respingo H0 corretto errore II tipo Statistica inferenziale Falsificazione Ho POTENZA DI UN TEST Probabilità di respingere H0 quando H0 è falsa. È dato da 1-. Dipende : da H0 e da H1 dalla numerosità del campione dalla minima differenza apprezzabile dalla varianza casuale Statistica inferenziale Falsificazione Ho Distribuzione di Ho e H1 H0 H1 -4 -3 -2 -1 0 1 2 x 3 4 5 6 7 Statistica inferenziale Falsificazione Ho Non falsificazione di H0: l'ipotesi nulla è “vera” scarsa potenza del test: il campione ha varianza elevata scarsa numerosità del campione il campione non soddisfa le condizioni relative alla distribuzione il campione non è rappresentativo dell'intera popolazione non sufficiente separazione fra H0 e H1 Statistica inferenziale Falsificazione Ho INTERVALLO DI CONFIDENZA: rappresenta la zona, attorno al parametro stimato sperimentalmente, in cui potrebbe cadere il valore vero del parametro con una probabilità 1-. Ha la stessa estensione dell'intervallo attorno all'ipotesi nulla. Se nell'intervallo di confidenza cade il valore di H0 non si può respingere l'ipotesi nulla.