La regressione I Cristina Zogmaister Investigare l’associazione lineare tra due (o più) variabili continue: Analisi della relazione lineare tra due variabili continue: Correlazione bivariata: misura la relazione tra due variabili, senza la necessità di distinguere tra IV e DV. Regressione lineare semplice (o bivariata): si prevede il punteggio inuna variabile dalla conoscenza del punteggio in un’altra variabile. La variabile predetta è considerata DV, quella predittrice è considerata IV. Se le variabili in gioco sono più di due: Correlazione multipla: misura il grado in cui una variabile continua è legata con un insieme di variabili, che sono (generalmente) continue e vengono combinate per creare una nuova variabile composita. Regressione multipla: si prevede il punteggio della DV dai punteggi in una serie di IV. Come per correlazione e regressione bivariate, la correlazione multipla enfatizza il grado di relazione tra una variabile e un insieme di variabili La regressione multipla enfatizza la previsione della DV a partire dalla IV. Esempio: file regressione.sav Rappresentazione grafica del legame tra Due misure successive della stessa variabile Altezza e punteggio ad un esame Punteggio ad un esame e punteggio ad un altro esame Ansia pre-esame e punteggio all’esame Tensione durante l’esame e punteggio all’esame Rappresentazione grafica Relazione lineare, legame elevato tra le due variabili Come costruire il grafico a dispersione Legame tra altezza e punteggio all’esame di psicometria: relazione tra voto all’esame di psicometria e voto all’esame di fisiologia: Ansia pre-esame e voto all’esame Tensione durante l’esame e voto di psicometria In due situazioni è emerso un chiaro legame lineare tra le due variabili: Quanto è intenso questo legame? Come facciamo a essere sicuri che non è dovuto al caso? Coefficiente di correlazione r di Pearson Misura la intensità e la DIREZIONE di una relazione lineare tra due variabili. Elevato al quadrato misura la FORZA dell’associazione. E’ indipendente dalla scala di misura. Calcoliamo il coefficiente di correlazione di Pearson: Calcoliamo il coefficiente di correlazione Correlazione positiva, molto elevata (prossima a +1.0). La correlazione è significativa, p < .001 Il valore del coeff. di correlazione elevato al quadrato è di .937: la prima variabile spiega il 94% della varianza della seconda variabile (e vice versa). Il coeff. di correlazione è indipendente dalla scala di misura: Correlazione tra voto all’esame di psicometria e voto all’esame di fisiologia: Correlazione significativa ed elevata. Il 46% della variabilità del voto all’esame di fisiologia può essere spiegata a partire dalla conoscenza del voto di psicometria (e vice versa) Correlazione tra altezza e punteggio all’esame di psicometria: Correlazione prossima allo zero e non significativa. Non è influenzata dalla scala di misura Ansia pre-esame e voto all’esame Correlazione tra tensione durante l’esame e voto di psicometria: Trend quadratico: p < .001 Conoscendo il voto di psicometria di uno studente, possiamo fare una previsione sul voto che otterrà all’esame di fisiologia? regressione Individuare la retta nello spazio bi-dimensionale che più si avvicina ai punti che rappresentano le osservazioni (criterio dei minimi quadrati) Conoscendo il voto di psicometria di uno studente, possiamo fare una previsione sul voto che otterrà all’esame di fisiologia? La retta è rappresentata dall’equazione Y’ = A + B X dove: Y’ è il punteggio previsto A è il valore di Y quando X = 0 B è la pendenza della linea (rappresenta quanto cambia Y al cambiare di X di un’unità) X è il valore della variabile dalla quale Y viene previsto. La differenza tra i valori previsti Y’ e i valori osservati Y rappresenta l’errore di previsione o residuo. Attraverso l’analisi di regressione si individua l’equazione che minimizza i residui elevati al quadrato. Previsione del punteggio di fisiologia a partire dal punteggio di psicometria Criterio (VD) – punteggio di fisiologia Predittore (IV) – punteggio di psicometria Criterio (la variabile che vogliamo prevedere) Predittori Dopo aver indicato criterio e predittore/i, cliccare su OK Osserviamo l’output: 1) Il modello di regressione Nella nostra analisi stiamo testando un unico modello, con un unico predittore (indicato nella colonna “variabili inserite”): esame.psicometria Esame psicometria Esame fisiologia 2. Riepilogo del modello Questa tabella fornisce le seguenti informazioni: - R2 = Percentuale di varianza spiegata - R2 corretto = aggiustamento del valore di R2 per tener conto del fatto che, soprattutto nei piccoli campioni, questa statistica tende ad essere sovrastimata 3. Test del modello Il nostro modello è significativo, F (1, 48) = 41.581, p < .001 4. Tabella dei coefficienti Esame.fisiologia = 4.169 + .832 * esame.psicometria + errore Y’ = 4.169 + .832 * X Testiamo il legame tra l’ansia pre-esame e il voto di psicometria (r = - .382) Criterio = ? Predittore = ? Il modello: Ansia pre-esame Voto di psicometria Analisi di regressione Nella regressione lineare semplice, R = | r | Nella regressione lineare semplice, beta = r L’equazione di regressione: VOTO PREVISTO = 26.796 - .389 * ANSIA Da soli: esiste un legame tra il nr. di ore trascorse a ripassare e il voto di psicometria? Provate a fare tutti i passaggi: - diagramma a dispersione: suggerisce la presenza di una relazione lineare tra le variabili? - la correlazione è significativa? - in tal caso: qual è l’equazione di regressione? Come varia il voto previsto all’esame all’aumentare di un’ora di studio? Problemi importanti nella regressione: Gamma di osservazioni ristretta Quando la gamma delle risposte in una o entrambe le variabili è ristretta, il coefficiente di correlazione è sottostimato. Presenza di outliers Outlier univariato: caso con un valore così estremo in una variabile da distorcere le statistiche Outlier multivariato: caso con una combinazione strana di punteggi su due o più variabili, che distorce le statistiche Gli outliers hanno un impatto molto maggiore sul coefficiente di regressione, rispetto agli altri casi Gamma di osservazioni ristretta Esempio: esiste un legame tra età e tempi di reazione, ma questo difficilmente emerge con un campione di studenti universitari (la gamma di età è troppo ristretta) Presenza di outliers Ragioni per la presenza di outliers Errori nell’inserimento dei dati (soluzione: correzione dei dati sbagliati) Mancanza di specificazione dei codici “valori mancanti” (soluzione: indicazione dei valori mancanti) Errore nel campionamento – il caso non fa parte della popolazione a cui siamo interessati (soluzione: eliminare il dato) Caso estremo – il caso fa parte della popolazione (soluzione: trasformazione dei dati per ridurne l’impatto) Effetti degli outlier Legame tra autocollocazione politica (1=estrema sinistra, 9=estrema destra) e pregiudizio razziale (1=estremamente basso; 9 = estremamente alto) Una tabella di frequenze o un grafico a dispersione ci permettono di individuare eventuali valori “fuori gamma” Prima della correzione Dopo la correzione Legame tra autocollocazione politica e cinismo politico Trasformazione della variabile per diminuire l’effetto dei valori estremi Prima della trasformazione Dopo la trasformazione Verifichiamo la normalità della distribuzione, prima e dopo la trasformazione (Asimmetria e curtosi verranno affrontate in una slide successiva) Indagare la normalità Statisticamente: Asimmetria – se la variabile è asimmetrica la media non rappresenta il centro della distribuzione Curtosi – grado di assembramento delle variabili intorno alla media o dispersione nelle code Se la variabile è normale, asimmetria = 0, curtosi =0 asimmetria positiva = coda lunga a destra; asimmetria negativa = coda lunga a sinistra Significatività di asimmetria e curtosi Per valutare se la distribuzione devia significativamente dalla normalità, si dividono i valori di asimmetria e curtosi per i rispettivi errori standard e si confrontano questi valori con l’ipotesi nulla che siano uguali a zero. Con campioni piccoli o moderati si usano valori di alpha convenzionali ma conservativi (.01 o .001), ma se il campione è ampio è meglio osservare la forma della distribuzione anziché usare test di inferenza statistica formali. (Con campioni ampi, indici di asimmetria o curtosi significativi non sono necessariamente spie di una forte deviazione dalla normalità) Come indagare la normalità Graficamente Istogrammi di frequenza, con visualizzazione della distribuzione normale Grafici P-P Per ottenere l’istogramma a barre con la sovraimposizione della curva normale: Grafici P-P Grafico P-P (probabilità cumulativa osservata vs. probabilità cumulativa prevista) Come si legge il grafico P-P : Se la distribuzione è normale i punti dei casi cadono sulla diagonale; le deviazioni dalla normalità spostano i casi dalla diagonale Come si legge il grafico della probabilità P-P detrendizzata: Sono rappresentate le deviazioni dalla diagonale; Se la variabile è distribuita normalmente, i casi si distribuiscono sopra e sotto la linea orizzontale. Regressione lineare multipla E’ un’estensione della regressione lineare semplice. Due o più predittori vengono combinati linearmente per prevedere il valore del criterio in ciascuna osservazione. Equazione: L’obiettivo dell’analisi di regressione è arrivare a un insieme di valori B (coefficienti di regressione) tali da minimizzare lo scostamento tra i valori Y’ predetti e i valori Y osservati (criterio dei minimi quadrati). Come risultato dell’analisi di regressione, abbiamo anche il COEFFICIENTE DI CORRELAZIONE MULTIPLA R, ossia la correlazione tra Y’ e Y. Spesso l’obiettivo dell’analisi di regressione è individuare il legame tra un insieme di variabili predittrici e una variabile criterio. Es. child_data.sav E’ possibile prevedere le abilità di lettura a partire da QI e memoria a breve termine? Criterio: ? Predittori: ? Il modello Q.I. Capacità di lettura Span di memoria I coefficienti di correlazione bivariati L’output: 1 Il modello 2. Riepilogo del modello R: coefficiente di correlazione multipla – indica la correlazione tra Y’ e Y R2: percentuale di varianza spiegata della variabile Y attraverso il modello di regressione R2: percentuale di varianza spiegata corretta (per tener conto della sovrastima di R) 3. Test del modello Esiste una relazione significativa tra i predittori nel loro complesso e il criterio. Il modello che abbiamo testato è significativo, F (2, 37) = 40.006, p < .001. 4. Coefficienti di regressione La retta di regressione: Abilità di lettura prevista = 2.936 + 1.015 * memory span -.012 IQ Nota: solo memory span è un predittore significativo Provate: file ripasso.esami.sav Dati di 20 studenti. Vogliamo vedere se il punteggio all’esame è legato a Ore trascorse a ripassare Livello di ansia Punteggio al test d’ingresso al corso Il modello: Ore trascorse a ripassare Punteggio all’esame Livello di ansia Punteggio al test d’ingresso I coefficienti di correlazione bivariati L’analisi di regressione Provate: consumo.gelati.sav Il numero di gelati consumati in un’estate può essere previsto sulla base di: Prezzo medio dei gelati in una certa area Temperatura media in quell’area Reddito del consumatore? Il modello: Prezzo medio dei gelati Temperatura Reddito del consumatore Numero gelati consumati I coefficienti di correlazione Il prezzo medio dei gelati ha una gamma troppo ristretta: Il modello: Prezzo medio dei gelati Temperatura Reddito del consumatore Numero gelati consumati L’analisi di regressione Analisi di regressione sequenziale Spesso nella regressione si desidera analizzare l’effetto di uno o più predittori sul criterio, controllando statisticamente l’effetto di altre variabili (covariate). Esempio: qual è l’effetto di QI e memoria di lavoro su capacità di lettura, se teniamo sotto controllo l’effetto dell’età? Multicollinearità = • • i predittori sono troppo correlati tra di loro causa problemi logici (ridondanza) causa problemi statistici (aumenta la dimensione dei termini d’errore, indebolendo l’analisi) Nel caso due predittori siano altamente correlati (es. r > .70) omettere una delle variabili creare un punteggio composito SPSS calcola la tolleranza (1 – SMC) SMC: correlazione multipla di una variabile con tutte le altre, elevata al quadrato Se la SMC è elevata, la variabile è altamente correlata con le altre dell’insieme: situazione di multicollinearità Statistiche di collinearità: Tolleranza: Varia tra 0 e 1. Valori più elevati indicano minore multicollinearità. VIF =Variance Inflaction Factor (Fattore di inflazione della varianza – è il reciproco della tolleranza) VIF = 1 se i predittori sono ortogonali. VIF maggiori di 1 indicano presenza di relazione tra i predittori. La radice quadrata di VIF indica quanto più largo è l’errore standard rispetto al caso in cui i fattori non fossero correlati. Correlazione troppo elevata tra i due predittori Modello di mediazione? Se teniamo sotto controllo l’effetto dell’età, c’è un legame tra IQ e abilità di lettura: Questo effetto non emergeva quando non tenevamo sotto controllo statistico l’età Indagare la presenza di multicollinearità nel modello Ripasso.esami.sav Indagare la presenza di multicollinearità nel modello Consumo.gelati.sav