Il residuo nella predizione 1 DEFINIZIONE DI RESIDUO Il residuo è la differenza fra il punteggio predetto e il punteggio osservato Residuo= Osservato – Predetto Graficamente, è la distanza tra il punto indicante la misurazione realmente effettuata e il suo corrispondente appartenente alla retta di regressione. 2 Variabile dipendente, spiegata, valore osservato Yi mX i a i inclinazione Stima di y, valore predetto intercetta variabile indipendente errore Yˆi mX i a somma media abilità 8 9 9 10 11 12 13 14 86 10,75 voto 5 5 6 7 7 8 9 8 55 6,875 voto_pre detto residuo 5,15 5,78 5,78 6,4 7,03 7,66 8,29 8,91 55 6,875 -0,15 -0,78 0,22 0,6 -0,03 0,34 0,71 -0,91 0 0 predizi one -1,30 -0,82 -0,82 -0,35 0,12 0,59 1,06 1,53 0 0 PREDIZIONE CON PUNTI ZETA zˆ yi z xi rxy ẑyi = zeta predetto zxi = zeta predittore rxy = coefficiente di correlazione 5 Predizione usando i punti standardizzati Test R Test T p1 37 p2 Test R zeta test T zeta 50 1,33 0,45 39 75 1,49 1,58 p3 9 24 -0,86 -0,72 p4 8 11 -0,94 -1,31 p5 6 25 -1,09 -0,68 p6 39 78 1,49 1,71 p7 18 24 -0,16 -0,72 p8 16 20 -0,31 -0,90 p9 8 40 -0,94 0,00 p10 20 53 0,00 0,59 somma 200 400 0,00 0,00 dev stan 12,79 22,17 1,00 1,00 varianza 163,60 491,60 1,00 1,00 20 40 0,00 0,00 soggetti media PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z. PRIMO PASSAGGIO: TRASFORMAZION E DEI PUNTEGGI IN PUNTI Z. 7 Sogg. Test R zeta Test T zeta prediz di T p1 1,33 0,45 1,13 p2 1,49 1,58 1,26 p3 -0,86 -0,72 -0,73 p4 -0,94 -1,31 -0,79 p5 -1,09 -0,68 -0,93 p6 1,49 1,71 1,26 p7 -0,16 -0,72 -0,13 p8 -0,31 -0,90 -0,26 p9 -0,94 0,00 -0,79 p10 0,00 0,59 0,00 somma 0,00 0,00 0,000 dev stan 1,00 1,00 0,847 varianza 1,00 1,00 0,718 media 0,00 0,00 0,000 PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z. SECONDO PASSAGGIO: CALCOLO DELLA PREDIZIONE DI T CON LA FORMULA: zˆ yi z xi rxy 8 VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T PRODOTTI PREDIZIONE RESIDUO ZETA ZETA DI T P1 P2 P3 1,33 1,49 0,45 1,58 0,6 2,34 1,13 1,26 -0,68 0,32 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 -0,68 0,74 -0,93 0,25 P6 1,49 1,71 2,55 1,26 0,46 P7 -0,16 -0,72 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 -0,94 0 0 -0,79 0,79 P10 0 0,59 0 0 0,59 SOMMA 0 0 8,473 0 0 DEVIAZIONE STD 1 1 0,877 0,847 0,531 VARIANZA 1 1 0,769 0,718 0,282 MEDIA 0 0 0,847 0 0 Correlazione Varianza spiegata Varianza residua 9 Somma =1 VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T PRODOTTI PREDIZIONE RESIDUO ZETA ZETA DI T P1 P2 P3 1,33 1,49 0,45 1,58 0,6 2,34 1,13 1,26 -0,68 0,32 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 -0,68 0,74 -0,93 0,25 P6 1,49 1,71 2,55 1,26 0,46 P7 -0,16 -0,72 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 -0,94 0 0 -0,79 0,79 P10 0 0,59 0 0 0,59 SOMMA 0 0 8,473 0 0 DEVIAZIONE STD 1 1 0,877 0,847 0,531 VARIANZA 1 1 0,769 0,718 0,282 MEDIA 0 0 0,847 0 0 La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione. 10 VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T PRODOTTI PREDIZIONE RESIDUO ZETA ZETA DI T P1 P2 P3 1,33 1,49 0,45 1,58 0,6 2,34 1,13 1,26 -0,68 0,32 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 -0,68 0,74 -0,93 0,25 P6 1,49 1,71 2,55 1,26 0,46 P7 -0,16 -0,72 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 -0,94 0 0 -0,79 0,79 P10 0 0,59 0 0 0,59 SOMMA 0 0 8,473 0 0 DEVIAZIONE STD 1 1 0,877 0,847 0,531 VARIANZA 1 1 0,769 0,718 0,282 MEDIA 0 0 0,847 0 0 La varianza residua (o varianza dei residui) indica quella parte di varianza non spiegata dalla regressione, (attribuibile all’errore). 11 VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T PRODOTTI PREDIZIONE RESIDUO ZETA ZETA DI T P1 P2 P3 1,33 1,49 0,45 1,58 0,6 2,34 1,13 1,26 -0,68 0,32 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 -0,68 0,74 -0,93 0,25 P6 1,49 1,71 2,55 1,26 0,46 P7 -0,16 -0,72 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 -0,94 0 0 -0,79 0,79 P10 0 0,59 0 0 0,59 SOMMA 0 0 8,473 0 0 DEVIAZIONE STD 1 1 0,877 0,847 0,531 VARIANZA 1 1 0,769 0,718 0,282 MEDIA 0 0 0,847 0 0 La somma della varianza spiegata e della varianza residua è pari alla varianza totale del punteggio predetto. 12 VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T PRODOTTI PREDIZIONE RESIDUO ZETA ZETA DI T P1 P2 P3 1,33 1,49 0,45 1,58 0,6 2,34 1,13 1,26 -0,68 0,32 -0,86 -0,72 0,62 -0,73 0,01 P4 -0,94 -1,31 1,23 -0,79 -0,51 P5 -1,09 -0,68 0,74 -0,93 0,25 P6 1,49 1,71 2,55 1,26 0,46 P7 -0,16 -0,72 0,11 -0,13 -0,59 P8 -0,31 -0,9 0,28 -0,26 -0,64 P9 -0,94 0 0 -0,79 0,79 P10 0 0,59 0 0 0,59 SOMMA 0 0 8,473 0 0 DEVIAZIONE STD 1 1 0,877 0,847 0,531 VARIANZA 1 1 0,769 0,718 0,282 MEDIA 0 0 0,847 0 0 Correlazione 13 Notiamo che… La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione. La varianza residua (o varianza dei residui) indica quella parte di varianza non spiegata dalla regressione, (attribuibile all’errore). La somma della varianza spiegata e della varianza residua è pari alla varianza totale del punteggio predetto. 14 PROPRIETÀ DELLA REGRESSIONE I residui hanno media M = 0 La varianza dei predetti è uguale al coefficiente di determinazione: r2 La deviazione standard dei predetti è uguale al coefficiente di correlazione (in quanto radice quadrata della varianza) La varianza dei residui è pari al quadrato del coefficiente di alienazione: (1-r2) Il coefficiente di alienazione può essere definito anche come la radice di questo valore: √(1-r2). In questo caso rappresenterà la deviazione standard dei residui (e non la loro varianza) 15 La correlazione fra i residui e i predetti è nulla Per passare dai punti zeta ai punti grezzi Si può costruire o calcolare l’equazione di regressione usando i punti grezzi, senza passare per i punti standardizzati: yˆi zˆyi sy My Ottengo questa formula applicando la formula per passare dai punti zeta al punteggio grezzo: x=z·s+m dove: s = dev. std. m = media 16 PREDIZIONE CON MISURE SINTETICHE DI X E Y sy sy yˆi xi My - rxy Mx sx sx 17 ESEMPIO DI PREDIZIONE CON PUNTI GREZZI SOGGETTI TEST R TEST T P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 37 39 9 8 6 39 18 16 8 20 200 12,79 163,60 20,00 50 75 24 11 25 78 24 20 40 53 400 22,17 491,60 40,00 SOMMA DEVIAZIONE STD VARIANZA MEDIA COEFF ANGOLARE (m) 1,469 INTERCETTA (a) 10,632 0,847 CORRELAZIONE PRODOTTI R·T R2 T2 STIME RESIDUI 1850 2925 216 88 150 3042 432 320 320 1060 10403 1369 1521 81 64 36 1521 324 256 64 400 5636 2500 5625 576 121 625 6084 576 400 1600 2809 20916 64,97 67,91 23,84 22,37 19,44 67,91 37,06 34,12 22,37 40,00 400 18,79 352,96 40,00 -14,97 7,09 0,16 -11,37 5,56 10,09 -13,06 -14,12 17,63 13,00 0 11,77 138,64 0,00 18 RIASSUMENDO DALLA TABELLA Il soggetto p1 ha avuto punteggio 37 nel test R e 50 nel test T. Il test R è usato per predire il test T. Per predire il punteggio di p1 si utilizza l’equazione di regressione: T=R·m+a se m = 1.469 e a = 10.623 T= 37 ·1.469 +10.623= 64.97 La differenza fra il punteggio osservato e quello predetto è il residuo: 50-64,97 = -14,97 La varianza dei predetti (varianza spiegata) più la varianza dell’errore (varianza residua) è uguale alla varianza della variabile da predire. 19 Regressione con SPSS... Parte seconda Esame dei residui I RESIDUI Sono indipendenti dal predittore Costituiscono l’errore di predizione (o di stima) dell’equazione di regressione Hanno media uguale a 0 d.s. = sy · √(1-r2xy) (detta anche errore standard della stima) Si ipotizza che abbiano una distribuzione normale. Se sono distribuiti normalmente, possiamo applicare le tavole della curva normale, e stabilire che, per esempio: tra +- 1,64 errori standardizzati si trova il 90% degli errori di predizione 22 Perché si esaminano i residui? L’esame dei residui permette di: testare le capacità del test di predizione, per poterlo poi usare in situazioni reali, dove non si conosce il punteggio da predire. Valutare distribuzioni anomale, sbilanciate in una direzione o nell’altra, in alcune zone della distribuzione dei punteggi osservati piuttosto che in altre. L’esame dei residui è veramente proficuo nella regressione multipla 23 Valori notevoli della Normale Standard Norm(0;1) 0,6 0,5 0,4 0,3 68.26% ± 1 ds 0,2 90% ± 1,64 ds 0,1 0,0 95,45% ± 2 ds -3 -2 -1 0 95% ± 1,96 ds 1 2 3 24 DISTRIBUZIONE IPOTETICA DEI RESIDUI Il 90 % degli errori di predizione è compreso fra -19,3 e +19,3 25 Il 68 % degli errori di predizione è compreso fra -11,77 e + 11,77 (Il resto è più grande in valori assoluti) Rappresentazione grafica della predizione di due punteggi qualsiasi, p. es., 30 e 90, con le frequenze di possibili errori Asse dei punteggi 30 90 Le curve rappresentano la probabilità di trovare un punteggio predetto corrispondente ad un certo valore diverso dal punteggio osservato, oppure la probabilità che il punteggio reale sia un certo valore (diverso dal punteggio predetto). Per esempio, per quanto riguarda 30, è più probabile trovare punteggi predetti intorno a 30 che valori che si distanziano notevolmente dal valore osservato, ed è più probabile che, se il punteggio predetto è 30, il valore reale sia circa 30. 26 Stima e precisione della stima Il punteggio predetto 30 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 30-19.03 e 30+19.03, ossia fra 10.97 e 49.03 Il punteggio predetto 90 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 90-19.03 e 90+19.03, ossia fra 70.97 e 119.03 27 RIASSUMENDO La regressione statistica permette di stimare (o predire) il punteggio di un test (o di un’altra misurazione). Nella predizione del singolo caso non è mai possibile sapere se la predizione è esatta o molto sballata. Si può quantificare la predizione totale, fatta su tutti i casi (presenti e futuri): la quota di varianza spiegata (r2) è un utile indice per definire la precisione della predizione. 28 MECCANISMO DELLA PREDIZIONE O DELLA STIMA Per ogni individuo, l’equazione della regressione predice un valore di Y, indicato con Ŷ, simile ma non uguale al valore osservato Y La differenza fra Y e Ŷ è chiamata residuo, o errore Y sta vicino a Ŷ, con alta probabilità è molto vicino, con bassa probabilità è molto lontano dal valore vero Questa relazione è definibile con la curva gaussiana, con m = 0 e σ = err. stand. della stima Perciò, se non si può calcolare il punteggio reale, si può affermare che esso deve trovarsi con il 90 % (o altri livelli) di probabilità entro un certo intervallo calcolabile. 29