Cominciamo a “scavare” dentro un modello che (dovremmo) conoscere bene Il modello di regressione n individui su cui è misurata una variabile Y ad esempio l’acquisto di pane e vogliamo una misura sintetica, (“piccola” misura “modulus” MODELLO), che descrive il fenomeno “acquisto di pane Numerose possibilità di descrivere il collettivo, ad esempio la media Ma che modello è???? La misura individuale è data da: yi i Come costruiamo il modello? 1. immaginiamo che “IN ASSENZA DI VARIABILITA’” tutti acquisterebbero, ad esempio, lo stessa quantità di pane…che ovviamente non conosciamo. 2. Però poi osserviamo quantità diverse negli individui e giustifichiamo questa diversità immaginando (ipotizzando) un MODELLO per la parte variabile 3. POI sulla base di questa ipotesi (MODELLO) attribuiamo un valore alla quantità di pane che tutti acquisterebbero. Quali ipotesi? Le sapete, però definiamole in un altro modo rispetto all’usuale: 1. Tutti “hanno bisogno” di una certa fissa quantità di pane 2. Ma… al momento di comprare (o anche prima) ognuno si discosta da quella fissa quantità secondo una qualche “legge” 3. Cioè la tendenza comune si “manifesta” in modo variabile, se vogliamo quantificare la tendenza comune NON OSSERVABILE dobbiamo immaginare qualcosa sulla sua manifestazione, cioè sulla sua variabilità 4. Se il MODELLO che immaginiamo per la variabilità è vero, allora abbiamo un modo per arrivare alla quantità comune incognita Potremmo anche immaginarci la cosa in questo modo con riferimento alla vecchia TOMBOLA o alle estrazioni del LOTTO: 1. Ognuno “sa” quanto pane deve acquistare, però data questa quantità 2. quando deve comprare si porta dietro un sacchettino di numeri 3. Il sacchettino contiene numeri positivi e negativi 4. Al momento dell’acquisto ognuno estrae un numero dal sacchetto e somma algebricamente il numero estratto alla quantità fissa 5. Compra la quantità data dal risultato della somma/sottrazione ALLORA IL MODELLO DELLA VARIABILITA’ E’ L’INSIEME DI IPOTESI SULLA COMPOSIZIONE DEL SACCHETTO POICHE’ SI PARLA DI ESTRAZIONE SARANNO IPOTESI SULLA DISTRIBUZIONE STOCASTICA CHE ORIGINA DAL SACCHETTO Usualmente nel nostro linguaggio parliamo di “RESIDUI” come la differenza tra la quantità comune fissa e l’acquisto effettivo e ipotizziamo che: 1. 2. 3. 4. Il parametro di popolazione sia “fisso” e comune” I residui abbiano media 0 Siano omoschedastici Siano incorrelati Vediamo cosa significa questo nei termini del “sacchetto” D’ora in poi chiamerò “tombolino” ciascun numero contenuto nel sacchetto Comincio dal 2: I residui hanno media 0 implica che la somma dei tombolini sia pari a 0 qualunque sia il numero degli stessi Quindi questi sacchetti vanno bene: -1 -2 -3 +3 +2 -4 -8 -12 +12 +8 +1 +4 0 0 Ma anche questo che, forse, ci piace meno….. - 15 +5 +4 +3 +3 0 0 +20 -1 +3 0 0 Questo NO! - 15 +5 0 0 1. I residui hanno media 0 Che vuol dire??? Ricordate l’esempio della legge dei grandi numeri) • Vuol dire che se ti osservo “tante” volte quando acquisti il pane la media dei tuoi acquisti è il tuo “fabbisogno” di pane Oppure SE è vera la ipotesi 1 (parametro fisso e comune): • Se osservo tanti “come te” (stessa popolazione) che acquistano il pane la media degli acquisti di tutti è il fabbisogno di pane comune a quella popolazione ABBIAMO GIA’ UN MODO PER CALCOLARE ! TUTTO FATTO? TUTTO RISOLTO? ….. MICA TANTO Facciamo un esempio: 3 soggetti (A;B;C) tutti con lo stesso sacchetto con i seguenti “tombolini” -1 0 +1 Se osserviamo un atto di acquisto, le combinazioni possibili sono e la somma delle deviazioni sarà: A B C 0 0 0 0 1 -1 0 0 0 0 0 1 0 1 1 0 -1 1 0 0 0 0 1 -1 -1 -1 -1 1 0 0 1 1 0 1 -1 0 1 0 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 1 -1 -1 -1 0 0 0 1 1 1 -1 -1 -1 TOT 0 1 -1 1 2 0 -1 1 2 0 2 3 1 0 -2 0 1 -1 -1 0 -2 0 1 -1 -2 -1 -3 8 Cioè la somma = 0 che consente il calcolo corretto della media è la più frequente 7 volte su 27 occasioni Numero di casi 7 6 5 4 3 2 1 0 -3 -2 -1 0 Somma 1 2 3 Ma se immaginiamo un signor C più “stravagante” … -1 Cioè A=B= 0 +1 e C= -5 0 +5 le combinazioni possibili diventano: A B C 0 0 0 0 0 1 -1 0 0 0 0 1 TOT 0 1 -1 1 0 0 0 0 0 5 1 -1 0 1 -1 0 1 1 -1 -1 -1 0 5 5 5 1 -1 0 0 0 1 5 5 5 5 5 -5 -5 -5 -5 -5 1 -1 0 1 -1 0 1 -1 0 1 1 1 -1 -1 -1 0 0 0 1 1 2 6 7 0 -1 0 -2 5 4 6 5 4 -4 -3 5 3 -5 -4 -6 -4 -3 Ora la somma = 0 Non è più la sola più probabile Abbiamo la stessa prob. di calcolare la media “vera” O una media sbagliata di + o – 3 punti Numero di casi 4 3 2 1 0 -7 -6 -5 -2 -1 0 1 Somma 2 3 4 5 6 7 Quindi il modello funziona se la “composizione del sacchetto, oltre ad avere media = 0 E’ anche “simile” cioè ha la stessa varianza o come si dice con una bella parola è OMOSCHEDASTICA Cioè se è vera la terza ipotesi E l’INCORRELAZIONE?? Nella nostra metafora significa che i tre signori estraggono indipendentemente, cioè non si fanno influenzare Se ad esempio il Sig. B “copia” da A, cioè B non estrae, ma usa il tombolino di A succede quanto segue: a 0 0 0 1 1 1 -1 -1 -1 b 0 0 0 1 1 1 -1 -1 -1 c 0 1 -1 0 1 -1 0 1 -1 somma 0 1 -1 2 3 1 -2 -1 -3 Qui è ancora peggio: I valori più probabili sono “sbagliati” numero di casi 3 2 1 0 -3 -2 -1 0 somma 1 2 3 In sintesi OLS è un modello piuttosto particolare, spesso non abbiamo alternative ad accettare quelle ipotesi, tuttavia dobbiamo essere coscienti della loro particolarità. Se consideriamo la prima “il parametro è fisso e comune” spesso ce la caviamo sostenendo che se così NON è allora la popolazione è eterogenea, cioè non è un collettivo, ci sono degli “infiltrati” Peraltro, tutti o i test che verificano/falsificano questa ipotesi si basano proprio sulla assunzione che vorremmo verificare. (ci torneremo) In pratica cerchiamo di attenuare questo problema scegliendo un algoritmo di stima che garantisce che i RESIDUI OSSERVATI (uno per ogni unità, non quelli di CIASCUNA UNITA’) abbiano somma 0 Per quanto riguarda l’ipotesi di omoschedasticità e incorrelazione la diagnosi è difficilissima, ma una volta riconosciuto il tipo di malattia, la terapia è facile Ci occuperemo della terapia tra poco, ma la cosa da tenere a mente è che ci sono (molte) situazioni in cui sappiamo già da prima che la malattia c’è, cioè che il modo in cui le unità si comportano o si “fanno” osservare implica una diversa variabilità individuale e/o una correlazione tra le osservazioni In questi casi la malattia non si può ignorare MA RIPASSIAMO UN MOMENTO GLI OLS n individui su cui è misurata una variabile Y Numerose possibilità di descrivere il collettivo, ad esempio la MEDIA Ma che modello è???? La misura individuale è data da: yi i Per trovare un “buon valore” dobbiamo porre delle condizioni ad esempio: Min S ( ) i yi cioè 2 2 Min S ( ) ( yi2 2 2yi ) yi2 n 2 2 yi derivando S ( ) 2 yi 2n 0 ˆ a 2 yi 2n y n i a è una stima che proprietà ha?: yi 1 y a y y n i i i n i n yi 0 n i yi i E a E E E n n n 1 i 1 n i 1 yi V (a ) n n n n n n 2 1 i i n n n 2 2 2 Il residuo è la “parte” stocastica della stime e quindi del modello. 2 Ma c’è un altro modo di vedere la stima: la misura individuale è data da una parte costante + parte stocastica. Se ricordiamo OLS, avremmo una esplicativa costante + residui yi xi i con xi 1, i Per il collettivo (con X,Y, vettori/matrici): Y X y1 Y y2 y3 1 X 1 1 X ' 1 1 1 Cerchiamo una stima a per : sappiamo che in forma matriciale la soluzione che abbiamo trovato prima diventa: ˆ a ( X ' X ) 1 X ' Y 1 1 1 X ' X 1 1 11 1 1 1 3 ( X ' X ) 3 1 y1 3 X ' Y 1 1 1 y2 yi y3 i 1 3 3 1 1 a ( X ' X ) X ' Y yi 3 i 1 y i 1 3 i ˆ a X ' X X ' Y 1 Ma si tratta di un caso particolare di una soluzione GENERALE posto lo stesso vincolo di minimizzazione Min(’ ), nel caso di eteroschedasticità si ottiene (torneremo sulla dimostrazione) 1 1 1 ˆ a (X ' X ) X ' Y con = matrice di Var/Covar degli È esattamente la rappresentazione dei nostri “tombolini” Rappresenta (misura) tutta la nostra incertezza (variabilità e covariabilità) sulle misurazioni singole Ha dimensione nxn Sulla diagonale principale ha l’incertezza sulla misura del singolo individuo (ad esempio l’imprecisione del metro con cui abbiamo misurato Tizio) Fuori dalla diagonale ha la misura della correlazione tra gli errori delle misure tra diversi individui (Ad esempio abbiamo misurato Tizio e Caio con lo stesso metro “sbagliato”) Di solito (ad esempio OLS) non si “vede”….perchè???? Ricordiamo che la soluzione OLS è 1 ˆ b X ' X X 'Y Perché OLS, è un caso particolare: Se è diagonale (tutti e soli valori uguali sulla diagonale), allora diventa uno scalare e si può “semplificare”: E’ una “regola” dell’algebra matriciale, ma vediamola con un esempio: 3 individui su cui abbiamo misurato una variabile Y, con un errore S², senza lacuna relazione tra gli errori per individui diversi: y1 Y y2 y3 1 s2 1 0 0 1 X 1 1 0 1 s2 0 0 0 1 s 2 X ' 1 1 1 s 2 0 0 0 s2 0 0 0 s 2 ˆ a ( X ' 1 X ) 1 X ' 1Y 1 1 X ' 2 s 1 s2 1 s 2 2 s ( X ' 1 X ) 1 3 3 1 X ' X 2 s 3 1 X ' Y 2 s 1 1 s2 y1 yi 1 i 1 y 2 2 2 s s y3 3 2 s 1 1 1 a (X ' X ) X ' Y 3 OPLA’! Media aritmetica! 3 y y i 1 s2 i i 1 i 3 , cioè la “raccolta” degli S², è svanito! Va sempre tutto così liscio????? Mica tanto… Immaginiamo che le 3 misure derivino da 3 campioni casuali semplici, come sappiamo l’errore è direttamente proporzionale alla variabilità (per ora supponiamo uguale per tutti) delle singole misure e inversamente proporzionale alla numerosità del campione: (naturalmente se i tre campioni hanno numerosità uguale, siamo nel caso di prima), ma se così non è………. y1 Y y2 y3 n1 s2 1 0 0 1 X 1 1 0 n2 s2 0 0 0 n3 s 2 X ' 1 1 1 s2 n1 0 0 0 s2 n2 0 0 0 2 s n3 ˆ a ( X ' 1 X ) 1 X ' 1Y 3 n1 1 X ' 2 s n2 s2 n3 s 2 n X ' 1 X i 1 i ( X ' 1 X ) 1 s2 s2 3 n i 1 n1 1 X ' Y 2 s n2 s2 y1 n3 y 2 2 s y3 3 n y i i 1 i s2 3 a ( X ' 1 X ) 1 X ' 1Y s OPPPSS! n y n y 2 i 1 3 n i 1 3 i Media “PONDERATA”! i s2 i i 1 3 i i n i 1 i , non scompare del tutto i Adesso abbiamo imparato il trucco: Cosa succede se gli errori sono diversi? s 0 0 2 1 0 2 2 s 0 0 0 s32 1 2 s1 1 0 0 0 1 s22 0 0 0 1 2 s3 1 1 X ' 2 s1 1 s22 1 2 s3 2 2 2 2 2 2 s s s s s 1 1 s2 1 3 2 3 X ' X s12 s22 s32 2 2 2 s 1 1 1 s2 s3 (X ' X ) 2 2 2 2 2 2 s2 s3 s1 s3 s1 s2 2 2 2 2 2 2 s y s s y s s y y y y 1 3 1 s2 2 1 3 1 2 3 3 2 1 X ' Y 2 2 2 s12 s22 s32 s1 s2 s3 y1s22 s32 y2 s12 s32 y3 s12 s22 s12 s22 s32 a 2 2 2 2 2 2 2 2 2 s1 s2 s3 s2 s3 s1 s3 s1 s2 2 s y i j i j i 2 i s i UHMMM! Una Media “PONDERATA” Strana ! , non scompare proprio per niente!!!!! E se c’è correlazione? Dipende… a volte niente s r r 2 1 3 r s22 r r yi r a i 1 3 2 s3 A volte molto (notate la semplificazione S=1) 1 r 0 (r 1)( y1 2 y2 y3 ) r 1 r a 4r 3 0 r 1 Ogni y viene moltiplicato per il numero di correlazioni 0, 4 è il numero totale di r 0, 3 è il numero di individui……. UHMM le cose si complicano....... n individui su cui sono misurate Y (nx1) = 1 variabile dipendente X (nxk)=K esplicative Il modello che descrive il comportamento dell’individuo: k yi p xip i p 1 E del collettivo: Y X Cerchiamo una stima b per Distinguiamo il modello “vero” dalla stima: Y X " vero" Y Xb e " stima" Per stimare dobbiamo fissare un criterio: Min S ( ) i yi p xip 2 2 cioè Min S ( ) Y X ' Y X Y ' Y 2Y ' X ' X ' X derivando S ( ) 2Y ' X 2 X ' X 0 ˆ b X ' X 1 X ' Y Questo implica una ipotesi sul rango della X che deve essere = k Cioè le esplicative non possono essere tra loro dipendenti Consideriamo un modello semplice: i=1,…,5 n=5 individui yi xi i 1 1 X 1 1 1 x1 x2 x3 x4 x5 y1 y 2 Y y3 y4 y5 yi X 'Y xi yi 2 x xi 1 1 i X ' X 2 5 5 xi 2 xi xi 5 X'X xi X ' X 1 X 'Y x x i 2 i Alcune implicazioni: 1 Yˆ X X X ' X X ' Y PY con P X X ' X X ' allora e Y Yˆ Y PY ( I P)Y MY Yˆ e ortogonali 1 Yˆ ' e Y ' P ( I P )Y Y ' PY Y ' PY 0 ma anche X ' e X ' ( I P )Y X ' Y X ' X ( X ' X ) 1 X ' Y X ' Y X ' Y 0 Ma la prima colonna di X è una colonna di 1, moltiplicata per e diventa la somma dei residui, quindi: e i 0 ipotesi iniziale !! B è una stima che proprietà ha?: b X ' X X ' Y X ' X X ' ( X ) X ' X X ' 1 1 1 b X ' X X ' allora 1 E b / X X ' X X ' E ( ) 1 essendo E ( ) 0 per ipotesi V (b / X ) E b ' b X ' X X ' E ' X X ' X 1 E ' X ' X 2 X ' X 1 1 Questo implica X non stocastiche e omoschedasticità 1 Riassumendo: ipotesi per OLS 1. Modello lineare 2. X e Y sono frutto di osservazioni indipendenti 3. X è di rango pieno 4. I residui hanno media = 0 5. I residui sono omoschedastici 6. X e non-stocastica 7. (non indispensabile) i residui hanno distribuzione normale Un esempio: 1 X 1 1 x1 x2 x3 1 X'X x1 X ' X 1 y1 Y y 2 y3 1 x2 1 1 1 x3 1 x1 3 x2 xi x3 x x xi2 xi xi 3 1 3 xi2 xi 2 i 2 i Attenzione al denominatore 3 x xi 3 xi2 3 x 3 xi2 9 x 2 2 2 i 2 ma x 2 i 3 x 2 x 3 xi2 9 x 2 3 x X ' X 1 2 1 xi 3 x xi xi 3 1 X 'Y x1 1 x2 B X ' X 1 y1 1 yi y2 x y x3 y3 i i 2 1 xi X 'Y 3 x xi xi yi 3 xi yi 2 1 xi yi xi xi yi 3 x 3 xi yi xi yi 2 3 y x 1 i 3 x xi yi 3 x 3 xi yi 9 x y Consideriamo la seconda riga: b2 1 3 x 3 x y 9 xy i i ma 3 xi yi 9 x y 3 xy quindi xy b2 x Sistemiamo la prima riga della matrice b1 y xi2 x xi yi x y ( x 3 x 2 ) x ( xy 3 x y ) x y x 3 x 2 y x xy 3 x 2 y ) x xy y x b2 b1 y x x un modello molto(!) semplice (2 osservazioni) Y OLS 1 1 1 1 X ' X 1 1 2 2 1 y1 X ' Y 1 1 yi y2 1 y b 2 i media OLS Caso particolare di un algoritmo più generale (vedremo in seguito) Matrice Varianza/covarianza degli 1 1 b (X ' X )X ' Y * ESEMPIO DI CALCOLO