La definizione di modello Lo scopo della costruzione di un modello consiste nel tentativo di spiegare in termini quantitativi, verificare, prevedere, controllare la relazione che intercorre tra le variabili rappresentate formalmente nel modello. 1 2 Specificazione del modello Vengono formalizzate in termini matematico-statistici le ipotesi riguardanti gli aspetti teorici del fenomeno da analizzare e le relative implicazioni. La formalizzazione del modello in termini matematicostatistici consiste nel porre sotto forma di equazioni le ipotesi di relazioni che intercorrono tra una o più variabili da spiegare e più variabili esplicative. Le variabili da spiegare prendono il nome di variabili endogene (o dipendenti) ed il loro numero coincide con le equazioni del modello, mentre le variabili esplicative sono denominate esogene (o indipendenti). 3 Se la vera relazione tra le variabili in esame fosse conosciuta con esattezza, il ricercatore sarebbe nella condizione di comprendere, prevedere e controllare perfettamente la variazione della variabile dipendente alle modifiche delle variabili indipendenti. Ciò in pratica accede di rado, perché non sempre si conoscono tutte le variabili esplicative rilevanti, inoltre alcune possono non essere misurabili o esserlo con errore, oppure può non essere nota la forma funzionale della relazione. 4 Identificazione e stima Viene trattato il problema della quantificazione delle relazioni tramite la stima dei coefficienti delle variabili esplicative. 5 Verifica Comprende l'applicazione di una serie di criteri (test statistici) intesi a valutare: la coerenza fra specificazione adottata e dati osservati, la capacità predittiva, l'idoneità del modello in ambito decisionale. Se il modello non supera uno o più criteri di verifica, è necessario ritornare alla fase del procedimento in cui si ritiene si origini l'inconveniente e naturalmente intervenire nella maniera più adeguata al fine di realizzare le condizioni di superamento dei test. 6 Utilizzo Con tre sbocchi ben distinti: descrittivo, in cui vengono evidenziate le relazioni del modello; predittivo, per ottenere dei valori estrapolati; normativo, in cui la validità del modello è utilizzata allo scopo di ottenere e valutare decisioni alternative susseguenti a diversi valori delle variabili. 7 Il MODELLO DI REGRESSIONE LINEARE MULTIPLA La regressione lineare multipla è una tecnica di analisi statistica multivariata che ha lo scopo di individuare la relazione esistente tra una variabile dipendente e un insieme di variabili indipendenti. Nella sua forma generale, nel modello di regressione lineare multipla una variabile Y (variabile dipendente o endogena) è ipotizzata dipendere in modo lineare, tramite un insieme di parametri, b, da un insieme di k variabili X (variabili indipendenti o esplicative o regressori). 8 Yi=b0+b1X1i+b2X2i+b3X3i+…+bkXki+ei I coefficienti del modello di regressione misurano la variazione della variabile dipendente Y in corrispondenza della variazione di una delle variabili esplicative, quando si tengono costanti le altre. Componente stocastica del modello 9 Modello senza errore Modello con errore Distanza tra il valore osservato e la retta 10 Esempio Una catena di negozi alimentari vuole introdurre una barretta energetica di basso prezzo. Le vendite delle barrette energetiche sono esplose negli ultimi anni e il grande magazzino ritiene che vi possa essere un buon mercato per il suo nuovo prodotto. Prima di introdurre la barretta in tutti i magazzini, la divisione di marketing della catena intende stabilire l’effetto che il prezzo e le promozioni all’interno dei negozi possono avere sulle vendite. 11 Viene selezionato un campione di 34 negozi, i quali presentano tutti approssimativamente il medesimo volume di vendite, e si prendono in considerazione due variabili indipendenti: il prezzo del nuovo prodotto (X1) e la spesa mensile per le attività promozionali (X2). La variabile dipendente (Yi) è il numero di barrette del nuovo prodotto vendute in un mese. Yi =b0+b1X1i+b2X2i+ei 12 Negozio Vendite Prezzo Promozione Negozio Vendite Prezzo Promozione 1 4141 59 200 18 2730 79 400 2 3842 59 200 19 2618 79 400 3 3056 59 200 20 4421 79 400 4 3519 59 200 21 4113 79 600 5 4226 59 400 22 3746 79 600 6 4630 59 400 23 3532 79 600 7 3507 59 400 24 3825 79 600 8 3754 59 400 25 1096 99 200 9 5000 59 600 26 761 99 200 10 5120 59 600 27 2088 99 200 11 4011 59 600 28 820 99 200 12 5015 59 600 29 2114 99 400 13 1916 79 200 30 1882 99 400 14 675 79 200 31 2159 99 400 15 3636 79 200 32 1602 99 400 16 3224 79 200 33 3354 99 600 17 2295 79 400 34 2927 99 600 13 Ŷi=5.83752-53.2173X1i+3.6131X2i+ei 5.83752 è il numero di barrette che ci si aspetterebbe di vendere ogni mese se prezzo e ammontare delle spese promozionali fossero entrambi pari a 0. -53.2173 indica che, dato un ammontare della spesa promozionale, si dovrebbero vendere 53.21 barrette in meno per ogni centesimo di aumento del prezzo +3.6131 indica che, per un dato prezzo, si dovrebbero vendere 3.61 barrette in più per ogni centesimo speso in più in attività promozionali 14 Tali stime permettono alla divisione di marketing di prevedere l’effetto che eventuali decisioni in merito al prezzo e all’attività promozionale possono avere sulle vendite della barretta energetica. Nell’esempio si ritiene che per un dato ammontare della spesa promozionale, una riduzione di 10 centesimi del prezzo aumenterebbe le vendite di 532.17 barrette. Invece, per un dato prezzo, un aumento delle spese promozionali pari a 100 determinerebbe un aumento del numero di barrette vendute pari a 361.31. 15 Modello in forma compatta y=Xb+e (n,1) y1 y2 y3 … yn (n,1) = x11 x21 x31 … xn1 x12 x22 x32 … xn2 (n,k) (n,k)(k,1) … … … xij … x1k x2k x3k … xnk b1 b2 … bk (k,1) (n,1) + e1 e2 e3 … en (n,1) 16 Matrice varianza e covarianza A B C D A s2 A covA,B covA,C … B … s2 B C D E F G covB,C … s2 C … E F G … … covC,D … … s2 D … … s2 E … s2 F … … … s2 G 17 La varianza è data da: N s 2 X (x i i 1 ) 2 N La covarianza è data da: N Cov( X , Y ) (x )( y i 1 i X i Y ) N 18 Caratteristiche della matrice varianza e covarianza La matrice varianza-covarianza: - si calcola direttamente dalla matrice di dati iniziale; - le righe e le colonne corrispondono alle variabili esaminate; - sulla diagonale principale si hanno le varianze delle variabili esaminate e al di fuori le covarianze; - è simmetrica. 19 Il coefficiente di correlazione lineare La covarianza è un indice assoluto: cioè permette di identificare la presenza di un legame tra due variabili, ma nulla dice sul grado del legame. Pertanto è opportuno considerare un indice relativo: coefficiente di correlazione lineare rxy Cov( X , Y ) s Xs Y Varia tra –1 e 1 20 Matrice di correlazione A A 1 B C D… E F G B C D E F corA,B corA,C … 1 corB,C … 1 G … … corC,D … … 1 … … 1 … 1 … … … 1 21 Ipotesi alla base del modello Linearità del modello Non sistematicità della componente erratica E(e t) = 0 Non sfericità degli errori: s2 E (et e ) = 0 per t = per t Non stocasticità delle variabili esplicative, ossia i relativi valori sono fissi e non casuali Non collinearità delle variabili esplicative Numerosità N delle osservazioni deve risultare di gran lunga superiore al numero k delle variabili esplicative. 22 Selezione delle variabili da includere nel modello Le variabili che possono descrivere un fenomeno sono molto numerose e possono essere correlate tra loro. Pertanto alcune possono essere rimosse dal modello perché non necessarie alla descrizione del fenomeno. Il problema della scelta delle variabili è molto delicato, perché bisogna cercare di includere nel modello soltanto quelle variabili la cui variazione apporta un contributo reale alla variazione della variabile dipendente. 23 Per vedere quali variabili inserire nel modello, si possono seguire vari metodi, tra cui i principali sono: procedura in avanti (forward selection) procedura all'indietro (backward selection) procedura passo a passo (stepwise regression) 24 Procedura forward Si parte dal modello con nessuna variabile esplicativa e si include per prima la variabile esplicativa con il più elevato coefficiente di correlazione con la variabile dipendente. Se il coefficiente di correlazione di questa variabile è significativamente diverso da zero, essa viene introdotta nel modello e si passa alla ricerca della seconda variabile. La significatività dei coefficienti è verificata con il test t. t r (m 2) 1 r2 2 25 La seconda variabile da introdurre è quella che presenta il più elevato coefficiente di correlazione parziale con la variabile dipendente. Se il coefficiente è significativo, la variabile viene introdotta nel modello, altrimenti il procedimento ha fine. La significatività del coefficiente viene testata con il test F. DevR F DevE Il procedimento termina quando o tutte le variabili sono incluse nel modello o quando sono esaurite le variabili esplicative con coefficiente di correlazione significativo. 26 Procedura backward Si parte dal considerare il modello con tutte le m variabili esplicative e poi si procede all'eliminazione di una variabile alla volta. Si calcola la significatività di tutti i coefficienti di regressione con il test t e, tra tutti quelli non significativi, si scarta la variabile che ha il coefficiente meno significativo. bi b i t sbi Si ricalcola la funzione di regressione con le variabili rimaste e si ripete la procedura, finché non si trova una funzione di regressione in cui tutti i coefficienti delle variabili sono significativi. 27 Procedura stepwise È una combinazione delle due precedenti. Si controlla ogni volta la significatività di tutti i coefficienti di regressione parziale, perché l’aggiunta di una nuova variabile nel modello può rendere non significativo il coefficiente di regressione parziale di una variabile già scelta, a causa di un’alta correlazione tra esse. 28 I parametri Nel modello di regressione lineare multipla, intervengono: o una parte empirica relativa alle determinazioni della variabile dipendente e dell'insieme delle variabili esplicative, la quale può essere considerata come un campione di osservazioni della realtà; o una parte non osservabile (incognita) costituita dal vettore dei coefficienti b delle variabili esplicative, dal vettore e della componente erratica e dal vettore diagonale s2 della matrice varianze e covarianze di e. 29 Per la determinazione, tramite procedimenti di stima, dei valori numerici da attribuire ai parametri incogniti (b,e,s2), si assume di disporre di un campione di n osservazioni relative alla variabile dipendente y e alle variabili esplicative X. Il modello campionario diventa: y=Xb+e 30 Stima dei parametri incogniti metodi fondati sulla nozione di efficienza; metodi basati su criteri di accostamento; metodi di natura probabilistica basati sulla nozione di verosimiglianza. 31 Metodi basati sulla nozione di efficienza Essi ricercano uno stimatore efficiente con un problema matematico di minimo condizionato, in cui la funzione obiettivo è rappresentata dalla varianza dello stimatore e il vincolo dalla condizione di correttezza cui lo stimatore deve soddisfare. 32 Metodo dei minimi quadrati - Stima di b E’ basato sulla minimizzazione del quadrato dei residui e quindi su un buon accostamento fra valori effettivi y e valori teorici Xb. y residui e y yˆ ŷ e 33 Si tratta di minimizzare la quantità : min (e'e)= (y-Xb)'(y-Xb)= =y’y+b’X’Xb-y’Xb-b’X’y= =y’y+b’X’Xb-2b’X’y Derivando rispetto a b e uguagliando a zero la derivata Da cui (e' e ) 2X' Xb 2X' y 0 b b = ( X'X)-1 X'y Stimatore dei minimi quadrati del parametro b. 34 - Stima del vettore e e= y - Xb Disponendo di uno stimatore soddisfacente di b, lo si può sostituire al secondo membro e si ha: e= y - X b e = y - X (X'X)-1 X' y e = (I - X (X'X)-1 X') y e è uno stimatore del vettore e. 35 - Stima della varianza della componente erratica Pur non conoscendo il vettore e, si dispone di un suo stimatore efficiente rappresentato dal vettore dei residui e, per cui si formula il problema di stima in termini di e: 1 ' 1 s e e ( y Xb)' ( y Xb) n n 2 36 Il precedente non è uno stimatore corretto, mentre: 1 1 s e' e ( y Xb )' ( y Xb ) nk nk 2 È uno stimatore corretto. 37 Metodo della massima verosimiglianza Se la specificazione del modello postula che le componenti stocastiche di disturbo siano indipendenti ed identicamente distribuite sotto la forma della distribuzione normale, il modello si trasforma in: y=Xb+e e ~ N (0, s2 I) 38 Varianza della e 2 s (e) 0 … 0 2 2 E(e2e1) E(e2 ) … E(e2em) 0 s (e) … 0 E(ee) = … … … … = … … … … = 2 2 E(eme1) E(eme2) … E(em ) 0 0 … s (e) 2 E(e1 ) E(e1e2) … E(e1em) 2 s (e) I 39 -Stima di b Si tratta di dare forma alla densità di probabilità data da: Avendo y la stessa distribuzione di probabilità di e (in quanto y=xb+e) si ha: 1 p( e ) ( 2 s2 ) p( y ) 1 n (2s 2 ) 2 n 2 e e 'e 2s2 ( y Xb )'( y Xb ) e 2s 2 funzione di verosimiglianza 40 Con il modello campionario le due precedenti funzioni diventano: p (e) p( y ) 1 n (2s 2 ) 2 1 n (2s 2 ) 2 e e e' e 2s 2 ( y Xb)'( y Xb) 2s 2 41 Applicando ad entrambi i membri della funzione i logaritmi: ( n n y Xb )' ( y Xb) 2 log p( y ) log 2 log s 2 2 2s 2 Derivando la funzione rispetto a b si ha: da cui p 2 ( X ' y X ' Xb) 0 b 2s 2 b= (X'X)-1 X' y che è lo stimatore di massima verosimiglianza di b. 42 - Stima di s2 Derivando la funzione di verosimiglianza campionaria rispetto a s2 si ha: Da cui: ( y Xb)' ( y Xb) n n log p( y ) log 2 log s 2 2 2 2s 2 p n ( y Xb )' ( y Xb) 2 0 2 4 s 2s 2s ns 2 ( y Xb)' ( y Xb) 0 4 2s 1 s ( y Xb)' ( y Xb) n 2 stimatore di massima verosimiglianza di σ2. 43 Tale stimatore non è però corretto, per cui occorre n introdurre un fattore di correzione dato da: nk La stima corretta è data da: 1 n s ( y Xb )' ( y Xb ) n nk 2 Ovvero 1 ( y Xb)' ( y Xb) s nk 2 stimatore corretto di σ2. 44 La verifica della validità del modello Nella fase di verifica sono utilizzati una serie di criteri o di test statistici allo scopo di valutare la coerenza tra il modello formulato ed i risultati forniti dal campione di dati osservati. In effetti, si vuole verificare la validità delle variabili esplicative, considerate nel loro insieme, a spiegare le variazioni della variabile dipendente. 45 Successivamente, per verificare la capacità predittiva del modello, viene testato l'apporto della singola variabile esplicativa alla variabilità di quella dipendente. I due approcci che in genere sono seguiti fanno riferimento ai criteri utilizzati per la stima dei parametri del modello. 46 Nel caso si ignori il tipo di distribuzione della componente erratica i criteri si basano sulla nozione di accostamento tramite il coefficiente di determinazione R2 dev. Re gr. dev. Re s. R 1 dev.Tot . dev.Tot . 2 misura l'incidenza della variabilità spiegata dal complesso di variabili esplicative sulla variabilità totale della variabile dipendente. Tale indice può assumere un valore tra 0 e 1. 47 (y y) 2 i . i Devianza totale . . . . . . . . . . . . Retta di regressione . 2 ˆ ( ) y y . .i i Dev. residua . . 2 ˆ ( yi y ) i Dev. regressione Valore medio 48 All’aumentare del numero di variabili esplicative, aumenta anche il valore di R2, per cui spesso è utilizzato al suo posto il coefficiente di determinazione corretto, dato da: Rc2 n 1 1 (1 R ) nk 2 dove n è il numero di osservazioni campionarie e k il numero di variabili esplicative del modello. 49 Il coefficiente di determinazione varia tra 0 e 1. Valori prossimo a 1 (superiori a 0,80) indicano una buona coerenza tra modello e dati osservati. Il coefficiente di determinazione corretto può assumere anche valori negativi e ciò si verifica quando R2 <(k-1)/(n-1). 50 L’apporto di una singola variabile esplicativa alla variazione della variabile dipendente viene misurato facendo ricorso al coefficiente di determinazione parziale, dato dal rapporto tra la devianza parziale di regressione tra la variabile in esame e la variabile dipendente: al netto delle altre variabili, rapportata alla devianza di regressione. 51 Test statistici Nel caso sia nota la distribuzione di probabilità della componente erratica, per verificare la validità del modello è possibile far ricorso ad un insieme di test. 52 Test F Il test è utilizzato per valutare la significatività del modello, considerando congiuntamente le variabili esplicative. 53 Ipotesi nulla Ho : b1=b2=...=bk=0 non vi è relazione lineare tra la variabile dipendente e le variabili esplicative; Ipotesi alternativa H1 :b1,b2 ... bk 0 almeno uno dei coefficienti di regressione è diverso da zero. 54 Tramite un’analisi della varianza si ricavano i valori delle due varianze da sottoporre al test F, cioè: var.Re gr. F var. Err. Il valore empirico F viene confrontato con il valore teorico F* con (k, n-k) gradi di libertà rilevato dalle tavola F in relazione ad un prefissato livello di significatività. 55 Se F > F* si rigetta l'ipotesi nulla Se F < F* si accetta l'ipotesi nulla F di Fisher F* F* Zona di accettazione Valore critico p-level Fcalc Zona di rifiuto 56 Test t Per verificare l'apporto delle singole variabili esplicative alla variabilità di quella dipendente, si sottopone a test la significatività della relazione tra una qualsiasi variabile esplicativa, si supponga la i-ma, e la variabile dipendente. 57 Ipotesi nulla Ho:bi=0 Ipotesi alternativa H1:bi 0 Il test utilizzato è la t di Student bi t sbi bi è la stima del coefficiente di regressione sbi è l'errore standard di bi e misura la variabilità dei valori teorici della variabile dipendente ottenuti considerando la i-ma variabile esplicativa. 58 Il valore di t empirico è confrontato con quello teorico t* rilevato in corrispondenza di (n-k) gradi di libertà ed in base ad un prefissato livello di significatività. Se t > t* si rigetta l'ipotesi nulla Se t < t* si accetta l'ipotesi nulla Valore critico Valore critico 0 -3 0 -ta/ 2 Zona di rifiuto 0 zona di accettazione ta/ 2 3 Zona di rifiuto 59 La non sistematicità della componente erratica L'ipotesi di non sistematicità degli errori: E(ei) = 0 è facilmente superabile in quanto aumentando la numerosità n del campione, per il teorema del limite centrale, essa sarà soddisfatta. 60 Esempio Supponiamo di voler analizzare la relazione tra il consumo ad un certo tempo, il reddito allo stesso tempo, il reddito al temo anteriore e il consumo al tempo anteriore. Supponiamo di avere la seguente serie storica di dati relativi al pil e al consumo: 61 ANNI 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 Ct 14682,05 14836,67 14930,54 15267,05 15740,73 16011,72 16591,20 17173,07 17688,11 18059,65 18353,78 18933,31 18554,02 18846,34 19071,55 19134,56 Rt 18687,92 18731,00 18892,91 19320,85 19816,29 20341,77 10935,43 21704,76 22295,51 11730,00 22945,59 23403,62 23060,74 23508,20 24171,57 24284,72 Rt-1 18624,48 18687,92 18731,00 18892,91 19320,85 19816,29 20341,77 10935,43 21704,76 22295,51 11730,00 22945,59 23403,62 23060,74 23508,20 24171,57 Ct-1 14405,14 14682,05 14836,67 14930,54 15267,05 15740,73 16011,72 16591,20 17173,07 17688,11 18059,65 18353,78 18933,31 18554,02 18846,34 19071,55 62 L’obiettivo è quello di individuare la relazione che intercorre tra i consumi al tempo t, scelti come variabile dipendente, e le rimanenti variabili prese o singolarmente o tutte insieme, scelte come indipendenti: Ct=b0+b1Ct-1+b2Rt+b3Rt-1 63 Il programma utilizzato per l’elaborazione dei dati è il software statistico SPSS. Dopo aver inserito i dati, il programma prevede diverse opzioni i cui valori, per alcune, sono già inseriti per default, ma che l’utilizzatore del programma può modificare qualora le esigenze e gli obiettivi dell’analisi lo richiedano, per altre occorre inserire i valori appositamente. Tra le procedure di selezione delle variabili è stata scelta quella stepwise. Tale procedura identifica tra le tre variabili considerate il consumo al tempo t-1 come quella maggiormente correlata ai consumi attuali. Quindi viene scelta come prima variabile da inserire nel modello. 64 Modello Variabili inserite 1 Cons t-1 Variabili rimosse Metodo Per passi (criteri: probabilità di F di inserimento <=,050 Probabilità di F di rimozione>=,1 00) 65 Per tale variabile viene calcolata la significatività statistica attraverso il test F, sulla base dei livelli di significatività presenti nelle opzioni o di quelli modificati dall’utilizzatore. L’opzione riguardo i livelli di significatività della F prevede due valori: il primo per l’inserimento della variabile, il secondo per la rimozione della stessa dal modello. Nella pratica è conveniente scegliere valori differenziati per l’entrata o l’uscita della variabile. 66 In genere, un valore di significatività più elevato è previsto per l’entrata mentre un valore più basso per l’uscita della variabile dal modello, onde evitare che una variabile esca dal modello subito dopo essere stata inserita. Se la variabile è significativa viene inserita nel modello, altrimenti viene rifiutata; il procedimento si ripete per tutte le altre variabili. 67 Nell’esempio, dopo aver accettato i valori di significatività di F inseriti per defaut, 0,05 per l’inserimento e 0,1 per il rifiuto, si è ottenuto che la variabile cons t-1 è la più significativa per la spiegazione della variabilità dei consumi. 68 La procedura si è arrestata solo dopo un passo, essendo evidentemente divenuti inferiori a 0,5%, e quindi non significativi, i contributi incrementali nella spiegazione della variabile dipendente delle altre tre variabili nei passi successivi. Inoltre nessuna delle variabili inserite è stata in seguito rimossa dal modello. 69 L’ordine in cui le variabili sono state inserite nel modello non dà informazioni sulla loro importanza nella spiegazione della Y. Per ottenere tale informazione è necessario è necessario richiedere in input al programma un ulteriore test, il test t, il quale misura la significatività di ogni coefficiente di regressione: maggiore è il suo valore in termini assoluti, maggiore è l’importanza della variabile presa in considerazione. 70 Coefficienti Coefficien Coefficienti ti non standardi standardizzati zzati 1 Error B e std. 834 635 ,968 ,038 variabili inserite ad ogni passo Beta ,990 t Sig. 1,3 ,210 26 ,000 Correlazioni Parziali Ordine Parzia indipen zero li denti ,990 ,990 ,990 Statistiche di collinearità Tolleran za 1,000 VIF 1,000 Fattore inflativo della varianza 71 La tolleranza misura l’originalità di ogni variabile inserita, cioè l’apporto informativo non introdotto da altri predittori. È calcolata come complemento a 1 del coefficiente di determinazione e varia tra 0 e 1: un valore prossimo all’unità indica che la variabile inserita non è correlata con quelle già presenti (il suo contributo informativo è significativo), viceversa per valori prossimi allo zero. 72 Per default il programma presenta un valore la tolleranza pari a 0,0001: modificando tale valore con uno più elevato, si rende il modello più restrittivo, mentre inserendo un valore più basso, si rende il modello meno restrittivo, consentendo così l’entrata di un numero maggiore di variabili, anche se il loro contributo informativo è basso. Il fattore di inflazione della varianza è il reciproco della tolleranza e mette in relazione la tolleranza con la variabilità della variabile dipendente, nel senso che variabili con un elevato valore della tolleranza contribuiscono meno di altre alla spiegazione della variabilità della Y. 73 Grafico a dispersione Variabile dipendente: CONSUMI 20000 19000 18000 17000 16000 15000 14000 -1,5 -1,0 -,5 0,0 ,5 Regressione Valore previsto standardizzato 1,0 1,5 74