Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10 Il modello di regressione lineare Le ipotesi del modello Equazione di regressione lineare multipla Yi 0 1 Xi1 2 Xi 2 ... pXip i i-esima oss. su Y intercetta i-esima oss. su X1 errore relativo all’i-esima oss. coefficiente di X1 La matrice X=[1,X1,…,Xp] è detta matrice del disegno. Il modello di regressione lineare La selezione dei regressori Poche variabili • capacità previsiva • fit • parsimonia • interpretabilità Tante variabili • capacità previsiva • fit • parsimonia • interpretabilità Criteri di selezione • valutazioni soggettive • confronto tra tutti i possibili modelli • algoritmi di selezione automatica Il modello di regressione lineare La selezione dei regressori Procedura di calcolo automatico che seleziona il sottoinsieme di variabili ottimo tra quelli possibili • forward selection inserisce nell’equazione una variabile per volta, basandosi sul contributo del regressore inserito alla spiegazione della variabilità di Y • backward selection rimuove dall’equazione una variabile per volta, basandosi sulla perdita di capacità esplicativa della variabilità di Y conseguente all’eliminazione del regressore • forward+backward selection (stepwise selection) ogni variabile può entrare/uscire dal modello Il modello di regressione lineare La Multicollinearità • X1,…,Xp non sono vettori linearmente indipendenti • forte correlazione tra i regressori (o alcuni di essi) La varianza dello stimatore dei minimi quadrati tende ad esplodere Problema di stabilità delle stime Il modello di regressione lineare Y La Multicollinearità X1 Il modello di regressione lineare Y La Multicollinearità X1 Il modello di regressione lineare La Multicollinearità Per verificare la presenza di multicollinearità • regressione lineare di Xj sui rimanenti p-1 regressori R2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.98 0.99 VIF 1.11 1.25 1.43 1.67 2.00 2.50 3.33 5.00 10.00 20.00 50.00 100.00 - Rj² misura la quota di varianza di Xj spiegata dai rimanenti p-1 regressori valori alti=multicollininearità. - Variance Inflation Index (VIFj) VIFj = 1 / (1 – Rj²) misura il grado di relazione lineare tra Xj e i rimanenti p-1 regressori valori alti=multicollininearità. Il modello di regressione lineare La Multicollinearità Soluzioni • rimozione delle variabili correlate • selezione di una variabile rappresentativa dal gruppo di variabili legate da relazione lineare • analisi delle componenti principali trasformazione dei regressori in componenti non correlate (nella nuova regressione andranno incluse tutte le componenti principali) Il modello di regressione lineare La Multicollinearità Parameter Estimates Variable Label D F Parameter Estimate Standard Error t Value Pr > |t| Standardized Estimate Variance Inflation Intercept Intercept 1 -14624 2205.46539 -6.63 <.0001 0 0 PAG_ORD Pagato in contrassegno 1 1.15419 0.05482 21.05 <.0001 0.36897 2.96182 PAG_MES Pagato con rate mensili 1 2.56876 0.09567 26.85 <.0001 0.27583 1.01781 TOT_ORD Totale ordini 1 14434 674.26080 21.41 <.0001 0.37406 2.94467 LISTA Numero di liste di appartenenza 1 872.66180 1052.55642 0.83 0.4071 0.00845 1.00196 SESSO Sesso 1 3192.81846 1889.02931 1.69 0.0911 0.01726 1.00599 CEN Residenza Centro 1 -6320.88855 2462.17857 -2.57 0.0103 -0.02792 1.14079 SUD Residenza Sud 1 -17923 1971.41534 -9.09 <.0001 -0.10108 1.19214 Il modello di regressione lineare La Multicollinearità Root MSE 52693 Dependent Mean 30935 Coeff Var R-Square 0.6204 Adj R-Sq 0.6197 170.33339 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Variance Inflation Intercept Intercept 1 30935 869.91751 35.56 <.0001 0 Factor1 1 61162 870.03609 70.30 <.0001 1.00000 Factor2 1 -295.62943 870.03609 -0.34 0.7340 1.00000 Factor3 1 24154 870.03609 27.76 <.0001 1.00000 Factor4 1 3446.48124 870.03609 3.96 <.0001 1.00000 Factor5 1 861.78906 870.03609 0.99 0.3220 1.00000 Factor6 1 -13861 870.03609 -15.93 <.0001 1.00000 Factor7 1 73.57034 870.03609 0.08 0.9326 1.00000 Il modello di regressione lineare La Multicollinearità Root MSE 52679 Dependent Mean 30935 Coeff Var R-Square 0.6203 Adj R-Sq 0.6199 170.28930 Parameter Estimates Variable Label D F Parameter Estimate Standard Error t Value Pr > |t | Intercept Intercept 1 30935 869.69238 35.57 <.0001 0 0 Factor1 1 61162 869.81092 70.32 <.0001 0.71583 1.00000 Factor3 1 24154 869.81092 27.77 <.0001 0.28269 1.00000 Factor4 1 3446.48124 869.81092 3.96 <.0001 0.04034 1.00000 Factor6 1 -13861 <.0001 -0.16223 1.00000 869.81092 -15.94 Standardized Estimate Variance Inflation Il modello di regressione lineare La Valutazione del modello Si vuole verificare • bontà delle stime • adattamento del modello ai dati • impatto delle singole osservazioni • impatto dei regressori Strumenti • test statistici • indicatori di performance • analisi dei residui • analisi degli outliers • analisi di influenza • valutazione dei coefficienti e correlazioni parziali Factor Analysis Factor Analysis 12 Assign to each one of the following options a percentage of: Where do you usually use internet? (Sum percentages =100 ) a. Home b. Work c. University 0% 13 What do you use internet for? 1 a. b. c. d. e. f. Sources of information Work Friendship Buy and sell University Organizing events Low 2 3 Medium 4 5 6 High 7 8 9 Factor Analysis Factor Analysis If the information is spread among many correlated variables: we may have several different problems. • • • • • • • Apparent information; Miss- understanding; Difficulties in the interpretation phase; Robustness of the results; Efficiency of the estimates; Degrees of freedom; ….. Factor Analysis Quando le variabili considerate sono numerose spesso risultano tra loro correlate => numerosità e correlazione tra variabili porta a difficoltà di analisi Perché sintetizzare? • Se l’informazione è condivisa tra più variabili correlate tra loro, è ridondante utilizzarle tutte. • La sintesi semplifica le analisi successive ma comporta una perdita di informazione, si deve evitare, di perdere informazioni rilevanti. Factor Analysis Facebook Factor Analysis Facebook Final Factors Analisi fattoriale Quando le variabili considerate sono numerose spesso risultano tra loro correlate. Numerosità e correlazione tra variabili porta a difficoltà di analisi => ridurre il numero (semplificando l’analisi) evitando, però, di perdere informazioni rilevanti. L’Analisi Fattoriale è una tecnica statistica multivariata per l’analisi delle correlazioni esistenti tra variabili quantitative. A partire da una matrice di dati : X(nxp), con “n” osservazioni e “p” variabili originarie, consente di sintetizzare l’informazione in un set ridotto di variabili trasformate (i fattori latenti). Analisi fattoriale Perché sintetizzare mediante l’impiego della tecnica? Se l’informazione è “dispersa” tra più variabili correlate tra loro, le singole variabili faticano da sole a spiegare il fenomeno oggetto di studio, mentre combinate tra loro risultano molto più esplicative. Esempio: l’attrattività di una città da cosa è data? Dalle caratteristiche del contesto, dalla struttura demografica della popolazione, dalla qualità della vita, dalla disponibilità di fattori quali capitale, forza lavoro, know-how, spazi, energia, materie prime, infrastrutture, ecc. I fattori latenti sono “concetti” che abbiamo in mente ma che non possiamo misurare direttamente. Analisi fattoriale Le ipotesi del Modello Fattoriale Variabili Quantitative x1, x2, ......, xi, ......... xp Info Var xi xi xi = = = i = 1, ........., p k << p Corr (UFi , UFj) = 0 Corr (CFi , CFj) = 0 Corr (CFi , UFj) = 0 Info condivisa + Communality + f(CF1, ....,CFk) Info specifica Var specifica + UFi CFi = Common Factori UFi = Unique Factori per i ^= j per i ^= j per ogni i,j Analisi fattoriale Factor Loadings & Factor Score Coefficients xi = li1CF1 + li2CF2 + .... + likCFk + UFi li1, li2,........,lik factor loadings i = 1, ........., p significato fattori CFj = sj1x1 + sj2x2 + .............. + sjpxp sj1, sj2,........,sjp factor score coeff. j = 1, ....., k << p costruzione fattori Analisi fattoriale Metodo delle Componenti Principali Uno dei metodi di stima dei coefficienti (i LOADINGS) è il Metodo delle Componenti Principali. Utilizzare tale metodo significa ipotizzare che il patrimonio informativo specifico delle variabili manifeste sia minimo, mentre sia massimo quello condiviso, spiegabile dai fattori comuni. Per la stima dei loadings si ricorre agli autovalori e agli autovettori della matrice di correlazione R: di fatto i loadings coincidono con le correlazioni tra le variabili manifeste e le componenti principali. Analisi fattoriale Metodo delle Componenti Principali • I fattori calcolati mediante il metodo delle CP sono combinazioni lineari delle variabili originarie CPj = sj1x1 + sj2x2 + .............. + sjpxp • Sono tra loro ortogonali (non correlate) • Complessivamente spiegano la variabilità delle p variabili originarie • Sono elencate in ordine decrescente rispetto alla variabilità spiegata Analisi fattoriale Metodo delle Componenti Principali Il numero massimo di componenti principali è pari al numero delle variabili originarie (p). La prima componente principale è una combinazione lineare delle p variabili originarie ed è caratterizzata da varianza più elevata, e così via fino all’ultima componente, combinazione sempre delle p variabili originarie, ma a varianza minima. Se la correlazione tra le p variabili è elevata, un numero k<<p (k molto inferiore a p) di componenti principali è sufficiente rappresenta in modo adeguato i dati originari, perché riassume una quota elevata della varianza totale. Analisi fattoriale I problemi di una analisi di questo tipo sono: a)-quante componenti considerare 1. metodo degli autovalori >1 2. rapporto tra numero di componenti e variabili; 3. percentuale di varianza spiegata; 4. le comunalità 5. lo scree plot; 6. interpretabilità delle componenti e loro rilevanza nella esecuzione dell’analisi successive b)-come interpretarle 1. correlazioni tra componenti principali e variabili originarie 2. rotazione delle componenti Analisi Fattoriale • Sono stati individuati 20 attributi caratterizzanti il prodotto-biscotto • È stato chiesto all’intervistato di esprimere un giudizio in merito all’importanza che ogni attributo esercita nell’atto di acquisto 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. Qualità degli ingredienti Genuinità Leggerezza Sapore/Gusto Caratteristiche Nutrizionali Attenzione a Bisogni Specifici Lievitazione Naturale Produzione Artigianale Forma/Stampo Richiamo alla Tradizione Grandezza della Confezione (Peso Netto) Funzionalità della Confezione Estetica della Confezione Scadenza Nome del Biscotto Pubblicità e Comunicazione Promozione e Offerte Speciali Consigli per l’Utilizzo Prezzo Notorietà della Marca Analisi fattoriale Correlations Qualità degli ingredienti Genuinità Leggerezza Sapore/gusto Caratteris tiche nutrizionali Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Qualità degli ingredienti 1 **. Correlation is s ignificant at the 0.01 level (2-tailed). 220 .629** .000 220 .299** .000 218 .232** .001 220 .234** .001 214 Caratteris tich Genuinità Leggerezza Sapore/gusto e nutrizionali .629** .299** .232** .234** .000 .000 .001 .001 220 218 220 214 1 .468** .090 .354** .000 .181 .000 220 218 220 214 .468** 1 .030 .460** .000 .657 .000 218 219 219 213 .090 .030 1 -.015 .181 .657 .823 220 219 221 215 .354** .460** -.015 1 .000 .000 .823 214 213 215 215 Total Variance Explained Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total 4.171 2.678 1.843 1.376 1.129 1.016 .937 .881 .781 .751 .682 .592 .568 .550 .453 .386 .376 .324 .270 .236 Initial Eigenvalues % of Variance Cumulative % 20.853 20.853 13.389 34.241 9.216 43.457 6.879 50.336 5.643 55.979 5.079 61.057 4.684 65.741 4.405 70.146 3.907 74.054 3.756 77.810 3.412 81.222 2.960 84.183 2.838 87.021 2.750 89.771 2.267 92.038 1.930 93.968 1.880 95.848 1.621 97.470 1.352 98.822 1.178 100.000 Extraction Method: Principal Component Analysis . 1. The ratio between the number of components and the variables: One out of Three 20 original variables 6-7 Factors Total Variance Explained Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total 4.171 2.678 1.843 1.376 1.129 1.016 .937 .881 .781 .751 .682 .592 .568 .550 .453 .386 .376 .324 .270 .236 Initial Eigenvalues % of Variance Cumulative % 20.853 20.853 13.389 34.241 9.216 43.457 6.879 50.336 5.643 55.979 5.079 61.057 4.684 65.741 4.405 70.146 3.907 74.054 3.756 77.810 3.412 81.222 2.960 84.183 2.838 87.021 2.750 89.771 2.267 92.038 1.930 93.968 1.880 95.848 1.621 97.470 1.352 98.822 1.178 100.000 Extraction Method: Principal Component Analysis . 2. The percentage of the explained variance: Between 60%-75% Factor Analysis 3. The scree plot : The point at which the scree begins Total Variance Explained Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total 4.171 2.678 1.843 1.376 1.129 1.016 .937 .881 .781 .751 .682 .592 .568 .550 .453 .386 .376 .324 .270 .236 Initial Eigenvalues % of Variance Cumulative % 20.853 20.853 13.389 34.241 9.216 43.457 6.879 50.336 5.643 55.979 5.079 61.057 4.684 65.741 4.405 70.146 3.907 74.054 3.756 77.810 3.412 81.222 2.960 84.183 2.838 87.021 2.750 89.771 2.267 92.038 1.930 93.968 1.880 95.848 1.621 97.470 1.352 98.822 1.178 100.000 Extraction Method: Principal Component Analysis . 4. Eigenvalue: Eigenvalues>1 Factor Analysis Total Variance Explained Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total 4.171 2.678 1.843 1.376 1.129 1.016 .937 .881 .781 .751 .682 .592 .568 .550 .453 .386 .376 .324 .270 .236 Initial Eigenvalues % of Variance Cumulative % 20.853 20.853 13.389 34.241 9.216 43.457 6.879 50.336 5.643 55.979 5.079 61.057 4.684 65.741 4.405 70.146 3.907 74.054 3.756 77.810 3.412 81.222 2.960 84.183 2.838 87.021 2.750 89.771 2.267 92.038 1.930 93.968 1.880 95.848 1.621 97.470 1.352 98.822 1.178 100.000 Extraction Method: Principal Component Analysis . Total Variance Explained Analisi Fattoriale Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total 4.171 2.678 1.843 1.376 1.129 1.016 .937 .881 .781 .751 .682 .592 .568 .550 .453 .386 .376 .324 .270 .236 Initial Eigenvalues % of Variance Cumulative % 20.853 20.853 13.389 34.241 9.216 43.457 6.879 50.336 5.643 55.979 5.079 61.057 4.684 65.741 4.405 70.146 3.907 74.054 3.756 77.810 3.412 81.222 2.960 84.183 2.838 87.021 2.750 89.771 2.267 92.038 1.930 93.968 1.880 95.848 1.621 97.470 1.352 98.822 1.178 100.000 Extraction Method: Principal Component Analysis. Extraction Sums of Squared Loadings Total % of Variance Cumulative % 4.171 20.853 20.853 2.678 13.389 34.241 1.843 9.216 43.457 1.376 6.879 50.336 1.129 5.643 55.979 1.016 5.079 61.057 Communalities Qualità degli ingredienti Genuinità Leggerezza Sapore/gusto Caratteristiche nutrizionali Attenzione a bisogni s pecifici Lievitazione naturale Produzione artigianale Forma e s tampo Richiamo alla tradizione Grandezza della confezione (peso netto) Funzionalità della confezione Estetica della confezione Scadenza Nome del biscotto Pubblicità e comunicazione Promozioni e offerte s peciali Consigli per l'utilizzo Prezzo Notorietà della marca Initial 1.000 1.000 1.000 1.000 1.000 Extraction .717 .746 .588 .670 .631 1.000 .332 1.000 1.000 1.000 1.000 .674 .762 .689 .600 1.000 .579 1.000 .414 1.000 1.000 1.000 .599 .432 .494 1.000 .717 1.000 .736 1.000 1.000 1.000 .463 .653 .716 Extraction Method: Principal Component Analysis. 5. Communalities: The quote of explained variability for each input variable must be satisfactory In the example the overall explained variability (which represents the mean value) is 0.61057