Metodi Quantitativi per Economia, Finanza
e Management
Lezione n° 10
Il modello di regressione lineare
Le ipotesi del modello
Equazione di regressione lineare multipla
Yi   0   1 Xi1   2 Xi 2  ...  pXip  i
i-esima
oss. su Y
intercetta
i-esima
oss. su X1
errore relativo
all’i-esima oss.
coefficiente
di X1
La matrice X=[1,X1,…,Xp] è detta matrice del disegno.
Il modello di regressione lineare
La selezione dei regressori
Poche variabili
• capacità previsiva 
• fit 
• parsimonia 
• interpretabilità 
Tante variabili
• capacità previsiva 
• fit 
• parsimonia 
• interpretabilità 
Criteri di selezione
• valutazioni soggettive
• confronto tra tutti i possibili modelli
• algoritmi di selezione automatica
Il modello di regressione lineare
La selezione dei regressori
Procedura di calcolo automatico che seleziona il
sottoinsieme di variabili ottimo tra quelli possibili
• forward selection  inserisce nell’equazione una
variabile per volta, basandosi sul contributo del regressore
inserito alla spiegazione della variabilità di Y
• backward selection  rimuove dall’equazione una
variabile per volta, basandosi sulla perdita di capacità
esplicativa della variabilità di Y conseguente
all’eliminazione del regressore
• forward+backward selection (stepwise selection) 
ogni variabile può entrare/uscire dal modello
Il modello di regressione lineare
La Multicollinearità
• X1,…,Xp non sono vettori linearmente indipendenti
• forte correlazione tra i regressori (o alcuni di essi)
 La varianza dello stimatore dei minimi quadrati tende ad
esplodere
 Problema di stabilità delle stime
Il modello di regressione lineare
Y
La Multicollinearità
X1
Il modello di regressione lineare
Y
La Multicollinearità
X1
Il modello di regressione lineare
La Multicollinearità
Per verificare la presenza di multicollinearità
• regressione lineare di Xj sui rimanenti p-1 regressori
R2
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.95
0.98
0.99
VIF
1.11
1.25
1.43
1.67
2.00
2.50
3.33
5.00
10.00
20.00
50.00
100.00
- Rj² misura la quota di varianza di Xj spiegata dai
rimanenti p-1 regressori  valori alti=multicollininearità.
- Variance Inflation Index (VIFj)
VIFj = 1 / (1 – Rj²) misura il grado di relazione
lineare tra Xj e i rimanenti p-1 regressori
 valori alti=multicollininearità.
Il modello di regressione lineare
La Multicollinearità
Soluzioni
• rimozione delle variabili correlate
• selezione di una variabile rappresentativa dal gruppo di
variabili legate da relazione lineare
• analisi delle componenti principali  trasformazione dei
regressori in componenti non correlate (nella nuova
regressione andranno incluse tutte le componenti
principali)
Il modello di regressione lineare
La Multicollinearità
Parameter Estimates
Variable
Label
D
F
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
Standardized
Estimate
Variance
Inflation
Intercept
Intercept
1
-14624
2205.46539
-6.63
<.0001
0
0
PAG_ORD
Pagato in contrassegno
1
1.15419
0.05482
21.05
<.0001
0.36897
2.96182
PAG_MES
Pagato con rate mensili
1
2.56876
0.09567
26.85
<.0001
0.27583
1.01781
TOT_ORD
Totale ordini
1
14434
674.26080
21.41
<.0001
0.37406
2.94467
LISTA
Numero di liste di appartenenza
1
872.66180
1052.55642
0.83
0.4071
0.00845
1.00196
SESSO
Sesso
1
3192.81846
1889.02931
1.69
0.0911
0.01726
1.00599
CEN
Residenza Centro
1
-6320.88855
2462.17857
-2.57
0.0103
-0.02792
1.14079
SUD
Residenza Sud
1
-17923
1971.41534
-9.09
<.0001
-0.10108
1.19214
Il modello di regressione lineare
La Multicollinearità
Root MSE
52693
Dependent Mean 30935
Coeff Var
R-Square 0.6204
Adj R-Sq
0.6197
170.33339
Parameter Estimates
Variable
Label
DF Parameter
Estimate
Standard
Error
t Value Pr > |t| Variance
Inflation
Intercept Intercept 1
30935
869.91751 35.56
<.0001 0
Factor1
1
61162
870.03609 70.30
<.0001 1.00000
Factor2
1
-295.62943
870.03609 -0.34
0.7340 1.00000
Factor3
1
24154
870.03609 27.76
<.0001 1.00000
Factor4
1
3446.48124 870.03609 3.96
<.0001 1.00000
Factor5
1
861.78906
870.03609 0.99
0.3220 1.00000
Factor6
1
-13861
870.03609 -15.93
<.0001 1.00000
Factor7
1
73.57034
870.03609 0.08
0.9326 1.00000
Il modello di regressione lineare
La Multicollinearità
Root MSE
52679
Dependent Mean 30935
Coeff Var
R-Square 0.6203
Adj R-Sq
0.6199
170.28930
Parameter Estimates
Variable
Label
D
F
Parameter
Estimate
Standard
Error
t Value Pr > |t
|
Intercept Intercept 1
30935
869.69238 35.57
<.0001 0
0
Factor1
1
61162
869.81092 70.32
<.0001 0.71583
1.00000
Factor3
1
24154
869.81092 27.77
<.0001 0.28269
1.00000
Factor4
1
3446.48124 869.81092 3.96
<.0001 0.04034
1.00000
Factor6
1
-13861
<.0001 -0.16223
1.00000
869.81092 -15.94
Standardized
Estimate
Variance
Inflation
Il modello di regressione lineare
La Valutazione del modello
Si vuole verificare
• bontà delle stime
• adattamento del modello ai dati
• impatto delle singole osservazioni
• impatto dei regressori
Strumenti
• test statistici
• indicatori di performance
• analisi dei residui
• analisi degli outliers
• analisi di influenza
• valutazione dei coefficienti e correlazioni parziali
Factor Analysis
Factor Analysis
12 Assign to each one of the following options a percentage of: Where do you usually use internet? (Sum percentages =100 )
a. Home
b. Work
c. University
0%
13 What do you use internet for?
1
a.
b.
c.
d.
e.
f.
Sources of information
Work
Friendship
Buy and sell
University
Organizing events
Low
2
3
Medium
4 5 6
High
7 8 9
Factor Analysis
Factor Analysis
If the information is spread among many correlated variables:
 we may have several different problems.
•
•
•
•
•
•
•
Apparent information;
Miss- understanding;
Difficulties in the interpretation phase;
Robustness of the results;
Efficiency of the estimates;
Degrees of freedom;
…..
Factor Analysis
Quando le variabili considerate sono numerose spesso
risultano tra loro correlate => numerosità e correlazione
tra variabili porta a difficoltà di analisi
Perché sintetizzare?
• Se l’informazione è condivisa tra più variabili correlate tra
loro, è ridondante utilizzarle tutte.
• La sintesi semplifica le analisi successive ma comporta
una perdita di informazione, si deve evitare, di perdere
informazioni rilevanti.
Factor Analysis
Facebook
Factor Analysis
Facebook
Final Factors
Analisi fattoriale
Quando le variabili considerate sono numerose spesso
risultano tra loro correlate.
Numerosità e correlazione tra variabili porta a difficoltà di
analisi => ridurre il numero (semplificando l’analisi)
evitando, però, di perdere informazioni rilevanti.
L’Analisi Fattoriale è una tecnica statistica multivariata per
l’analisi delle correlazioni esistenti tra variabili quantitative.
A partire da una matrice di dati : X(nxp), con “n” osservazioni e “p”
variabili originarie, consente di sintetizzare l’informazione in un
set ridotto di variabili trasformate (i fattori latenti).
Analisi fattoriale
Perché sintetizzare mediante l’impiego della tecnica?
Se l’informazione è “dispersa” tra più variabili correlate
tra loro, le singole variabili faticano da sole a spiegare
il fenomeno oggetto di studio, mentre combinate tra
loro risultano molto più esplicative.
Esempio: l’attrattività di una città da cosa è data? Dalle
caratteristiche del contesto, dalla struttura
demografica della popolazione, dalla qualità della vita,
dalla disponibilità di fattori quali capitale, forza lavoro,
know-how, spazi, energia, materie prime,
infrastrutture, ecc.
I fattori latenti sono “concetti” che abbiamo in mente ma
che non possiamo misurare direttamente.
Analisi fattoriale
Le ipotesi del Modello Fattoriale
Variabili Quantitative x1, x2, ......, xi, ......... xp
Info
Var
xi
xi
xi
=
=
=
i = 1, ........., p
k << p
Corr (UFi , UFj) = 0
Corr (CFi , CFj) = 0
Corr (CFi , UFj) = 0
Info condivisa +
Communality +
f(CF1, ....,CFk)
Info specifica
Var specifica
+
UFi
CFi = Common Factori
UFi = Unique Factori
per i ^= j
per i ^= j
per ogni i,j
Analisi fattoriale
Factor Loadings & Factor Score Coefficients
xi
=
li1CF1 + li2CF2 + .... + likCFk + UFi
li1, li2,........,lik
factor loadings
i = 1, ........., p
significato fattori
CFj
=
sj1x1 + sj2x2 + .............. + sjpxp
sj1, sj2,........,sjp
factor score coeff.
j = 1, ....., k << p
costruzione fattori
Analisi fattoriale
Metodo delle Componenti Principali
Uno dei metodi di stima dei coefficienti (i LOADINGS) è il
Metodo delle Componenti Principali.
Utilizzare tale metodo significa ipotizzare che il patrimonio
informativo specifico delle variabili manifeste sia minimo,
mentre sia massimo quello condiviso, spiegabile dai
fattori comuni.
Per la stima dei loadings si ricorre agli autovalori e agli
autovettori della matrice di correlazione R: di fatto i
loadings coincidono con le correlazioni tra le variabili
manifeste e le componenti principali.
Analisi fattoriale
Metodo delle Componenti Principali
• I fattori calcolati mediante il metodo delle CP sono combinazioni
lineari delle variabili originarie
CPj = sj1x1 + sj2x2 + .............. + sjpxp
• Sono tra loro ortogonali (non correlate)
• Complessivamente spiegano la variabilità delle p variabili
originarie
• Sono elencate in ordine decrescente rispetto alla variabilità
spiegata
Analisi fattoriale
Metodo delle Componenti Principali
Il numero massimo di componenti principali è pari al numero delle
variabili originarie (p).
La prima componente principale è una combinazione lineare delle p
variabili originarie ed è caratterizzata da varianza più elevata, e
così via fino all’ultima componente, combinazione sempre delle p
variabili originarie, ma a varianza minima.
Se la correlazione tra le p variabili è elevata, un numero k<<p (k
molto inferiore a p) di componenti principali è sufficiente
rappresenta in modo adeguato i dati originari, perché riassume
una quota elevata della varianza totale.
Analisi fattoriale
I problemi di una analisi di questo tipo sono:
a)-quante componenti considerare
1. metodo degli autovalori >1
2. rapporto tra numero di componenti e variabili;
3. percentuale di varianza spiegata;
4. le comunalità
5. lo scree plot;
6. interpretabilità delle componenti e loro rilevanza nella
esecuzione dell’analisi successive
b)-come interpretarle
1. correlazioni tra componenti principali e variabili originarie
2. rotazione delle componenti
Analisi Fattoriale
• Sono stati individuati 20
attributi caratterizzanti il
prodotto-biscotto
• È stato chiesto
all’intervistato di esprimere
un giudizio in merito
all’importanza che ogni
attributo esercita nell’atto di
acquisto
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
Qualità degli ingredienti
Genuinità
Leggerezza
Sapore/Gusto
Caratteristiche Nutrizionali
Attenzione a Bisogni Specifici
Lievitazione Naturale
Produzione Artigianale
Forma/Stampo
Richiamo alla Tradizione
Grandezza della Confezione
(Peso Netto)
Funzionalità della Confezione
Estetica della Confezione
Scadenza
Nome del Biscotto
Pubblicità e Comunicazione
Promozione e Offerte Speciali
Consigli per l’Utilizzo
Prezzo
Notorietà della Marca
Analisi fattoriale
Correlations
Qualità degli ingredienti
Genuinità
Leggerezza
Sapore/gusto
Caratteris tiche nutrizionali
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Qualità degli
ingredienti
1
**. Correlation is s ignificant at the 0.01 level (2-tailed).
220
.629**
.000
220
.299**
.000
218
.232**
.001
220
.234**
.001
214
Caratteris tich
Genuinità Leggerezza Sapore/gusto
e nutrizionali
.629**
.299**
.232**
.234**
.000
.000
.001
.001
220
218
220
214
1
.468**
.090
.354**
.000
.181
.000
220
218
220
214
.468**
1
.030
.460**
.000
.657
.000
218
219
219
213
.090
.030
1
-.015
.181
.657
.823
220
219
221
215
.354**
.460**
-.015
1
.000
.000
.823
214
213
215
215
Total Variance Explained
Component
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
4.171
2.678
1.843
1.376
1.129
1.016
.937
.881
.781
.751
.682
.592
.568
.550
.453
.386
.376
.324
.270
.236
Initial Eigenvalues
% of Variance Cumulative %
20.853
20.853
13.389
34.241
9.216
43.457
6.879
50.336
5.643
55.979
5.079
61.057
4.684
65.741
4.405
70.146
3.907
74.054
3.756
77.810
3.412
81.222
2.960
84.183
2.838
87.021
2.750
89.771
2.267
92.038
1.930
93.968
1.880
95.848
1.621
97.470
1.352
98.822
1.178
100.000
Extraction Method: Principal Component Analysis .
1. The ratio between
the number of
components and the
variables:
One out of Three
20 original variables
6-7 Factors
Total Variance Explained
Component
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
4.171
2.678
1.843
1.376
1.129
1.016
.937
.881
.781
.751
.682
.592
.568
.550
.453
.386
.376
.324
.270
.236
Initial Eigenvalues
% of Variance Cumulative %
20.853
20.853
13.389
34.241
9.216
43.457
6.879
50.336
5.643
55.979
5.079
61.057
4.684
65.741
4.405
70.146
3.907
74.054
3.756
77.810
3.412
81.222
2.960
84.183
2.838
87.021
2.750
89.771
2.267
92.038
1.930
93.968
1.880
95.848
1.621
97.470
1.352
98.822
1.178
100.000
Extraction Method: Principal Component Analysis .
2. The percentage of the
explained variance:
Between 60%-75%
Factor Analysis
3. The scree plot :
The point at which
the scree begins
Total Variance Explained
Component
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
4.171
2.678
1.843
1.376
1.129
1.016
.937
.881
.781
.751
.682
.592
.568
.550
.453
.386
.376
.324
.270
.236
Initial Eigenvalues
% of Variance Cumulative %
20.853
20.853
13.389
34.241
9.216
43.457
6.879
50.336
5.643
55.979
5.079
61.057
4.684
65.741
4.405
70.146
3.907
74.054
3.756
77.810
3.412
81.222
2.960
84.183
2.838
87.021
2.750
89.771
2.267
92.038
1.930
93.968
1.880
95.848
1.621
97.470
1.352
98.822
1.178
100.000
Extraction Method: Principal Component Analysis .
4. Eigenvalue:
Eigenvalues>1
Factor Analysis
Total Variance Explained
Component
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
4.171
2.678
1.843
1.376
1.129
1.016
.937
.881
.781
.751
.682
.592
.568
.550
.453
.386
.376
.324
.270
.236
Initial Eigenvalues
% of Variance Cumulative %
20.853
20.853
13.389
34.241
9.216
43.457
6.879
50.336
5.643
55.979
5.079
61.057
4.684
65.741
4.405
70.146
3.907
74.054
3.756
77.810
3.412
81.222
2.960
84.183
2.838
87.021
2.750
89.771
2.267
92.038
1.930
93.968
1.880
95.848
1.621
97.470
1.352
98.822
1.178
100.000
Extraction Method: Principal Component Analysis .
Total Variance Explained
Analisi Fattoriale
Component
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
4.171
2.678
1.843
1.376
1.129
1.016
.937
.881
.781
.751
.682
.592
.568
.550
.453
.386
.376
.324
.270
.236
Initial Eigenvalues
% of Variance Cumulative %
20.853
20.853
13.389
34.241
9.216
43.457
6.879
50.336
5.643
55.979
5.079
61.057
4.684
65.741
4.405
70.146
3.907
74.054
3.756
77.810
3.412
81.222
2.960
84.183
2.838
87.021
2.750
89.771
2.267
92.038
1.930
93.968
1.880
95.848
1.621
97.470
1.352
98.822
1.178
100.000
Extraction Method: Principal Component Analysis.
Extraction Sums of Squared Loadings
Total
% of Variance Cumulative %
4.171
20.853
20.853
2.678
13.389
34.241
1.843
9.216
43.457
1.376
6.879
50.336
1.129
5.643
55.979
1.016
5.079
61.057
Communalities
Qualità degli ingredienti
Genuinità
Leggerezza
Sapore/gusto
Caratteristiche nutrizionali
Attenzione a bisogni
s pecifici
Lievitazione naturale
Produzione artigianale
Forma e s tampo
Richiamo alla tradizione
Grandezza della
confezione (peso netto)
Funzionalità della
confezione
Estetica della confezione
Scadenza
Nome del biscotto
Pubblicità e
comunicazione
Promozioni e offerte
s peciali
Consigli per l'utilizzo
Prezzo
Notorietà della marca
Initial
1.000
1.000
1.000
1.000
1.000
Extraction
.717
.746
.588
.670
.631
1.000
.332
1.000
1.000
1.000
1.000
.674
.762
.689
.600
1.000
.579
1.000
.414
1.000
1.000
1.000
.599
.432
.494
1.000
.717
1.000
.736
1.000
1.000
1.000
.463
.653
.716
Extraction Method: Principal Component Analysis.
5. Communalities:
The quote of
explained
variability for each
input variable
must be
satisfactory
In the example
the overall
explained
variability (which
represents the
mean value) is
0.61057
Scarica

Diapositiva 1