Metodi Quantitativi per Economia, Finanza
e Management
Lezione n°8
Test per lo studio dell’associazione tra
variabili
Possibili Risultati Verifica di Ipotesi
Stato di Natura
Legenda:
Risultato
(Probabilità)
Decisione
H0 Vera
Non
Rifiutare
H0
No errore
(1 - a )
Rifiutare
H0
Errore
Primo Tipo
(a)
H0 Falsa
Errore
Secondo Tipo
(β)
No Errore
(1-β)
Lettura di un test statistico (1)
Esempio:
H0:
b1= b2 = ....=bk = 0
1) Ipotesi
H1: bi = 0
2) Statistica test
3) p-value
Statistica F
Rappresenta la probabilità di commettere
l’errore di prima specie.
Può essere interpretato come la probabilità
che H0 sia “vera” in base al valore osservato
della statistica test
Lettura di un test statistico (2)
Regola di Decisione: confrontare il p-value con a
Se p-value piccolo ( < α )
RIFIUTO H0
Altrimenti ( >= α )
ACCETTO H0
Bivariate Analysis
Objective
To describe the relationship between two variables jointly.
• qualitative variables: Analysis of Connection
• quantitative variables: Analysis of Correlation
• mixed variables: Analysis of Variance
Bivariate Analysis
Connection
Correlation
ANOVA
Descriptive
Tools
Contingency
Table
Scatter Plot
Means by
Classes
Descriptive
Indexes
Chi-Square
Kramer's V
Linear
Correlation
Coeffcient
Spearman
Coefficient
Statistical
Test
Chi-Square
test
Null
Hypothesis
Statistical
Indipend.
t-Test
No linear
relation
F-Test
Indipend. by
mean
Il modello di regressione lineare
1. Introduzione ai modelli di regressione
2. Obiettivi
3. Le ipotesi del modello
4. La stima del modello
5. La valutazione del modello
6. Commenti
Case Study – Club del Libro
La classificazione dei
clienti/prospect in termini predittivi
Il problema di analisi
anzianità
CAT 1
CAT n
L’obiettivo dell’analisi
Prevedere la redditivita’
del socio fin
dalle prime evidenze
L’impostazione del problema
Redditività = ricavi - costi

redditività var. continua

classi di redditività ( < 0 ; >= 0)
I dati di input


Y:
Redditività consolidata
X:
# ordini
pagato ordini
pagato rateale mensile
sesso (dicotomica)
area (dicotomiche)
…..
Predisposizione
Banca Dati
Costruzione Var.
Obiettivo
Il
Analisi
Preliminari
percorso
di analisi
Stima del
Modello
Validazione
Implementazione
Analisi preliminari

lo studio della distribuzione

lo studio della concentrazione

la struttura di correlazione
L’impostazione del problema

Redditività var. continua
Regressione Lineare

Redditività var. dicotomica
Regressione Logistica
Il modello di regressione lineare
1. Introduzione ai modelli di regressione
2. Obiettivi
3. Le ipotesi del modello
4. La stima del modello
5. La valutazione del modello
6. Commenti
I modelli di regressione
Modelli di dipendenza per la rappresentazione di relazioni non
simmetriche tra le variabili
• Y “variabile dipendente” (variabile target da spiegare)
• X1,…,Xp “variabili indipendenti” (variabili esplicative o
regressori)
Il modello di regressione lineare
Si vuole descrivere la relazione tra Y e X1,…,Xp con una
funzione lineare
• se p=1  osservazioni in uno spazio a due dimensioni
(i=1,…,n)
Yi  f ( Xi1)
• se p>1  osservazioni in uno spazio a p+1 dimensioni
(i=1,…,n)
Yi  g ( Xi1,..., Xip)
Il modello di regressione lineare
• se p=1  spazio a due dimensioni  retta di regressione
lineare semplice
Y
X
Il modello di regressione lineare
Y
• se p>1  spazio a p+1 dimensioni  “retta” di regressione
lineare multipla
X1
Il modello di regressione lineare
Obiettivi
• Esplicativo - Stimare l’influenza dei regressori sulla
variabile target.
• Predittivo - Stimare il valore non osservato della variabile
target in corrispondenza di valori osservati dei regressori.
• Comparativo - Confrontare la capacità di più regressori, o
di più set di regressori, di influenzare il target (= confronto
tra modelli di regressione lineare diversi).
Il modello di regressione lineare
Le ipotesi del modello
Y
y1
y2
y3
…
…
…
yn
(nx1)
X1
x 11
x 21
x 31
…
…
…
x n1
X2
x 12
x 22
x 32
…
…
…
x n2
X3
x 13
x 23
x 33
…
…
…
x n3
…
…
…
…
…
…
…
…
(nxp)
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
Xp
x 1p
x 2p
x 3p
…
…
…
x np
• n unità statistiche
• vettore colonna (nx1) di n misurazioni su una variabile
continua (Y)
• matrice (nxp) di n misurazioni su p variabili quantitative
(X1,…,Xp)
• la singola osservazione è il vettore riga (yi,xi1,xi2,xi3,…,xip)
i=1,…,n
Il modello di regressione lineare
Le ipotesi del modello
Equazione di regressione lineare multipla
Yi   0   1 Xi1   2 Xi 2  ...  pXip  i
i-esima
oss. su Y
intercetta
i-esima
oss. su X1
errore relativo
all’i-esima oss.
coefficiente
di X1
La matrice X=[1,X1,…,Xp] è detta matrice del disegno.
Il modello di regressione lineare
Le ipotesi del modello
L’errore presente nel modello si ipotizza essere di natura
casuale. Può essere determinato da:
•
•
•
•
variabili non considerate
problemi di misurazione
modello inadeguato
effetti puramente casuali
Il modello di regressione lineare
Le ipotesi del modello
1. Errori a media nulla
2. Errori con varianza costante
(omoschedasticità)
3. Errori non correlati
(per ogni i≠j)
4. Errori con distribuzione Normale
* 1 – 3  hp deboli
1 – 4  hp forti
E ( )  0
Cov( )   2 In
Cov(i, j )  0
 ~ N (0,   In)
Il modello di regressione lineare
Le ipotesi del modello
Da un punto di vista statistico
• Y è un vettore aleatorio di cui si osserva una specifica
realizzazione campionaria  hp sulla distribuzione
• X è una matrice costante con valore noto  no hp sulla
distribuzione
• beta è un vettore costante non noto
• l’errore è un vettore aleatorio di cui si osserva una
specifica realizzazione campionaria  hp sulla
distribuzione
Il modello di regressione lineare
Le ipotesi del modello
• in media Y può essere rappresentata come funzione
lineare delle sole (X1,…,Xp)
  E (Y )  X
• ogni osservazione di Y è uguale ad una combinazione
lineare dei regressori con pesi=coefficienti beta + un
termine di errore
Y  X  
Scarica

Diapositiva 1