Modelli e strumenti della
previsione sociale
Stefano Nobile
Modelli previsionali nelle scienze sociali




La previsione richiede una struttura teorica sottostante. Per
questo motivo, quando si parla di previsione nelle scienze
sociali, il ricorso alle tecniche di analisi sarebbe
insufficiente. Occorre fare riferimento ai modelli.
Pur tuttavia, si danno casi in cui le opzioni di analisi dei dati
indirizzano verso un ambito ibrido.
Una delle strade più frequentate nell’analisi dei dati in
senso previsionale è quello delle serie storiche, che
implicano un assunto teleologico secondo il quale la
variabile indipendente tempo implica determinati effetti
sulla variabile dipendente.
Il quadro complessivo di tecniche e modelli di analisi dei
dati in senso previsionale può essere schematizzato come
segue:
Modelli e strumenti della previsione sociale
2
Modelli previsionali nelle scienze sociali
Previsione
(analisi dei dati)
tecniche
modelli
serie storiche
ibridi
Reti neurali
artificiali
Analisi
discriminante
Regressione
lineare e logistica
Modelli e strumenti della previsione sociale
Analisi dei percorsi
Causali
(path analisys)
3
Le serie storiche


Gli ambiti d’applicazione sono i più disparati. Tra questi si possono
citare l’evoluzione strutturale della mortalità infantile, il
monitoraggio sanitario, l’aggiornamento sequenziale delle scorte,
la previsione di aggregati economici e finanziari, il problema dei
mutamenti climatici nel nostro pianeta (Piccolo, 1990: 11).
Fra gli obiettivi più rilevanti delle serie storiche vanno ricordati:









La previsione
La simulazione
Il controllo
L’analisi strutturale
La ricerca di dati anomali
L’analisi econometrica
L’individuazione di componenti non osservabili
La classificazione e la discriminazione
Le rappresentazioni grafiche
Modelli e strumenti della previsione sociale
4
Le serie storiche



Una serie storica è una sequenza di intensità (o di frequenze) di
uno stesso fenomeno rilevate in corrispondenza di tempi diversi.
La variabilità del fenomeno è dunque osservata rispetto al tempo:
esso riassume tutto ciò che induce modificazioni nel fenomeno di
interesse; in altre parole, gli effetti dell’evoluzione delle
determinanti e di tutti i fenomeni concomitanti con quello oggetto
di studio sono composti e sintetizzati in un’unica informazione, il
tempo. Da tale punto di vista, lo studio di una serie storica
equivale all’analisi di una distribuzione doppia dove il carattere
antecedente logico è il tempo e la variabile dipendente (effetto) il
fenomeno considerato.
Il tempo è una variabile continua. Tuttavia raramente
l’osservazione di un fenomeno è registrata con continuità (s.s.
continua, come, ad esempio, un pennino di un apparecchio che
tracciasse su un nastro continuo la temperatura istante per
istante); quasi sempre, invece, il fenomeno viene registrato in una
sequenza discreta di istanti o di intervalli di tempo (s.s. discreta),
generalmente equispaziati (ad esempio, serie storiche annuali,
mensili, giornaliere).
Modelli e strumenti della previsione sociale
5
Le serie storiche


L’analisi delle serie storiche è rivolta essenzialmente allo studio
dell’andamento delle intensità del fenomeno osservato rispetto al
tempo, per cercare di comprendere il meccanismo generatore
ditale andamento, al fine di formulare previsioni sui livelli che il
fenomeno assumerà in futuro (extrapolazione).
L’obiettivo è quello di costruire un modello che racchiuda le leggi
che governano il processo, da poter utilizzare in diversi modi:



descrittivo–normativo: si richiede che il modello rappresenti nel modo
più fedele possibile la realtà, nel tentativo di individuare relazioni tra la
variabile in esame e le leggi che governano il sistema;
simulativo: si vuole poter riprodurre il comportamento del sistema
sotto determinate condizioni ed osservare gli output relativi a
determinati valori di ingresso;
previsionale: si vogliono estendere al futuro le modalità di
funzionamento del sistema osservate nel passato, per avere una stima
puntuale o un intervallo di previsione per gli istanti futuri.
Modelli e strumenti della previsione sociale
6
Le serie storiche


Come si è visto, il tempo può essere interpretato come la sintesi
degli effetti che le dinamiche dei fenomeni interagenti con quello
oggetto di studio esercitano sulla naturale evoluzione di
quest’ultimo. Ma di tali fenomeni, presi individualmente, si perde
ogni traccia e allora non resta che spostare l’attenzione dalle
determinanti della dinamica della serie storica a meccanismi
interni della serie stessa che è necessario individuare (Ballatori,
1986: 296).
Un elenco, pressoché universalmente accettato, di tali meccanismi
interni di una s.s., detti componenti, per serie riferite a tempi subannuali (trimestri, mesi, settimane, giorni), è il seguente:





trend, o componente di fondo;
ciclo, o componente ciclica;
componente stagionale;
componente casuale o erratica.
Se la s.s. è composta da dati annuali o pluriennali, essa assorbe la
componente stagionale che, in tal caso, non è più evidenziabile.
Modelli e strumenti della previsione sociale
7
Le serie storiche




Il trend è la tendenza di fondo che caratterizza la dinamica del fenomeno nel lungo
periodo. Le determinanti che sono sintetizzate nell’«effetto trend» sono generalmente
quei fenomeni sociali di lenta evoluzione, come ad esempio l’ammontare della
popolazione, l’evoluzione dei gusti dei consumatori, se la serie storica è relativa al
consumo di un determinato prodotto, e così via.
Nelle serie storiche relative a fenomeni economici, sociali, meteorologici sono
presenti componenti caratterizzate da andamenti sinusoidali di lungo periodo,
chiaramente pluriannuali, chiamate cicli (esempi di cicli sono le fasi di espansione e di
recessione delle economie capitalistiche, le intensità di radiazioni connesse alla
periodicità delle macchie solari). In una stessa serie storica possono essere presenti
più componenti cicliche, di diverso periodo, così come è possibile che esse, nel lungo
periodo, mutino di periodicità, in maniera evolutiva o semplicemente casuale.
Molti fenomeni sociali ed economici presentano il fenomeno della stagionalità
connessa soprattutto alle condizioni climatiche. In tal caso massime e minime
intensità del fenomeno si ripresentano ogni anno all’incirca nello stesso periodo. La
componente stagionale è quella che riassume tali movimenti. Si osservi, però, che
periodicità di diversa ampiezza sono presenti anche nei fenomeni biologici
(andamenti circadiani, circum-annuali), sebbene non siano stati ancora
sufficientemente studiati.
La componente casuale comprende sia effetti di natura strettamente accidentale, che
effetti relativi a componenti che non sono state prese in esame, ossia a componenti
diverse dal trend, ciclo e dalla componente stagionale.
Modelli e strumenti della previsione sociale
8
Le componenti delle serie storiche
Modelli e strumenti della previsione sociale
9
L’analisi discriminante
Stefano Nobile
L’analisi discriminante





L’analisi discriminante «consente di mettere in evidenza i legami
esistenti tra una variabile qualitativa da spiegare e un insieme di
variabili quantitative esplicative» (Bouruche, Saporta, 1980).
Essa inoltre permette di prevedere le modalità della variabile da
spiegare a partire dai valori assunti dalle variabili esplicative
A differenza della cluster analisys, che usa variabili per costruire
classificazioni, l’analisi discriminante parte da una classificazione
già nota. Tramite un insieme di variabili cardinali che sono ridotte
e sintetizzate da alcune funzioni latenti discriminanti, cerca di
dare conto della variabile qualitativa utilizzata.
La prima funzione discriminante è quella che massimizza il
rapporto tra la varianza tra i gruppi e quella interna ai gruppi. Le
successive funzioni si calcolano analogaente aggiungendo il
vincolo dell’ortogonalità (Di Franco, 1997: 93).
Il numero totale di funzioni discriminanti estraibili è uguale al
numero più piccolo tra le variabili (v) e (k – 1) gruppi noti, dove i
gruppi corrispondono alle modalità della variabile qualitativa
(categoriale) utilizzata
Modelli e strumenti della previsione sociale
11
L’analisi discriminante


Tra le applicazioni più diffuse dell’analisi
discriminante, vanno annoverate, oltre alla
sociologia, discipline come la medicina (per l’aiuto
nelle diagnosi), la meteorologia e il credit scoring.
Riguardo a quest’ultimo, la naturale applicazione
di questo tipo di analisi nell’ambito bancario del
rischio di credito è quello di discriminare,
all’interno di una popolazione di individui che
richiedono un prestito ad una determinata banca,
tra quelli propensi a restituire il credito da quelli
non propensi sulla base di un insieme di
informazioni quali lo stipendio, beni ipotecabili e il
tipo di prestito che si richiede.
Modelli e strumenti della previsione sociale
12
L’analisi discriminante

Per esempio, un istituto di credito che voglia
razionalizzare l’erogazione dei prestiti finanziari
può classificare i sui clienti rispetto al pagamento
dei debito in due classi: puntuali e insolventi.
Avendo a disposizione un insieme di informazioni
sui clienti, come il reddito annuale, il totale di
tasse pagate, il valore delle proprietà del cliente e
altre variabili di questo tipo, sarà possibile
individuare con l’AD una funzione discriminante.
Con questi dati l’istituto di credito potrà
prevedere per i nuovi clienti, conoscendo i loro
stati sulle variabili discriminanti, quali rischiano di
non restituire i crediti ricevuti, minimizzando la
probabilità di un’errata previsione (Di Franco,
1997: 93).
Modelli e strumenti della previsione sociale
13
L’analisi discriminante

Un esempio più sociologico è il seguente. Supponiamo di
aver condotto una ricerca su un campione di studenti
dell’università e di essere interessati alle loro carriere.
Individuiamo la variabile categoriale discriminante nella loro
posizione di studenti articolata in due modalità:



studenti in corso;
studenti fuori corso.
A questo punto dobbiamo individuare un insieme di variabili
cardinali che possano rendere conto delle differenze
presenti fra gli studenti in corso e quelli fuori corso. Ad
esempio le variabili potrebbero essere:





il numero di corsi frequentati per ogni anno accademico;
il numero di seminari frequentati per ogni anno accademico;
il numero di esami sostenuti per ciascun anno accademico;
la media dei voti agli esami;
il tempo medio trascorso fra un esame e l’altro; e così via.
Modelli e strumenti della previsione sociale
14
L’analisi discriminante

Grazie a queste variabili possiamo ricavare una funzione
lineare discriminante che è in grado di evidenziare le
differenze principali fra gli studenti in corso e quelli fuori
corso. L’utilità dell’analisi discriminante non è solo limitata
all’aspetto descrittivo di una classificazione dei casi. Come
detto, può essere usata in funzione previsionale. Ciò
significa che si potranno usare le funzioni discriminanti
individuate nella fase descrittiva dell’analisi per classificare
un insieme di casi (ad esempio un campione di studenti alla
fine del primo anno del loro corso di studi universitario) per
prevedere quali di questi presentano alte probabilità di
andare fuori corso. Disponendo di queste informazioni si
potranno mettere in atto delle iniziative tese a contenere il
fenomeno della dispersione universitaria (Di Franco, 2007:
153)
Modelli e strumenti della previsione sociale
15
L’analisi discriminante


Come nell’analisi in componenti principali, si
determina una nuova variabile, combinazione
lineare delle precedenti. Tuttavia, non si tratta
più di ottenere una variabile di varianza massima,
ma una variabile che separi al meglio i tre gruppi
tra loro.
La nuova variabile sarà perfettamente
discriminante se assumerà lo stesso valore su
tutti gli individui di uno stesso gruppo e valori
differenti sugli individui appartenenti a gruppi
distinti.
Modelli e strumenti della previsione sociale
16
Analisi discriminante decisionale

Immaginiamo di conoscere di un certo
individuo soltanto gli stati sulle proprietà
esplicative ma non si sappia a quale
gruppo appartiene. È possibile attribuirlo a
uno dei gruppi facendo ciò con un minimo
rischio di errore?
Modelli e strumenti della previsione sociale
17
Analisi discriminante decisionale

Tra i tanti metodi esistenti per discriminare i
gruppi in base alle variabili esplicative
selezionate, i più noti sono:



Il metodo geometrico, che consiste nell’attribuire un
individuo al gruppo il cui centro di gravità è più vicino
Il metodo bayesiano, che consiste nell’attribuire un
individuo al gruppo più probabile.
Naturalmente l’efficacia della nostra previsione
dipenderà, ex post facto, dalla misura dell’errore
nel confronto tra situazione reale e situazione
prevista.
Modelli e strumenti della previsione sociale
18
L’analisi discriminante

Prima di procedere, bisogna scegliere:





Il criterio di discriminazione da usare
Le variabili da sottoporre all’AD
Il criterio per la scelta delle variabili
A questo punto, è bene analizzare media e scarto tipo per
ciascuna delle variabili all’interno dei singoli gruppi: nel
caso in cui si riscontrassero valori troppo simili, le variabili
che riportano tali valori andrebbero scartate perché non
sufficientemente discriminanti. A questo scopo viene
utilizzato il test di tolleranza minimo.
Elevando al quadrato il coefficiente di correlazione canonica,
otteniamo la proporzione di varianza che ciascuna delle
funzioni discriminanti ottenute riproducono
dall’appartenenza alle diverse classi della variabile
dipendente presa in considerazione.
Modelli e strumenti della previsione sociale
19
L’analisi discriminante. Le fasi dell’analisi
scelta dei casi
 analisi monovariata delle differenze tra
gruppi articolata in diverse fasi:




analisi monovariata di medie e scarti-tipo delle
variabili nei gruppi considerati;
analisi della matrice di correlazione entro i
gruppi, ottenuta dalla media delle matrici delle
covarianze per tutti i gruppi;
esame dei valori dei test F e Lambda relativi
alle differenze tra le medie dei gruppi
Modelli e strumenti della previsione sociale
20
L’analisi discriminante. Le fasi dell’analisi

Verifica delle assunzioni (Barbaranelli, 2006: 181)




Ogni soggetto deve appartenere a uno solo dei gruppi che a priori
definiscono la classificazione
Bisogna avere almeno 20 soggetti nel gruppo con numerosità minore
Il numero delle variabili indipendenti deve essere inferiore al numero
di soggetti di ogni gruppo
Nessuna variabile indipendente deve essere una combinazione lineare
di altre variabili indipendenti, né presentare correlazioni troppo
elevate con esse (assenza di multicollinearità). Va ricordato che il
potere discriminante di una variabile è tanto maggiore quanto meno
essa correla con le altre variabili indipendenti. La tenuta di questa
assunzione può essere verificata attraverso i parametri di tolleranza e
VIF. Poiché questi ultimi non vengono forniti in output dall’analisi
discriminante, si possono ottenere con una regressione multipla che
utilizzi come variabili indipendenti le stesse scelte per l’AD e come
dipendente una qualsiasi altra variabile. I valori del test devono
risultare alti (dal 70% in su).
Modelli e strumenti della previsione sociale
21
L’analisi discriminante. Le fasi dell’analisi
Modelli e strumenti della previsione sociale
22
L’analisi discriminante. Le fasi dell’analisi
Modelli e strumenti della previsione sociale
23
L’analisi discriminante. Le fasi dell’analisi

Le matrici delle
varianzecovarianze tra
le variabili
indipendenti
nelle
popolazioni da
cui i gruppi
sono estratti
devono essere
omogenee
(omoschedastic
ità). Questa
assunzione
viene
esaminata con
il test M di
Box.
Modelli e strumenti della previsione sociale
24
L’analisi discriminante. Le fasi dell’analisi


Nelle popolazioni da cui i gruppi sono estratti, tutte le variabili
indipendenti e le loro combinazioni lineari devono avere
distribuzione normale. Questa assunzione può essere esaminata
tramite la distanza di Mahalanobis (da realizzare anche con la
regressione, ma trascurabile).
Le relazioni tra le variabili indipendenti devono essere lineari
(trascurabile).
Modelli e strumenti della previsione sociale
25
L’analisi discriminante. Le fasi dell’analisi

Per l’individuazione delle funzioni discriminanti si
possono usare diversi criteri:


il criterio diretto: tutte le variabili sono introdotte
inizialmente nell’analisi per poi essere progressivamente
escluse se non superano il test di tolleranza, la cui soglia
può essere fissata a priori (default 0,001);
il criterio stepwise (passo-passo); le variabili sono
introdotte una alla volta in base alla loro capacità di
discriminazione (le prime variabili immesse sono quelle
che hanno una capacità discriminativa più elevata).
Questo criterio è efficace quando le variabili
discriminanti sono ridondanti (molto correlate tra loro),
oppure hanno scarso potere discriminativo
Modelli e strumenti della previsione sociale
26
L’analisi discriminante. Le fasi dell’analisi


Nell’analisi discriminante possono essere individuate tante
funzioni discriminanti quanto sono i gruppi della variabile
dipendente meno 1. a condizione che il numero di variabili
indipendenti utilizzate sia maggiore del numero dei gruppi.
Viceversa, il numero massimo di funzioni discriminanti è
uguale al numero di variabili indipendenti.
Interpretazione delle funzioni discriminanti individuate
attraverso:


La varianza riprodotta (autovalore), costituita dal rapporto
tra la somma dei quadrati degli scarti dalla media tra i gruppi e
la somma dei quadrati degli scarti dalla media entro i gruppi;
il coefficiente di correlazione canonica, costituito dal grado
di correlazione tra il punteggio discriminante e i gruppi. Più
elevata è la correlazione, migliore è la capacità discriminativa
della funzione. Se si eleva al quadrato il coefficiente di
correlazione canonica si misura la proporzione di varianza
totale dovuta alla differenza tra i gruppi;
Modelli e strumenti della previsione sociale
27
L’analisi discriminante. Le fasi dell’analisi


lambda di Wilks che esprime la proporzione di varianza
non riprodotta dalla divisione in gruppi: più elevato è
lambda, minore è l’efficacia della funzione. Si noti che, nel
caso di variabili dicotomiche, la somma tra il coefficiente di
correlazione canonica al quadrato e lambda è uguale a i (si
scompone la varianza totale in due termini: la varianza
riprodotta dalla funzione discriminante che viene
rappresentata dal quadrato del coefficiente di correlazione
canonica e la varianza non riprodotta dalla funzione
discriminante che viene rappresentata da lambda);
Il Chi2 calcolato sul valore di lambda, tra i due coefficienti
esiste una relazione matematica per cui i valori di lambda
possono essere facilmente trasformati in valori di Chi2, che
costituisce un test ulteriore per il controllo dell’ipotesi che
esistano differenze significative tra le medie dei gruppi.
Modelli e strumenti della previsione sociale
28
L’analisi discriminante. Le fasi dell’analisi
Modelli e strumenti della previsione sociale
29
L’analisi discriminante. Le fasi dell’analisi

Per l’interpretazione della funzione discriminante si analizzano i coefficienti
che rappresentano il contributo delle variabili originarie alle singole
funzioni. Questi coefficienti sono standardizzati; il loro segno indica il tipo
di associazione (diretta se positivo, inversa se negativo). Tuttavia, è anche
possibile richiedere i coefficienti non standardizzati tramite la finestra di
dialogo statistiche. Se, dopo aver visionato la matrice relativa ai
Coefficienti standardizzati della funzione discriminante canonica si
vuole valutare ulteriormente importanza di una variabile nel contribuire
alla funzione discriminante, si può ricorrere alla matrice di struttura. Se
il valore di questi coefficienti è maggiore di 0,30, vuol dire che la variabile
condivide con la funzione discriminante almeno il 9% della varianza e
quindi può essere considerata come un “marker” sufficientemente
adeguato per interpretare la funzione discriminante (Barbaranelli, 2006:
186). Inoltre, per facilitare l’interpretazione le due matrici di coefficienti
possono essere ruotate con il metodo Varimax. In genere si consiglia di
ruotare soltanto le funzioni che risultano statisticamente significative. La
rotazione non può essere chiesta da menù ma solo tramite sintassi, con il
seguente comando:


/rotate = coeff structure
Poiché le due matrici possono fornire indicazioni divergenti, si tende a
privilegiare l’uso della matrice di struttura
Modelli e strumenti della previsione sociale
30
L’analisi discriminante. Le fasi dell’analisi
Modelli e strumenti della previsione sociale
31
L’analisi discriminante. La fase della
classificazione

Se le funzioni discriminanti si rivelano adeguate si
ripartiscono i casi secondo una funzione di classificazione
che si ottiene matematicamente dalle funzioni discriminanti
e dai punteggi medi dei gruppi ottenuti nella fase
precedente:



analisi delle rappresentazioni grafiche nelle quali si proiettano,
all’interno di uno spazio formato dalle prime due funzioni
discriminanti, i confini dei casi assegnati alle classi in base alle
funzioni discriminanti (mappa territoriale) e i loro centroidi;
il calcolo per ogni caso di tanti punteggi quante sono le
funzioni discriminanti, che permettono di assegnarlo, con una
certa probabilità, al gruppo più vicino. Ogni caso sarà quindi
assegnato a un gruppo, noto a priori, e al gruppo ottenuto
attraverso l’AD.
dal confronto delle due classificazioni (quella nota a priori e
quella ottenuta attraverso AD) si ottiene la percentuale di casi
che risultano ben classificati, cioè collocati nello stesso gruppo
Modelli e strumenti della previsione sociale
32
L’analisi discriminante: grafici dei gruppi
separati
Modelli e strumenti della previsione sociale
33
L’analisi discriminante: grafici dei gruppi
separati
Modelli e strumenti della previsione sociale
34
L’analisi discriminante: grafici dei gruppi
separati
Modelli e strumenti della previsione sociale
35
L’analisi discriminante: grafici dei gruppi
separati
Modelli e strumenti della previsione sociale
36
L’analisi discriminante: grafici dei gruppi
separati
Modelli e strumenti della previsione sociale
37
La sintassi in SPSS relativa all’analisi
discriminante
DISCRIMINANT

/GROUPS=clu4_1(1 4) (serve a definire la variabile dipendente ovvero la variabile che specifica i raggruppamenti predefiniti di soggetti. Il ricercatore deve specificare i valori minimo e massimo che vengono utilizzati per differenziare i
gruppi (nel nostro caso abbiamo quattro gruppi, che hanno etichette progressive da 1 a 4). Non è possibile ovviamente
specificare più di una variabile dipendente)

/VARIABLES=n e o a c (serve invece a definire le variabili indipendenti che vengono inserite per rendere ragione della
appartenenza dei soggetti ai diversi gruppi definiti dalla variabile dipendente. Le variabili devono essere a intervalli
equivalenti o dicotomiche)

/ANALYSIS ALL (può essere utilizzato per definire diverse analisi discriminanti sugli stessi dati, ma analizzando insiemi
diversi di variabili. Nel nostro caso vengono analizzate tutte le variabili indipendenti specificate col comando
precedente)

/PRIORS EQUAL (serve per definire le probabilità a priori di appartenenza ai gruppi, utilizzate nella fase di
classificazione. L’opzione di default è che un soggetto abbia la stessa probabilità di essere classificato in ciascun gruppo
(ed è quella specificata nel nostro caso). Ovviamente l’utente può specificare valori differenti, se questo si rende
necessario)

/STATISTICS=MEAN STDDEV UNIVF BOXM COEFF RAW CORR COV GCOV TCOV TABLE (Il comando serve a richiedere
una serie di statistiche supplementari che possono arricchire l’output oltre quanto viene fornito di default. MEAN e
STDDEV servono per richiedere le medie e le deviazioni standard delle variabili indipendenti nei gruppi. UNIVF serve
per richiedere i testi univariati dell’analisi della varianza che esaminano la significatività della differenza delle medie
delle variabili indipendenti tra i differenti gruppi. BOXM serve per richiedere il test M di Box per la verifica
dell’assunzione dell’omogeneità delle matrici di varianza/covarianza. COEFF serve per richiedere in output i coefficienti
delle funzioni di classificazione: anche se la procedura non utilizza questi coefficienti per classificare i casi utilizzati
nell’analisi, essi possono essere utilizzati per classificare altri soggetti che appartengono a campioni differenti. RAW
consente di ottenere i coefficienti non standardizzati delle funzioni discriminanti. TABLE consente di visualizzare i
risultati del processo di classificazione dei dati: nel caso in cui l’analisi fosse stata condotta selezionando un gruppo di
soggetti dal file, la tabella conterrà due sezioni separate, una per i soggetti utilizzati nell’analisi e una per i soggetti non
selezionati. CROSSVALID consente di effettuare il processo di classificazione tramite la procedura della “classificazione
autoesclusiva”. Infine, specificando “ALL”, verranno riportate in output tutte le statistiche disponibili, quindi sia quelle
di default, sia quelle descritte ora, sia altre che sono ottenibili da menù)

CROSSVALID

/PLOT=COMBINED SEPARATE MAP

/CLASSIFY=NONMISSING POOLED .
Modelli e strumenti della previsione sociale
38
L’analisi discriminante: classificazione
originale e cross-validata a confronto

Nella classificazione finale si ottengono due
tabelle: una si riferisce alla classificazione
originale, l’altra a quella cross-validata.


La prima (originale) presenta i risultati della
riclassificazione effettuata su tutti i soggetti.
La seconda (cross-validata) presenta invece i risultati
della riclassificazione effettuata con il metodo della
classificazione auto-esclusiva. Secondo questo metodo
ogni soggetto è classificato tramite i risultati delle
funzioni di classificazione derivate da tutti i soggetti
tranne quello in esame. A margine della tabella viene
indicata la percentuale di casi classificati correttamente
secondo entrambe le procedure.
Modelli e strumenti della previsione sociale
39
L’analisi discriminante: classificazione
originale e cross-validata a confronto
Modelli e strumenti della previsione sociale
40
L’analisi discriminante: la mappa
territoriale
Mappa territoriale
(Assumendo che tutte le funzioni eccetto le prime due siano uguali a zero)
Discriminante canonica
Funzione 2
-6,0
-4,0
-2,0
,0
2,0
4,0
6,0

6,0 11
2211
 221

211

2211

221
4,0 
211

2211

221

211


2,0 





,0 





-2,0 





-4,0 


221




14
14
14
14
14
14

14

14
14
14

14
211
14
2211

14
221
*
14
211
14
2211
14
221
1114
21111111334
*
*
2333333 34 
23
34
23
*
34
23
23
23

23

23
23
23
23
23
 23













34
34
34
 34

34
34
34
34
34

34 





















23
34


23
34


23
34


23
34


23
34

-6,0 
23
34


-6,0
-4,0
-2,0
,0
2,0
4,0
6,0
Funzione discriminante canonica 1
Modelli e strumenti della previsione sociale
41
La regressione lineare
La regressione lineare





La regressione lineare è una tecnica che esamina la relazione lineare tra
una o più variabili esplicative (variabili indipendenti) e una (e solo una)
variabile criterio (variabile dipendente) (Mastrolilli et al., 2004: 152)
Nel caso in cui si ipotizzi la presenza di una sola variabile esplicativa,
avremo una regressione semplice; nel caso di più variabili esplicative, la
regressione sarà multipla.
Nelle scienze umane è molto difficile applicare il modello della regressione
lineare, in quanto solo raramente si dispone di variabili cardinali, specie
quando la tecnica di raccolta dei dati è l’intervista con questionario (Di
Franco, 2009: 131)
Statisticamente, il punto di partenza della regressione è rappresentato da
una matrice che riassume le correlazioni tra la variabile dipendente e la/le
variabile/i indipendente/i.
Il punto di arrivo è rappresentato da:



Un insieme di parametri che riassumono la relazione tra VD e VI
Una statistica per l’esame della significatività dei parametri e un valore di
probabilità associato a ognuno di questi parametri
Un valore che riassume la proporzione di varianza della VD che
complessivamente è spiegata dalle VI.
Modelli e strumenti della previsione sociale
43
La regressione lineare

Per poter procedere, bisogna rispettare i seguenti criteri:







VI e VD devono essere di tipo quantitativo
Per ciascun valore della VI, la distribuzione della VD deve essere
normale
La varianza della distribuzione della VD deve essere costante per tutti i
valori della VI.
La varianza di ogni variabile indipendente deve essere maggiore di 0
(Barbaranelli, 2006: 22)
Esistono poi altre condizioni, relative alla tecnica di campionamento, ai
residui e alle relazioni tra VI, che possono essere trascurati (per
approfondimenti, si veda Barbaranelli, 2006: 23).
La regressione calcola il valore del coefficiente che lega una VD, o
criterio, a una VI, o predittore.
Nel caso di più VI, verrà calcolato un coefficiente per ogni
predittore separatamente e verrà fornito un indice complessivo
che riporta la percentuale di varianza della VD spiegata dalle VI,
ovvero quanto l’insieme dei predittori riesce a spiegare la variabile
criterio (Mastrolilli et al., 2004: 153).
Modelli e strumenti della previsione sociale
44
Regressione e correlazione





Le equazioni di regressione possono essere considerate come le “leggi”
della scienza. In altre parole, esse servono a dare conto della misura con
cui una certa variabile dipendente Y può variare in ragione del
cambiamento di una variabile indipendente X.
Il concetto di regressione precede logicamente quello di correlazione ed è
più importante di esso sotto il profilo teorico (Blalock, 1960: 478)
Se la regressione di Y su X è lineare, ovvero se la relazione è a linea retta,
possiamo scrivere un’equazione come segue:
Y = a + bX
dove a indica il punto d’intersezione con l’asse delle ordinate e b
l’inclinazione della retta. Dal punto di vista concettuale, b rappresenta la
quota di variazione di Y rispetto ad X (ossia di quanto varia Y rispetto ad
X: se della metà, di un terzo, del doppio, eccetera) mentre a rappresenta
un certo valore costante che deve essere sommato alla variabile
indipendente per ottenere Y.
Se l’equazione, come in questo caso, ha soltanto due variabili, parleremo
allora di regressione lineare bivariata.
Modelli e strumenti della previsione sociale
45
La retta di regressione



Tale modello di equazione è ovviamente assai poco realistico nel
caso delle scienze umane. Bisogna allora introdurre una
componente residuale (e) che rappresenta i residui della
regressione. Questi ultimi esprimono le differenze tra i valori
effettivi e i corrispondenti valori previsti dall’equazione di
regressione (Di Franco, 1997: 109). L’equazione assume allora la
forma:
Y = a + bX + e
Standardizzando i valori delle variabili, il termine noto (a)
scompare e la retta passa per l’origine degli assi, diventando:
Y = bX + e
È ovvio che nelle scienze sociali la relazione tra due variabili è ben
difficilmente esprimibile in maniera così netta. A questa
insufficienza risponde la regressione multipla lineare. Questa
implica la necessità di trovare un iper-piano che interpoli un
iperspazio a n dimensioni, la cui funzione lineare può essere così
espressa:
Y = a + b1X1 + b2X2 + b3X3 … + bnXn +e
Modelli e strumenti della previsione sociale
46
Il metodo dei minimi quadrati

L’introduzione di una
componente residuale
nell’equazione deriva da
una stima non perfetta dei
valori della Y rispetto ai
valori della X, a causa del
fatto che i valori effettivi
non sono collocati
perfettamente sulla retta
individuata. La differenza
tra i valori stimati e i valori
effettivi della Y si esprime
in termini di residui dalla
retta di regressione.
Quando i dati non sono
perfettamente allineati, ci
sono infinite rette che
possono interpolare la
nuvola di punti. Si deve,
quindi, trovare quella retta
che, tra le infinite possibili,
sia la migliore interpolatrice
della nuvola. Questa retta
sarà quella che minimizza
la somma dei quadrati dei
residui.
Modelli e strumenti della previsione sociale
47
Il metodo dei minimi quadrati


Con il metodo dei mini
quadrati si soddisfa la
condizione di rendere
minima la somma degli
scarti al quadrato tra i
valori effettivi e quelli
predetti. L’elevazione al
quadrato dei residui di
previsione si impone per
evitare che la somma
algebrica degli scarti si
annulli.
È comunque bene
prendere in ogni caso
l’abitudine di tracciare
un diagramma a nuvola
di punti prima di
procedere con l’analisi;
in molti casi l’osservare
il diagramma sarà
sufficiente a indicare se
vale la pena procedere
(Blalock, 1960: 488)
Modelli e strumenti della previsione sociale
48
Il metodo dei minimi quadrati


Il metodo dei minimi quadrati consiste dunque nel trovare
quell’unica retta che ha la proprietà di ridurre al minimo
la somma dei quadrati degli scarti tra i valori teorici sulla
stessa linea e i valori empirici di Y (Blalock, 1960: 489).
Pertanto, se misuriamo gli scarti dei punti sulle linee
verticali tracciate da ciascuno dei punti stessi alla retta dei
minimi quadrati, eleviamo al quadrato tali scarti e li
sommiamo, la somma risultante sarà minore di quella
ottenibile mediante qualsiasi altra linea retta.
La retta di regressione può quindi essere immaginata come
quella retta che – tra le infinite rette del piano – minimizza
le distanze dei punti dalla distribuzione bivariata.
Modelli e strumenti della previsione sociale
49
Il calcolo dei coefficienti della retta di
regressione

Si supponga, a titolo di esempio, di volere
ricavare la probabile differenza di reddito
tra bianchi e neri in una data città degli
Stati Uniti partendo dai dati relativi ad
altre città, per le quali si conosce la
percentuale di neri (X) e la differenza di
reddito tra bianchi e neri (Y).
Modelli e strumenti della previsione sociale
50
Fonte: censimento USA, 1950
Percentuale di neri (X)
Differenza di reddito (Y)
2.13
809
2.52
763
11.86
612
2.55
492
2.87
679
4.23
635
4.62
859
5.19
228
6.43
897
6.70
867
1.53
513
1.87
335
10.38
868
Modelli e strumenti della previsione sociale
51
Il calcolo dei coefficienti della retta di
regressione

Nell’esempio riportato, b si ricava così:

Mentre a è:

L’equazione che si ottiene è pertanto:
Modelli e strumenti della previsione sociale
52
La retta di regressione


È ovvio che se la
variabile indipendente
è una sola, la funzione
lineare corrisponde
all’equazione di una
retta e il modello, come
abbiamo già detto, si
chiama bivariato.
Se le indipendenti sono
due o più variabili si
specifica un modello di
regressione multipla e
l’equazione lineare che
dovrà essere calcolata
avrà tante incognite
quante sono le variabili
indipendenti (Di
Franco, 2009: 128)
Modelli e strumenti della previsione sociale
53
Metodi di inserimento delle variabili

Per poter procedere alla regressione lineare multipla, occorre innanzitutto, dopo
avere identificato quali possano essere le variabili indipendenti da inserire nel
modello, scegliere tra le diverse procedure di immissione delle variabili all’interno del
modello stesso.







La procedura per blocchi / default (enter), consiste nell’inserire simultaneamente tutte le
variabili indipendenti nel modello. Parliamo in questo caso di regressione standard o
simultanea. Si usa preferibilmente in situazioni di analisi esplorativa.
Nella procedura forward (avanti) il calcolatore inserisce come prima variabile indipendente
quella che presenta il più alto valore del coefficiente di correlazione con la variabile
dipendente; la variabile inserita per seconda è quella che presenta il più elevato valore del
coefficiente di correlazione con i residui della precedente analisi, e così via.
La procedura backward (indietro) è l’inverso della precedente: tutte le variabili sono incluse
nell’equazione iniziale, e vengono via via scartate quelle meno correlate con la dipendente, al
netto dell’influenza che ciascuna di esse condivide con le altre;
La procedura stepwise (per passi) è una combinazione delle due strategie esaminate in
precedenza: ogni volta che si inserisce una variabile nel modello, il calcolatore può anche
eliminare la variabile che dà un ridotto contributo a riprodurre la varianza residua. Una volta
raggiunta una soluzione soddisfacente, il calcolatore esibisce il modello finale e i valori dei
coefficienti.
La procedura remove (rimozione) elenca a priori le variabili che si vuole siano sottoposte al
test per l’eventuale eliminazione
Tutte e quattro queste procedure si riferiscono alla cosiddetta regressione statistica.
Va inoltre ricordato che è possibile anche inserire le variabili con procedure miste.
Modelli e strumenti della previsione sociale
54
Metodi di inserimento delle variabili
Modelli e strumenti della previsione sociale
55
Statistiche della regressione multipla




L’opzione Stime consente di
visualizzare in ouput i coefficienti
di regressione e il loro errore
standard
L’opzione adattamento del
modello consente di elencare le
variabili inserite ed eliminate dal
modello di regressione e di
visualizzare le statistiche di bontà
di adattamento
Richiedendo il test di collinearità
nel menù statistiche si ottiene
l’indice di tolleranza. Quest’ultimo
viene utilizzato per stimare
quanto una VI è linearmente
correlata alle altre VI. Questo
parametro varia tra 0 e 1.
Maggiore è questo valore,
minore è la varianza che quella
VI condivide con le altre VI,
maggiore è il contributo che
essa può fornire alla
spiegazione della VD.
Lo stesso test esegue il VIF
(Variance Inflaction Factor), che
altro non è che il reciproco della
tolleranza. Bassi valori indicano
bassa collinearità e viceversa.
Valori tra 5 e 10 sono
indicativi di forte collinearità
Modelli e strumenti della previsione sociale
56
Il test di collinearità



Gli autovalori relativi alle diagnostiche di collinearità sono ottenuti effettuando
l’analisi in componenti principali della matrice dei prodotti scalari tra le variabili
indipendenti e danno un’indicazione della correlazione tra le variabili indipendenti. Se
molti autovalori sono prossimi a 0 le variabili sono fortemente correlate.
L’indice di collinearità deriva dagli autovalori: se è compreso tra 15 e 20 indica
possibili problemi di collinearità, se è maggiore di 30 la collinearità è grave.
Va però ricordato che la collinearità diventa un problema se una dimensione con un
elevato indice di collinearità contribuisce in maniera sostanziale alla varianza di due o
più variabili. Per verificare questo assunto, occorre leggere i valori che connettono le
dimensioni con le variabili. Se non ci sono valori alti per una singola dimensione
rispetto a più di una variabile, allora non ci sono problemi di collinearità.
Modelli e strumenti della previsione sociale
57
Regressione lineare: opzioni

Nella finestra opzioni di SPSS viene
data all’utente la possibilità di
impostare ulteriori parametri relativi ai
criteri di inserimento delle variabili
all’interno del modello di regressione.



Se selezioniamo usa probabilità di F,
una variabile viene inserita in equazione
se il livello di significatività della F è
minore del valore specificato in
inserimento, ed viene rimossa se esso è
maggiore del valore specificato in
rimozione.
Se selezioniamo invece usa valore di
F, una variabile viene inserita se il suo
valore di F è maggiore del valore
specificato in inserimento e rimossa se il
valore di F è minore del valore
specificato in rimozione.
L’opzione includi termine costante
nell’equazione, che è selezionata di
default, fa riferimento al valore assunto
dalla variabile indipendente quando tutti
i coefficienti di regressione sono pari a
0. Se l’opzione non viene selezionata,
viene forzato il passaggio delle retta di
regressione per l’origine degli assi, il
che avviene raramente.
Modelli e strumenti della previsione sociale
58
Statistiche descrittive nella regressione
lineare multipla



Nelle statistiche descrittive va posta particolare attenzione
a due indici: quello di asimmetria e quello di curtosi.
Si ricorda che l'indice di curtosi mira a rilevare quanto
una distribuzione sia piatta o appuntita mentre l’indice di
asimmetria rileva se e quanto una distribuzione non sia
disposta simmetricamente attorno alla sua media, e se
abbia una "coda" più lunga dell'altra.
Perché l’applicazione di un modello di regressione multipla
vada a buon fine, bisogna controllare che questi due indici
abbiano entrambi valori inferiori a |1| per ognuna delle
variabili utilizzate.
Modelli e strumenti della previsione sociale
59
Gli indici di asimmetria e curtosi

Come si può ben vedere nell’esempio riportato, soltanto la
variabile relativa al controllo comportamentale presenta dei
problemi di normalità. Tutte le altre variabili, infatti, hanno
valori di asimmetria e curtosi inferiori a |1|.
Modelli e strumenti della previsione sociale
60
Gli indici di asimmetria e curtosi

Applicando la procedura “statistiche descrittive” e salvando i valori
delle variabili standardizzate, si possono vedere quali sono gli
outliers che, una volta estromessi dall’analisi, possono migliorare
il valore dell’indice di asimmetria della variabile CONTCO e portare
quello della curtosi entro i limiti richiesti. L’esempio riportato sotto
dimostra che mentre l’indice di curtosi è stato riportato entro
valori normali, quello di asimmetria è stato ridimensionato ma
conserva ancora un valore eccessivamente alto.
Modelli e strumenti della previsione sociale
61
La lettura dei coefficienti

L’output di SPSS produce, oltre alle statistiche di collinearità, una serie di coefficienti
assai utili per l’analisi dei risultati. Ecco come si presentano, colonna per colonna:






Nella seconda colonna (B) è indicato il coefficiente di regressione multipla non standardizzato
Nella terza colonna è riportato l’errore standard del coefficiente di regressione multipla non
standardizzato
Beta indica il coefficiente di regressione multipla standardizzato
T sta per “T di Student”
Sig. T indica infine il livello di significatività della T di Student
Infine, nella prima riga compaiono l’intercetta e l’errore standard
Modelli e strumenti della previsione sociale
62
Le rappresentazioni grafiche


Le rappresentazioni grafiche
servono sostanzialmente a
controllare che gli assunti del
modello di regressione (i residui
devono essere distribuiti
normalmente, avere media 0, avere
la stessa varianza in tutte le VI,
essere intercorrelati tra loro e con
le VI) siano rispettati.
Le etichette disponibili si riferiscono
a:








DEPENDT (variabile dipendente)
ZPRED (valore predetto
standardizzato della VD)
ZRESID (valore dei residui
standardizzati)
DRESID (valore dei residui)
ADJPRED (valore predetto della VD
corretto)
SRESID (valore dei residui
studentizzati)
SDRESID (errore standard della
previsione)
È consigliabile verificare la capacità
predittiva del modello inserendo nel
grafico DEPENDT e ADJPRED.
Modelli e strumenti della previsione sociale
63
L’equazione di regressione multipla

I coefficienti di regressione multipla
standardizzati visti nella precedente diapositiva
servono dunque a ottenere l’equazione di
regressione multipla, che è questa:
Int = .194(ns) + .231(contco) + .291(compas) + .335(att)

È sulla base di questi coefficienti che è possibile
impiegare la regressione lineare multipla in senso
previsionale.
Modelli e strumenti della previsione sociale
64
La verifica della capacità predittiva
Modelli e strumenti della previsione sociale
65
Un esempio: l’astensionismo elettorale

Nella letteratura nazionale e internazionale
è diffusa la tesi secondo cui la marginalità
socioeconomica e la modesta capacità di
mobilitazione delle forze politiche di
sinistra (forze che tradizionalmente
esaltano il valore della partecipazione
popolare) siano fattori che attenuano il
livello di partecipazione elettorale (cfr.
Caciagli, Scaramozzino, 1983)
Modelli e strumenti della previsione sociale
66
Un esempio: l’astensione del voto
% senza titolo
di studio
% astenuti
% voti a
sinistra
Modelli e strumenti della previsione sociale
67
Un esempio: l’astensione del voto
Modelli e strumenti della previsione sociale
68
Un esempio: l’astensione del voto
Modelli e strumenti della previsione sociale
69
Un esempio: l’astensione del voto
Modelli e strumenti della previsione sociale
70
Un esempio: l’astensione del voto
Modelli e strumenti della previsione sociale
71
Scarica

Modelli e strumenti della previsione sociale