Modelli e strumenti della previsione sociale Stefano Nobile Modelli previsionali nelle scienze sociali La previsione richiede una struttura teorica sottostante. Per questo motivo, quando si parla di previsione nelle scienze sociali, il ricorso alle tecniche di analisi sarebbe insufficiente. Occorre fare riferimento ai modelli. Pur tuttavia, si danno casi in cui le opzioni di analisi dei dati indirizzano verso un ambito ibrido. Una delle strade più frequentate nell’analisi dei dati in senso previsionale è quello delle serie storiche, che implicano un assunto teleologico secondo il quale la variabile indipendente tempo implica determinati effetti sulla variabile dipendente. Il quadro complessivo di tecniche e modelli di analisi dei dati in senso previsionale può essere schematizzato come segue: Modelli e strumenti della previsione sociale 2 Modelli previsionali nelle scienze sociali Previsione (analisi dei dati) tecniche modelli serie storiche ibridi Reti neurali artificiali Analisi discriminante Regressione lineare e logistica Modelli e strumenti della previsione sociale Analisi dei percorsi Causali (path analisys) 3 Le serie storiche Gli ambiti d’applicazione sono i più disparati. Tra questi si possono citare l’evoluzione strutturale della mortalità infantile, il monitoraggio sanitario, l’aggiornamento sequenziale delle scorte, la previsione di aggregati economici e finanziari, il problema dei mutamenti climatici nel nostro pianeta (Piccolo, 1990: 11). Fra gli obiettivi più rilevanti delle serie storiche vanno ricordati: La previsione La simulazione Il controllo L’analisi strutturale La ricerca di dati anomali L’analisi econometrica L’individuazione di componenti non osservabili La classificazione e la discriminazione Le rappresentazioni grafiche Modelli e strumenti della previsione sociale 4 Le serie storiche Una serie storica è una sequenza di intensità (o di frequenze) di uno stesso fenomeno rilevate in corrispondenza di tempi diversi. La variabilità del fenomeno è dunque osservata rispetto al tempo: esso riassume tutto ciò che induce modificazioni nel fenomeno di interesse; in altre parole, gli effetti dell’evoluzione delle determinanti e di tutti i fenomeni concomitanti con quello oggetto di studio sono composti e sintetizzati in un’unica informazione, il tempo. Da tale punto di vista, lo studio di una serie storica equivale all’analisi di una distribuzione doppia dove il carattere antecedente logico è il tempo e la variabile dipendente (effetto) il fenomeno considerato. Il tempo è una variabile continua. Tuttavia raramente l’osservazione di un fenomeno è registrata con continuità (s.s. continua, come, ad esempio, un pennino di un apparecchio che tracciasse su un nastro continuo la temperatura istante per istante); quasi sempre, invece, il fenomeno viene registrato in una sequenza discreta di istanti o di intervalli di tempo (s.s. discreta), generalmente equispaziati (ad esempio, serie storiche annuali, mensili, giornaliere). Modelli e strumenti della previsione sociale 5 Le serie storiche L’analisi delle serie storiche è rivolta essenzialmente allo studio dell’andamento delle intensità del fenomeno osservato rispetto al tempo, per cercare di comprendere il meccanismo generatore ditale andamento, al fine di formulare previsioni sui livelli che il fenomeno assumerà in futuro (extrapolazione). L’obiettivo è quello di costruire un modello che racchiuda le leggi che governano il processo, da poter utilizzare in diversi modi: descrittivo–normativo: si richiede che il modello rappresenti nel modo più fedele possibile la realtà, nel tentativo di individuare relazioni tra la variabile in esame e le leggi che governano il sistema; simulativo: si vuole poter riprodurre il comportamento del sistema sotto determinate condizioni ed osservare gli output relativi a determinati valori di ingresso; previsionale: si vogliono estendere al futuro le modalità di funzionamento del sistema osservate nel passato, per avere una stima puntuale o un intervallo di previsione per gli istanti futuri. Modelli e strumenti della previsione sociale 6 Le serie storiche Come si è visto, il tempo può essere interpretato come la sintesi degli effetti che le dinamiche dei fenomeni interagenti con quello oggetto di studio esercitano sulla naturale evoluzione di quest’ultimo. Ma di tali fenomeni, presi individualmente, si perde ogni traccia e allora non resta che spostare l’attenzione dalle determinanti della dinamica della serie storica a meccanismi interni della serie stessa che è necessario individuare (Ballatori, 1986: 296). Un elenco, pressoché universalmente accettato, di tali meccanismi interni di una s.s., detti componenti, per serie riferite a tempi subannuali (trimestri, mesi, settimane, giorni), è il seguente: trend, o componente di fondo; ciclo, o componente ciclica; componente stagionale; componente casuale o erratica. Se la s.s. è composta da dati annuali o pluriennali, essa assorbe la componente stagionale che, in tal caso, non è più evidenziabile. Modelli e strumenti della previsione sociale 7 Le serie storiche Il trend è la tendenza di fondo che caratterizza la dinamica del fenomeno nel lungo periodo. Le determinanti che sono sintetizzate nell’«effetto trend» sono generalmente quei fenomeni sociali di lenta evoluzione, come ad esempio l’ammontare della popolazione, l’evoluzione dei gusti dei consumatori, se la serie storica è relativa al consumo di un determinato prodotto, e così via. Nelle serie storiche relative a fenomeni economici, sociali, meteorologici sono presenti componenti caratterizzate da andamenti sinusoidali di lungo periodo, chiaramente pluriannuali, chiamate cicli (esempi di cicli sono le fasi di espansione e di recessione delle economie capitalistiche, le intensità di radiazioni connesse alla periodicità delle macchie solari). In una stessa serie storica possono essere presenti più componenti cicliche, di diverso periodo, così come è possibile che esse, nel lungo periodo, mutino di periodicità, in maniera evolutiva o semplicemente casuale. Molti fenomeni sociali ed economici presentano il fenomeno della stagionalità connessa soprattutto alle condizioni climatiche. In tal caso massime e minime intensità del fenomeno si ripresentano ogni anno all’incirca nello stesso periodo. La componente stagionale è quella che riassume tali movimenti. Si osservi, però, che periodicità di diversa ampiezza sono presenti anche nei fenomeni biologici (andamenti circadiani, circum-annuali), sebbene non siano stati ancora sufficientemente studiati. La componente casuale comprende sia effetti di natura strettamente accidentale, che effetti relativi a componenti che non sono state prese in esame, ossia a componenti diverse dal trend, ciclo e dalla componente stagionale. Modelli e strumenti della previsione sociale 8 Le componenti delle serie storiche Modelli e strumenti della previsione sociale 9 L’analisi discriminante Stefano Nobile L’analisi discriminante L’analisi discriminante «consente di mettere in evidenza i legami esistenti tra una variabile qualitativa da spiegare e un insieme di variabili quantitative esplicative» (Bouruche, Saporta, 1980). Essa inoltre permette di prevedere le modalità della variabile da spiegare a partire dai valori assunti dalle variabili esplicative A differenza della cluster analisys, che usa variabili per costruire classificazioni, l’analisi discriminante parte da una classificazione già nota. Tramite un insieme di variabili cardinali che sono ridotte e sintetizzate da alcune funzioni latenti discriminanti, cerca di dare conto della variabile qualitativa utilizzata. La prima funzione discriminante è quella che massimizza il rapporto tra la varianza tra i gruppi e quella interna ai gruppi. Le successive funzioni si calcolano analogaente aggiungendo il vincolo dell’ortogonalità (Di Franco, 1997: 93). Il numero totale di funzioni discriminanti estraibili è uguale al numero più piccolo tra le variabili (v) e (k – 1) gruppi noti, dove i gruppi corrispondono alle modalità della variabile qualitativa (categoriale) utilizzata Modelli e strumenti della previsione sociale 11 L’analisi discriminante Tra le applicazioni più diffuse dell’analisi discriminante, vanno annoverate, oltre alla sociologia, discipline come la medicina (per l’aiuto nelle diagnosi), la meteorologia e il credit scoring. Riguardo a quest’ultimo, la naturale applicazione di questo tipo di analisi nell’ambito bancario del rischio di credito è quello di discriminare, all’interno di una popolazione di individui che richiedono un prestito ad una determinata banca, tra quelli propensi a restituire il credito da quelli non propensi sulla base di un insieme di informazioni quali lo stipendio, beni ipotecabili e il tipo di prestito che si richiede. Modelli e strumenti della previsione sociale 12 L’analisi discriminante Per esempio, un istituto di credito che voglia razionalizzare l’erogazione dei prestiti finanziari può classificare i sui clienti rispetto al pagamento dei debito in due classi: puntuali e insolventi. Avendo a disposizione un insieme di informazioni sui clienti, come il reddito annuale, il totale di tasse pagate, il valore delle proprietà del cliente e altre variabili di questo tipo, sarà possibile individuare con l’AD una funzione discriminante. Con questi dati l’istituto di credito potrà prevedere per i nuovi clienti, conoscendo i loro stati sulle variabili discriminanti, quali rischiano di non restituire i crediti ricevuti, minimizzando la probabilità di un’errata previsione (Di Franco, 1997: 93). Modelli e strumenti della previsione sociale 13 L’analisi discriminante Un esempio più sociologico è il seguente. Supponiamo di aver condotto una ricerca su un campione di studenti dell’università e di essere interessati alle loro carriere. Individuiamo la variabile categoriale discriminante nella loro posizione di studenti articolata in due modalità: studenti in corso; studenti fuori corso. A questo punto dobbiamo individuare un insieme di variabili cardinali che possano rendere conto delle differenze presenti fra gli studenti in corso e quelli fuori corso. Ad esempio le variabili potrebbero essere: il numero di corsi frequentati per ogni anno accademico; il numero di seminari frequentati per ogni anno accademico; il numero di esami sostenuti per ciascun anno accademico; la media dei voti agli esami; il tempo medio trascorso fra un esame e l’altro; e così via. Modelli e strumenti della previsione sociale 14 L’analisi discriminante Grazie a queste variabili possiamo ricavare una funzione lineare discriminante che è in grado di evidenziare le differenze principali fra gli studenti in corso e quelli fuori corso. L’utilità dell’analisi discriminante non è solo limitata all’aspetto descrittivo di una classificazione dei casi. Come detto, può essere usata in funzione previsionale. Ciò significa che si potranno usare le funzioni discriminanti individuate nella fase descrittiva dell’analisi per classificare un insieme di casi (ad esempio un campione di studenti alla fine del primo anno del loro corso di studi universitario) per prevedere quali di questi presentano alte probabilità di andare fuori corso. Disponendo di queste informazioni si potranno mettere in atto delle iniziative tese a contenere il fenomeno della dispersione universitaria (Di Franco, 2007: 153) Modelli e strumenti della previsione sociale 15 L’analisi discriminante Come nell’analisi in componenti principali, si determina una nuova variabile, combinazione lineare delle precedenti. Tuttavia, non si tratta più di ottenere una variabile di varianza massima, ma una variabile che separi al meglio i tre gruppi tra loro. La nuova variabile sarà perfettamente discriminante se assumerà lo stesso valore su tutti gli individui di uno stesso gruppo e valori differenti sugli individui appartenenti a gruppi distinti. Modelli e strumenti della previsione sociale 16 Analisi discriminante decisionale Immaginiamo di conoscere di un certo individuo soltanto gli stati sulle proprietà esplicative ma non si sappia a quale gruppo appartiene. È possibile attribuirlo a uno dei gruppi facendo ciò con un minimo rischio di errore? Modelli e strumenti della previsione sociale 17 Analisi discriminante decisionale Tra i tanti metodi esistenti per discriminare i gruppi in base alle variabili esplicative selezionate, i più noti sono: Il metodo geometrico, che consiste nell’attribuire un individuo al gruppo il cui centro di gravità è più vicino Il metodo bayesiano, che consiste nell’attribuire un individuo al gruppo più probabile. Naturalmente l’efficacia della nostra previsione dipenderà, ex post facto, dalla misura dell’errore nel confronto tra situazione reale e situazione prevista. Modelli e strumenti della previsione sociale 18 L’analisi discriminante Prima di procedere, bisogna scegliere: Il criterio di discriminazione da usare Le variabili da sottoporre all’AD Il criterio per la scelta delle variabili A questo punto, è bene analizzare media e scarto tipo per ciascuna delle variabili all’interno dei singoli gruppi: nel caso in cui si riscontrassero valori troppo simili, le variabili che riportano tali valori andrebbero scartate perché non sufficientemente discriminanti. A questo scopo viene utilizzato il test di tolleranza minimo. Elevando al quadrato il coefficiente di correlazione canonica, otteniamo la proporzione di varianza che ciascuna delle funzioni discriminanti ottenute riproducono dall’appartenenza alle diverse classi della variabile dipendente presa in considerazione. Modelli e strumenti della previsione sociale 19 L’analisi discriminante. Le fasi dell’analisi scelta dei casi analisi monovariata delle differenze tra gruppi articolata in diverse fasi: analisi monovariata di medie e scarti-tipo delle variabili nei gruppi considerati; analisi della matrice di correlazione entro i gruppi, ottenuta dalla media delle matrici delle covarianze per tutti i gruppi; esame dei valori dei test F e Lambda relativi alle differenze tra le medie dei gruppi Modelli e strumenti della previsione sociale 20 L’analisi discriminante. Le fasi dell’analisi Verifica delle assunzioni (Barbaranelli, 2006: 181) Ogni soggetto deve appartenere a uno solo dei gruppi che a priori definiscono la classificazione Bisogna avere almeno 20 soggetti nel gruppo con numerosità minore Il numero delle variabili indipendenti deve essere inferiore al numero di soggetti di ogni gruppo Nessuna variabile indipendente deve essere una combinazione lineare di altre variabili indipendenti, né presentare correlazioni troppo elevate con esse (assenza di multicollinearità). Va ricordato che il potere discriminante di una variabile è tanto maggiore quanto meno essa correla con le altre variabili indipendenti. La tenuta di questa assunzione può essere verificata attraverso i parametri di tolleranza e VIF. Poiché questi ultimi non vengono forniti in output dall’analisi discriminante, si possono ottenere con una regressione multipla che utilizzi come variabili indipendenti le stesse scelte per l’AD e come dipendente una qualsiasi altra variabile. I valori del test devono risultare alti (dal 70% in su). Modelli e strumenti della previsione sociale 21 L’analisi discriminante. Le fasi dell’analisi Modelli e strumenti della previsione sociale 22 L’analisi discriminante. Le fasi dell’analisi Modelli e strumenti della previsione sociale 23 L’analisi discriminante. Le fasi dell’analisi Le matrici delle varianzecovarianze tra le variabili indipendenti nelle popolazioni da cui i gruppi sono estratti devono essere omogenee (omoschedastic ità). Questa assunzione viene esaminata con il test M di Box. Modelli e strumenti della previsione sociale 24 L’analisi discriminante. Le fasi dell’analisi Nelle popolazioni da cui i gruppi sono estratti, tutte le variabili indipendenti e le loro combinazioni lineari devono avere distribuzione normale. Questa assunzione può essere esaminata tramite la distanza di Mahalanobis (da realizzare anche con la regressione, ma trascurabile). Le relazioni tra le variabili indipendenti devono essere lineari (trascurabile). Modelli e strumenti della previsione sociale 25 L’analisi discriminante. Le fasi dell’analisi Per l’individuazione delle funzioni discriminanti si possono usare diversi criteri: il criterio diretto: tutte le variabili sono introdotte inizialmente nell’analisi per poi essere progressivamente escluse se non superano il test di tolleranza, la cui soglia può essere fissata a priori (default 0,001); il criterio stepwise (passo-passo); le variabili sono introdotte una alla volta in base alla loro capacità di discriminazione (le prime variabili immesse sono quelle che hanno una capacità discriminativa più elevata). Questo criterio è efficace quando le variabili discriminanti sono ridondanti (molto correlate tra loro), oppure hanno scarso potere discriminativo Modelli e strumenti della previsione sociale 26 L’analisi discriminante. Le fasi dell’analisi Nell’analisi discriminante possono essere individuate tante funzioni discriminanti quanto sono i gruppi della variabile dipendente meno 1. a condizione che il numero di variabili indipendenti utilizzate sia maggiore del numero dei gruppi. Viceversa, il numero massimo di funzioni discriminanti è uguale al numero di variabili indipendenti. Interpretazione delle funzioni discriminanti individuate attraverso: La varianza riprodotta (autovalore), costituita dal rapporto tra la somma dei quadrati degli scarti dalla media tra i gruppi e la somma dei quadrati degli scarti dalla media entro i gruppi; il coefficiente di correlazione canonica, costituito dal grado di correlazione tra il punteggio discriminante e i gruppi. Più elevata è la correlazione, migliore è la capacità discriminativa della funzione. Se si eleva al quadrato il coefficiente di correlazione canonica si misura la proporzione di varianza totale dovuta alla differenza tra i gruppi; Modelli e strumenti della previsione sociale 27 L’analisi discriminante. Le fasi dell’analisi lambda di Wilks che esprime la proporzione di varianza non riprodotta dalla divisione in gruppi: più elevato è lambda, minore è l’efficacia della funzione. Si noti che, nel caso di variabili dicotomiche, la somma tra il coefficiente di correlazione canonica al quadrato e lambda è uguale a i (si scompone la varianza totale in due termini: la varianza riprodotta dalla funzione discriminante che viene rappresentata dal quadrato del coefficiente di correlazione canonica e la varianza non riprodotta dalla funzione discriminante che viene rappresentata da lambda); Il Chi2 calcolato sul valore di lambda, tra i due coefficienti esiste una relazione matematica per cui i valori di lambda possono essere facilmente trasformati in valori di Chi2, che costituisce un test ulteriore per il controllo dell’ipotesi che esistano differenze significative tra le medie dei gruppi. Modelli e strumenti della previsione sociale 28 L’analisi discriminante. Le fasi dell’analisi Modelli e strumenti della previsione sociale 29 L’analisi discriminante. Le fasi dell’analisi Per l’interpretazione della funzione discriminante si analizzano i coefficienti che rappresentano il contributo delle variabili originarie alle singole funzioni. Questi coefficienti sono standardizzati; il loro segno indica il tipo di associazione (diretta se positivo, inversa se negativo). Tuttavia, è anche possibile richiedere i coefficienti non standardizzati tramite la finestra di dialogo statistiche. Se, dopo aver visionato la matrice relativa ai Coefficienti standardizzati della funzione discriminante canonica si vuole valutare ulteriormente importanza di una variabile nel contribuire alla funzione discriminante, si può ricorrere alla matrice di struttura. Se il valore di questi coefficienti è maggiore di 0,30, vuol dire che la variabile condivide con la funzione discriminante almeno il 9% della varianza e quindi può essere considerata come un “marker” sufficientemente adeguato per interpretare la funzione discriminante (Barbaranelli, 2006: 186). Inoltre, per facilitare l’interpretazione le due matrici di coefficienti possono essere ruotate con il metodo Varimax. In genere si consiglia di ruotare soltanto le funzioni che risultano statisticamente significative. La rotazione non può essere chiesta da menù ma solo tramite sintassi, con il seguente comando: /rotate = coeff structure Poiché le due matrici possono fornire indicazioni divergenti, si tende a privilegiare l’uso della matrice di struttura Modelli e strumenti della previsione sociale 30 L’analisi discriminante. Le fasi dell’analisi Modelli e strumenti della previsione sociale 31 L’analisi discriminante. La fase della classificazione Se le funzioni discriminanti si rivelano adeguate si ripartiscono i casi secondo una funzione di classificazione che si ottiene matematicamente dalle funzioni discriminanti e dai punteggi medi dei gruppi ottenuti nella fase precedente: analisi delle rappresentazioni grafiche nelle quali si proiettano, all’interno di uno spazio formato dalle prime due funzioni discriminanti, i confini dei casi assegnati alle classi in base alle funzioni discriminanti (mappa territoriale) e i loro centroidi; il calcolo per ogni caso di tanti punteggi quante sono le funzioni discriminanti, che permettono di assegnarlo, con una certa probabilità, al gruppo più vicino. Ogni caso sarà quindi assegnato a un gruppo, noto a priori, e al gruppo ottenuto attraverso l’AD. dal confronto delle due classificazioni (quella nota a priori e quella ottenuta attraverso AD) si ottiene la percentuale di casi che risultano ben classificati, cioè collocati nello stesso gruppo Modelli e strumenti della previsione sociale 32 L’analisi discriminante: grafici dei gruppi separati Modelli e strumenti della previsione sociale 33 L’analisi discriminante: grafici dei gruppi separati Modelli e strumenti della previsione sociale 34 L’analisi discriminante: grafici dei gruppi separati Modelli e strumenti della previsione sociale 35 L’analisi discriminante: grafici dei gruppi separati Modelli e strumenti della previsione sociale 36 L’analisi discriminante: grafici dei gruppi separati Modelli e strumenti della previsione sociale 37 La sintassi in SPSS relativa all’analisi discriminante DISCRIMINANT /GROUPS=clu4_1(1 4) (serve a definire la variabile dipendente ovvero la variabile che specifica i raggruppamenti predefiniti di soggetti. Il ricercatore deve specificare i valori minimo e massimo che vengono utilizzati per differenziare i gruppi (nel nostro caso abbiamo quattro gruppi, che hanno etichette progressive da 1 a 4). Non è possibile ovviamente specificare più di una variabile dipendente) /VARIABLES=n e o a c (serve invece a definire le variabili indipendenti che vengono inserite per rendere ragione della appartenenza dei soggetti ai diversi gruppi definiti dalla variabile dipendente. Le variabili devono essere a intervalli equivalenti o dicotomiche) /ANALYSIS ALL (può essere utilizzato per definire diverse analisi discriminanti sugli stessi dati, ma analizzando insiemi diversi di variabili. Nel nostro caso vengono analizzate tutte le variabili indipendenti specificate col comando precedente) /PRIORS EQUAL (serve per definire le probabilità a priori di appartenenza ai gruppi, utilizzate nella fase di classificazione. L’opzione di default è che un soggetto abbia la stessa probabilità di essere classificato in ciascun gruppo (ed è quella specificata nel nostro caso). Ovviamente l’utente può specificare valori differenti, se questo si rende necessario) /STATISTICS=MEAN STDDEV UNIVF BOXM COEFF RAW CORR COV GCOV TCOV TABLE (Il comando serve a richiedere una serie di statistiche supplementari che possono arricchire l’output oltre quanto viene fornito di default. MEAN e STDDEV servono per richiedere le medie e le deviazioni standard delle variabili indipendenti nei gruppi. UNIVF serve per richiedere i testi univariati dell’analisi della varianza che esaminano la significatività della differenza delle medie delle variabili indipendenti tra i differenti gruppi. BOXM serve per richiedere il test M di Box per la verifica dell’assunzione dell’omogeneità delle matrici di varianza/covarianza. COEFF serve per richiedere in output i coefficienti delle funzioni di classificazione: anche se la procedura non utilizza questi coefficienti per classificare i casi utilizzati nell’analisi, essi possono essere utilizzati per classificare altri soggetti che appartengono a campioni differenti. RAW consente di ottenere i coefficienti non standardizzati delle funzioni discriminanti. TABLE consente di visualizzare i risultati del processo di classificazione dei dati: nel caso in cui l’analisi fosse stata condotta selezionando un gruppo di soggetti dal file, la tabella conterrà due sezioni separate, una per i soggetti utilizzati nell’analisi e una per i soggetti non selezionati. CROSSVALID consente di effettuare il processo di classificazione tramite la procedura della “classificazione autoesclusiva”. Infine, specificando “ALL”, verranno riportate in output tutte le statistiche disponibili, quindi sia quelle di default, sia quelle descritte ora, sia altre che sono ottenibili da menù) CROSSVALID /PLOT=COMBINED SEPARATE MAP /CLASSIFY=NONMISSING POOLED . Modelli e strumenti della previsione sociale 38 L’analisi discriminante: classificazione originale e cross-validata a confronto Nella classificazione finale si ottengono due tabelle: una si riferisce alla classificazione originale, l’altra a quella cross-validata. La prima (originale) presenta i risultati della riclassificazione effettuata su tutti i soggetti. La seconda (cross-validata) presenta invece i risultati della riclassificazione effettuata con il metodo della classificazione auto-esclusiva. Secondo questo metodo ogni soggetto è classificato tramite i risultati delle funzioni di classificazione derivate da tutti i soggetti tranne quello in esame. A margine della tabella viene indicata la percentuale di casi classificati correttamente secondo entrambe le procedure. Modelli e strumenti della previsione sociale 39 L’analisi discriminante: classificazione originale e cross-validata a confronto Modelli e strumenti della previsione sociale 40 L’analisi discriminante: la mappa territoriale Mappa territoriale (Assumendo che tutte le funzioni eccetto le prime due siano uguali a zero) Discriminante canonica Funzione 2 -6,0 -4,0 -2,0 ,0 2,0 4,0 6,0 6,0 11 2211 221 211 2211 221 4,0 211 2211 221 211 2,0 ,0 -2,0 -4,0 221 14 14 14 14 14 14 14 14 14 14 14 211 14 2211 14 221 * 14 211 14 2211 14 221 1114 21111111334 * * 2333333 34 23 34 23 * 34 23 23 23 23 23 23 23 23 23 23 34 34 34 34 34 34 34 34 34 34 23 34 23 34 23 34 23 34 23 34 -6,0 23 34 -6,0 -4,0 -2,0 ,0 2,0 4,0 6,0 Funzione discriminante canonica 1 Modelli e strumenti della previsione sociale 41 La regressione lineare La regressione lineare La regressione lineare è una tecnica che esamina la relazione lineare tra una o più variabili esplicative (variabili indipendenti) e una (e solo una) variabile criterio (variabile dipendente) (Mastrolilli et al., 2004: 152) Nel caso in cui si ipotizzi la presenza di una sola variabile esplicativa, avremo una regressione semplice; nel caso di più variabili esplicative, la regressione sarà multipla. Nelle scienze umane è molto difficile applicare il modello della regressione lineare, in quanto solo raramente si dispone di variabili cardinali, specie quando la tecnica di raccolta dei dati è l’intervista con questionario (Di Franco, 2009: 131) Statisticamente, il punto di partenza della regressione è rappresentato da una matrice che riassume le correlazioni tra la variabile dipendente e la/le variabile/i indipendente/i. Il punto di arrivo è rappresentato da: Un insieme di parametri che riassumono la relazione tra VD e VI Una statistica per l’esame della significatività dei parametri e un valore di probabilità associato a ognuno di questi parametri Un valore che riassume la proporzione di varianza della VD che complessivamente è spiegata dalle VI. Modelli e strumenti della previsione sociale 43 La regressione lineare Per poter procedere, bisogna rispettare i seguenti criteri: VI e VD devono essere di tipo quantitativo Per ciascun valore della VI, la distribuzione della VD deve essere normale La varianza della distribuzione della VD deve essere costante per tutti i valori della VI. La varianza di ogni variabile indipendente deve essere maggiore di 0 (Barbaranelli, 2006: 22) Esistono poi altre condizioni, relative alla tecnica di campionamento, ai residui e alle relazioni tra VI, che possono essere trascurati (per approfondimenti, si veda Barbaranelli, 2006: 23). La regressione calcola il valore del coefficiente che lega una VD, o criterio, a una VI, o predittore. Nel caso di più VI, verrà calcolato un coefficiente per ogni predittore separatamente e verrà fornito un indice complessivo che riporta la percentuale di varianza della VD spiegata dalle VI, ovvero quanto l’insieme dei predittori riesce a spiegare la variabile criterio (Mastrolilli et al., 2004: 153). Modelli e strumenti della previsione sociale 44 Regressione e correlazione Le equazioni di regressione possono essere considerate come le “leggi” della scienza. In altre parole, esse servono a dare conto della misura con cui una certa variabile dipendente Y può variare in ragione del cambiamento di una variabile indipendente X. Il concetto di regressione precede logicamente quello di correlazione ed è più importante di esso sotto il profilo teorico (Blalock, 1960: 478) Se la regressione di Y su X è lineare, ovvero se la relazione è a linea retta, possiamo scrivere un’equazione come segue: Y = a + bX dove a indica il punto d’intersezione con l’asse delle ordinate e b l’inclinazione della retta. Dal punto di vista concettuale, b rappresenta la quota di variazione di Y rispetto ad X (ossia di quanto varia Y rispetto ad X: se della metà, di un terzo, del doppio, eccetera) mentre a rappresenta un certo valore costante che deve essere sommato alla variabile indipendente per ottenere Y. Se l’equazione, come in questo caso, ha soltanto due variabili, parleremo allora di regressione lineare bivariata. Modelli e strumenti della previsione sociale 45 La retta di regressione Tale modello di equazione è ovviamente assai poco realistico nel caso delle scienze umane. Bisogna allora introdurre una componente residuale (e) che rappresenta i residui della regressione. Questi ultimi esprimono le differenze tra i valori effettivi e i corrispondenti valori previsti dall’equazione di regressione (Di Franco, 1997: 109). L’equazione assume allora la forma: Y = a + bX + e Standardizzando i valori delle variabili, il termine noto (a) scompare e la retta passa per l’origine degli assi, diventando: Y = bX + e È ovvio che nelle scienze sociali la relazione tra due variabili è ben difficilmente esprimibile in maniera così netta. A questa insufficienza risponde la regressione multipla lineare. Questa implica la necessità di trovare un iper-piano che interpoli un iperspazio a n dimensioni, la cui funzione lineare può essere così espressa: Y = a + b1X1 + b2X2 + b3X3 … + bnXn +e Modelli e strumenti della previsione sociale 46 Il metodo dei minimi quadrati L’introduzione di una componente residuale nell’equazione deriva da una stima non perfetta dei valori della Y rispetto ai valori della X, a causa del fatto che i valori effettivi non sono collocati perfettamente sulla retta individuata. La differenza tra i valori stimati e i valori effettivi della Y si esprime in termini di residui dalla retta di regressione. Quando i dati non sono perfettamente allineati, ci sono infinite rette che possono interpolare la nuvola di punti. Si deve, quindi, trovare quella retta che, tra le infinite possibili, sia la migliore interpolatrice della nuvola. Questa retta sarà quella che minimizza la somma dei quadrati dei residui. Modelli e strumenti della previsione sociale 47 Il metodo dei minimi quadrati Con il metodo dei mini quadrati si soddisfa la condizione di rendere minima la somma degli scarti al quadrato tra i valori effettivi e quelli predetti. L’elevazione al quadrato dei residui di previsione si impone per evitare che la somma algebrica degli scarti si annulli. È comunque bene prendere in ogni caso l’abitudine di tracciare un diagramma a nuvola di punti prima di procedere con l’analisi; in molti casi l’osservare il diagramma sarà sufficiente a indicare se vale la pena procedere (Blalock, 1960: 488) Modelli e strumenti della previsione sociale 48 Il metodo dei minimi quadrati Il metodo dei minimi quadrati consiste dunque nel trovare quell’unica retta che ha la proprietà di ridurre al minimo la somma dei quadrati degli scarti tra i valori teorici sulla stessa linea e i valori empirici di Y (Blalock, 1960: 489). Pertanto, se misuriamo gli scarti dei punti sulle linee verticali tracciate da ciascuno dei punti stessi alla retta dei minimi quadrati, eleviamo al quadrato tali scarti e li sommiamo, la somma risultante sarà minore di quella ottenibile mediante qualsiasi altra linea retta. La retta di regressione può quindi essere immaginata come quella retta che – tra le infinite rette del piano – minimizza le distanze dei punti dalla distribuzione bivariata. Modelli e strumenti della previsione sociale 49 Il calcolo dei coefficienti della retta di regressione Si supponga, a titolo di esempio, di volere ricavare la probabile differenza di reddito tra bianchi e neri in una data città degli Stati Uniti partendo dai dati relativi ad altre città, per le quali si conosce la percentuale di neri (X) e la differenza di reddito tra bianchi e neri (Y). Modelli e strumenti della previsione sociale 50 Fonte: censimento USA, 1950 Percentuale di neri (X) Differenza di reddito (Y) 2.13 809 2.52 763 11.86 612 2.55 492 2.87 679 4.23 635 4.62 859 5.19 228 6.43 897 6.70 867 1.53 513 1.87 335 10.38 868 Modelli e strumenti della previsione sociale 51 Il calcolo dei coefficienti della retta di regressione Nell’esempio riportato, b si ricava così: Mentre a è: L’equazione che si ottiene è pertanto: Modelli e strumenti della previsione sociale 52 La retta di regressione È ovvio che se la variabile indipendente è una sola, la funzione lineare corrisponde all’equazione di una retta e il modello, come abbiamo già detto, si chiama bivariato. Se le indipendenti sono due o più variabili si specifica un modello di regressione multipla e l’equazione lineare che dovrà essere calcolata avrà tante incognite quante sono le variabili indipendenti (Di Franco, 2009: 128) Modelli e strumenti della previsione sociale 53 Metodi di inserimento delle variabili Per poter procedere alla regressione lineare multipla, occorre innanzitutto, dopo avere identificato quali possano essere le variabili indipendenti da inserire nel modello, scegliere tra le diverse procedure di immissione delle variabili all’interno del modello stesso. La procedura per blocchi / default (enter), consiste nell’inserire simultaneamente tutte le variabili indipendenti nel modello. Parliamo in questo caso di regressione standard o simultanea. Si usa preferibilmente in situazioni di analisi esplorativa. Nella procedura forward (avanti) il calcolatore inserisce come prima variabile indipendente quella che presenta il più alto valore del coefficiente di correlazione con la variabile dipendente; la variabile inserita per seconda è quella che presenta il più elevato valore del coefficiente di correlazione con i residui della precedente analisi, e così via. La procedura backward (indietro) è l’inverso della precedente: tutte le variabili sono incluse nell’equazione iniziale, e vengono via via scartate quelle meno correlate con la dipendente, al netto dell’influenza che ciascuna di esse condivide con le altre; La procedura stepwise (per passi) è una combinazione delle due strategie esaminate in precedenza: ogni volta che si inserisce una variabile nel modello, il calcolatore può anche eliminare la variabile che dà un ridotto contributo a riprodurre la varianza residua. Una volta raggiunta una soluzione soddisfacente, il calcolatore esibisce il modello finale e i valori dei coefficienti. La procedura remove (rimozione) elenca a priori le variabili che si vuole siano sottoposte al test per l’eventuale eliminazione Tutte e quattro queste procedure si riferiscono alla cosiddetta regressione statistica. Va inoltre ricordato che è possibile anche inserire le variabili con procedure miste. Modelli e strumenti della previsione sociale 54 Metodi di inserimento delle variabili Modelli e strumenti della previsione sociale 55 Statistiche della regressione multipla L’opzione Stime consente di visualizzare in ouput i coefficienti di regressione e il loro errore standard L’opzione adattamento del modello consente di elencare le variabili inserite ed eliminate dal modello di regressione e di visualizzare le statistiche di bontà di adattamento Richiedendo il test di collinearità nel menù statistiche si ottiene l’indice di tolleranza. Quest’ultimo viene utilizzato per stimare quanto una VI è linearmente correlata alle altre VI. Questo parametro varia tra 0 e 1. Maggiore è questo valore, minore è la varianza che quella VI condivide con le altre VI, maggiore è il contributo che essa può fornire alla spiegazione della VD. Lo stesso test esegue il VIF (Variance Inflaction Factor), che altro non è che il reciproco della tolleranza. Bassi valori indicano bassa collinearità e viceversa. Valori tra 5 e 10 sono indicativi di forte collinearità Modelli e strumenti della previsione sociale 56 Il test di collinearità Gli autovalori relativi alle diagnostiche di collinearità sono ottenuti effettuando l’analisi in componenti principali della matrice dei prodotti scalari tra le variabili indipendenti e danno un’indicazione della correlazione tra le variabili indipendenti. Se molti autovalori sono prossimi a 0 le variabili sono fortemente correlate. L’indice di collinearità deriva dagli autovalori: se è compreso tra 15 e 20 indica possibili problemi di collinearità, se è maggiore di 30 la collinearità è grave. Va però ricordato che la collinearità diventa un problema se una dimensione con un elevato indice di collinearità contribuisce in maniera sostanziale alla varianza di due o più variabili. Per verificare questo assunto, occorre leggere i valori che connettono le dimensioni con le variabili. Se non ci sono valori alti per una singola dimensione rispetto a più di una variabile, allora non ci sono problemi di collinearità. Modelli e strumenti della previsione sociale 57 Regressione lineare: opzioni Nella finestra opzioni di SPSS viene data all’utente la possibilità di impostare ulteriori parametri relativi ai criteri di inserimento delle variabili all’interno del modello di regressione. Se selezioniamo usa probabilità di F, una variabile viene inserita in equazione se il livello di significatività della F è minore del valore specificato in inserimento, ed viene rimossa se esso è maggiore del valore specificato in rimozione. Se selezioniamo invece usa valore di F, una variabile viene inserita se il suo valore di F è maggiore del valore specificato in inserimento e rimossa se il valore di F è minore del valore specificato in rimozione. L’opzione includi termine costante nell’equazione, che è selezionata di default, fa riferimento al valore assunto dalla variabile indipendente quando tutti i coefficienti di regressione sono pari a 0. Se l’opzione non viene selezionata, viene forzato il passaggio delle retta di regressione per l’origine degli assi, il che avviene raramente. Modelli e strumenti della previsione sociale 58 Statistiche descrittive nella regressione lineare multipla Nelle statistiche descrittive va posta particolare attenzione a due indici: quello di asimmetria e quello di curtosi. Si ricorda che l'indice di curtosi mira a rilevare quanto una distribuzione sia piatta o appuntita mentre l’indice di asimmetria rileva se e quanto una distribuzione non sia disposta simmetricamente attorno alla sua media, e se abbia una "coda" più lunga dell'altra. Perché l’applicazione di un modello di regressione multipla vada a buon fine, bisogna controllare che questi due indici abbiano entrambi valori inferiori a |1| per ognuna delle variabili utilizzate. Modelli e strumenti della previsione sociale 59 Gli indici di asimmetria e curtosi Come si può ben vedere nell’esempio riportato, soltanto la variabile relativa al controllo comportamentale presenta dei problemi di normalità. Tutte le altre variabili, infatti, hanno valori di asimmetria e curtosi inferiori a |1|. Modelli e strumenti della previsione sociale 60 Gli indici di asimmetria e curtosi Applicando la procedura “statistiche descrittive” e salvando i valori delle variabili standardizzate, si possono vedere quali sono gli outliers che, una volta estromessi dall’analisi, possono migliorare il valore dell’indice di asimmetria della variabile CONTCO e portare quello della curtosi entro i limiti richiesti. L’esempio riportato sotto dimostra che mentre l’indice di curtosi è stato riportato entro valori normali, quello di asimmetria è stato ridimensionato ma conserva ancora un valore eccessivamente alto. Modelli e strumenti della previsione sociale 61 La lettura dei coefficienti L’output di SPSS produce, oltre alle statistiche di collinearità, una serie di coefficienti assai utili per l’analisi dei risultati. Ecco come si presentano, colonna per colonna: Nella seconda colonna (B) è indicato il coefficiente di regressione multipla non standardizzato Nella terza colonna è riportato l’errore standard del coefficiente di regressione multipla non standardizzato Beta indica il coefficiente di regressione multipla standardizzato T sta per “T di Student” Sig. T indica infine il livello di significatività della T di Student Infine, nella prima riga compaiono l’intercetta e l’errore standard Modelli e strumenti della previsione sociale 62 Le rappresentazioni grafiche Le rappresentazioni grafiche servono sostanzialmente a controllare che gli assunti del modello di regressione (i residui devono essere distribuiti normalmente, avere media 0, avere la stessa varianza in tutte le VI, essere intercorrelati tra loro e con le VI) siano rispettati. Le etichette disponibili si riferiscono a: DEPENDT (variabile dipendente) ZPRED (valore predetto standardizzato della VD) ZRESID (valore dei residui standardizzati) DRESID (valore dei residui) ADJPRED (valore predetto della VD corretto) SRESID (valore dei residui studentizzati) SDRESID (errore standard della previsione) È consigliabile verificare la capacità predittiva del modello inserendo nel grafico DEPENDT e ADJPRED. Modelli e strumenti della previsione sociale 63 L’equazione di regressione multipla I coefficienti di regressione multipla standardizzati visti nella precedente diapositiva servono dunque a ottenere l’equazione di regressione multipla, che è questa: Int = .194(ns) + .231(contco) + .291(compas) + .335(att) È sulla base di questi coefficienti che è possibile impiegare la regressione lineare multipla in senso previsionale. Modelli e strumenti della previsione sociale 64 La verifica della capacità predittiva Modelli e strumenti della previsione sociale 65 Un esempio: l’astensionismo elettorale Nella letteratura nazionale e internazionale è diffusa la tesi secondo cui la marginalità socioeconomica e la modesta capacità di mobilitazione delle forze politiche di sinistra (forze che tradizionalmente esaltano il valore della partecipazione popolare) siano fattori che attenuano il livello di partecipazione elettorale (cfr. Caciagli, Scaramozzino, 1983) Modelli e strumenti della previsione sociale 66 Un esempio: l’astensione del voto % senza titolo di studio % astenuti % voti a sinistra Modelli e strumenti della previsione sociale 67 Un esempio: l’astensione del voto Modelli e strumenti della previsione sociale 68 Un esempio: l’astensione del voto Modelli e strumenti della previsione sociale 69 Un esempio: l’astensione del voto Modelli e strumenti della previsione sociale 70 Un esempio: l’astensione del voto Modelli e strumenti della previsione sociale 71