L’analisi delle corrispondenze semplici e multiple Stefano Nobile Storia • L'A.C.M. venne introdotta dal francese Benzecrì agli inizi degli anni Sessanta L’analisi delle corrispondenze multiple Aspetti generali • Obiettivi – Serve a fornire una «mappa» delle relazioni esistenti tra variabili e tra modalità di diverse variabili, mettendole in relazione con variabili illustrative esterne all'analisi stessa. “Essa è particolarmente adatta per l’esposizione e la sintesi delle relazioni fra le variabili tipiche delle ricerche sociologiche in quanto la maggior parte delle ricerche condotte con questionario comporta la presenza di molte variabili categoriali (Di Franco, 2001: 209). • Disegno della ricerca – Prevalentemente esplorativo • Tipo di variabili – Lavora su tutti i tipi di variabili, ma è stata concepita per quelle a categorie non ordinate L’analisi delle corrispondenze multiple Dalla matrice dei dati a quella di Burt Matrice casi x variabili (per la registrazione iniziale dei dati) Individuo Sesso Titolo di studio Professione Attilio 1 1 1 Biagio 1 2 2 Clotilde 2 3 3 Daria 2 3 2 Eligio 1 4 4 Titolo di studio: 1= 2= 3= 4= Licenza elementare Licenza media Diploma scuola media superiore Laurea Professione: 1= 2= 3= 4= operaio impiegato dirigente libero professionista L’analisi delle corrispondenze multiple La matrice disgiuntiva completa Liber Elem o Masc Fem Medi Diplo Laur Oper Impie Dirig Individuo profe entar hio mina a ma ea aio gato ente e ssioni sta Attilio 1 0 1 0 0 0 1 0 0 0 Biagio 1 0 0 1 0 0 0 1 0 0 Clotilde 0 1 0 0 1 0 0 0 1 0 Daria 0 1 0 0 1 0 0 1 0 0 Eligio 1 0 0 0 0 1 0 0 0 1 L’analisi delle corrispondenze multiple La matrice di Burt • La matrice di Burt riproduce tutte le sotto-matrici ottenibili confrontando tra loro tutte le coppie di variabili che ne fanno parte. • Attraverso la metrica del chi quadrato, che tiene conto dei rapporti di ciascun vettore di riga e di colonna con ciascun valore corrispettivo marginale, viene analizzata la dispersione di ciascun vettore di cifre rispetto ai totali di riga o di colonna e, da questo, vengono estratti i fattori. • La matrice di Burt, inoltre, “contiene tutte le tabelle di contingenza fra le coppie che si possono formare con le variabili immesse nell’analisi” (Di Franco, 2001: 210). L’analisi delle corrispondenze multiple La matrice di Burt Matrice di Burt o matrice delle corrispondenze multiple Masc hio Maschio Femmina Elementare Media Diploma Laurea Operaio Impiegato Dirigente Libero professionista 3 0 1 1 0 1 1 1 0 1 Fem Eleme Medi mina ntare a 0 2 0 0 2 0 0 1 1 0 1 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 Liber o Diplo Laure Oper Impie Dirige profes ma a aio gato nte sionis ta 0 1 1 1 0 1 2 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 2 0 0 1 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 2 0 0 1 0 0 0 1 0 0 1 0 0 0 1 L’analisi delle corrispondenze multiple L’analisi delle corrispondenze semplici • Tanto per l’analisi delle corrispondenze multiple che per quella delle corrispondenze semplici esistono due scuole, le quali, pur ottenendo attraverso le applicazioni risultati pressoché identici, fanno riferimento ad algoritmi distinti. • Queste due scuole sono: – Quella francese dell’analyse des donnés e – Quella olandese del gruppo Data Theory Scaling System (DTSS) dell’università di Leida. • Il programma Spad fa riferimento alla prima, mentre il programma SPSS fa riferimento alla seconda. L’analisi delle corrispondenze multiple Le variabili attive e illustrative • Nella scelta delle variabili, queste possono essere distinte in attive ed illustrative. Le prime sono quelle che concretamente contribuiscono alla creazione dei fattori, mentre le seconde serviranno semplicemente a definire meglio i piani fattoriali rappresentati. L’analisi delle corrispondenze multiple Valori caratteristici Una volta estratti i fattori, l'ACM fornisce diversi valori caratteristici: • La massa (o peso relativo) che equivale al rapporto tra la frequenza della modalità di una certa variabile ed il totale delle modalità attive • L'indice di distorsione (o distanza dall'origine) che indica quanto una determinata modalità sia eccentrica rispetto all'insieme delle modalità appartenenti alla stessa variabile. Questo implica che l'indice di distorsione è inversamente proporzionale alla massa: quante meno frequenze presenta una certa modalità, tanto minore sarà la sua massa e tanto maggiore sarà l'indice di distorsione e, di conseguenza, la lontananza della modalità stessa dall'origine degli assi. • Il contributo assoluto di ciascuna modalità delle variabili che rappresenta la parte di varianza totale del fattore riprodotta da una determinata variabile modalità. In altre parole, esso spiega in che misura una certa modalità ha contribuito alla formazione di un fattore. • Il coseno quadrato (o contributo relativo) che consente di valutare in quale misura un certo fattore spiega la varianza della modalità. Quanto più è basso il coseno quadrato, tanto peggio la modalità è rappresentata dal fattore. • Le coordinate fattoriali non fanno altro che stabilire le posizioni delle modalità sul piano cartesiano. Quanto più le modalità sono distanti dall'origine degli assi (sia in ascissa che in ordinata), tanto più contribuiscono alla formazione di un fattore. • I valori test servono a controllare la significatività dell'associazione tra una modalità ed un fattore. L’analisi delle corrispondenze multiple L’uso della ACS in SPSS L’analisi delle corrispondenze multiple Le misure di discriminazione Nell’output grafico, un’ampia misura di discriminazione corrisponde a una larga espansione delle categorie e, conseguentemente, indica un alto grado di discriminazione tra le categorie di una variabile all’interno di quella dimensione. L’analisi delle corrispondenze multiple L’uso della ACS in SPSS L’analisi delle corrispondenze multiple L’output in Spad L’analisi delle corrispondenze multiple L’output in Spad L’analisi delle corrispondenze multiple Il grafico prodotto L’analisi delle corrispondenze multiple Un esempio: uno studio sulla canzone italiana. La scelta delle variabili attive • TEMA = TEMA CANZONE – – – – – – AMOR - AMORE SAFF - SFERA AFFETTIVA SPER - SFERA PERSONALE SSOC - SFERA SOCIALE SALT - ALTRI TEMI NOTM - NESSUN TEMA – – – – – – – IPSG - PRIMA PERSONA SINGOLARE IPSP - PRIMA PERSONA PLURALE IIPS - SECONDA PERSONA SINGOLARE IIPP - SECONDA PERSONA PLURALE IIIS - TERZA PERSONA SINGOLARE IIIP - TERZA PERSONA PLURALE IMPE - FORMA IMPERSONALE • VERB = VERBI CONIUGATI L’analisi delle corrispondenze multiple Un esempio: uno studio sulla canzone italiana. La scelta delle variabili attive • TRAT = ARGOMENTO TRATTATO A LIVELLO – INDV - INDIVIDUALE AUTORE – COLL - COLLETTIVO • SOLU = LIVELLO DESCRIZIONE-ANALISI-SOLUZIONE – DESC - DESCRIZIONE – ANAL - ANALISI – SOLZ - SOLUZIONE • DEST = DESTINATARIO TESTO – – – – – – PART - PARTNER DNSP - PRESENTE NON SPECIFICABILE AMIC - AMICO FAMI - FAMILIARE (ELIMINATA) GESU - DIO O GESÙ (ELIMINATA) NODS - NESSUN DESTINATARIO L’analisi delle corrispondenze multiple Un esempio: uno studio sulla canzone italiana. La scelta delle variabili attive • TEST = MODALITÀ DI PRESENTAZIONE DEL TESTO – – – – STOR - STORIA IMMA - IMMAGINE RIFL - RIFLESSIONI RICORDI DISC - DISCORSO DIRETTO – – – – – – FANT - FANTASTICO LAVO - LAVORO POLI - POLITICO (ELIMINATA) SCUO - SCUOLA (ELIMINATA) SVAG - SVAGO TEMPO LIBERO NODE - CONTESTO DENOTATIVO ASSENTE • DENO = CONTESTO DENOTATIVO L’analisi delle corrispondenze multiple Un esempio: uno studio sulla canzone italiana. La scelta delle variabili attive • CONN = CONTESTO CONNOTATIVO – – – – FAMC - FAMIGLIA PARI - GRUPPO DEI PARI PARC - PARTNERSHIP NOCO - CONTESTO CONNOTATIVO ASSENTE – – – – – – – – ACHI - ACCRESCIMENTO PERSONALE EDON - EDONISMO MACH - MACHIAVELLISMO ORTO - ETICA ORTODOSSA VAMO - AMORE VETO - ETEROFILIA VSOC - VALORI SOCIALI NOVA - VALORI ASSENTI • VALI = VALORI PRESENTI L’analisi delle corrispondenze multiple Un esempio: uno studio sulla canzone italiana. La scelta delle variabili illustrative • SEX = SESSO INTERPRETE – MASC - MASCHIO – FEMM - FEMMINA – GRUP - GRUPPO • TIPO = TIPOLOGIA GENERE – MELO - MELODICO – AUTO - AUTORE – ROCK - ROCK • TIP2 = TIPOLOGIA GENERE ESTENSIVA – – – – – – GRAN - GRANDI INTERPRETI METE - METEORE AU70 - AUTORI ANNI 70 AU80 - AUTORI ANNI 80 RK70 - ROCK ANNI 70 RK80 - ROCK ANNI 80 L’analisi delle corrispondenze multiple Un esempio: uno studio sulla canzone italiana. La scelta delle variabili illustrative • RITO = PRESENZA RITORNELLO – SIRT - SI – NORT - NO • ANNO = PERIODO STORICO – – – – – 7074 7579 8084 8589 9092 - 1970-1974 1975-1979 1980-1984 1985-1989 1990-1992 • VOMU = RAPPORTO VOCE MUSICA – VOCP - PIÙ VOCE – MUVO - VOCE UGUALE MUSICA – MUSP - PIÙ MUSICA L’analisi delle corrispondenze multiple Istogramma dei fattori estratti dall'analisi delle corrispondenze multiple FATTORE 1 2 3 4 5 6 7 8 9 AUTOVALORE .0849 .0205 .0086 .0040 .0033 .0020 .0010 .0003 .0001 PERCENTUALE DI VARIANZA SPIEGATA DAL FATTORE 68.03 16.43 6.89 3.20 2.64 1.60 0.80 0.24 0.09 PERCENTUALE DI VARIANZA CUMULATA 68.03 84.46 91.35 94.55 97.19 98.79 99.59 99.83 99.92 L’analisi delle corrispondenze multiple ********************** ************** ********** ******** ******* ****** ****** ***** ***** Rapporto tra le variabili attive e i primi tre fattori I FATTORE CONTRIBUTO CUMULATO TEMA CANZONE 21.5 CONTESTO CONNOTATIVO 21.5 DESTINATARIO TESTO 18.7 VALORI CANZONE 18.3 ARTICOLAZIONE TESTO 7.1 CONIUGAZIONE VERBI 6.7 CONTESTO DENOTATIVO 3.0 LIVELLO INDIVIDUALE-COLLETT. 2.2 LIVELLO DESCRIZIONE-SOLUZ. 1.0 VARIABILE L’analisi delle corrispondenze multiple % CUMULATA 21.5 43.0 61.7 80.0 87.1 93.8 96.8 99.0 100.0 Rapporto tra le variabili attive e i primi tre fattori II FATTORE CONTRIBUTO CUMULATO TEMA CANZONE 23.9 CONTESTO CONNOTATIVO 22.2 DESTINATARIO TESTO 19.6 VALORI CANZONE 16.8 CONIUGAZIONE VERBI 7.0 ARTICOLAZIONE TESTO 5.4 LIVELLO DESCRIZIONE-SOLUZ. 2.5 CONTESTO DENOTATIVO 1.3 LIVELLO INDIVIDUALE-COLLETT. 1.3 VARIABILE L’analisi delle corrispondenze multiple % CUMULATA 23.9 46.1 65.7 82.5 89.5 94.9 97.4 98.7 100.0 Rapporto tra le variabili attive e i primi tre fattori III FATTORE CONTRIBUTO CUMULATO TEMA CANZONE 31.6 VALORI CANZONE 24.6 LIVELLO DESCRIZIONE-SOLUZ. 13.2 CONTESTO DENOTATIVO 9.7 ARTICOLAZIONE TESTO 8.1 DESTINATARIO TESTO 5.4 CONIUGAZIONE VERBI 4.2 LIVELLO INDIVIDUALE-COLLETT. 1.7 CONTESTO CONNOTATIVO 1.5 VARIABILE L’analisi delle corrispondenze multiple % CUMULATA 31.6 56.2 69.4 79.1 87.2 92.6 96.8 98.5 100.0 I° Fattore. Contrapposizione tra la canzone "tradizionale- classica d'amore" e la canzone "innovativa" costruita su altri temi SEMIASSE POSITIVO TEMA - AMOR CONN - PARC DEST - PART VALI - VAMO TEST - DISC VERB - IIPS SEMIASSE NEGATIVO TEMA - SPER TEMA - SSOC TEMA - SALT CONN - NOCO DEST - NODS VALI - VSOC TEST - RIFL VERB - IIIS VERB - IMPE TRAT - COLL VARIABILI ATTIVE CONTRIBUTO CONTRIBUTO ASSOLUTO RELATIVO 10.6 .76 12.0 .78 12.6 .68 9.9 .61 5.1 .25 2.3 .12 CONTRIBUTO CONTRIBUTO ASSOLUTO RELATIVO 2.9 .13 3.8 .16 2.7 .11 7.9 .53 5.1 .42 3.4 .14 1.2 .09 1.8 .08 1.2 .05 2.0 .08 L’analisi delle corrispondenze multiple COORDINATA FATTORIALE .88 .99 1.19 .94 .84 .53 COORDINATA FATTORIALE -.74 -1.07 -1.00 -.79 -.58 -1.03 -.29 -.63 -.85 -1.08 I° Fattore. Contrapposizione tra la canzone "tradizionale- classica d'amore" e la canzone "innovativa" costruita su altri temi VARIABILI ILLUSTRATIVE SEMIASSE POSITIVO COORDINATA FATTORIALE SEX - FEMM .34 TIPO - MELO .33 TIP2 - GRAN .36 TIP2 - METE .26 ANNO - 7074 .22 RITO - SIRT .08 VOMU - VOCP .05 SEMIASSE NEGATIVO COORDINATA FATTORIALE SEX - MASC -.11 TIPO - AUTO -.30 TIPO - ROCK -.27 TIP2 - AU70 -.35 TIP2 - AU80 -.21 TIP2 - RK70 -.66 ANNO - 9092 -.21 RITO - NORT -.41 VOMU - MUVO -.22 VOMU - MUSP -.70 L’analisi delle corrispondenze multiple II° Fattore contrapposizione nella canzone tra la sfera affettiva e le canzoni "vuote" dove non si parla di niente VARIABILI ATTIVE semiasse positivo TEMA - SAFF CONN - PARI CONN - FAMC DEST - AMIC DEST - DNSP VALI - VETO TEST - DISC VERB - IIPS semiasse negativo TEMA - NOTM CONN - NOCO DEST - NODS VALI - NOVA VERB - IIIS VERB - IMPE contributo assoluto 19.9 13.3 6.4 12.9 3.8 12.5 3.6 3.2 contributo assoluto 2.7 2.2 2.9 3.2 1.4 1.0 contributo relativo .48 .33 .15 .30 .10 .32 .11 .10 contributo relativo .06 .09 .15 .08 .04 .03 L’analisi delle corrispondenze multiple coordinata fattoriale 2.84 2.03 2.39 3.16 .97 1.56 .56 .50 coordinata fattoriale -1.33 -.33 -.35 -1.28 -.45 -.62 II° Fattore contrapposizione nella canzone tra la sfera affettiva e le canzoni "vuote" dove non si parla di niente VARIABILI ILLUSTRATIVE semiasse positivo TIPO - AUTO TIP2 - AU70 TIP2 - AU80 RITO - SIRT VOMU - VOCP semiasse negativo TIPO - MELO TIP2 - GRAN TIP2 - METE RITO - NORT VOMU - MUVO coordinata fattoriale .07 .08 .09 .04 .03 coordinata fattoriale L’analisi delle corrispondenze multiple -.07 -.09 -.07 -.23 -.20 III° Fattore la canzone "impegnata" / la canzone "fantastico-immaginativa" semiasse positivo TEMA - SSOC VALI - VSOC SOLU - ANAL SOLU - SOLZ TRAT - COLL TEST - RIFL VERB - IPSP semiasse negativo TEMA - SAFF TEMA - NOTM VALI - VETO VALI - NOVA TEST - IMMA TEST - STOR VERB - IIIS SOLU - DESC DENO - FANT VARIABILI ATTIVE contributo contributo assoluto relativo 10.4 .22 8.0 .17 4.3 .11 3.9 .08 1.6 .03 1.3 .05 1.0 .02 contributo contributo assoluto relativo 6.6 .13 11.9 .23 4.3 .09 10.5 .20 4.6 .09 1.8 .04 2.0 .04 5.0 .24 6.7 .13 L’analisi delle corrispondenze multiple coordinata fattoriale 1.26 1.12 .55 .76 .68 .21 .57 coordinata fattoriale -1.46 -2.55 -.82 -2.06 -.94 -.56 -.47 -.38 -.82 III° Fattore la canzone "impegnata" / la canzone "fantastico-immaginativa" VARIABILI ILLUSTRATIVE semiasse positivo coordinata fattoriale SEX - MASC TIPO - ROCK TIP2 - AU70 TIP2 - RK70 TIP2 - RK80 semiasse negativo coordinata fattoriale SEX - FEMM TIPO - MELO TIP2 - METE L’analisi delle corrispondenze multiple .06 .30 .06 .49 .18 -.15 -.09 -.17 Proiezione delle modalità attive e illustrative sul I (in ascissa) e sul II (in ordinata) fattore +------PARI---SAFFFAMCAMICFAMI+---------------------------+ | | | | | | | | 1.8 + | | | | | | | | VETO | | | | | | | | | | | | | | | | | | 1.2 + | | | | | | | | | | | DNSP | | | SCUO | | | | | | | | | | COLL | | GESU IIPP LAVO .6 + | DISC | | | IIPS | SOLZ | | | IPSP | | | AUTO | | | SIRT ROCK9092 | | ANAL MASC ORTO | SSOC | | VOCP | | SVAG | POLI .0 +-----VSOC-------------------INDV---NODE----7074---------PART | FEMM | MACHMELO STOR | PARC| | DESC SPERACHI | AMORVAMO | IPSG RIFL | EDON MUSP | | | SALT | | | IIIP NOCO | | | NODS | | IMMA | IIIS | | | FANT | | | IMPE -.6 + | | | | | | | | MUVO | | | | | | NORT | | | | | | | | | | | | -1.2+ | | NOVA | +-NOTM+-----+-----+-----+-----+-----+-----+-----+-----+---+ 1.00 .75 .50 .00 .25 -1.25 -1.00 -.75 -.50 -.25 L’analisi delle corrispondenze multiple Proiezione delle modalità attive sul II (in ascissa) e sul III (in ordinata) fattore +---------------+POLI---------------------------------------+ | | SSOC | | | | | VSOC | | | | 1.0 + | | | | ORTO | | | | | | | | | | | | SOLZ GESU | | | COLL DNSP | | | | | | ANAL IPSP | .5 + | LAVO | | | IIPP | | | | | IIIP SPERMACH| | | | | | RIFLACHI| SCUO | | IPSG NODE | | NOCO PART DISC | | VAMOPARC | | .0 +-------AMOR----+-------------------------------------------| | EDONINDV| | | NODS | IIPS | IMPE | | | | | | | PARI | | | | DESC| | | IIIS | | -.5+ SALT | SVAG | | STOR | | | | | | | | | | FAMC | | FAMI | | VETO AMIC | | | | IMMA | | -1.NOVA | | | | SAFF | | | NOTM | | | | | | | | | | | | | | | | | -1.5+-FANT--+-------+-------+-------+-------+-------+-------+---+ -.4 .0 .4 .8 1.2 1.6 2.0 L’analisi delle corrispondenze multiple Bibliografia minima • Amaturo E., 1989, Analyse des donnés & analisi dei dati nelle scienze sociali, Centro Scientifico, Torino • Benzecri J.P., 1973, L’analyse des donnés. Tome I: la taxinomie; Tome II: L’analyse des corrispondances, Dunod, Parigi • Bolasco S., 1999, Analisi multidimensionale dei dati. Metodi, strategie e criteri di interpretazione, Carocci, Roma • Di Franco G., 1997, Tecniche e modelli di analisi multivariata dei dati, Seam, Roma • Di Franco G., 2006, Corrispondenze multiple e altre tecniche multivariate per variabili categoriali, Franco Angeli, Milano • Escofier B. e Pagès J., 1990, Analyses factorielles simples et multiples. Objectifs, méthodes et interprétation, Dunod, Parigi • Lanzetti C., 1995, Elaborazioni di dati qualitativi. Introduzione all’uso dell’analisi delle corrispondenze e dei modelli LISREL, Franco Angeli, Milano • Ricolfi L., 2002, Manuale di analisi dei dati. Fondamenti, Laterza, Bari-Roma L’analisi delle corrispondenze multiple