Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare con altre distribuzioni (gruppi differenti della popolazione o del campione esaminato). Tali comparazioni sono alla base delle ipotesi circa l’esistenza di una relazione fra due variabili (RELAZIONI BIVARIATE). Le tabelle che organizzano queste comparazioni sono chiamate “TABELLE A DOPPIA ENTRATA” (o cross-tabulation). Alcune regole per le tabelle 2X2 Nella lettura di una tabella 2X2 si parte sempre dall’esterno per andare verso l’interno (cd. “principio del carciofo”) • vengono indicate le variabili che sono incrociate: - la variabile indipendente X è scritta in alto, in colonna - la variabile dipendente Y è riportata in riga • per ciascuna variabile sono specificate le modalità • ciascuna cella della tabella contiene le frequenze, cioè il numero dei casi che possiedono le diverse modalità considerate (le frequenze possono essere espresse in termini assoluti o relativi percentuali) Quando le percentuali sono calcolate nella direzione della variabile indipendente X - per colonna - si compara per riga; viceversa, quando le percentuali sono calcolate nella direzione della variabile dipendente Y - per riga - si compara per colonna Peculiarità delle tavole di contingenza • Parsimoniosità. La tabella riporta solo le percentuali che servono all’analisi • Totali. Ogni riga o colonna percentuale finisce col totale 100 consentendo così al lettore di capire in che direzione sono state calcolate le percentuali • Base delle percentuali. Sotto al totale va riportata, in genere tra parentesi, la base della percentuale (N). Infatti un conto è dire che i giovani sono praticanti per il 25% su un campione di 100 individui ed un altro dirlo relativamente ad un campione di 1.000 individui. Si ritiene imprudente calcolare e commentare percentuali su basi inferiori a 50 casi Peculiarità delle tavole di contingenza • Cifre decimali, decimale zero, arrotondamenti, quadratura. Si veda l’analisi monovariata • Intestazione. Le tabelle debbono essere sempre intestate (titolo) ed autoesplicative. Per esempio la frase “Intensità della partecipazione politica secondo il partito votato” è più chiara chiara rispetto a “Relazione fra partecipazione politica e preferenza partitica” • Somma di percentuali. La somma delle percentuali è legittima se appartengono alla medesima distribuzione, ma non lo è qualora si considerino due o più distribuzioni. Leggere una tabella … • selezionare le modalità più significative e centrare su di queste l’analisi • una percentuale affinché sia degna di nota deve essere superiore ai 5 punti percentuali. Leggere una tabella … • Un altro modo di lettura consiste nel calcolare la differenza di fra le due modalità di risposta oppure fra le risposte positive e negative. • Un’osservazione va fatta sulla forma della relazione: se al crescere di una variabile cresce anche l’altra si può dire che la relazione che si presenta agli occhi del ricercatore è monotonica o lineare. • La compattazione della tabella è importante in special modo quando la tabella presenta l’incrocio di più di due variabili Come accertare l’esistenza di una effettiva relazione causale tra la variabile indipendente X e la variabile dipendente X ? IPOTESI NULLA e TEST DEL CHI QUADRO introduzione di una VARIABILE DI CONTROLLO Esempio: relazione fra grado di interesse per la campagna presidenziale e voto frequenze osservate Grado di interesse per la campagna presidenziale Non interessato Molto interessato Votato Non votato Totale Totale 58% (313) 42% (227) 87% (452) 13% (68) 72% (765) 28% (295) 51% (540) 49% (520) 100% (1060) Fonte: Campbell, et al. (1964, tab. 4-3, p. 56), sono stati esclusi coloro che dichiarano di essere “abbastanza interessati”. LOGICA DEL TEST DEL CHI QUADRO Formulazione dell’ipotesi nulla, che assume l’assenza di relazione fra le le due variabili considerate. Individuazione delle frequenze che si dovrebbero ottenere se l’ipotesi nulla fosse vera (frequenze “attese”). Comparazione delle frequenze attese con quelle “osservate” empiricamente nel campione analizzato. Valutazione della probabilità con cui la differenza tra frequenze “attese” e quelle “osservate” possa essere dovuta al caso. Esempio: relazione fra grado di interesse per la campagna presidenziale e voto frequenze attese Grado di interesse per la campagna presidenziale Non interessato Molto interessato Totale Votato 765x540 = 390 1060 765x520 = 375 1060 Non votato 295x540 = 150 1060 295x520 = 145 1060 72% (765) 28% (295) 51% (540) 49% (520) 100% (1060) Totale Fonte: Campbell, et al. (1964, tab. 4-3, p. 56), sono stati esclusi coloro che dichiarano di essere “abbastanza interessati”. Relazione tra grado di interesse per la campagna presidenziale e voto: un esempio di calcolo del CHI QUADRO Votato Non votato Totale Grado di interesse per la campagna presidenziale Non interessato Molto interessato Totale 313 452 765 390 375 -77 77 15,20 15,81 227 150 77 39,53 68 145 -77 40,89 295 540 520 1060 Fonte: Campbell, et al. (1964, tab.4-3, p.56), sono stati esclusi coloro che dichiarano di essere abbastanza interessati. Interpretazione: in ciascuna cella, la prima riga è la frequenza osservata, la seconda la frequenza attesa, la terza è la differenza tra frequenze osservate ed attese e la quarta linea è il quadrato di questa differenza, diviso per le frequenze attese, che indica il contributo di ciascuna cella al chi quadro totale. Ad esempio, nella prima cella in alto a sinistra: freq. Osservate = 313 freq. Attese = 390 Differenza (O-A) = (313-390)=-77 (O A) 2 (313 390) 2 ( 77) 2 5929 15,20 A 390 390 390 CONDIZIONI DEL TEST che il campione sia estratto casualmente, cioè che ogni individuo abbia la stessa probabilità di essere estratto di ogni altro; che le categorie o modalità di ciascuna delle due variabili siano mutuamente esclusive ed esaustive, per cui ciascun individuo o caso non può essere collocato che in una ed una sola cella; che la maggioranza (più dell’80%) delle frequenze attese abbiano una frequenza superiore a 5 casi. RELAZIONI TRIVARIATE Per esaminare in modo sistematico la relazione fra due variabili bisogna introdurre una terza variabile di controllo (detta ‘test factor’): ISTRUZIONE ETA’ TOLLERANZA “tenere costante” la relazione • Scopo dell’elaborazione è determinare se la relazione fra la variabile indipendente X e la variabile dipendente Y sia dovuta o meno ad un terzo fattore Z (test factor). • Dire che la relazione fra X ed Y dipende da Z significa che se Z non si manifestasse, allora la relazione fra X e Y non esisterebbe. ES: “I giovani sono più tolleranti degli anziani perché hanno un maggiore livello di istruzione” significa che “Se i giovani non avessero un maggiore livello di istruzione degli anziani, non sarebbero più tolleranti”. Per accertare se il livello di istruzione esercita un tale effetto sulla relazione bivariata fra età e tolleranza, bisogna tenere sotto controllo, ovvero mantenere costante, la terza variabile addizionale così da specificarne l’eventuale influenza sulla relazione stessa. • Un modo per tenere costante il test factor è la classificazione in sottogruppi: si creano tanti sottogruppi quante sono le modalità della variabile di controllo e si esamina la relazione bivariata iniziale per ciascuno di tali sottogruppi. ES: compariamo il livello di tolleranza dei giovani con quello degli anziani, a parità di livello di istruzione. Relazione spuria Stato civile (variabile indipendente X) ETA’ (variabile di controllo Z) Consumo regolare di dolci (variabile dipendente Y) Consumo di dolci per stato civile STATO CIVILE CONSUMO DI DOLCI Sposati Non sposati Regolare 63% 75% Non regolare 37% 25% TOTALE 100% (2010) 100% (999) Consumo di dolci per età ETA’ CONSUMO DI DOLCI Fino a 25 anni 25 anni e oltre Regolare 80% 58% Non regolare 20% 42% TOTALE 100% (1302) 100% (1707) Consumo di dolci per stato civile, controllando per l’età ETA’ Fino a 25 anni 25 anni e oltre STATO CIVILE CONSUMO DI DOLCI Sposato Non sposato Sposato Non sposato Regolare 81% 79% 58% 60% Non regolare 19% 21% 42% 40% Totale 100% (503) 100% (799) 100% (1507) 100% (200) Perché dunque le persone sposate mangiano meno dolci delle persone non sposate ? Perché gli sposati sono, in percentuale, più anziani dei non sposati e le persone più anziane di solito mangiano meno dolci. La relazione iniziale fra stato civile e consumo di dolci è quindi annullata, poiché dovuta alla variabile età e non allo stato civile: i non sposati consumano dolci più regolarmente degli sposati perché più giovani e non per non aver contratto matrimonio. Relazione spuria o variabile interveniente ? VARIABILE INDIPENDENTE VARIABILE DIPENDENTE VARIABILE DI CONTROLLO VARIABILE VARIABILE INDIPENDENTE INTERVENIENTE VARIABILE DIPENDENTE Relazione fra assenteismo dal lavoro e stato civile STATO CIVILE ASSENTEISMO ONERI CASALINGHI Assenteismo dal lavoro per stato civile STATO CIVILE (DONNE) ASSENTEISMO Sposate Non sposate Sì 2.3% 6.4% No 97.7% 93.6% TOTALE 100% (10560) 100% (6496) Assenteismo dal lavoro per stato civile, controllando per quantità di lavoro domestico ONERI CASALINGHI Elevata Scarsa o nulla STATO CIVILE ASSENTEISMO Sposato Non sposato Sposato Non sposato Sì 7.0% 5.7% 2.2% 1.9% No 93.0% 94.3% 97.8% 98.1% TOTALE 100% (5680) 100% (1104) 100% (816) 100% (9126) Quantità di lavoro domestico per stato civile STATO CIVILE (DONNE) ONERI CASALINGHI Sposate Non sposate Elevata 88% 10% Scarsa o nulla 12% 90% 100% (6496) 100% (10230) TOTALE Perché sul lavoro le donne sposate sono più assenteiste delle donne non sposate ? Perché le donne sposate hanno maggiori oneri casalinghi delle nubili e questa variabile influenza l’assenteismo. NB: non si può nemmeno dire, però, che il matrimonio di per sé non causi assenteismo: comparando infatti il rapporto tra numero di sposate e nubili con molti oneri casalinghi (5680/1104), con il rapporto tra sposate e nubili con ridotti oneri casalinghi (816/9126), si trova che la relazione si inverte: di fatto la maggioranza delle donne sposate ha elevati oneri casalinghi (88%), mentre fra le donne nubili solo il 10% ha elevati oneri domestici. La relazione iniziale fra stato civile e assenteismo è quindi mediata e non annullata dalla variabile oneri casalinghi, che perciò diventa una variabile interveniente. Relazione spuria o variabile interveniente ? Più elevato livello di assenteismo Matrimonio Maggiori oneri casalinghi Matrimonio Maggiori oneri casalinghi Più elevato livello di assenteismo Compariamo le due relazioni esaminate: Esempio del consumo di dolci: STATO CIVILE ETA’ CONSUMO DI DOLCI (relazione spuria) Esempio dell’assenteismo: MATRIMONIO ONERI CASALINGHI ASSENTEISMO (relazione condizionale indiretta, con variabile interveniente ) Regole per distinguere relazioni spurie da relazioni condizionate da una variabile interveniente Esaminare il numero di casi a fondo di ciascuna colonna: • quando il rapporto fra i totali di ciascun gruppo o modalità della variabile di controllo è uguale, ciò significa probabilmente che la relazione è spuria • quando il rapporto non è uguale, allora la variabile di controllo probabilmente interviene fra variabile indipendente e dipendente Se la relazione tra variabile di controllo e variabile indipendente è reversibile - se cioè la direzione di causalità può essere invertita indifferentemente fra le due variabili - allora siamo in presenza di una relazione spuria. Altrimenti, se la freccia di causalità può solo andare dalla variabile indipendente a quella di controllo e non viceversa, è più difficile sostenere che la variabile di controllo possa influenzare quella indipendente (si tratterebbe in questo caso di variabile interveniente).