TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere In questa lezione.. In questa lezione useremo un primo approccio per studiare l’associazione di due variabili statistiche: la teoria della connessione. Per far ciò, a partire da alcuni esempi: Familiarizzeremo con i concetti di indipendenza stocastica e di perfetta dipendenza funzionale. Introdurremo alcune proprietà operative congiunte in caso di perfetta indipendenza. delle frequenze Faremo la conoscenza di una misura importante di connessione, che chiameremo “Chi quadro di Pearson”. Impareremo a misurarla con una procedura operativa più rapida, e a ‘normalizzarla’, rapportandola al suo massimo. Esamineremo alcuni paradossi e alcune stranezze della connessione, applicata a miscugli di popolazione. E questa sarà la prima finestra che apriremo (e lasceremo per ora socchiusa) verso l’analisi statistica di tre variabili. Un esempio: matrimonio e scolarità Questa volta partiamo da un esempio concreto. La tabella riporta un incrocio ricavato dalla matrice dati della Survey della regione Lombardia, su 913 lombardi. lui Elem Infer Lei Super lei 0,6 Elem 195 50 22 267 0,45 Infer 37 151 82 270 0,3 Super 11 95 270 376 0,15 243 296 374 913 0 Ci sono tanti modi per leggere questa tabella e non tutti fruttuosi. Possiamo cominciare a confrontare le distribuzioni di frequenza marginali. Ma non ne viene granché (fatelo anche voi). La % con bassa scolarizzazione è maggiore tra le donne (29,2% contro 26,6%) ma quella ad alta scolarizzazione è praticamente identica (41,2% contro 41,0%). Insomma, se ci limitiamo all’analisi univariata, la pari opportunità sembra cosa raggiunta. elem infer super Lui 0,6 0,45 0,3 0,15 0 elem infer super Endogamia come assenza di indipendenza Ma cose meno ovvie emergono leggendo la tabella in altri modi. Proviamo per esempio a soffermarci sulle frequenze congiunte (numerosità congiunte diviso numerosità totale) situate sulla diagonale principale della matrice. lui Elem Infer Super Elem 213 55 24 292 Infer 41 165 90 296 Super 12 104 296 412 266 324 410 1000 lei La diagonale principale di una matrice è quella dalla sinistra in alto alla destra in basso: esiste solo se la tabella ha numero uguale di righe e colonne La somma delle frequenze sulla diagonale principale è pari al 67,4%. Significa che due lombardi su tre sono sposati con persona del proprio livello di istruzione. Si dice, in linguaggio forbito, che l’endogamia è forte. La scolarità perseguita (e dietro di essa lo status sociale) condiziona pesantemente la scelta del coniuge. Traduciamo tutto ciò nel linguaggio appreso. Ciò significa che non c’è indipendenza tra scolarità del Lui e del Lei. E che le distribuzioni di frequenza della scolarità di Lei varieranno notevolmente al variare della scolarità di Lui. Verifichiamolo. Distribuzioni vincolate come fondali di scena Che si calcolino le frequenze di Lei vincolate a Lui o viceversa il risultato non cambia Freq (istruzione di lui|istruzione di lei) Pensiamo ai diagrammi delle distribuzioni vincolate come a fondali di palcoscenico lui Elem Infer Super posti a diverse profondità. Ora la rapprelei sentazione grafica ha tre dimensioni: la Elem 73,0 18,7 8,3 100 variabile ‘condizionante’ (lungo la profonInfer 13,7 55,9 30,4 100 dità), quella condizionata (per larghezza) Super 2,9 25,3 71,8 100 e le frequenze vincolate (in verticale). 26,6 32,4 41,0 100 Freq (istruzione di lei|istruzione di lui) 0,8 Freq (istruzione di lei|istruzione di lui) lui Elem Infer 0,6 Super 0,8 0,4 0,6 0,2 0,8 0,4 0 0,6 0,2 0,4 0 lei Elem 80,3 16,9 5,9 29,2 Infer 15,2 51,0 21,9 29,6 Super 4,5 32,1 72,2 41,2 100 100 100 100 Se lui ha ‘super’ elem super Se lui ha ‘infer’ elem 0,2 infer infer super Se lui ha ‘elem’ 0 elem infer super Distribuzioni vincolate in una società ‘libera’ Come sarebbe la nostra tabella in un’ipotetica società in cui tutte le Lei avessero la stessa chance di sposare un Lui istruito, indipendentemente dalla scolarità di Lei? Traduciamo la domanda nei termini tecnici che abbiamo appreso. La distribuzione di frequenza del livello di istruzione di lei non deve cambiare al variare del livello di istruzione di lui. Cioè tutte le distribuzione di frequenza vincolate (Lei|Lui) sarebbero uguali tra loro, quindi uguali a quella della popolazione in generale. Per qualunque j fj|1 = fj|2 = .. = fj|i = .. = fj|r = fj e per qualunque j e i lei lui Elem Infer Super Elem 29,2 29,2 29,2 29,2 Infer 29,6 29,6 29,6 29,6 Super 41,2 41,2 41,2 41,2 N=243 N=296 N=374 N=913 fj|i = fj In questa tabella le distribuzioni vincolate sono tutte identiche alla distribuzione marginale. Non è difficile risalire alla distribuzione congiunta corrispondente. Infatti, dato che fj|i = nji/ni allora nji = fj|i x ni Freq (istruzione di lei|istruzione di lui) Per es. la numerosità ‘teorica’ in una società libera di Lei con licenza elementare e Lui con diploma superiore è 0,292 x 374 = 109,2 (non è intera perché ‘teorica’) La tabella ‘teorica’ di indipendenza stocastica Questa è la tabella del caso ‘teorico’ di ‘società libera’ in cui ogni donna è indipendente nelle sue scelte del partner (secondo la scolarità): essa possiede 3 proprietà lei lui Elem Infer Super Elem 71,1 86,5 109,4 267 Infer 71,8 87,6 110,6 270 Super 100,1 121,9 154,0 376 243 296 374 913 La seconda considerazione emerge se andiamo a calcolare le frequenze vincolate per colonna, cioè le frequenze di livello di istruzione di lui, vincolate al livello di istruzione di lei. Anche queste distribuzioni sono uguali tra loro e identiche alla marginale. La prima cosa da osservare è che la distribuzione congiunta costruita per colonna rispetta anche le somme per riga, pari proprio alle numerosità marginali. lei lui Elem Infer Super Elem 26,6 32,4 41,0 N=267 Infer 26,6 32,4 41,0 N=270 Super 26,6 32,4 41,0 N=376 26,6 32,4 41,0 N=913 Vale questa definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni i,j Esempio: una pietra miliare della epidemiologia Partiamo con dati inventati, ma che descrivono un famoso caso di storia della scienza. Per trovare una spiegazione alla diffusione del colera John Snow analizza 2000 quartieri (walls) di Londra, secondo il grado di Esposizione all’epidemia di colera del 1854 (Alto, Medio,Nullo) e la società H di erogazione idrica (Lambeth, Misto, Vauxh). H E Alto Medio Basso Lamb 720 180 0 900 Mixed 120 0 180 300 Vauxh 160 120 520 800 1000 300 700 2000 H E Alto Medio Basso Lamb 0,80 0,20 0 900 Mixed 0,40 0 0,60 300 Vauxh 0,20 0,15 0,65 800 0,50 0,15 0,35 2000 La tabella delle numerosità congiunte o delle frequenze relative non dice niente di chiaro. Calcoliamo allora le frequenze vincolate per riga: cerchiamo cioè di spiegare il variare della distribuzione di frequenza dell’esposizione al colera (E) in funzione del tipo di acqua erogata. Ora vediamo che il colera colpisce pesantemente l’80% dei quartieri serviti dalla Lambeth & Co., solo il 20% di quelli serviti dalla Vauxhall, e una via di mezzo per i quartieri serviti da entrambe le società. Se le frequenze vincolate variano tra i diversi sottogruppi, si può sospettare che esista una relazione tra H e E. La tabella ‘teorica’ di indipendenza stocastica Se E non dipendesse per niente da H ci dovremmo aspettare che le distribuzioni vincolate per riga (per grado di esposizione al colera) non varino per niente al variare della società di erogazione, e siano quindi tutte uguali alla distribuzione marginale: H E Alto Medio Basso Lamb 0,50 0,15 0,35 900 Mixed 0,50 0,15 0,35 300 Vauxh 0,50 0,15 0,35 800 0,50 0,15 0,35 2000 Questa è la tabella delle frequenze vincolate che si avrebbe se ci fosse indipendenza tra H e E. Da questa.. 0,50 x 900 = _____ 450 H E Alto Medio Basso Lamb 450 135 315 900 Mixed 150 45 105 300 Vauxh 400 120 280 800 1000 300 700 2000 Si risale (moltiplicando le frequenza vincolate per le corrispondenti numerosità marginali) alla Tabella teorica di Indipendenza. Torniamo alla definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se fj|i = fj per ogni i,j Fattorizzazione delle frequenze Attenzione: la proprietà di indipendenza stocastica (o statistica) è simmetrica: la indipendenza di Y da X implica cioè quella di X da Y. Ma se noi formuliamo le frequenze relative come rapporti tra numerosità, la definizione generale ”fj|i=fj per ogni i,j” diventa ”nji/ni=nj/N” da cui si trae: nji =(nj x ni)/N o dividendo entrambe le parti per N: fji =fj x fi Condizione necessaria e sufficiente perché ci sia indipendenza stocastica tra X e Y è che le numerosità congiunte nji siano fattorizzabili (scomponibili in fattori) nel prodotto – diviso per N – delle corrispondenti numerosità marginali, ossia che le frequenze congiunte siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali Ricordate: “Condizione Necessaria e Sufficiente” vuol dire che: a) se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) se le frequenze sono fattorizzabili c’è indipendenza stocastica. Un esempio: tavole di mobilità sociale padri-figli Prendiamo la tavola della mobilità intergenerazionale (padri-figli) stimata per le persone occupate in Italia nel 1985 (Sylos Labini, numerosità in milioni). Pa Fi Basso Medio Alto njio Basso 644 462 42 1148 Medio 413 848 94 1355 Alto 13 68 47 128 1070 1378 183 2631 Freq (status figlio/status padre) Pa Fi Basso Medio Alto Basso 56,1 40,2 3,7 100 Medio 30,5 62,6 6,9 100 Alto 10,2 53,1 36,7 100 40,7 52,4 6,9 2631 La somma delle frequenze relative sulla diagonale principale (644+848+47=1539) dà la misura di un cambiamento massiccio ma non radicale: 1539 su 2631 (58,5%) sono stabili (stayers), il restante 41,5% cambia status. Se poi confrontiamo le distribuzioni marginali, troviamo che la popolazione di basso status è scesa dal 43,6 al 40,7%, quella di alto status è salita dal 4,9 al 6,9%. Ma le frequenze vincolate sono ancora più esplicite nel mostrare che non c’è ‘perfetta mobilità sociale’: se il papà era in basso nella scala sociale la frequenza di appartenere alla élite è solo del 3,7%, contro il 36,7% se il papà era già ‘high status’. American way of life Ma come sarebbe fatta la tavola, compatibile con le distribuzioni marginali italiane, di perfetta mobilità sociale? La tavola di indipendenza stocastica in cui la frequenza per un figlio di appartenere allo status i non dipende dalla status del padre? Pa Fi Basso Medio Alto njie Basso 467 601 80 1148 Medio 551 710 94 1355 Alto 52 67 9 128 1070 1378 183 2631 Numerosità teoriche di ind.stocastica Pa Fi Basso Medio Alto cji Basso +177 -139 -38 0 Medio -138 +138 0 0 Alto -39 +1 +38 0 0 0 0 0 Tavola delle contingenze cji=njio-njie In questa tabella ogni numerosità teorica è calcolata ‘fattorizzando’ le frequenze: njie =(njxni)/N Per esempio 80=(1148x183)/2631 ecc. 67=(1378x128)/2631 Ma quanto è la distanza tra la tabella effettivamente osservata (numerosità congiunte njio dove o sta per osservato) e quella teorica di indipendenza (numerosità congiunte njie dove e=expected)? Basta calcolare la tabella delle differenze tra le njio e le njie ! Chiamiamo ‘contingenze’ le differenze cji = njio - njie. Contingenze & contingenze quadratiche Tavola delle contingenze cji=njio-njie Pa Fi Basso Medio Alto cji Basso +177 -139 -38 0 Medio -138 +138 0 0 Alto -39 +1 +38 0 0 0 0 0 Ogni singola contingenza ci racconta dello scostamento tra una frequenza osservata e quella teorica di perfetta indipendenza. Per esempio qui si nota la coincidenza tra nmedio,altoo e nmedio,altoe, ma altre contingenze sono assai più elevate. Se noi vogliamo misurare globalmente il grado di scostamento della distribuzione congiunta da quella teorica di indipendenza è necessario fare una sintesi delle singole contingenze: occorre calcolarne una qualche ‘media’. Ma c’è un problema. La tavola osservata e quella teorica hanno le stesse distribuzioni marginali. Perciò la tavola delle contingenze ha somme (per riga, per colonna, in totale) pari a zero. Occorre quindi fare la media non delle contingenze semplici, ma di una qualche trasformazione 0. Come il valore assoluto o i quadrati. E poi farne la somma. E’ una procedura familiare, vero? Già che ci siamo, ricordiamo anche che la varianza ci dava problema perché somma quantità quadratiche ed è di un ordine superiore ai dati osservati. Avevamo cercato quindi di ricondurla allo stesso ordine di grandezza dei dati (facendone la radice). Misurare la connessione Pa Fi Basso Medio Alto njio Basso 644 462 42 1148 Medio 413 848 94 Alto 13 68 1070 1378 Basso Medio Alto njie Basso 467 601 80 1148 1355 Medio 551 710 94 1355 47 128 Alto 52 67 9 128 183 2631 1070 1378 183 2631 Tavola numerosità osservate njio Pa Tavola numerosità teoriche njie Basso Medio Alto cji Pa Basso +177 -139 -38 0 Medio -138 +138 0 Alto -39 +1 0 0 Pa Fi Fi Basso Medio Alto Basso 67,086 32,148 18,050 0 Medio 34,563 26,822 0 +38 0 Alto 29,250 0,015 160,444 0 0 Tavola contingenze cji=njio-njie Fi Tavola dei rapporti cji2/njie Qui sono riepilogate le tavole di calcolo. Ma perché per riportare all’ordine di grandezza dei dati la somma la dividiamo per njie e non per njio? Tanti i motivi: ma provate voi a fare rapporti con uno zero al denominatore! L’indice chi quadrato di Pearson La somma dei rapporti (cji2/njie) è una buona misura del grado di connessione tra due variabili. La indichiamo con la lettera greca (si legge ‘chi’) seguita dal segno del quadrato. Una misura proposta da Karl Pearson, studioso di fine ‘800, con queste caratteristiche: r ,s (n n ) i, j nije 2 o ij e 2 ij 2 è somma di tanti rapporti in cui i numeratori sono quadrati (quindi sempre 0) e i denominatori sono prodotti di frequenze marginali (quindi sempre >0: un prodotto è zero solo se uno dei fattori è zero, ma se una frequenza marginale fosse zero non ci sarebbe quella riga o colonna nella tabella!); 2 è zero se e solo se tutte le differenze al numeratore sono zero cioè se e solo se (njio-njie)=0 per ogni i,j; cioè in caso di indipendenza stocastica; 2 cresce, allontanandosi da zero, al crescere della distanza della distribuzione congiunta osservata da quella di perfetta indipendenza; 2 ha un massimo? E a che situazione corrisponde? Risponderemo presto. Intanto limitiamoci a calcolare questa misura nell’esempio della mobilità sociale. Risulta 2 = (67,086+32,148+18,050+34,563+…+160,444)= 368,378 Agli antipodi: la perfetta dipendenza funzionale Chi quadrato misura lo scostamento dal caso di perfetta indipendenza stocastica. Ma fino a quanto ci si può scostare? Esiste un tetto non superabile? E si può dare un significato a questa situazione limite agli antipodi della indipendenza stocastica? Per rispondere inventiamoci un’altra tavola di mobilità sociale, questa volta fittizia, intragenerazionale (non padri-figli) tra tre settori di vita: città, periferia, campagna. t t+1 Rur Per Urb t Rur 25 5 0 30 Per 5 25 10 Urb 0 10 30 40 Rur Per Urb Rur 9 12 9 30 40 Per 12 16 12 40 20 30 Urb 9 12 9 30 30 100 30 40 30 100 Tavola di mobilità osservata (2=73,8) t t+1 t+1 Tavola di perfetta indipendenza (2=0) t Rur Per Urb Rur 0 0 30 30 40 Per 0 40 0 40 30 30 Urb 30 0 0 30 30 100 30 40 30 100 Rur Per Urb Rur 30 0 0 30 Per 0 40 0 Urb 0 0 30 40 Tavola di società castuale (2=200) t+1 Tavola di società à la Pol Pot (2=200) Perfetta dipendenza funzionale Dunque. La tabella osservata mostra un grado di connessione pari a 2=73,8. La situazione di riferimento di indipendenza ha ovviamente 2=0. Ma quelle, opposte, in cui lo stato al tempo (t+1) ‘dipende’ in modo rigido dallo stato al tempo t, danno entrambe 2=200 (la stessa cifra: eppure sono situazioni davvero diverse!). Diamo allora una definizione formale del concetto di dipendenza funzionale: «Una variabile Y dipende funzionalmente da X se a ogni modalità osservata di X corrisponde una e una sola modalità osservata di Y» Attenti alle proprietà della dipendenza funzionale: La dipendenza funzionale non implica che ci sia una relazione quantitativa ‘monotòna’ tra le due variabili (in cui al crescere di una cresca o non diminuisca l’altra). Si pensi a una società in cui tra t e (t+1) quelli che stanno in A passino in B, quelli che stanno in B passino a C, quelli che stanno in C passino ad A. La dipendenza funzionale non implica neppure che le variabili coinvolte siano quantitative!! E questo vale in generale per 2 e per la ‘teoria della connessione’. Stress Status High Middle Low High - - >0 Middle >0 - - Low - >0 - In questo esempio i ceti medi (‘in mezzo al guado) hanno il massimo livello di stress, i ceti bassi hanno una gradazione intermedia di stress, i ceti alti stanno relativamente bene.. Ancora sulla perfetta dipendenza funzionale Se e solo se la tavola delle numerosità congiunte (tabella di contingenza) è quadrata (r=s) la dipendenza funzionale è biunivoca (cioè la dipendenza funzionale di Y da X implica anche la dipendenza funzionale di X da Y e viceversa). Solo in questa caso dunque la connessione è un concetto simmetrico. Se s>r (più colonne che righe) ci può essere perfetta dipendenza funzionale di X da Y ma non viceversa (ad almeno una modalità di X corrisponderà più di una modalità di Y). A B C D - - >0 F >0 >0 - X Se r>s (più righe che colonne) ci può essere perfetta dipendenza funzionale di Y da X ma non viceversa (ad almeno una modalità di Y corrisponderà più di una modalità di X). Infine, se entrambe le v.s. coinvolte sono quantitative discrete, alla tabella di massima connessione si può associare una relazione funzionale (non necessariamente monotona) del tipo Y=f(x) e una del tipo X=g(y). X Y XY 1 2 4 1 - >0 - Y A B D >0 - E - >0 F - >0 4 3 2 2 - - >0 3 >0 - - 1 0 0 1 2 3 Normalizzare chi quadrato Si può dimostrare (credeteci sulla parola) che l’indice 2 ha un massimo pari al minore tra il numero di righe e il numero di colonne, meno 1 e moltiplicato per N: E’ abbastanza intuitivo che il valore massimo, corrispondente alla situazione di massima connessione, si può realizzare solo nel caso in cui la tabella della distribuzione congiunta sia quadrata (r=s). Ma anche con questo ‘lieve difetto’, il valore massimo ci consente di normalizzare l’indice: max N min( r, s) 1 2 2 N (nij / ni n j ) 1 2 i, j 1 0 2 2 / max N min( r, s ) 1 Nell’esempio di mobilità intergenerazionale r=s=3, N=2631 e 2=368,378. Quindi 2max=2631(3-1) e 2*=0,07 Nell’esempio di endogamia matrimoniale r=s=3, N=913 e 2=544,1. Quindi 2max=913(3-1) e 2*=0,298 Nella tavola (fittizia) di mobilità sociale osservata r=s=3, N=100 e 2=73,8. Quindi 2max=100(3-1) e 2*=0,369 Ma nelle simulazioni di mobilità sociale di una società per caste e di una società à la Pol Pot 2=200 e quindi 2*=1!! L’imprevedibilità dei miscugli Ricordate il concetto di miscuglio, cioè di una popolazione costituita da unità provenienti da gruppi (subpopolazioni, strati) eterogenei tra loro, dotati di distribuzioni di frequenza divergenti? Avevamo fatto conoscenza coi miscugli nell’analisi univariata, e avevamo concluso che occorreva stare prudenti.. Anche nella connessione tra due caratteri qualitativi la natura di miscuglio di una popolazione può produrre effetti sorprendenti. E’ infatti vero che: In un miscuglio si può osservare perfetta indipendenza stocastica tra due caratteri X e Y, anche se nelle subpopolazioni si possono osservare relazioni di dipendenza funzionale anche perfetta. Viceversa, in un miscuglio si può osservare una relazione tra X e Y in una certa direzione, mentre nelle subpopolazioni la relazione funzionale esiste ma di segno diverso. A 35 anni, tra le ragazze chi lavora è meno frequente che abbia un figlio di chi non lavora; tra i ragazzi è invece l’opposto. Ma se pigliamo ragazzi e ragazze insieme che tipo di relazione funzionale potremo trovare tra attività lavorativa e stato civile? Quando l’eterogeneità nasconde una relazione Per esempio, vediamo se esiste associazione tra un indicatore P di performance in carriera (a=alta, b=bassa) e l’appartenenza etnica E (n=nero, s=ispanico, w=bianco) in due isolati W1 (periferico) e W2 (city) di una città americana. W1: isolato periferico E/P bassa W1: isolato nella city alta Nero 0 3 3 Ispanico 0 6 6 Bianco 8 0 8 8 9 17 Nel miscuglio ogni percezione di un ‘minority status effect’ si dissolve: c’è perfetta indipendenza stocastica!! E/P Nero Ispanico Bianco bassa alta 6 0 6 12 0 12 0 4 4 18 4 22 W1+W2: miscuglio Nell’isolato periferico c’è perfetta dipendenza funzionale: i bianchi sono marginali e ‘falliscono’. E/P Nero Ispanico Bianco bassa alta 6 3 9 12 6 18 8 4 12 26 13 39 In centro invece i bianchi hanno buone performances. Le minoranze etniche (anche se numerose!) assai meno. Il paradosso di Simpson Un secondo effetto sorprendente consiste nel rovesciamento della direzione della connessione individuata. Può sembrare un guaio meno radicale del precedente, ma può avere conseguenze consistenti. Supponiamo che due ospedali sperimentino l’efficacia terapeutica (E=sì o no) di due molecole (F=A,B) nel curare la Sars. Solo, i due ospedali abbiano somministrato i due farmaci in misura differente. Clinica 1 Pool delle cliniche F/E sì no F/E sì no FA 6(35%) 11 17 FA 13 (52%) 12 FB 2 (25%) 6 8 FB 15 (60%) 8 (32%) 17 25 28 (56%) Clinica 2 F/E sì no 25 FA 7 (87%) 1 8 10 25 FB 13 (76%) 4 17 22 50 20 (80%) 5 25 In entrambe le cliniche il farmaco A ottiene risultati migliori. Ma (attenti alla diversa distribuzione dei farmaci) nel miscuglio ha risultati più favorevoli il farmaco B. Così la scelta del farmaco più efficace dipende dalla scelta del livello di analisi: Se si sceglie il farmaco più efficace nella maggioranza di cliniche, sarà A. Se si sceglie il farmaco più efficace sul pool delle cliniche, esso sarà B!