TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.3 Rappresentazioni grafiche In questa lezione.. In questa lezione acquisteremo familiarità con La rappresentazione di una variabile statistica in forma tabellare La rappresentazione di una distribuzione di frequenza nella forma grafica più adatta al corrispondente livello di misurazione. Introdurremo così i: Diagrammi a barre Diagrammi ad aste Istogrammi Infine, proprio perché la rappresentazione grafica di una variabi-le è uno strumento molto potente e efficace, prenderemo spunto da questa per introdurre il concetto di miscugli di popolazioni. La rappresentazione tabellare Abbiamo già visto che la forma ‘in punta di forchetta’ di una v.s. è quella (orizzontale) di una successione ordinata di coppie di va-lori {xi, ni} univocamente associati x1 x2 x3 x4 xk X= n1 n2 n3 n4 n k D’ora in poi useremo questa rappresentazione tabellare ‘in verticale’. xi ni fi= ni /N xi ni x1 n1 … … x2 n2 … … x3 n3 … … x4 n4 … … x5 n5 … … N … … Essa consente di affiancare alle colonne di modalità e numerosità altre colonne con elaborazioni successive dei dati (per esempio le frequenze relative), e quindi ci permette di seguire passo passo i calcoli per ogni misura di sintesi delle variabili. Ripasso: una tipologia di variabili Anche la rappresentazione tabellare può essere troppo dettagliata. Come ‘fotografare’ una distribuzione di frequenza? Trascriviamo le modalità (xi) sull’asse delle ascisse di un piano cartesiano, e le numerosità (ni) sull’asse delle ordinate. Così facendo associamo ad ogni coppia (xi, ni) un punto sul piano. Ma c’è un problema: non tutte le modalità di una v.s. sono tranquillamente associabili a punti su un piano. Dovremo dare regole di costruzione dei grafici diverse per tipo di variabile: ni n1 (xi, ni) n1 n2 n3 n4 n5 x1 xi x1 Qualitative nominali Qualitative ordinali x2 x3 Quantitative discrete x4 Quantitative per classi x5 Diagrammi a barre per variabili nominali Unica regola per la costruzione dei diagrammi a barre: la lunghezza delle barre deve essere proporzionale a ni oppure a fi. 1 Diagramma a ‘barre’ 0,8 0,6 0,4 xi ni fi Appartamento in condominio 34 0,667 Casa rurale Villino mono-bifamiliare 6 0,117 11 0,216 51 1,000 Popolazione italiana secondo il tipo di abitazione (dati di fantasia, numerosità in milioni) 0,2 0 villino rurale 1 0,8 0,6 0,4 Nota: è del tutto arbitraria la scelta sia dell’ordine tra le modalità, sia della distanza tra barre 0,2 0 villino appart. rurale appart. Altri rappresentazioni diagrammatiche E’ talmente libera la scelta della rappresentazione grafica, che essa può assumere anche altre forme più o meno accattivanti .. Diagramma a torta insuff 6m 21% insuff 3m 12% sufficiente 67% Diagramma a nastri Altre iconografie 1 insuff 6m 0,8 insuff 3m 0,6 0,4 sufficien 0,2 0 0 0,2 0,4 0,6 0,8 1 sufficien insuff 3m insuff 6m Diagrammi a barre, variabili ordinali Due regole per costruire diagrammi a barre per variabili ordinali: Lunghezza delle barre proporzionale a ni oppure a fi. Ordine tra le modalità obbligato (non la distanza) 0,3 0,25 0,2 0,15 0,1 0,05 0 sx csx cx cdx dx cdx dx Abacus Social Barometer 1996, Autocollocazione politica. Giovani di 25-34 anni, NordOvest xi ni fi Sinistra 20 0,113 Centrosin. 45 0,254 Centro 39 0,220 Centrodes. 59 0,290 Destra 20 0,113 177 1,000 NB:Che le ordinate del grafico siano proporzionali a ni o a fi il risultato non cambia: fi = ni * (1/N) 60 54 48 42 36 30 24 18 12 6 0 sx csx cx Diagrammi ad aste, variabili discrete Numero di azionisti per dimensione del pacchetto azionario xi ni 10 35 50 9 100 2 10 0 80 xi 60 Ora anche la distanza tra le modalità è obbligata!!! 40 30 20 10 0 40 Ordine tra le modalità obbligato. ni 20 Lunghezza delle aste proporzionale a ni oppure a fi. Diagramma ad ‘aste’ 0 Per costruire grafici per variabili discrete le regole diventano tre: la v.s. quantitativa discreta assume solo tre valori; essa non esiste, ad esempio, per x = 33,56 oppure per x = 0 il diagramma rappresenta davvero uno spazio bidimensionale, in cui ogni punto ha coordinate (xi, fi) o (xi, ni) le modalità sono poste sull'asse delle ascisse e le frequenze sull'asse delle ordinate per convenzione Variabili per classi: il diagramma sbagliato Che fare, se una variabile è per classi? In questo caso non possiamo associare a ogni coppia (xi,ni) un punto sul piano poiché le modalità non sono puntuali. Pazienti anoressiche per età di insorgenza (Selvini, 1998) xi-xi+1 ni 9-11 11 11-14 45 14-19 63 19-25 23 142 Dovremo piuttosto alzare su ogni segmento dell’ascisse, associato a una classe (xi-xi+1), un rettangolo di giusta altezza. Ma quale altezza è giusta? Qualcosa non quadra: usando le numerosità come ordinate, i 45 pazien-ti della classe (11-14) sembrano davvero pochi rispetto ai 63 della classe (14-19). Il grafico non rispetta le pro-porzioni tra classi ni 70 60 50 40 30 20 10 0 0 5 10 15 20 25 x30 i Morale: meglio far sì che siano le aree ad essere proporzionali alle numerosità Variabili per classi: l’istogramma giusto Vogliamo che le aree dei rettangoli rispettino le proporzioni tra le numerosità. Ora la terza classe (14-19) continua ad avere area più estesa, ma la sua altezza è inferiore al-la classe (11-14) dato che corrisponde a una classe più ampia Poiché “Area rettangolo=basexaltezza” e la base dei rettangoli è l’ampiezza delle rispettive classi (i=xi+1-xi), l’altezza dei rettangoli deve essere hi=ni/i. Questo rapporto si chiama densità. xi-xi+1 ni i hi=ni/i 9-11 11 2 5,50 11-14 45 3 15,00 14-19 63 5 12,60 19-25 23 6 3,83 142 hi 20 Densità: 16 hi=ni/i 12 Condizione di area: 8 ihii=N 0 4 xi 0 5 10 15 20 25 30 Il diagramma con altezze proporzionali alle densità e basi alle ampiezze delle classi si chiama ISTOGRAMMA Due cose che è bene sapere sull’istogramma/1 La prima cosa è che, come per i diagrammi a aste l’ordinata può essere indifferentemente proporzionale a ni o a fi, anche l’istogramma può calibrare le ordinate non alla densità assolute hi=ni/i ma alle densità relative i=fi/i. Le proporzioni del grafico non mutano. La condizione d’area diventa iii=1 . xi-xi+1 ni fi i i=fi/i 0,12 0,1 9-11 11 0,077 2 0,0385 11-14 45 0,317 3 0,1057 14-19 63 0,444 5 0,0888 0,04 19-25 23 O,162 6 0,0262 0,02 142 1,000 f x 0,08 0,06 x 0 0 5 10 15 20 25 30 Due cose che è bene sapere sull’istogramma/2 La seconda cosa è che, frammentando indefinitamente i segmenti di base, le ampiezze i diventano differenziali (dx) e le variabili tendono a funzioni di densità di frequenza continue per le quali vale la condizione d’area f(x)dx = 1 Cioè l’area sottesa alla curva è =1. Non preoccupatevi, comunque. Nella prima e nella seconda parte del corso useremo variabili continue solo come forme idealtipiche per cogliere l’essenza di una legge di frequenza. f 0,12 x 0,1 0,08 0,06 0,04 f(x)dx=1 0,02 0 0 5 10 15 20 25 30 x Due esempi di leggi matematiche di frequenza Solo nell’analisi dell’inferenza ritroveremo ‘distribuzioni notevoli’, cioè leggi teoriche che stimano il valore della densità di frequenza in funzione del valore delle modalità: y = f(x). Ci limitiamo a due esempi. f x f x f = 1 / (b-a) a 1/ b x x f x = e- x x Distribuzione rettangolare o uni- Distribuzione esponenziale (negativa) (esempio: tempi di attesa) forme. Ricordate l’istogramma? i = fi / i Un esempio per classi hi 24 xi Nota: la classe (80-100) ha numerosità che è solo il 60% superiore a quella della classe seguente, ma la densità è cinque volte tanto! 20 16 12 ni |- xi+1 fi i hi i 0 |- 20 126 11,5 20 6,30 0,0057 20 |- 40 439 39,9 20 21,95 0,0199 40 |- 60 346 31,5 20 17,30 0,0157 60 |- 80 123 11,2 20 6,15 0,0056 80 |- 100 37 3,4 20 1,85 0,0017 100|-160 22 2,0 60 0,37 0,0003 160|-300 6 0,5 140 0,04 0,0001 1099 100 General Survey Lombarda 2000 Distribuzione famiglie per reddito annuo (milioni lire) 8 4 0 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 xi 32 Nota: sull’asse orizzontale i redditi sono stati divisi per 10 (cioè espressi in decine di milioni) per pura comodità, senza che ne risenta la forma del grafico Miscugli di popolazioni. Un esempio Spesso una popolazione non è omogenea al suo interno, rispetto a un carattere osservato. Facciamo il caso della struttura per età degli immigrati presenti in Lombardia Età Totale xi |-xi+1 fi ampiez za densità hi 15 |-25 15,7 10 1,57 25 |-35 49,7 10 4,97 35 |-45 27,3 10 2,73 45 |-65 7,3 20 0,37 100,0 60 55 50 45 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Subpopolazioni e distribuzioni di frequenza Ma popolazioni di diversa provenienza hanno diverse strutture per età. Per esempio: Età Peru Albania xi |-xi+1 fi fi 15 |-25 9,7 29,5 25 |-35 45,5 41,1 35 |-45 30,8 23,8 45 |-65 14,0 5,6 100,0 100,0 Più giovane la struttura per età albanese 60 55 50 45 40 35 30 25 20 15 10 5 0 Più vecchia la struttura per età dei peruviani 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Il numero di immigrati di 15-25 anni sarà pari alla somma delle numerosità di immigrati 15-25 dei diversi paesi. La corrispondente frequenza relativa f(15-25) sarà invece la media aritmetica delle frequenze nei diversi gruppi nazionali, ciascuna ponderata per la numerosità del corrispondente gruppo (un dato che non possediamo!). Un secondo esempio Abbiamo già imparato a classificare le province italiane secondo il tasso di disoccupazione. Miscuglio è un aggregato di subpopolazioni rispetto a uno Disegnando gli istogrammi stesso carattere. possiamo capire cosa signi- La distribuzione fica dire che una popola- di numerosità del zione è un miscuglio. miscuglio è la xi|-xi+1 niN niS niT somma delle distribuzioni delle 0–5 15 0 15 singole subpopo5-10 36 8 44 lazioni. La distri10-15 4 21 25 buzione di frequenza (relativa) 15-25 0 16 16 è la loro media 55 45 100 ponderata. 15 12 9 6 3 0 15 0 5 10 0 5 10 15 20 25 30 12 9 6 3 0 15 20 25 Tornateci su quando avremo introdotto il concetto di media ponderata.. 30 Un terzo esempio Il caso della curva dei decessi per età (Lexis) dx L’andamento standard della frequenza dei decessi per età (dx) è quello riportato con linea spessa. Un secolo fa W. Lexis ha ipotizzato che la legge di frequenza dei decessi sia il risultato di un miscuglio di due popolazioni. x La curva rossa indica la subpopolazione congenitamente debole, che viene eliminata nei primi anni con andamento esponenziale negativo. La curva blu indica la legge dei decessi per la popolazione ‘normale’, simmetrica campanulare (la chiameremo curva Normale o di Gauss). Un esempio riassuntivo xi |- xi+1 fi ni i hi i 0,0 |- 0,8 35 4 0,8 5,0 0,0437 0,8 |- 1,2 9 1 0,4 2,5 0,0225 1,2 |- 1,6 61 7 0,4 17,5 0,1525 1,6 |- 2,0 88 10 0,4 25,0 0,2200 2,0 |- 2,4 79 9 0,4 22,5 0,1975 2,4 |- 2,8 202 23 0,4 57,5 0,5050 2,8 |- 3,2 96 11 0,4 27,5 0,2400 3,2 |- 3,6 132 15 0,4 37,5 0,3300 3,6 |- 4,0 70 8 0,4 20,0 0,1750 4,0 |- 4,4 53 6 0,4 15,0 0,1325 4,4 |- 4,8 26 3 0,4 7,5 0,0650 4,8 |- 5,2 26 3 0,4 7,5 0,0650 5,2 |- 6,0 26 3 0,8 3,7 0,0325 6,0 |- 8,0 70 8 2,0 4,0 0,0350 8,0 |- 12 26 3 4,0 0,7 0,0065 1000 114 Esercitiamoci su dati di survey che ci consentono di sviluppare l’intera procedura di calcolo di variabili per classi. I dati riportati nelle prime due colonne riguardano le frequenze relative dei redditi ‘equivalenti’ delle 114 famiglie di Milano città incluse nella General Social Survey. Conoscendo le fi e N (114) possiamo ricostruire le numerosità specifiche ni. Date le ampiezze (i) calcoliamo anche le densità. I redditi di Milano città xi |- xi+1 i fi 0,0 |- 0,8 35 0,0437 0,8 |- 1,2 9 0,0225 1,2 |- 1,6 61 0,1525 45 1,6 |- 2,0 88 0,2200 40 2,0 |- 2,4 79 0,1975 35 2,4 |- 2,8 202 0,5050 50 Notate come la classe dei ricchi (6-8) pur essendo molto più numerosa delle precedenti (70 contro 26) ha ampiezza maggiore e densità assai minore. 30 2,8 |- 3,2 96 0,2400 3,2 |- 3,6 132 0,3300 25 3,6 |- 4,0 70 0,1750 20 4,0 |- 4,4 53 0,1325 4,4 |- 4,8 26 0,0650 4,8 |- 5,2 26 0,0650 10 5,2 |- 6,0 26 0,0325 5 6,0 |- 8,0 70 0,0350 8,0 |- 12 26 0,0065 1000 Nota: sull’ordinata sono riportate le densità relative (verificate le proporzioni!) ma moltiplicate per cento per comodità (numeri più compatti). Nessun danno per il grafico! i 55 15 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 I redditi dei piccoli comuni xi |- xi+1 i fi 0,0 |- 0,8 11 0,0137 0,8 |- 1,2 14 0,0350 55 50 1,2 |- 1,6 88 0,2200 45 1,6 |- 2,0 164 0,4100 40 2,0 |- 2,4 140 0,3500 35 2,4 |- 2,8 196 0,4900 2,8 |- 3,2 108 0,2700 3,2 |- 3,6 80 0,2000 25 3,6 |- 4,0 48 0,1200 20 4,0 |- 4,4 65 0,1625 4,4 |- 4,8 24 0,0600 4,8 |- 5,2 17 0,0425 10 5,2 |- 6,0 19 0,0237 5 6,0 |- 8,0 21 0,0105 5 0,0012 8,0 |- 10 1000 Questa invece è la distribuzione di frequenza dei redditi nei piccoli comuni 30 Anche sull’ascissa le modalità sono modificate in proporzione (moltipli-cate per dieci) per como-dità, senza danni per una corretta lettura del grafico 15 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 L’utilità del confronto 55 50 Rosso = Milano 45 Blu = Paesi Più redditi mediobassi nei paesi 40 35 30 Più poveri in città 25 20 La sovrapposizione tra le due distribuzioni consente di cogliere minuziosamente alcune importanti differenze Più redditi alti in città 15 10 5 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 Miscugli: una porta verso l’analisi a 2 variabili Acqua potabile (dati 1996) Nord e Centro ni Sud e Isole ni Totale (x1000) Acqua potabile Nord e Centro fi Sud e Isole fi Totale Suff 88,3% 29,9% 66,6% Insuff 3 mesi 7,5% 20,8% 12,5% fi Sufficiente sempre 28069 5610 33679 Insufficien te 3 mesi 2391 3900 6291 Insufficien te 6+ mesi 1317 9257 10574 Insuff 6+ mesi 4,2% 49,3% 20,9% 31777 18767 50544 Totale 31777 18767 50544 Totale Popolazione italiana secondo l’accesso all’acqua potabile e la ripartizione geografica Le distribuzioni di frequenze relative del Nord e del Sud corrispondono (se moltiplicate per le rispettive numerosità complessive) alla tabella delle numerosità congiunte per ‘Accesso all’acqua’ e ‘Ripartizione’. Miscugli si hanno anche per variabili qualitative. Per esempio, hanno acqua a sufficienza 2 italiani su 3, ma solo 3 su 10 al Sud, e 9 su 10 al Nord. Il confronto tra subpopolazioni di un miscuglio è una porta di passaggio dell’analisi da una a due variabili!!