TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.1 Dai fenomeni alle variabili In questa lezione.. In questa lezione faremo una lunghissima cavalcata Dalla rilevazione dei dati (protocollo di rilevazione) Alla ricodifica sotto forma di matrice dei dati Alla classificazione di ogni carattere in forma di variabile Faremo anche attenzione a due problemi operativi che si pongono lungo la strada: Quello della arbitrarietà nella riclassificazione per intervalli Quello della efficacia comparativa delle frequenze relative Alla fine saremo pronti per analizzare la variabilità. Almeno speriamo! Rilevare le informazioni La statistica mira al suo obiettivo a partire dall’osservazione della realtà fenomenica L’osservazione può riguardare unità di analisi differenti, secondo la forma della rilevazione: Esperimenti (ripetuti, numerabili, indefiniti) Rilevazioni quasi-sperimentali (non ripetibili, già date) Preliminare quindi all’analisi statistica è la rilevazione delle informazioni su ciascuna unità di analisi (o esperimento) Scripts & frames Un esempio Due classi di liceo, A e B, si ritrovano nella stessa sera e nella stessa trattoria a dieci anni dalla maturità. Ogni compagno di scuola si confronta con gli ‘scripts’ (copioni, destini) degli altri, cioè con la trama di eventi biografici che hanno punteggiato e contraddistinto le vite di ciascuno. Ma gli altri clienti della trattoria vorrebbero identificare in modo distinto il ‘frame’ delle due classi (Di dove venite? Eravate bravi? E ora che fate? E in amore?), e raccolgono quattro informazioni per ogni individuo delle due classi, facendo girare e compilare foglietti fatti come questa scheda: Il primo passo è la costruzione del protocollo di rilevazione Il ‘protocollo di rilevazione’: passo numero uno Scheda per la rilevazione Nome: ………………………………Classe A B G Sesso Maschio: Femmina: S Titolo di studio: D : Solo diplomato L : Laureato P : Post-laurea E Performance economica: Entrate mensili in migliaia di euro ____,__ U Carriera ‘sentimentale’: Quanti amori? 0 1 2 3 4+ Ogni ‘ricerca tematica’, un protocollo Ogni analisi statistica di un collettivo richiede, almeno implicitamente, la formulazione di un protocollo di rilevazione, per avere le idee chiare su Chi o cosa è l’UNITA’ DI ANALISI Quale/i sono i CARATTERI analizzati UNITA’: organizzazioni non profit di una provincia CARATTERI: numero volontari, attività, figura giuridica, … Due esempi UNITA’: pazienti ambulatorio di analisi CARATTERI: diversi test clinici Ma non è necessario che le informazioni provengano da una rilevazione frutto di un ‘disegno dell’esperimento’ completamente organizzato. Un adeguato ‘disegno dell’analisi’ (quindi anche un ‘protocollo di rilevazione’) può essere costruito anche ex-post, cioè a partire da informazioni preesistenti all’interesse di ricerca. Due esempi: Sintetizzare le informazioni Due esempi Fonte: annuari Istat. Unità’: individui o unità territoriali superiori. Caratteri: istruzione, occupazione, residenza… Fonte: dati di sondaggi sulle intenzioni di voto. Unità: diverse società demoscopiche. Caratteri: previsioni di voto e variazioni nel tempo dei diversi partiti… Ma proseguiamo col nostro esempio. Se le due classi A e B sono composte rispettivamente di 10 (classe A) e 15 (classe B) persone alla fine mi trovo in mano 25 schede di rilevazione. So insomma tutto sui singoli, ma non so cogliere la struttura del collettivo, perché le informazioni sono troppo disperse! Il primo esercizio mentale della Statistica richiede operazioni preliminari di SINTESI. Il secondo passo nella procedura di sintesi delle informazioni raccolte consiste nel costruire la… La ricodifica dei dati: passo numero due Nella classe A ci sono dieci unità CognomeNome G S U E Bassi Mario M D 3 4,5 Campelli Guido M L 0 2,2 Lucioni Fabio M P 2 3,7 Parisi Paolo M D 0 6,8 Gatti Luisa F L 4 4,7 Gennai Mara F L 1 4,2 Minoli Ester F P 3 1,5 Premoli Sara F P 3 5,0 Tacchi Laura F L 2 5,2 Viesti Rosaria F L 2 7,2 Le informazioni sulle quattro caratteristiche di ogni unità di analisi (individuo) sono riportate per riga. Le informazioni sui dieci individui relativamente a una singola caratteristica sono riportate per colonna La matrice ha quindi n=5 colonne (inclusa quella coi nomi) e N=10 righe. Ogni riga identifica una unità di analisi, ogni colonna un carattere. Dal protocollo rilevazione alla matrice dati Un Ca X1 X2 … ... Xi 1 2 … J … … Xij … … Xn La matrice, di dimensione rettangolare (N x n), è la forma con cui sono ‘ricodificati’ i dati di input nei più noti ‘fogli elettronici’ di elaborazione statistica dei dati (Excel, SPSS, SAS). Il passaggio dal protocollo di rilevazione alla matrice dati si definisce ‘ricodifica’. N Nella generica casella Xij sta la misura del carattere Xi rilevata nell’unità di analisi (individuo) j. Ogni sintesi comporta perdita di informazioni Nella classe A ci sono dieci unità Cognome Nome G S U E Bassi Mario M D 3 4,5 Campelli Guido M L 0 2,2 Lucioni Fabio M P 2 3,7 Parisi Paolo M D 0 6,8 Gatti Luisa F L 4 4,7 Gennai Mara F L 1 4,2 Minoli Ester F P 3 1,5 Premoli Sara F P 3 5,0 Tacchi Laura F L 2 5,2 Viesti Rosaria F L 2 7,2 Nella matrice dati restano impigliate solo le informazioni relative ai caratteri da analizzare. Ogni altra informazione (per esempio il nome, il cui posto può essere preso da un codice identificativo) si perde. Nella classe B Cognome Nome Bonfedi Paolo Di Polo Luca Frediani Giulio Rosina Alex Vinci Roberto Appiani Laura Assaghi Linda Fiori Anna Rivellini Giulia Rizzi Ester Santi Miriam Senisi Lucia Stame Claudia Tetti Pauline Trionfi Nicole ci sono 15 G S M L M P M L M P M L F D F D F D F P F P F L F L F L F L F L unità U E 1 2,4 0 1,5 1 4,5 1 3,2 3 7,6 2 3,4 2 4,2 2 1,2 1 5,2 1 3,6 0 6,8 1 7,4 2 2,6 3 3,5 1 2,9 La riclassificazione dei dati: passo numero tre Nella classe A ci sono dieci unità CognomeNome G S U E Bassi Mario M D 3 4,5 Campelli Guido M L 0 2,2 Lucioni Fabio M P 2 3,7 Parisi Paolo M D 0 6,8 Gatti Luisa F L 4 4,7 Gennai Mara F L 1 4,2 Minoli Ester F P 3 1,5 Premoli Sara F P 3 5,0 Tacchi Laura F L 2 5,2 Viesti Rosaria F L 2 7,2 Già nel II° passo di sintesi avevamo oscurato alcune informazioni: per esempio i nomi Ma ora facciamo un passo avanti e concentriamoci su un solo carattere. Per esempio il titolo di studio. Oscuriamo tutte le altre colonne e concentriamo l’analisi su una sola dimensione. In questo primo volume esamineremo gli strumenti di ANALISI STATISTICA MONOVARIATA Dalla matrice dati alla serie ordinata Trascriviamo allora ‘in orizzontale’ le informazioni riportate nella colonna S dei titoli di studio: S = {D, L, P, D, L, L, P, P, L, L} In generale, la successione di modalità osservate di un carattere, rispettando l’ordine di rilevazione, si dice SERIE ORDINATA: X = {x1, x2, x3, .., xN-2, xN-1, xN} Le informazioni sono ancora esposte per esteso. Se la base-dati fosse fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno sforzo ulteriore di sintesi. E’ ciò che facciamo. Ma attenzione. Con la sintesi ulteriore perderemo l’informazione dell’ordine della serie. E in certi casi (per es. le ‘serie storiche’) l’ordine (l’unità di tempo di rilevazione) è fondamentale. Dalla matrice dati alla variabile statistica La formazione della Variabile Statistica a partire da una serie ordinata implica queste operazioni in sequenza: Individuazione di tutte le k modalità (xi) con cui si presenta il carattere Loro elencazione in ordine crescente, se si tratta di misure ordinabili Riclassificazione delle N occorrenze entro le k possibili modalità Infine, calcolo del numero di occorrenze ripetute per ogni modalità (ni). Classificazione del carattere S: Modalità (xi) Occorrenze (ni) D XX 2 L XXXXX 5 P XXX 3 Classificazione del carattere U: Modalità (xi) Occorrenze (ni) 0 XX 2 1 X 1 2 XXX 3 3 XXX 3 4 X 1 La variabile statistica Variabile statistica è una successione ordinata di coppie di valori {xi, ni} univocamente associati, relativi a un carattere osservato in una popolazione x1 x2 x3 .. xi .. xk n1 n2 n3 .. ni .. nk X= Il primo dei due parametri {xi, per i=1,2,..k} indica le diverse modalità che il carattere può assumere. Il secondo {ni, per i=1,2,..k} indica la corrispondente numerosità con cui ogni modalità i è stata osservata Ad ogni modalità corrisponde una e una sola numerosità, ma non necessariamente viceversa (per esempio alla numerosità 3 corrispondono due distinte 2 e 3 della variabile U)! Classificazione per intervalli Ma supponiamo ora di riportare la serie ordinata (trascritta per comodità in ordine crescente) delle modalità assunte dal carattere E (entrate mensili in migliaia di euro): S = {1,5; 2,2; 3,7; 4,2; 4,5; 4,7; 5,0; 5,2; 6,8; 7,2} Qui c’è poco da classificare!! Ogni modalità si osserva una e una sola volta, per il dettaglio della misura e le poche osservazioni. Per potere sintetizzare le nostre informazioni, e renderle più leggibili, occorre individuare non le modalità, ma degli intervalli di modalità possibili, e catalogare le osservazioni entro di essi. Parleremo di intervalli chiusi a destra o a sinistra se: xk<Xxk+1 e allora scriveremo (xk – xk+1] oppure xk -| xk+1 xkX<xk+1 e allora scriveremo [xk - xk+1) oppure xk |- xk+1 Conteggio stem & leaf Ricostruiamo la serie statistica dei redditi dei 25 compagni di classe Soluzione: conteggiamo tutte le osservazioni ordinandole secondo l’unità più grande. Riportiamo ogni osservazione come una foglia (leaf) al posto giusto lungo lo stelo (stem) 1: 1,2; 1,5; 1,5 2: 2,2; 2,4; 2,6; 2,9 3: 3,2; 3,4; 3,5; 3,6; 3,7 4: 4,2; 4,2; 4,5; 4,5; 4,7 5: 5,0; 5,2; 5,2 6: 6,8; 6,8 7: 7,2; 7,4; 7,6 Classificazione di E in 7 classi: Modalità (xi) (ni) 1 l- 2 3 2 l- 3 4 3 l- 4 5 4 l- 5 5 5 l- 6 3 6 l- 7 2 7 l- 8 3 Attenzione alle classi! La scelta degli estremi degli intervalli è, entro certi limiti, demandata all’arbitrio del ricercatore. Certo, si possono costruire intervalli equivalenti (uguale ampiezza), ma anche intervalli di ampiezza crescente col crescere delle modalità, o in altri modi ancora, a fantasia. I commenti del giorno dopo le elezioni sono ottimi esempi di scelta delle classi (di partiti) in funzione di ciò che si desidera mettere in evidenza (è vero, ha perso il mio partito, ma ha vinto la mia coalizione..). Classificazione di E in 3 classi: Modalità (xi) Occorrenze (ni) 0 -l 3 XX 2 3 –l 6 XXXXXX 6 6 –l 8 XX 2 Classificazione di E in 4 classi: Modalità (xi) Occorrenze (ni) 0 -l 2 X 1 2 -l 4 XX 2 4 -l 6 XXXXX 5 6 -l 8 XX 2 Equivalenti e equifrequenti Dalla serie dei redditi eliminiamo ora il più alto (7,6) e proviamo a vedere cosa succede se classifichiamo i dati in due modi differenti: •Costruendo 4 classi equivalenti (uguale ampiezza) •Costruendo 4 classi equifrequenti (uguale numerosità) 1,2; 1,5; 1,5 4 classi equivalenti: 4 classi equifrequenti: 2,2; 2,4; 2,6; 2,9 Modalità (xi) Modalità (xi) (ni) (ni) 3,2; 3,4; 3,5; 3,6; 3,7 1,1 l- 2,7 6 1,1 l- 2,7 6 4,2; 4,2; 4,5; 4,5; 4,7 2,7 l- 4,3 8 2,7 l- 4,0 6 5,0; 5,2; 5,2 4,3 l- 5,9 6 4,0 l- 5,2 6 6,8; 6,8 5,9 l- 7,5 4 5,2 l- 7,5 6 7,2; 7,4 Le modalità Torniamo alle modalità. Esse devono possedere tre qualità: Le modalità devono essere disgiunte (senza sovrapposizioni) Le modalità devono essere esaustive (devono coprire tutto il ventaglio delle possibilità) Inoltre accettiamo la convenzione di riportarle sempre in ordine crescente (se possibile). Degli esempi, buoni e non: ETA’ in anni compiuti: 15-20 20-25 25-29 ETA’ in anni compiuti: 15|-20 20|-25 25|-30 Non disgiunte O.K. (20 e 25enni) ETA’ in anni compiuti: 15|-19 20|-24 25|-29 Non esaustive (19 e 24enni) Ripartiz. Geog.Italia Nord Centro Sud Ripartiz. Geog.Italia CentroNord CentroSud Sud+Isole Non esaustive (isole) Non disgiunte (es. Umbria?) Numerosità e indice di sommatoria Le numerosità (o frequenze assolute) specifiche ni (relative alle modalità i) sono il risultato di un conteggio: sono quindi sempre numeri interi. Attenzione: le modalità xi non si sommano mai insieme! Invece le ni si sommano tra loro, e la somma deve essere pari alla numerosità totale N. CONDIZIONE DI NORMALITA’: Somma delle numerosità specifiche = Numerosità totale Se Somma > N le modalità potrebbero non essere disgiunte Se Somma < N le modalità potrebbero non essere esaustive L’espressione “Somma delle numerosità specifiche ni per i che va da i a k” (k=numero delle modalità) è lunga. Si può scrivere in modo più compatto? Con qualche passaggio ‘stenografico’, simbolizzando con S (e meglio ancora con la lettera greca corrispondente ) l’operazione di somma: k Si scrive così e si legge: “somma delle n con i, per i che va da 1 a k, è pari a N” i 1 i n N Finalmente, qualche confronto Dal protocollo di rilevazione, per ricodifica, alla matrice dati e dalla matrice dati, per riclassificazione, alla variabile statistica, abbiamo via via sintetizzato le nostre informazioni. Ora possiamo cominciare a usare i dati per qualche utile esercizio di lettura. Il primo esercizio è quello del confronto del peso della stessa modalità in diverse popolazioni. ESEMPIO: nella classe A (composta di 10 individui) i maschi sono 4. Nella classe B (15 individui) sono 5. In assoluto quindi non v’è dubbio: ci sono più maschi in B. Ma nelle dinamiche di classe 5 maschi su 15 erano solo il 30%, 4 su 10 erano il 40%! Il confronto tra due distribuzioni di frequenza dello stesso carattere (M/F) in popolazioni di diversa ampiezza è possibile solo tenendo sotto controllo l’ampiezza (fattore di disturbo). Le frequenze (relative) Chiamiamo frequenze (o frequenze relative) specifiche i rapporti tra le corrispondenti numerosità specifiche e la numerosità totale f i ni N da cui la condizione di normalità k i fi 1 Le frequenze sono dunque delle frazioni, comprese tra 0 e 1. Noi tendiamo a leggerle come percentuali, ‘fatto cento il totale’. Porre pari a 1 (o 100) N è un criterio per rendere comparabili numerosità diverse, depurandole dell’effetto distorsivo della dimensione delle rispettive popolazioni. Ma non è un criterio universale. John Graunt, agli albori degli studi quantitativi (1665) poneva pari a 1 il numeratore, e avrebbe detto che nella classe A c’era un maschio ogni 3, e in B uno ogni 2,5. Un criterio vale l’altro!! Imparare a leggere (e a usare) le frequenze Il 25 luglio 2002 un quotidiano di interesse nazionale in quarta pagina illustra un reportage sui risparmi degli italiani con questa tabella: Sapreste dire: Che cosa non torna nella tabella? Che distorsioni comporta nella interpretazione dei dati? Quale potrebbe essere la o le spiegazioni (ammesse fino a 3 risposte) Le attività finanziarie delle famiglie Su 100 famiglie italiane… 53 hanno solo depositi 10 hanno depositi e titoli di Stato 6 hanno depositi e altri titoli 6 hanno depositi, titoli di St.e altro 15 non hanno alcuna attività finanz Se avete risposto giusto almeno a due domande, complimenti! Dopo sole due lezioni capite di Statistica più di molti illustri giornalisti.