“Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti 1 Lezione Analisi monovariata Corbetta, capitolo 12 2 L’analisi monovariata L’analisi monovariata costituisce la forma più semplice di analisi del fenomeno indagato. Essa consiste in un’analisi descrittiva focalizzata su una sola variabile. 3 L’Analisi Monovariata Tratta lo studio della distribuzione dei dati osservati sugli stati di una variabile. Distribuzione di frequenza Serve ad avere una prima impressione sul fenomeno preso in esame e soprattutto a verificarne la plausibilità ed eventuali squilibri. Essa costituisce l’analisi più elementare e serve anche a facilitare agli altri studiosi la lettura di analisi più complesse. 4 La distribuzione di frequenza La prima è più elementare delle analisi è la distribuzione di frequenza. Essa consiste in un banale conteggio delle modalità di una variabile. 5 LA MATRICE DEI DATI: CASI PER VARIABILI 6 Distribuzioni di frequenza: il genere V15 SESSO Valid 1 maschio 2 femmina Total Frequency 26091 27617 53708 Il conteggio dei casi osservati Percent 48.6 51.4 100.0 Valid Percent 48.6 51.4 100.0 Cumulative Percent 48.6 100.0 7 Distribuzioni di frequenza V15 SESSO Valid 1 maschio 2 femmina Total Frequency 26091 27617 53708 Percent 48.6 51.4 100.0 Le quote percentuali delle modalità Valid Percent 48.6 51.4 100.0 Cumulative Percent 48.6 100.0 8 Distribuzioni di frequenza V15 SESSO Valid 1 maschio 2 femmina Total Frequency 26091 27617 53708 Percent 48.6 51.4 100.0 Valid Percent 48.6 51.4 100.0 Cumulative Percent 48.6 100.0 Le percentuali sui casi validi, al netto dei casi mancanti 9 Distribuzioni di frequenza V131 FREQUENZA CON CUI SI INCONTRA CON AMICI (nel tempo libero) Valid Mis sing Total 1 tutti i giorni 2 più di una volta a s ettimana 3 una volta a s ettimana 4 qualche volta al mese 5 qualche volta all'anno 6 mai 7 non ho amici Total Sys tem Frequency 14237 14251 9231 7143 3177 1880 734 50653 3055 53708 Percent 26.5 26.5 17.2 13.3 5.9 3.5 1.4 94.3 5.7 100.0 Le quote percentuali delle modalità Valid Percent 28.1 28.1 18.2 14.1 6.3 3.7 1.4 100.0 Cumulative Percent 28.1 56.2 74.5 88.6 94.8 98.6 100.0 10 Distribuzioni di frequenza V131 FREQUENZA CON CUI SI INCONTRA CON AMICI (nel tempo libero) Valid Mis sing Total 1 tutti i giorni 2 più di una volta a s ettimana 3 una volta a s ettimana 4 qualche volta al mese 5 qualche volta all'anno 6 mai 7 non ho amici Total Sys tem Frequency 14237 14251 9231 7143 3177 1880 734 50653 3055 53708 Percent 26.5 26.5 17.2 13.3 5.9 3.5 1.4 94.3 5.7 100.0 Valid Percent 28.1 28.1 18.2 14.1 6.3 3.7 1.4 100.0 Cumulative Percent 28.1 56.2 74.5 88.6 94.8 98.6 100.0 Le percentuali sui casi validi, al netto dei casi mancanti 11 Distribuzioni di frequenza V131 FREQUENZA CON CUI SI INCONTRA CON AMICI (nel tempo libero) Valid Mis sing Total 1 tutti i giorni 2 più di una volta a s ettimana 3 una volta a s ettimana 4 qualche volta al mese 5 qualche volta all'anno 6 mai 7 non ho amici Total Sys tem Frequency 14237 14251 9231 7143 3177 1880 734 50653 3055 53708 Percent 26.5 26.5 17.2 13.3 5.9 3.5 1.4 94.3 5.7 100.0 Valid Percent 28.1 28.1 18.2 14.1 6.3 3.7 1.4 100.0 Cumulative Percent 28.1 56.2 74.5 88.6 94.8 98.6 100.0 Le percentuali cumulative 12 V383 N STANZE CHE COMPONGONO L'ABITAZIONE Valid Mis sing Total 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Total Sys tem Frequency 217 2421 8982 17218 13690 5746 2423 1284 410 354 36 62 14 17 8 4 6 52892 816 53708 Percent .4 4.5 16.7 32.1 25.5 10.7 4.5 2.4 .8 .7 .1 .1 .0 .0 .0 .0 .0 98.5 1.5 100.0 Valid Percent .4 4.6 17.0 32.6 25.9 10.9 4.6 2.4 .8 .7 .1 .1 .0 .0 .0 .0 .0 100.0 Cumulative Percent .4 5.0 22.0 54.5 80.4 91.3 95.9 98.3 99.1 99.7 99.8 99.9 99.9 100.0 100.0 100.0 100.0 13 Rappresentazioni grafiche di distribuzioni di frequenza Titolo di studio (3 fasce) 300 Frequency 250 DIAGRAMMA A BARRE 200 150 100 50 0 licenza media diploma Titolo di studio (3 fasce) Cases weighted by peso laurea Rappresentazioni grafiche di distribuzioni di frequenza Titolo di studio (3 fasce) licenza media diploma laurea DIAGRAMMA A TORTA Cases weighted by peso Le distribuzioni di frequenza come distribuzioni di probabilità V15 SESSO Valid 1 maschio 2 femmina Total Frequency 26091 27617 53708 Percent 48.6 51.4 100.0 Valid Percent 48.6 51.4 100.0 Cumulative Percent 48.6 100.0 Le proporzioni delle modalità possono essere interpretate come probabilità. Maschi Femmine Totale Pm Pf Pm+f 0,486 0,514 1,000 16 Maschi Femmine Totale Pm Pf Pm+f 0,486 0,514 1,000 Una probabilità può variare tra 0 e 1 Un evento è certo quando ha probabilità 1 Un evento è irrealizzabile quando ha probabilità 0 La somma delle probabilità di tutti gli eventi possibili è uguale a 1 Nell’esempio abbiamo che la probabilità di estrarre a caso una femmina dal nostro campione è 0,514. La probabilità di estrarre un maschio è di 0,486. Estraendo a caso un soggetto dal nostro campione abbiamo più probabilità di estrarre una femmina che non un maschio. Siamo certi (probabilità uguale ad 1) di estrarre o un maschio o una femmina. 17 L’analisi monovariata: le statistiche Le statistiche servono a dare una descrizione sintetica del fenomeno. Esse si applicano in modo diverso secondo la scala di misurazione con la quale sono rilevate le variabili. 18 L’analisi monovariata: le statistiche Esistono misure di tendenza centrale che sintetizzano l’informazione contenuta nella variabile in un valore caratteristico. Esistono misure di dispersione che indicano la varietà delle informazioni presenti in una variabile. 19 Le misure di tendenza centrale su variabili NOMINALI LA MODA: E’ la modalità più frequente. 20 MODA in una distribuzione di frequenza v5_gener 5_Genere musicale preferito Valid Mis sing Total 1 rock e hardrock 2 leggera 3 pop 4 hiphop e dance 5 lirica 6 etnica er eggae Total Sys tem Frequency 137 160 104 35 6 12 454 26 480 Percent 28.5 33.3 21.6 7.3 1.2 2.6 94.5 5.5 100.0 Valid Percent 30.2 35.2 22.8 7.8 1.2 2.7 100.0 Cumulative Percent 30.2 65.4 88.3 96.0 97.3 100.0 21 Le misure di tendenza centrale su variabili ORDINALI LA MEDIANA: E’ la modalità che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella modalità. 22 Le misure di tendenza centrale su variabili ORDINALI Dato un elenco ordinato di N casi, la mediana è la modalità che si trova in corrispondenza del caso (N+1)/2 quando N è dispari. Se invece N è pari le mediane sono le modalità in corrispondenza del caso (N/2) e del caso (N/2 +1). 23 MEDIANA (N dispari) 1° 2° 3° 4° 5° Graduatoria di 5 competitori. N 1 3 2 La mediana è la modalità relativa al caso in TERZA posizione. 24 MEDIANA (N pari) 1° 2° 3° 4° 5° 6° Graduatoria di 6 competitori. N 3 2 N 1 4 2 La mediana è rappresentata da due modalità: sono le modalità relative ai casi in TERZA e QUARTA posizione. 25 MEDIANA , N dispari in una variabile ordinale V79 PERCEZIONE DELLO STATO DI SALUTE (dove 1 indica lo stato peggiore e 5 il migliore) Valid Mis sing Total 1 peggiore 2 3 4 5 migliore Total Sys tem Frequency 1392 2633 8530 14511 25881 52947 761 53708 Percent 2.6 4.9 15.9 27.0 48.2 98.6 1.4 100.0 MEDIANA = stato 4 Valid Percent 2.6 5.0 16.1 27.4 48.9 100.0 Cumulative Percent 2.6 7.6 23.7 51.1 100.0 50% 26 MEDIANA , N pari in una variabile metrica eta Età esatta Valid 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Total Frequency 3 14 29 50 76 67 48 24 42 37 25 20 18 14 12 480 Percent .7 2.9 6.1 10.5 15.7 14.0 10.0 5.0 8.7 7.8 5.2 4.1 3.8 3.0 2.4 100.0 Valid Percent .7 2.9 6.1 10.5 15.7 14.0 10.0 5.0 8.7 7.8 5.2 4.1 3.8 3.0 2.4 100.0 Cumulative Percent .7 3.7 9.8 20.3 36.0 50.0 60.0 65.0 73.7 81.5 86.7 90.8 94.6 97.6 100.0 50% MEDIANA = 19,5 27 Le misure di tendenza centrale su variabili CARDINALI LA MEDIA ARITMETICA: Equivale alla somma dei valori di tutti i casi diviso il numero dei casi. N= numero dei casi Xi=i-esimo caso N x x i 1 i N 28 ETA’ MEDIA 5 studenti con età differenti 20 x1 20 x2 25 x3 27 x4 33 x5 N x x i 1 i N 25 20 27 33 20 x 25 5 L’età media degli studenti è 25 anni 29 MEDIA su una distribuzione di frequenza Modalità k=4 Età 20 Freq. 2 x1.f1 1 x2.f2 27 1 x3.f3 33 1 x4.f4 25 Numerosità N=5 k x x f i i i 1 N 20 2 25 1 27 1 33 1 x 25 5 30 In una variabile dicotomica, dove i valori sono 0 e 1 la media corrisponde alla proporzione dei casi sulla modalità 1 k x x f i i i 1 N p0 p1 1 x f 0 80 1 20 N=100 0 f 0 1 f1 1 f1 f1 p1 N N N 20 p1 0,2 100 31 Proprietà della MEDIA La somma degli scarti dalla media è uguale a ZERO. k x i 1 i x fi 0 32 Proprietà della MEDIA La somma degli scarti dalla media è uguale a ZERO. ISCRITTI scarti 98 156 75 80 17 78 23 79 66 77 78 99 101 19 77 -4 1 -62 -1 -56 0 -13 -2 -1 20 22 1027 79.0 -80 -60 -40 -139 -20 0 20 40 60 80 100 +139 media 33 VALORI CARATTERISTICI eta Età esatta Valid 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Total Frequency 3 14 29 50 76 67 48 24 42 37 25 20 18 14 12 480 Percent .7 2.9 6.1 10.5 15.7 14.0 10.0 5.0 8.7 7.8 5.2 4.1 3.8 3.0 2.4 100.0 Valid Percent .7 2.9 6.1 10.5 15.7 14.0 10.0 5.0 8.7 7.8 5.2 4.1 3.8 3.0 2.4 100.0 Cumulative Percent .7 3.7 9.8 20.3 36.0 50.0 60.0 65.0 73.7 81.5 86.7 90.8 94.6 97.6 100.0 Statistics eta Età es atta N Valid Mis sing Mean Median Mode 480 0 20.30 19.50 18 34 Se la distribuzione è asimmetrica la media “risente” dei valori estremi. In questi casi il valore caratteristico preferibile è la mediana. ESEMPIO: il reddito. n Valori estremi 0 1300 2400 12000 Reddito Mediana Media 35 Le misure di dispersione su variabili NOMINALI L’indice di omogeneità 36 Indice di omogeneità Misura la dispersione in una variabile nominale O k p i 1 2 i Dove k è il numero di modalità e pi è la proporzione di casi che si trovano nella categoria i-esima. L’indice di omogeneità O è dato quindi dalla somma dei quadrati delle frequenze proporzionali. k E 1 pi2 1 O i 1 Indice di eterogeneità Indice di omogeneità O k i 1 pi2 È massimo (=1) quando tutti i casi assumono la stessa modalità. È minimo (=1/k) quando la distribuzione è massimamente eterogenea, i casi si distribuiscono ugualmente nelle diverse modalità. ESEMPIO con due modalità (p,1- p) O 1 Omin = 0,502 + 0,502 = 0,50 1/2 0 Omax = 02 + 12 = 1 1/2 1 p Video di Faidate presenti su youtube e categoria tematica Maggiore è questo indice più è la concentrazione dei contenuti del rispettivo dominio: elevata omogeneità in Spagna e Germania, dove spiccano poche categorie, ed una minore in Francia, dove invece i contenuti sono dispersi tra più categorie. Mondo Entertainment, music Vehicles,motors Business Tech, electronics, gadgets Computers and internet Education Parenting, love&sex Fashion, style, beauty Cooking Health, fitness, sports Hobbies, leisure Home, DIY, house Religion, philosophy Weapons Totale Indice di omogeneità Regno Unito Germania Francia Spagna Italia 9 2 0 31 14 8 6 3 0 14 9 0 2 3 100 13 9 0 10 10 3 5 30 1 5 7 3 0 4 100 5 8 0 32 21 2 0 6 0 2 15 3 3 5 100 2 10 2 14 22 6 6 14 2 4 6 0 0 12 100 6 12 0 21 33 10 2 4 0 2 8 2 2 0 100 8 2 0 22 24 2 0 20 6 4 14 0 0 0 100 0,16 0,15 0,19 0,13 0,19 0,18 39 Indice di omogeneità relativa Per confrontare distribuzioni con un diverso numero di modalità. Varia tra 0 (minima omogeneità) ed 1 (massima omogeneità). Orel kO 1 k 1 Le misure di dispersione su variabili ORDINALI La differenza interquartile 41 Quartili Corrispondono ai valori/modalità che occupano nella distribuzione ordinata dei casi la posizione al 25%, al 50%(la mediana) e al 75% dei casi 42 QUARTILI eta Età esatta Valid 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Total Frequency 3 14 29 50 76 67 48 24 42 37 25 20 18 14 12 480 Percent .7 2.9 6.1 10.5 15.7 14.0 10.0 5.0 8.7 7.8 5.2 4.1 3.8 3.0 2.4 100.0 Valid Percent .7 2.9 6.1 10.5 15.7 14.0 10.0 5.0 8.7 7.8 5.2 4.1 3.8 3.0 2.4 100.0 Cumulative Percent .7 3.7 9.8 20.3 36.0 50.0 60.0 65.0 73.7 81.5 86.7 90.8 94.6 97.6 100.0 Statistics eta Età es atta N Valid Mis sing Median Percentiles 25 50 75 480 0 19.50 18.00 19.50 23.00 43 La differenza interquartile Misura la dispersione in una variabile ordinale Q Q3 Q1 Dove Q3 è il terzo quartile e Q1 è il primo. Nell’esempio precedente: Q 23 18 5 Le misure di dispersione su variabili CARDINALI Campo di variazione Scostamento semplice medio Deviazione standard e Varianza 45 Campo di variazione (o Range) Semplicemente offre una misura della variazione in una distribuzione calcolando la differenza tra il valore massimo ed il valore minimo. 46 CAMPO DI VARIAZIONE (o RANGE) eta Età esatta Valid 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Total Frequency 3 14 29 50 76 67 48 24 42 37 25 20 18 14 12 480 Percent .7 2.9 6.1 10.5 15.7 14.0 10.0 5.0 8.7 7.8 5.2 4.1 3.8 3.0 2.4 100.0 Valid Percent .7 2.9 6.1 10.5 15.7 14.0 10.0 5.0 8.7 7.8 5.2 4.1 3.8 3.0 2.4 100.0 Cumulative Percent .7 3.7 9.8 20.3 36.0 50.0 60.0 65.0 73.7 81.5 86.7 90.8 94.6 97.6 100.0 Statistics eta Età es atta N Valid Mis sing Range Minimum Maximum 480 0 14 14 28 47 Lo scostamento semplice medio Lo scostamento semplice medio, si calcola attraverso la somma degli scarti assoluti dalla media. k ssm x x f i 1 i N 48 i La deviazione standard La deviazione standard costituisce una misura della variabilità della distribuzione. k x x i 1 2 i N Equivale alla somma degli scarti dalla media al quadrato. 49 fi La varianza La varianza costituisce la misura statistica più importante. Per le sue proprietà essa costituisce una sintesi dell’informazione presente nella distribuzione della variabile. k 2 x x i 1 2 i N 50 fi Età 20 25 Freq. VARIANZA su una distribuzione di frequenza 2 1 27 1 33 1 k x 25 N=5 2 x x i 1 2 i fi N 2 2 2 2 ( 20 25 ) 2 ( 25 25 ) ( 27 25 ) ( 33 25 ) 2 5 50 0 4 64 29,5 5 La varianza campionaria Quando si lavora su campioni la stima statisticamente più corretta per calcolare la varianza del campione si trova: k S 2 x x i 1 2 i fi N 1 NB: S è la deviazione standard campionaria. 52 TRASFORMAZIONE DELLE VARIABILI CARDINALI Esistono alcune procedure che trasformano le variabili cardinali: - normalizzazione - standardizzazione 53 QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE NORMALIZZATA Valore osservato i-esimo xi xmin x xmax xmin 01 i La nuova variabile x01 varierà tra 0 ed 1. 54 DUE SCALE CON DIVERSO RANGE POSSONO ESSERE RESE COMPARABILI Voto “vecchio” di maturità Voto “nuovo” di maturità Minimo 36 Minimo 60 Massimo 60 Massimo 100 xi 36 x 60 36 xi 60 x 100 60 01 i 36 60 0 01 i 48 80 0,5 60 100 1 NB: la distanza relativa tra i casi rimane la stessa. 55 QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE STANDARDIZZATA zi xi x Una distribuzione standardizzata ha media uguale a 0 e deviazione standard (o varianza) uguale a 1. Z può variare tra meno e più infinito 56 DUE DISTRIBUZIONI POSSONO ESSERE COMPARATE IN TERMINI DI PUNTI STANDARD, A PARITA’ DI MEDIA E DI DISPERSIONE. Si standardizza rispetto ad un contesto di riferimento. Voto corso A Media 23 Dev.std 3,8 xi 23 z1 1,3 3,8 Voto A 18 18 18 21 22 26 26 27 27 27 Voto B 11 15 15 18 18 28 28 27 30 30 Voto corso B Media 22 Dev.std 6,9 xi 22 z2 0,6 6,9 NB: la distanza relativa tra i casi cambia. Nelle nuove distribuzioni la varianza = 1, la media = 0.