Accenni di analisi monovariata e bivariata ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle relazioni con le altre variabili DISTRIBUZIONE DI FREQUENZA: è l’ordinamento tabulare dei dati raccolti e le frequenze corrispondenti Verifiche da fare in sede di analisi monovariata: - - Verifica di PLAUSIBILITÀ: controllo nella matrice dei “valori selvaggi” AGGREGAZIONE DELLE MODALITÀ, secondo due criteri: - equilibrio della distribuzione - affinità semantica CONTROLLI SUI DATI: controlli di plausibilità; controllo in matrice dei valori selvaggi; controlli di congruenza; valori mancanti; ponderazione EQUILIBRIO DELLA DISTRIBUZIONE Le modalità si possono raggruppare secondo: - I valori che assume la distribuzione - L’affinità semantica (non si possono assommare variabili con significato divergente) Valori mancanti Distinguiamo 4 situazioni di valori mancanti: Non sa: il soggetto non sa rispondere Non applicabile: il soggetto non è tenuto a rispondere Non risponde: il soggetto rifiuta di rispondere Valore implausibile: si registra un valore non compreso nel codice Soltanto le ultime due costituiscono realmente dei valori mancanti Valori selvaggi GENERE Valid Frequency MASCHILE 396 FEMMINILE 423 15 1 Total 820 Percent 48,3 51,6 ,1 100,0 Valid Percent 48,3 51,6 ,1 100,0 Cumulative Percent 48,3 99,9 100,0 Ponderazione % nella popolazione % nel campione Pesi Licenza elementare Licenza media 29,5 25,3 42,4 40,8 Diploma 20,7 23,4 Laurea 7,4 10,5 29,5/25,3= 1,17 42,4/40,8= 1,04 20,7/23,4= 0,88 7,4/10,5= 0,70 15-17 18-21 22-25 26-29 32% 16% 15% 37% 48% 52% LICEO CLASSICO 15,6% LICEO SCIENTIFICO 19,7% ALTRO LICEO 6,9% IST. TECNICO 33,5% IST. PROFESSIONALE 8,1% ALTRO 16,2% 42,2% 41,6% Misure e test applicabili in sede di analisi monovariata - Media aritmetica: somma dei valori, divisi per il loro numero (solo se la variabile è cardinale) - Varianza: in una distribuzione, è la distanza dei singoli valori dal valore medio. Se la varianza è alta significa che i singoli valori sono molto diversi tra loro - - Mediana: è il valore di una distribuzione che la divide in due parti Moda: è la modalità della distribuzione che ha la frequenza maggiore, cioè il maggior numero di casi (se la variabile è nominale è l’unica misura di tendenza centrale calcolabile) Media, mediana, moda X1 + X2 + X3 +… Xn X= N Serie: 18, 20, 20, 20, 21, 23, 60 Media: Mediana: Moda: Distribuzione di frequenza della variabile ordinale “auto-collocazione sulla scala sinistra-destra” v.a. % % cum. Estrema sinistra 52 2,2 2,2 Sinistra 531 22,0 24,2 Centro-sinistra 742 30,8 55,0 Centro 313 13,0 68,0 Centro-destra 505 20,9 88,9 Destra 243 10,1 99,0 Estrema destra 24 1,0 100 2.410 100 Totale ANALISI BIVARIATA Studia le relazioni che possono esistere tra 2 variabili. Ha come prodotto una tabella di contingenza. Se riporto percentuali di riga: totale marginale di riga = a 100 Se riporto percentuali di colonna: totali marginali di colonna = a 100 Si scelgono le percentuali da riportare sulla base di quella che consideriamo variabile indipendente. Il numero delle categorie non deve essere troppo elevato FREQUENZA OSSERVATA: è il numero dei dati di una cella effettivamente rilevati FREQUENZA ATTESA: è la frequenza teorica che si dovrebbe ottenere sulla base dei totali marginali, se tra le due variabili considerate non esistesse alcuna associazione. FREQ. ATTESA = Prodotto dei totali marginali Totale dei casi Se la frequenza osservata è molto diversa rispetto alla freq. attesa, allora c’è un’associazione tra le due variabili. I risultati sono affidabili e statisticamente significativi soltanto se le frequenze attese sono alte e le freq. osservate basse. Chi-quadrato: testa la significatività della relazione tra 2 variabili; si basa sulla differenza tra freq. osservate e freq. attese Frequenze attese/Frequenze osservate GENERE * TITOLO DI STUDIO (ricod) Crosstabulation GENERE MASCHILE FEMMINILE Total TITOLO DI STUDIO (ricod) ELEM.MEDIA DIPLOMA LAUREA Count 179 139 76 Expected Count 166,6 154,5 72,9 % within GENERE 45,4% 35,3% 19,3% % of Total 21,9% 17,0% 9,3% Count 166 181 75 Expected Count 178,4 165,5 78,1 % within GENERE 39,3% 42,9% 17,8% % of Total 20,3% 22,2% 9,2% Count 345 320 151 Expected Count 345,0 320,0 151,0 % within GENERE 42,3% 39,2% 18,5% % of Total 42,3% 39,2% 18,5% Total 394 394,0 100,0% 48,3% 422 422,0 100,0% 51,7% 816 816,0 100,0% 100,0% COME VERIFICARE LA RELAZIONE TRA DUE VARIABILI? Chi-quadrato: testa la significatività della relazione tra 2 variabili; si basa sulla differenza tra frequenze osservate (fo) e frequenze attese (fe) (fo─ fe)2 χ2 = Σ fe Test statistico di verifica delle ipotesi: In realtà non verifica (= dimostrare che è vera) un’ipotesi, ma può solo arrivare a falsificarla (= dimostrare che è falsa) Il chi quadro,quindi, può arrivare a dimostrare che l’ipotesi nulla (secondo la quale non esiste una relazione fra la variabili) è falsa Esercizi A. Calcola la MEDIANA della serie di cifre che segue: Età: 15, 37, 86, 36, 19, 39, 55, 89, 16, 25, 41, 70, 67, 12 Svolgimento: 12, 15, 16, 19, 25, 36, 37, 39, 41, 55, 67, 70, 86, 89 Tra 37 e 39 B. Calcola la VARIANZA per la serie di numeri sottoelencata: Voti riportati agli esami di sociologia: 23, 21, 30, 18, 22, 29 Svolgimento: Calcolo la media: 23,8 Calcolo gli scarti: 0,8 + 2,8 + 6,2 + 5,8 + 1,8 + 5,2 Somma di ogni scarto elevato al quadrato = 0,6 +7,8 +38,4+33,6+3,2+27,0=110,6 Calcolo la deviazione standard (è la radice quadrata della somma degli scarti al quadrato, divisa per il n° dei casi): √ 110,6/6 = 4,29 Ottengo la varianza (è il quadrato della dev. standard) = 18,4 C. Calcola la VARIANZA per la serie di numeri sottoelencata: Voti riportati agli esami di metodologia: 27, 28, 30, 27, 29, 30 Svolgimento: Calcolo la media: 28,5 Calcolo gli scarti: 1,5 + 0,5 + 1,5 + 1,5 + 0,5 + 1,5 Somma di ogni scarto elevato al quadrato 2,25+0,25+2,25+2,25+0,25+2,25= 9,4 Calcolo la deviazione standard: √ 9,4/6 = 1,2 Ottengo la varianza (è il quadrato della dev. standard) = 1,5 Svolgimento: Freq. osservata: 142 Freq. Attesa: 396 x 231/ 819 = 111,7 Freq. osservata: 89 Freq. Attesa: 423 x 231/ 819 = 119,3 Freq. osservata: 254 Freq. Attesa: 396 x 588/ 819 = 284,3 Freq. osservata: 334 Freq. Attesa: 423 x 588/ 819 = 303,7 χ2 = Σ (fo─ fe)2 / fe [(142 ─ 111,7)2 / 111,7 ] + [(89 ─ 119,3) 2 / 119,3 ] + [(254 ─ 284,3) 2 /284,3 ] + [(334 ─ 303,7) 2 / 303,7 ] = 22,1 Gradi di libertà: (n° righe – 1) x (n° colonne – 1) (2-1) x (2-1) = 1 Verifico il valore del chi-quadrato nella tavola di distribuzione e osservo che è < 0,0001 La relazione tra le due variabili esaminate è significativa (l’ipotesi nulla – secondo la quale non esiste una relazione fra la variabili – è falsa)