Analisi monovariata: frequenze Analisi monovariata: insieme di tecniche che prendono in considerazione una sola variabile alla volta. Essa è il punto di partenza per tutte le analisi dei dati Il punto di partenza dell’analisi monovariata è la distribuzione di frequenza, ossia ad ogni modalità della variabile viene associata la frequenza con cui essa si presenta nella matrice-dati. Distribuzione di frequenza della variabile sesso Modalità Frequenza Maschio 325 Femmina 254 Totale 579 Analisi monovariata: frequenze Esistono due tipi diversi di frequenze: le frequenze assolute e le frequenze relative Le frequenze assolute (tabella precedente) consistono nel semplice conteggio del numero di casi che presentano lo stesso valore (modalità), per la variabile prescelta. Generalmente le F.A. sono di difficile interpretazione, poiché non ci permettono di cogliere l’incidenza delle singole modalità sull’intera distribuzione della variabile (posso conoscere il numero di persone di sesso maschile, ma se non metto in relazione tale numero con il totale dei casi non posso affermare alcunché). Per questi motivi è più utile ricorrere alle frequenze relative, ossia quel tipo di frequenze che permette di annullare l’effetto della numerosità dei casi. Analisi monovariata: frequenze relative Le frequenze relative si suddividono in quattro tipi: proporzioni, frequenze percentuali, cumulate, retro-cumulate. A seconda del tipo di variabile da analizzare, sarà possibile utilizzare parte o tutti i tipi di frequenze relative. Per tutte le variabili (nominali, ordinali e cardinali) è possibile calcolare: • proporzione: frequenza assoluta numero totale dei casi • frequenza percentuale: frequenza assoluta numero totale dei casi X 100 Analisi monovariata: frequenze relative - 2 Esempio: Frequenze relative Frequenze assolute Proporzioni Percentuali Senza titolo 30 0,025 2,5 Lic. elementare 509 0,424 42,4 Licenza media 342 0,285 28,5 Diploma 264 0,220 22,0 Laurea 55 0,046 4,6 Totale 1.200 1 100,0 Modalità Analisi monovariata: frequenze relative -3 Se le variabili sono ordinali è possibile calcolare anche le percentuali cumulate e retro-cumulate. • La frequenza cumulata relativa a una categoria indica quale numero (o percentuale) di casi non arriva alla categoria successiva o oltre; • La frequenza retro-cumulata relativa a una categoria indica quale numero (o percentuale) di casi arriva a quella categoria o alle successive (cioè più alte nell’ordine) (Marradi, 2002). Analisi monovariata: frequenze relative - 4 Esempio: Frequenze relative Frequenze assolute Percentuali Cumulate Retrocumulate Senza titolo 30 2,5 2,5 100,0 Lic. elementare 509 42,4 44,9 97,5 Licenza media 342 28,5 73,4 55,1 Diploma 264 22,0 95,4 26,6 Laurea 55 4,6 100,0 4,6 Totale 1.200 100,0 Modalità Interpretazione: • “gli individui che al massimo hanno la licenza media sono il 73,4%” • “gli individui che hanno almeno il diploma sono il 26,6%” Analisi monovariata: frequenze relative - 5 Esempio: Provincia di Milano Modalità Provincia di Bergamo Percentuali Cumulate Retrocumulate Percentuali Cumulate Retrocumulate Senza titolo 7,0 7,0 100,0 7,2 7,2 100,0 Lic. elementare 22,3 29,3 93,0 28,9 36,2 92,8 Licenza media 30,9 60,2 70,7 34,8 71,0 63,8 Diploma 29,6 89,8 39,8 23,4 94,4 29,0 Laurea 10,2 100,0 10,2 5,6 100,0 5,6 Totale 100,0 Fonte: Censimento ISTAT - 2001 Interpretazione ??? 100,0 Analisi monovariata: tabelle - 1 Presentazione tabellare delle distribuzioni di frequenza: • Parsimonia: inserire solo le informazioni indispensabili (indicare solo un tipo di frequenza (assoluta, relativa, percentuale, etc…) • Numerosità dei casi: nel caso si utilizzino le frequenze percentuali (più usate) è necessario indicare il numero complessivo dei casi in valore assoluto (N) • Utilità delle percentuali: non usare le frequenze percentuali se N è minore di 50 casi (riportare le percentuali se si vuole comparare più distribuzioni di frequenza) • Fallacy of the misplaced precision: evitare la tendenza a riportare percentuali con un numero eccessivo di decimali, ma riportare solo quelli strettamente necessari. Una possibile regola, suggerita da Marradi (2001), è la seguente: • se N ≥ 1.000 casi 1 cifra decimale • se N ≥ 10.000 casi 2 cifre decimali Usare con cautela: la decisione è da prendere sempre a seconda dei casi; evitare comunque di usare troppi decimali • Arrotondamenti corretti: • da 0 a 4 arrotondamento per difetto (16,73 16,7) • da 6 a 9 arrotondamento per eccesso (34,27 34,3) • se 5 controllare il decimale successivo (se 16,75 è arr. di 16,752 16,8; se 16, 75 è arr. di 16,748 16,7; se 16,75 non è arr. arrotondamento sia per eccesso che per difetto) Analisi monovariata: tabelle - 2 Tabella 1 – intestazione (es. titolo di studio) Modalità % Senza titolo 2,5 Lic. elementare 42,4 Licenza media 28,5 Diploma 22,0 Laurea 4,6 Totale 100,0 (N=1.200) • Ricordarsi sempre di intestare la tabella e di inserire la fonte o, se i dati sono stati raccolti autonomamente, la domanda corrispondente • ordine delle modalità: • V. nominali: libera scelta, a seconda delle necessità di presentazione (es. frequenze decrescenti) • V. ordinali: utilizzare l’ordine delle modalità (es. tab. 1 – NO freq. decrescenti) Fonte o, se survey, domanda del questionario • V. cardinali: molte modalità, sintesi necessaria raggruppamento di valori Modalità % 20 anni 2,7 21 anni 2,7 22 anni 2,9 23 anni 3,0 24 anni 3,4 … … Modalità % 20-24 anni 14,7 25-29 anni 20,9 30-34 anni 30,5 35-39 anni 33,9 Totale 100,0 (N=343.647) Fonte: demo.istat.it – Milano 2007 Analisi monovariata: grafici - 1 Presentazione grafica delle distribuzioni di frequenza: • Le rappresentazioni grafiche sono molteplici. Esse non veicolano informazioni aggiuntive rispetto alle tabelle (spesso è, anzi, il contrario), ma hanno maggiore impatto comunicativo, soprattutto verso un target con scarse competenze “numeriche”. • Prima di procedere alla creazione di un grafico, è necessario conoscere il tipo di variabile che si vuole rappresentare: nominale, ordinale o cardinale. Ogni tipo di variabile può essere rappresentata solo con alcune forme di grafici; in caso contrario si corre il rischio di veicolare informazioni fuorvianti, se non addirittura scorrette. • Le rappresentazioni grafiche si dividono in due famiglie: le rappresentazioni lineari e le rappresentazioni circolari. Ogni famiglia ha pregi e difetti, da valutare caso per caso. Analisi monovariata: grafici - 2 Rappresentazioni grafiche lineari – diagrammi a barre Vantaggi: • sono semplici da disegnare • consentono un’agevole comparazione tra le frequenze delle varie modalità • sottolineano l’autonomia semantica delle modalità Variabili nominali Svantaggi: • è difficile comparare una singola modalità con l’intera distribuzione • difficile aggregazione ad “occhio” di categorie adiacenti (es. cattolico + protestante) (NO con variabili ordinali perché le barre distanti non danno l’idea che ci sia una continuità tra le modalità, come accade invece con le variabili ordinali – meglio l’istogramma). Analisi monovariata: grafici - 3 Rappresentazioni grafiche lineari – istogramma Vantaggi: • è semplice da disegnare • facilita la comparazione tra frequenze di categorie contigue • è possibile utilizzare anche con variabili cardinali ricodificate (es. classi di età) Svantaggi: • suggerisce un ordine tra le categorie, tale da renderlo poco utile per rappresentare variabili con forte autonomia semantica delle categorie (nominali) • difficile definire il rapporto tra una modalità e l’intera distribuzione Variabili ordinali e cardinali (ricodificate) Analisi monovariata: grafici - 4 Rappresentazioni grafiche lineari – istogramma di composizione Vantaggi: • costringe chi lo osserva a tener conto della ridotta autonomia semantica delle categorie • permette di cogliere l’incidenza di una modalità sulla distribuzione totale Svantaggi: • non può essere usato per le variabili nominali • rende difficile il confronto tra due modalità Variabili ordinali e cardinali (ricodificate) Analisi monovariata: grafici - 5 Freq. cumulate Altre rappresentazioni grafiche lineari Spezzata a gradini: • utile se si vuole presentare le frequenze cumulate di una variabile almeno ordinale Diagramma a bandiera: • utile per confrontare la distribuzione di frequenza di una variabile in due sottopopolazioni diverse (es. sesso) • è possibile usarlo per ogni tipo di variabile (preferibile ordinale o cardinale) Analisi monovariata: grafici - 6 Rappresentazioni grafiche lineari – variabili cardinali 25 20 Frequenza 15 10 5 0 20 21 22 23 24 25 26 27 28 29 Età Caratteristiche: • poligono di frequenza: ogni punto indica l’incrocio tra uno dei valori assunti dalla variabile e la frequenza con cui tale valore si distribuisce • poiché la variabile non può assumere tutti i valori (x R), non può essere considerata una curva, ma solo una spezzata • con il poligono di frequenza è possibile rappresentare variabili cardinali con molte modalità (es. reddito nazione); in caso di poche modalità è possibile usare altri tipi di rappresentazione (istogramma, istogramma di composizione, spezzata a gradini, diagramma a bandiera) Analisi monovariata: grafici - 7 Rappresentazioni grafiche circolari Diagramma a torta Vantaggi: • suggeriscono meno un certo ordine fra le categorie, quindi sono più adatte per variabili con categorie non ordinate • permette di cogliere l’incidenza di una modalità sulla distribuzione totale • facilita l’aggregazione ad “occhio” di due modalità adiacenti Svantaggi: • può suggerire un ordine tra le modalità se costruito male (es. gradazione di colori o tratteggi simili) • non si possono usare per variabili con molte modalità Variabili nominali Analisi monovariata: grafici - 8 Rappresentazioni grafiche – alcuni accorgimenti • come per le tabelle, si ritiene sia più opportuno utilizzare le frequenze percentuali; se possibile, inserire il valore di N nella didascalia. • è opportuno inserire le informazioni sui dati mancanti anche nelle rappresentazioni grafiche, evidenziandone tuttavia la differenza rispetto alle altre modalità • Nel diagramma a torta è meglio inserire le etichette e le percentuali vicino o sopra gli elementi grafici, rispetto all’uso di legende. Analisi monovariata: grafici - 9 Rappresentazioni grafiche – alcuni accorgimenti - 2 • è opportuno ragionare correttamente su quale scala utilizzare in ascissa (frequenze perc.), poiché essa può influenzare l’interpretazione del grafico • L’esempio b. è probabilmente il più neutro, mentre il primo (a.) tende ad appiattire tutte le frequenze verso il basso, mentre il c. dà risalto alle frequenze più alte • nel caso la distribuzione presenti una modalità con alta frequenza, può essere opportuno inserire un segno di discontinuità per sottolineare lo stacco (es. d.) Contatti Domingo Scisci Università di Milano-Bicocca Via Bicocca degli Arcimboldi 8 20126 Milano Edificio U7/II Piano Stanza 207 Telefono: 02 64487513 Mail: [email protected] Quest'opera è stata rilasciata sotto la licenza Creative Commons Attribuzione-Non commerciale-Condividi allo stesso modo 2.5 Italia. Per leggere una copia della licenza visita il sito web http://creativecommons.org/licenses/by-nc-sa/2.5/it/ o spedisci una lettera a Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.