Analisi monovariata: frequenze
Analisi monovariata: insieme di tecniche che prendono in
considerazione una sola variabile alla volta. Essa è il punto di
partenza per tutte le analisi dei dati
Il punto di partenza dell’analisi monovariata è la distribuzione di
frequenza, ossia ad ogni modalità della variabile viene associata
la frequenza con cui essa si presenta nella matrice-dati.
Distribuzione di frequenza della variabile sesso
Modalità
Frequenza
Maschio
325
Femmina
254
Totale
579
Analisi monovariata: frequenze
Esistono due tipi diversi di frequenze: le frequenze assolute e le
frequenze relative
Le frequenze assolute (tabella precedente) consistono nel
semplice conteggio del numero di casi che presentano lo stesso
valore (modalità), per la variabile prescelta. Generalmente le F.A.
sono di difficile interpretazione, poiché non ci permettono di cogliere
l’incidenza delle singole modalità sull’intera distribuzione della
variabile (posso conoscere il numero di persone di sesso maschile,
ma se non metto in relazione tale numero con il totale dei casi non
posso affermare alcunché).
Per questi motivi è più utile ricorrere alle frequenze relative, ossia
quel tipo di frequenze che permette di annullare l’effetto della
numerosità dei casi.
Analisi monovariata: frequenze relative
Le frequenze relative si suddividono in quattro tipi: proporzioni,
frequenze percentuali, cumulate, retro-cumulate. A seconda del
tipo di variabile da analizzare, sarà possibile utilizzare parte o tutti i
tipi di frequenze relative.
Per tutte le variabili (nominali, ordinali e cardinali) è possibile
calcolare:
• proporzione:
frequenza assoluta
numero totale dei casi
• frequenza percentuale: frequenza assoluta
numero totale dei casi
X 100
Analisi monovariata: frequenze relative - 2
Esempio:
Frequenze relative
Frequenze
assolute
Proporzioni
Percentuali
Senza titolo
30
0,025
2,5
Lic. elementare
509
0,424
42,4
Licenza media
342
0,285
28,5
Diploma
264
0,220
22,0
Laurea
55
0,046
4,6
Totale
1.200
1
100,0
Modalità
Analisi monovariata: frequenze relative -3
Se le variabili sono ordinali è possibile calcolare anche le
percentuali cumulate e retro-cumulate.
• La frequenza cumulata relativa a una categoria indica quale
numero (o percentuale) di casi non arriva alla categoria
successiva o oltre;
• La frequenza retro-cumulata relativa a una categoria indica
quale numero (o percentuale) di casi arriva a quella categoria o
alle successive (cioè più alte nell’ordine) (Marradi, 2002).
Analisi monovariata: frequenze relative - 4
Esempio:
Frequenze relative
Frequenze
assolute
Percentuali
Cumulate
Retrocumulate
Senza titolo
30
2,5
2,5
100,0
Lic. elementare
509
42,4
44,9
97,5
Licenza media
342
28,5
73,4
55,1
Diploma
264
22,0
95,4
26,6
Laurea
55
4,6
100,0
4,6
Totale
1.200
100,0
Modalità
Interpretazione:
• “gli individui che al massimo hanno la licenza media sono il 73,4%”
• “gli individui che hanno almeno il diploma sono il 26,6%”
Analisi monovariata: frequenze relative - 5
Esempio:
Provincia di Milano
Modalità
Provincia di Bergamo
Percentuali
Cumulate
Retrocumulate
Percentuali
Cumulate
Retrocumulate
Senza titolo
7,0
7,0
100,0
7,2
7,2
100,0
Lic. elementare
22,3
29,3
93,0
28,9
36,2
92,8
Licenza media
30,9
60,2
70,7
34,8
71,0
63,8
Diploma
29,6
89,8
39,8
23,4
94,4
29,0
Laurea
10,2
100,0
10,2
5,6
100,0
5,6
Totale
100,0
Fonte: Censimento ISTAT - 2001
Interpretazione ???
100,0
Analisi monovariata: tabelle - 1
Presentazione tabellare delle distribuzioni di frequenza:
• Parsimonia: inserire solo le informazioni indispensabili (indicare solo un tipo di frequenza
(assoluta, relativa, percentuale, etc…)
• Numerosità dei casi: nel caso si utilizzino le frequenze percentuali (più usate) è necessario
indicare il numero complessivo dei casi in valore assoluto (N)
• Utilità delle percentuali: non usare le frequenze percentuali se N è minore di 50 casi (riportare le
percentuali se si vuole comparare più distribuzioni di frequenza)
• Fallacy of the misplaced precision: evitare la tendenza a riportare percentuali con un numero
eccessivo di decimali, ma riportare solo quelli strettamente necessari. Una possibile regola,
suggerita da Marradi (2001), è la seguente:
• se N ≥ 1.000 casi
1 cifra decimale
• se N ≥ 10.000 casi
2 cifre decimali
Usare con cautela: la decisione è da
prendere sempre a seconda dei casi; evitare
comunque di usare troppi decimali
• Arrotondamenti corretti:
• da 0 a 4  arrotondamento per difetto (16,73  16,7)
• da 6 a 9  arrotondamento per eccesso (34,27  34,3)
• se 5  controllare il decimale successivo (se 16,75 è arr. di 16,752  16,8; se 16, 75 è
arr. di 16,748  16,7; se 16,75 non è arr.  arrotondamento sia per eccesso che per
difetto)
Analisi monovariata: tabelle - 2
Tabella 1 – intestazione (es. titolo di studio)
Modalità
%
Senza titolo
2,5
Lic. elementare
42,4
Licenza media
28,5
Diploma
22,0
Laurea
4,6
Totale
100,0
(N=1.200)
• Ricordarsi sempre di intestare la tabella e di
inserire la fonte o, se i dati sono stati raccolti
autonomamente, la domanda corrispondente
• ordine delle modalità:
• V. nominali: libera scelta, a seconda
delle necessità di presentazione (es.
frequenze decrescenti)
• V. ordinali: utilizzare l’ordine delle
modalità (es. tab. 1 – NO freq. decrescenti)
Fonte o, se survey, domanda del questionario
• V. cardinali: molte modalità, sintesi
necessaria  raggruppamento di valori
Modalità
%
20 anni
2,7
21 anni
2,7
22 anni
2,9
23 anni
3,0
24 anni
3,4
…
…
Modalità
%
20-24 anni
14,7
25-29 anni
20,9
30-34 anni
30,5
35-39 anni
33,9
Totale
100,0
(N=343.647)
Fonte: demo.istat.it – Milano 2007
Analisi monovariata: grafici - 1
Presentazione grafica delle distribuzioni di frequenza:
• Le rappresentazioni grafiche sono molteplici. Esse non veicolano informazioni
aggiuntive rispetto alle tabelle (spesso è, anzi, il contrario), ma hanno maggiore
impatto comunicativo, soprattutto verso un target con scarse competenze
“numeriche”.
• Prima di procedere alla creazione di un grafico, è necessario conoscere il tipo
di variabile che si vuole rappresentare: nominale, ordinale o cardinale. Ogni tipo
di variabile può essere rappresentata solo con alcune forme di grafici; in caso
contrario si corre il rischio di veicolare informazioni fuorvianti, se non addirittura
scorrette.
• Le rappresentazioni grafiche si dividono in due famiglie: le rappresentazioni
lineari e le rappresentazioni circolari. Ogni famiglia ha pregi e difetti, da valutare
caso per caso.
Analisi monovariata: grafici - 2
Rappresentazioni grafiche lineari – diagrammi a barre
Vantaggi:
• sono semplici da disegnare
• consentono un’agevole comparazione
tra le frequenze delle varie modalità
• sottolineano l’autonomia semantica
delle modalità
Variabili nominali
Svantaggi:
• è difficile comparare una singola
modalità con l’intera distribuzione
• difficile aggregazione ad “occhio” di
categorie adiacenti (es. cattolico +
protestante)
(NO con variabili ordinali perché le barre distanti non
danno l’idea che ci sia una continuità tra le modalità,
come accade invece con le variabili ordinali – meglio
l’istogramma).
Analisi monovariata: grafici - 3
Rappresentazioni grafiche lineari – istogramma
Vantaggi:
• è semplice da disegnare
• facilita la comparazione tra frequenze
di categorie contigue
• è possibile utilizzare anche con
variabili cardinali ricodificate (es. classi
di età)
Svantaggi:
• suggerisce un ordine tra le categorie,
tale da renderlo poco utile per
rappresentare
variabili
con
forte
autonomia semantica delle categorie
(nominali)
• difficile definire il rapporto tra una
modalità e l’intera distribuzione
Variabili ordinali e cardinali (ricodificate)
Analisi monovariata: grafici - 4
Rappresentazioni grafiche lineari – istogramma di composizione
Vantaggi:
• costringe chi lo osserva a tener conto
della ridotta autonomia semantica delle
categorie
• permette di cogliere l’incidenza di una
modalità sulla distribuzione totale
Svantaggi:
• non può essere usato per le variabili
nominali
• rende difficile il confronto tra due
modalità
Variabili ordinali e cardinali (ricodificate)
Analisi monovariata: grafici - 5
Freq. cumulate
Altre rappresentazioni grafiche lineari
Spezzata a gradini:
• utile se si vuole presentare le
frequenze cumulate di una variabile
almeno ordinale
Diagramma a bandiera:
• utile per confrontare la distribuzione di
frequenza di una variabile in due
sottopopolazioni diverse (es. sesso)
• è possibile usarlo per ogni tipo di
variabile (preferibile ordinale o cardinale)
Analisi monovariata: grafici - 6
Rappresentazioni grafiche lineari – variabili cardinali
25
20
Frequenza
15
10
5
0
20
21
22
23
24
25
26
27
28
29
Età
Caratteristiche:
• poligono di frequenza: ogni punto indica l’incrocio tra uno dei valori
assunti dalla variabile e la frequenza con cui tale valore si distribuisce
• poiché la variabile non può assumere tutti i valori (x  R), non può
essere considerata una curva, ma solo una spezzata
• con il poligono di frequenza è possibile rappresentare variabili cardinali
con molte modalità (es. reddito nazione); in caso di poche modalità è
possibile usare altri tipi di rappresentazione (istogramma, istogramma di
composizione, spezzata a gradini, diagramma a bandiera)
Analisi monovariata: grafici - 7
Rappresentazioni grafiche circolari
Diagramma a torta
Vantaggi:
• suggeriscono meno un certo ordine fra
le categorie, quindi sono più adatte per
variabili con categorie non ordinate
• permette di cogliere l’incidenza di una
modalità sulla distribuzione totale
• facilita l’aggregazione ad “occhio” di
due modalità adiacenti
Svantaggi:
• può suggerire un ordine tra le modalità
se costruito male (es. gradazione di
colori o tratteggi simili)
• non si possono usare per variabili con
molte modalità
Variabili nominali
Analisi monovariata: grafici - 8
Rappresentazioni grafiche – alcuni accorgimenti
• come per le tabelle, si ritiene sia più
opportuno utilizzare le frequenze
percentuali; se possibile, inserire il
valore di N nella didascalia.
• è opportuno inserire le informazioni
sui dati mancanti anche nelle
rappresentazioni
grafiche,
evidenziandone tuttavia la differenza
rispetto alle altre modalità
• Nel diagramma a torta è meglio
inserire le etichette e le percentuali
vicino o sopra gli elementi grafici,
rispetto all’uso di legende.
Analisi monovariata: grafici - 9
Rappresentazioni grafiche – alcuni accorgimenti - 2
• è opportuno ragionare correttamente su quale scala utilizzare in ascissa
(frequenze perc.), poiché essa può influenzare l’interpretazione del grafico
• L’esempio b. è probabilmente il più neutro, mentre il primo (a.) tende ad appiattire
tutte le frequenze verso il basso, mentre il c. dà risalto alle frequenze più alte
• nel caso la distribuzione presenti una modalità con alta frequenza, può essere
opportuno inserire un segno di discontinuità per sottolineare lo stacco (es. d.)
Contatti
Domingo Scisci
Università di Milano-Bicocca
Via Bicocca degli Arcimboldi 8 20126 Milano
Edificio U7/II Piano
Stanza 207
Telefono: 02 64487513
Mail: [email protected]
Quest'opera è stata rilasciata sotto la licenza Creative Commons Attribuzione-Non commerciale-Condividi allo stesso
modo 2.5 Italia. Per leggere una copia della licenza visita il sito web http://creativecommons.org/licenses/by-nc-sa/2.5/it/
o spedisci una lettera a Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.
Scarica

lezione_20080514_stat_soc