Statistica sociale
Laurea specialistica in
Progettazione e gestione del turismo culturale
Lezione 9
Introduzione all’analisi statistica dei dati (3)
Gianluca Dominutti
Si presentano quindi alcune misure statistiche che consentono di descrivere in
sintesi le distribuzioni di frequenze costruite in precedenza.
In particolare si parlerà di
1 Indici di posizione
2 Indici di variabilità
3 Indici di variabilità relativa
4 La mutabilità
5 Rapporti statistici
1 Indici di posizione
1 Indici di posizione
Gli indici di posizione sono delle misure medie di sintesi che rappresentano
una distribuzione di frequenze.
Considereremo le misure che sono applicabili ai caratteri qualitativi (moda)
e ai caratteri quantitativi (mediana, media), ricordando che le elaborazioni
che si fanno sulle variabili non sono applicabili alle mutabili.
1.1 La moda (Mo)
La moda è la modalità del carattere, mutabile o variabile, a cui è associata la
frequenza più elevata, ovvero è la modalità o intensità più frequente.
Esempio
Distribuzione di frequenze della mutabile colore dei capelli
Modalità
Bianco
N
frequenze assolute
20
Biondo chiaro
25
Biondo cenere
28
Castano chiaro
50
Castano scuro
62
Nero
15
Totale
200
1 Indici di posizione - Mediana
Un indice più elaborato è la mediana che, applicata a caratteri quantitativi, ci dice qual
è la modalità che si trova esattamente al centro di un insieme di dati ordinati,
ovvero è quel valore che bipartisce la distribuzione in modo tale da lasciare metà delle
osservazioni al di sopra e metà delle osservazioni al di sotto del valore stesso.
Questo indice ci consente di ottenere il “baricentro” della distribuzione che, associato
alla moda, può rappresentare in maniera più adeguata la distribuzione delle
osservazioni.
Consideriamo un insieme di soggetti ai quali è stata chiesta l’età:
50
37
42
53
28
la prima operazione da fare è ordinare in modo crescente i valori osservati
28
37
42
50
53
ci si posiziona quindi sul valore centrale, ovvero il 42, che divide a metà la distribuzione,
infatti è preceduto da due valori ed à seguito da altri due.
La mediana è rappresentata da 42 anni.
1 Indici di posizione - Media
Moda e mediana sono utili indici medi di posizione che però non utilizzano tutte le
informazioni raccolte ma solo quelle relative, rispettivamente, alla modalità più
frequente o alle intensità che occupano la posizione centrale nella distribuzione.
Una misura che invece tiene conto di tutte le osservazioni è la media, applicabile su
dati quantitativi.
Si possono calcolare diverse tipi di media:
a) Media aritmetica semplice
La media aritmetica si ottiene sommando tutte le intensità osservate e dividendo il
risultato per il numero di osservazioni. In termini formali si avrà:
n
X
∑x
=
n
i =1
i
dove:
= la lettera X soprassegnata con una barretta orizzontale indica la media
X
∑ x = si legge “sommatoria per i che va da 1 a n degli xi”, ovvero la somma di tutte le
intensità osservate (xi) dalla prima (la numero 1) alla ennesima (numero n)
n = totale delle osservazioni.
Applichiamo il calcolo della media agli esempi usati per il calcolo della mediana:
esempio 1: 28
37
42
50
53
n
i =1
i
X =
28 + 37 + 42 + 50 + 53 210
=
= 42
5
5
2 Indici di variabilità
Esistono diverse misure di variabilità:
2.1 Campo di variazione o range
2.2 Scarto interquartile
2.3 Scostamento semplice medio
2.4 Varianza
2.5 Scarto quadratico medio
2.1 Indici di variabilità – Campo di variazione
È l’indice di variabilità più semplice e si ottiene per differenza tra il valore più elevato
e il più piccolo.
range = x max – x min
esempio a):
28 37
42
50
53
range = 53 – 28 = 25
esempio b):
1
3
42
range = 85 – 1 = 84
79
85
Nell’esempio a) il campo di definizione è pari a 25 mentre nell’esempio b) è di 84.
Se quindi associamo all’informazione sulla media e sulla mediana questi due dati
abbiamo immediatamente la percezione di trovarci in presenza di una distribuzione
abbastanza concentrata attorno al valore medio nell’esempio a) e, diversamente,
molto dispersa nell’esempio b).
Questo indice è semplice da calcolare tuttavia risente troppo dei casi estremi.
Se ad esempio ci troviamo di fronte ad una distribuzione di questo tipo:
20
23
25
26
99
verifichiamo che il range è pari a 79 ma non riesce a descrivere adeguatamente la
dispersione dei dati.
2.2 Indici di variabilità – Scarto interquantile
Lo scarto interquartile si calcola per differenza tra il quartile superiore (Qs =
terzo quartile, corrispondente al 75° percentile) e il quartile inferiore (Qi =
primo quartile, corrispondente al 25° percentile):
range interquartile = Qs - Qi
È un indice più stabile, che ignora le “code” della distribuzione e ci dice i
valori entro i quali si posiziona il 50% delle osservazioni.
2.3 Indici di variabilità – Scostamento semplice medio
Per calcolare gli indici di variabilità su menzionati dobbiamo dunque
calcolare la somma degli scarti dei singoli valori dalla media ma, in base alla
prima proprietà della media, sappiamo che tale somma è nulla. Per superare
questo ostacolo è quindi necessario operare sugli scarti in modo tale che la
loro somma algebrica non dia valore nullo. Nello scostamento semplice
medio il problema viene risolto considerando gli scarti in valore assoluto:
n
S=
∑
i =1
−
xi − x
n
In tal modo tutti gli scarti sono positivi e la somma non si annulla.
Applichiamo l’indice di variabilità agli esempi.
esempio a):
28
37
42
50
53
S = |28 - 42| + |37 - 42| + |42 - 42| + |50 - 42| + |53 – 42| = 14 + 5 +0 + 8 + 11 = 38 = 7,6
5
esempio b):
5
1
3
42
5
79
85
S = |1 - 42| + |3 - 42| + |42 - 42| + |79 - 42| + |85 – 42| = 41 + 39 +0 + 37 + 43 = 160 = 32
5
esempio c):
5
42
42
42
S = |42 - 42| + |42 - 42| + |42 - 42| + |42 - 42| + |42 – 42| = 0
5
5
42
42
2.4 Indici di variabilità - Varianza
Un’ulteriore modo per calcolare una misura di variabilità superando il vincolo rappresentato
dalla seconda proprietà della media è quello di elevare gli scarti al quadrato e poi calcolarne la
media. L’indice così calcolato è la varianza, che viene indicata con la lettera greca sigma al
quadrato:
−
⎛
⎞
−
⎜
⎟
∑
x
x
i
⎠
i =1 ⎝
=
n
σ
2
2
n
i
n
Calcoliamo ora la varianza sui dati dei nostri tre esempi.
esempio a):
28
37
42
50
53
79
85
σ2 = (28 – 42)2 + (37 - 42)2 + (42 - 42)2 + (50 - 42)2 + (53 – 42)2 =
5
= 196 + 25 + 0 + 64 + 121 = 406 = 81,2
5
5
esempio b):
1
3
42
σ2 = (1 - 42)2 + (3 - 42)2 + (42 - 42)2 + (79 - 42)2 + (85 – 42)2 =
5
= 1.681 + 1.521 + 0 + 1.369 + 1.849 = 6.420 = 1.284
5
5
2.5 Indici di variabilità – Scarto quadratico medio
Lo scarto quadratico medio σ è la radice quadrata della varianza, e consente di riportare
l’indice di variabilità all’unità di misura originale:
−
⎞
⎛
⎜ xi − x ⎟
∑
⎠
i =1 ⎝
n
σ
esempio a):
σ
=
σ
2
=
σ
2
=
σ
2
i
n
28
37
42
50
53
1
3
42
79
85
42
42
42
42
42
= 1.284 = 35,83
esempio c):
σ
σ
=
n
= 81,2 = 9,01
esempio b):
σ
=
2
2
=0
Gli scarti quadratici medi così calcolati ci dicono qual è in media la distanza tra i dati e la media
della distribuzione nell’unità di misura originale.
Nell’esempio c) qualunque sia l’indice di variabilità utilizzato avrà sempre valore pari a zero in
quanto la variabilità è nulla, mentre negli altri due esempi l’indice è più elevato laddove la
dispersione attorno alla media è più ampia.
3 Indici di variabilità – Indici di variabilità relativa
Se di una distribuzione conosciamo solo un indice di variabilità, ad esempio
lo scarto quadratico medio, ma non abbiamo altre informazioni, non saremo
in grado di capire se la variabilità osservata sia veramente grande o se
invece l’indice sia influenzato dall’unità di misura adottata.
Il problema si pone inoltre quando siamo interessati a fare dei confronti tra
variabili di natura diversa.
Nel primo caso si fa riferimento, ad esempio, al confronto tra un indice di
variabilità calcolato su merce pesata in tonnellate e quello su merce pesata
in grammi, nel secondo caso si immagini di dover decidere se c’è più
variabilità nel peso o nell’altezza di un campione di persone.
Si rende necessario introdurre un indice che sia svincolato dall’unità di
misura e renda comparabili gli aggregati.
Parleremo quindi di:
3.1 coefficiente di variazione
3.1 Indici di variabilità – Coefficiente di variazione
Il coefficiente di variazione è dato dal rapporto tra lo scarto quadratico
medio e la media, moltiplicato per 100:
CV =
σ * 100
−
x
esempio a):
Età
X = 42;
σ
28
= 9,01
X
=
176,6
175
σ
50
42
53
CV = (9,01/42) * 100 = 21,45
esempio b):
Altezza
37
=
5,00
168
181
CV =
182
177
( 5,00 / 176,6) * 100
=
2,83
4 Mutabilità
L’attitudine dei caratteri qualitativi ad assumere diverse modalità è detta mutabilità.
Si consideri la seguente distribuzione di una generica mutabile A:
A
N
massima
omogeneità
massima
eterogeneità
a1
n1
0
n/k
a2
n2
0
n/k
...
...
...
...
ai
ni
n
n/k
...
...
...
...
ak
nn
0
n/k
Totale
n
n
n
Le modalità del carattere sono k ed n sono le osservazioni. Si possono incontrare due
situazioni estreme, che rappresentano dei valori teorici di riferimento, mentre nella realtà le
distribuzioni presentano gradi diversi di mutabilità.
Consideriamo questi casi estremi: massima omogeneità e massima eterogeneità.
Si ha la massima omogeneità quando tutte le unità statistiche assumono la medesima
modalità e le altre modalità hanno frequenza pari a zero. Nella tabella si nota come tutte le n
osservazioni sono concentrate sulla modalità ai e le altre hanno frequenza 0.
Diversamente si ha massima eterogeneità (ovvero omogeneità nulla), quando vi è una
equidistribuzione delle unità tra le modalità del carattere, ovvero le n osservazioni sono
presenti in numero uguale tra le modalità. Quindi, se abbiamo k modalità, ciascuna avrà un
numero uguale di soggetti dato dal rapporto n/k.
5 Indici di variabilità – I rapporti statistici
I rapporti statistici consentono di ricavare informazioni di sintesi riguardanti
le distribuzioni di frequenza.
Tra i tanti presenteremo
5.1 rapporti di composizione
5.2 rapporti di coesistenza
5.3 rapporti di derivazione
5.4 rapporti di durata
5.5. numeri indici
5.1 I rapporti statistici – I rapporti di composizione
5.1 rapporti di composizione sono dati dal rapporto di una parte delle
osservazioni con l’insieme delle osservazioni stesse e forniscono
un’informazione sulla composizione del campione con riferimento al
carattere (mutabile o variabile) osservato. In altre parole stiamo parlando
delle percentuali:
n
*100
N
i
5.2 I rapporti statistici – I rapporti di coesistenza
Stabiliscono una relazione tra due modalità del carattere. Ad esempio il
rapporto tra maschi e femmine moltiplicato per 100 ci dice quanti maschi ci
sono ogni 100 femmine:
M *100
F
Facciamo un altro esempio, considerando il titolo di studio di un campione
di persone. Nella terza colonna sono stati calcolati anche i rapporti di
composizione
Titolo
N
Rapporti di
composizione
Licenza elementare
10
4,0
Licenza media
35
14,0
120
48,0
Laurea
60
24,0
Diploma post-laurea
25
10,0
250
100,0
Diploma superiore
Totale
5.2 I rapporti statistici – I rapporti di coesistenza
Ad esempio si può calcolare il seguente rapporto di coesistenza:
laureati
diplomati
* 100 =
60
* 100 = 50
120
significa che ogni 100 diplomati ci sono 50 laureati.
5.3 I rapporti statistici – I rapporti di derivazione
Sono calcolati utilizzando i dati riferiti ad un fenomeno rapportati con quelli
riferiti al fenomeno da cui derivano e che ne rappresenta il presupposto.
Sono rapporti di derivazione quelli che hanno come argomento una
popolazione dalla quale deriva il fenomeno evidenziato. Ad esempio
citiamo:
5.3.1 quoziente di natalità
5.3.2 quoziente di fecondità
5.3.3 quoziente di mortalità.
5.3.1 Quoziente di natalità
Il quoziente di natalità è dato da:
[nt / Pt] * 1000
rapporto tra i nati vivi (nt) nell’arco di un generico anno t, e la popolazione
media di quell’anno (Pt). Il quoziente viene moltiplicato per 1000 ed esprime
il numero di nati vivi nell’anno t per ogni 1000 abitanti.
5.3 I rapporti statistici – I rapporti di derivazione
5.3.2 Quoziente di fecondità
Il quoziente di fecondità è dato da:
[nt / F15-49] * 1000
rapporto tra i nati vivi (nt) nell’arco di un generico anno t, e la popolazione
media femminile in età feconda, che convenzionalmente è compresa tra 15
e 49 anni moltiplicato per 1000.
5.3.3 Quoziente di mortalità
Il quoziente di mortalità è dato da:
[Dt / Pt] * 1000
rapporto tra i decessi (Dt) avvenuti nell’arco di un generico anno t, e la
popolazione media di quell’anno (Pt). Il quoziente viene moltiplicato per
1000 ed esprime il numero di morti nell’anno t per ogni 1000 abitanti.
5.3 I rapporti statistici – I rapporti di derivazione
Tabella 1 - Tassi generici di natalità e mortalità per regione - Anni 2005-2008 (per 1.000 residenti)
Natalità
Mortalità
REGIONI
Piemonte
Valle d'Aosta
Lombardia
Trentino-Alto Adige
Bolzano-Bozen
Trento
Veneto
Friuli-Venezia Giulia
Liguria
Emilia-Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
ITALIA
*Stima.
Fonte: Istat
2005
2006
2007
2008*
2005
2006
2007
2008*
8,6
9,4
9,8
10,9
11,5
10,4
9,8
8,4
7,5
9,2
8,7
9,0
8,8
9,6
8,6
7,9
10,8
9,5
8,2
9,1
10,1
8,0
9,5
8,7
10,0
10,0
10,7
11,1
10,3
9,9
8,6
7,5
9,4
8,7
9,0
9,0
9,8
8,5
7,7
10,8
9,3
8,4
9,2
10,0
8,0
9,5
8,8
9,9
10,0
10,7
11,2
10,1
9,9
8,7
7,6
9,5
8,8
9,1
9,1
9,5
8,7
7,8
10,7
9,4
8,2
9,0
9,8
8,0
9,5
9,0
10,2
10,2
10,7
11,0
10,4
10,0
8,6
7,8
9,7
9,1
9,3
9,3
10,1
8,7
7,6
10,5
9,4
8,3
9,0
9,8
8,2
9,6
11,1
10,6
9,1
8,4
7,9
8,9
9,1
11,5
13,3
11,1
11,3
11,5
10,2
9,4
10,4
11,1
8,4
8,2
9,6
9,0
9,4
8,5
9,7
10,9
10,0
8,9
8,4
7,6
9,0
8,9
11,3
13,1
10,8
11,0
10,9
10,3
9,1
10,1
11,2
8,1
8,0
9,6
8,7
9,2
8,4
9,5
10,8
10,2
8,9
8,3
7,5
9,0
9,1
11,2
13,1
10,9
11,2
11,0
10,4
9,0
10,4
10,7
8,5
8,5
9,7
9,0
9,6
8,6
9,6
11,1
10,2
9,1
8,4
7,7
9,1
9,2
11,6
13,4
11,0
11,3
11,3
10,4
9,2
10,1
11,2
8,5
8,4
9,6
9,0
9,2
8,6
9,7
5.4 I rapporti statistici – I rapporti di durata
Sono indici che vengono utilizzati laddove c’è un ricambio di popolazione in
entrata e uscita e si vuole calcolare la durata media della permanenza di tale
popolazione.
È utilizzato, ad esempio, per calcolare il numero medio di giorni di degenza dei
pazienti in un ospedale o in una struttura che si occupa di riabilitazione o la
durata media delle presenze in una struttura turistica.
I dati di cui abbiamo bisogno per costruire un indice di durata sono:
C0 = ammontare della popolazione all’inizio del periodo t considerato
E = popolazione complessivamente entrata nell’arco del periodo t
U = popolazione complessivamente uscita nell’arco del periodo t
t = arco di tempo considerato: un anno, un mese, una settimana, ecc.
Con questi dati siamo in grado di calcolare:
C1 = C0 + E – U
popolazione alla fine del periodo t
C = (C0 + C1) / 2
consistenza media della popolazione nel periodo t
Fe = E / t
flusso medio di entrata della popolazione nel periodo t
Fu = U / t
flusso medio di uscita della popolazione nel periodo t
F = (Fe + Fu) / 2
flusso medio della popolazione nel periodo t
5.4 I rapporti statistici – I rapporti di durata
Per il calcolo dell’indice utilizzeremo C ed F, che potremo semplificare nel seguente
modo:
C = (C0 + C1) / 2
F = (Fe + Fu) / 2
L’indice di durata D sarà dato da:
D=C/F
Consideriamo ad esempio il flusso di pazienti in un reparto ospedaliero:
C0 = 20 (ricoverati presenti al 1 gennaio dell’anno t)
E = 580 (pazienti ricoverati nell’arco dell’anno t)
U = 570 (pazienti dimessi nell’arco dell’anno t)
C1 = Co + E – U = 20 + 580 – 570 = 30
t = 365 giorni
C = (C0 + C1) / 2 = (20 + 30) / 2 = 25
F = (E + U) / 2t = (580 + 570) / (2*365) = 1.150 / 730 = 1,57
D = C / F = 25 / 1,57 = 15,9 ≈ 16
Il numero medio di giorni di ricovero dei malati in quel reparto ospedaliero è di 16
giorni.
5.5 I rapporti statistici – I rapporti indici
Sono dei rapporti statistici che, calcolati su grandezze omogenee,
consentono di misurare:
a) le variazioni relative di un fenomeno in un dato periodo rispetto allo
stesso fenomeno misurato in periodi diversi, e otterremo un indice
temporale
b) le variazioni relative di un fenomeno in un dato luogo rispetto allo stesso
fenomeno misurato in luoghi diversi, e otterremo un indice spaziale.
Consideriamo un esempio riferito al calcolo di un indice temporale,
ricordando però che il medesimo metodo di calcolo è applicabile anche agli
indici spaziali. La distribuzione che ha come argomento il tempo è detta
serie storica o temporale.
Per costruire i rapporti indici si utilizza un anno di riferimento al quale
rapportare il valore che il fenomeno ha assunto nel tempo, che si chiama
base. Con riferimento alle basi che si possono utilizzare, si distinguono due
tipi di rapporti indice: a base fissa e a base mobile
5.5 I rapporti statistici – I rapporti indici
Serie storica degli immatricolati dell’Università A
Anni
Matricole
Rapporto indice a
base fissa
1998 = 100
Rapporto indice a
base mobile
1998
4000
100,00
1999
4500
112,50
112,50
2000
4900
122,50
108,89
2001
4800
120,00
97,96
2002
5270
131,75
109,79
2003
5420
135,50
102,85
5.5 I rapporti statistici – I rapporti indici
Per costruire i rapporti indici si utilizza un anno di riferimento al quale
rapportare il valore che il fenomeno ha assunto nel tempo, che si chiama
base. Con riferimento alle basi che si possono utilizzare, si distinguono due
tipi di rapporti indice: a base fissa e a base mobile.
I rapporti indice a base fissa sono quelli che utilizzano sempre lo stesso
anno come riferimento e confrontano l’andamento del fenomeno nel tempo
rapportandolo all’anno base (che convenzionalmente viene indicato come
“anno zero”).
Nell’esempio i rapporti indice a base fissa sono riportati nella terza colonna,
nella cui intestazione si evidenzia che l’anno base è il 1998 e il suo valore di
riferimento è 100.
Gli indici del nostro esempio sono stati calcolati confrontando il numero di
matricole di ciascun anno con quelle del 1998.
Detto x il numero di matricole e utilizzando al determinatore l’anno di
riferimento (x0 = 1998) otteniamo:
x0 / x0 = (4000 / 4000)*100 = 100
x1 / x0 = (4500 / 4000)*100 = 112,5
x2 / x0 = (4900 / 4000)*100 = 122,5
x3 / x0 = (4800 / 4000)*100 = 120,0
x4 / x0 = (5270 / 4000)*100 = 131,75
5.5 I rapporti statistici – I rapporti indici
In termini generali i rapporti indice a base fissa si calcolano rapportando il
valore osservato nell’anno t (xt) con quello osservato nell’anno base (x0):
xt / x0
Le informazioni che deduciamo da questi indici è che, rispetto al 1998, c’è
stato un progressivo aumento delle immatricolazioni quantificabile in
termini percentuali:
nell’anno 1 (ovvero il 1999) c’è stato un aumento di iscrizioni del 12,5%
rispetto all’anno precedente;
nel 2000 si è avuto un incremento del 22,5% rispetto all’anno base;
nel 2001 l’incremento è stato più contenuto ma le iscrizioni sono comunque
aumentate del 20% rispetto al 1998;
nei successivi anni c’è stata una grande ripresa con una crescita del 31,75%
nel 2002 e del 35,5% nel 2003.
In altre parole, se dal rapporto indice sottraiamo 100, otteniamo il valore
dell’incremento espresso in termini percentuali rispetto all’anno base.
5.5 I rapporti statistici – I rapporti indici
I rapporti indice a base mobile sono quelli che utilizzano come anno base
l’anno precedente.
Nell’esempio i rapporti indice a base mobile sono riportati nella quarta
colonna e il procedimento di calcolo è stato il seguente (ricordando che x1 =
1999, x2 = 2000 e così via):
x1 / x0 = (4500 / 4000)*100 = 112,5
x2 / x1 = (4900 / 4500)*100 = 108,89
x3 / x2 = (4800 / 4900)*100 = 97,96
x4 / x3 = (5270 / 4800)*100 = 109,79
Come si può notare il primo indice che incontriamo è quello calcolato in
x1/x0 in quanto le matricole dell’anno 1998 non possono essere
confrontate con quelle dell’anno precedente, a noi sconosciuto. Anche in
questo caso possiamo calcolare le variazioni percentuali rispetto all’anno
precedente e notiamo così che nel 2001 c’è stata una diminuzione di
immatricolazioni pari al 2,04% rispetto al 2000 (infatti 97,96-100=-2,04).
In termini generali i rapporti indice a base mobile si calcolano rapportando il
valore osservato nell’anno t (xt) con quello osservato nell’anno precedente
(xt-1):
xt / xt-1
Scarica

Lezione 9 dott. Dominutti - Università degli Studi di Udine