TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.5
Serie ordinate e numeri indici
In questa lezione..
In questa lezione ci occuperemo delle Serie ordinate.
Familiarizzeremo con la rappresentazione grafica.
Analizzeremo le possibili trasformazioni delle serie.
Ci soffermeremo in particolare sui numeri indici.
Infine, partendo da dati di serie storiche, introdurremo una
importante media analitica, la media geometrica.
Serie ordinate e serie storiche
Abbiamo definito SERIE ORDINATA la successione di modalità osservate di un carattere, rispettando l’ordine di rilevazione:
X = {x1, x2, x3, .., xN-2, xN-1, xN}
Ovviamente rinunciando a classificare ulteriormente le osservazioni perdiamo in sinteticità, ma manteniamo l’informazione dell’ordine della serie. E in certi casi (come per le ‘serie storiche’) l’ordine (l’unità di tempo di rilevazione) è fondamentale.
t
Xt

X
+1
X+1
+2
X+2
+i
X+1

X
Attenti. In forma di tabella una serie storica appare spesso
su due colonne, ma non si tratta di coppie di modalità e numerosità: la numerosità è sempre 1 per ogni modalità!
La prima colonna riporta in realtà l’indice (di sequenza temporale) che caratterizza l’osservazione. L’analisi di serie
storiche è, sì, un’analisi monovariata, ma difatto
associa due variabili
Rappresentazione grafica
La rappresentazione grafica sul tempo è il modo più efficace per
rappresen-tare l’evoluzione di una serie storica. Data la serie storica Xt,
t=1,2,..N, si rappresentano in una piano cartesiano tutte le N coppie {t,
Xt}, ponendo sulle ascisse il tempo t e sull’ordinata le osservazioni Xt, e
unendo poi con una spezzata gli N punti così individuati.
In questo modo si può tentare in modo intuitivo di scorporare le componenti erratiche del processo da eventuali leggi temporali ipotizzabili.
Trend lineare
Ciclo
Trend
nonlineare
Stagionalità
Aids e e-commerce
t
Xt
1998
3
1999
12
2000
55
2001
190
2002
580
600
550
500
450
400
350
300
250
200
150
100
50
0
1997
Fatturato
in milioni
di euro di
imprese in
settore Ecommerce
Due esempi sorprendentemente simmetrici: a
differenza dei diagrammi ad aste, qui i punti di
coordinate (Xt,t) sono
legati in una spezzata.
Previsioni
milioni casi
conclamati
Aids 5 paesi
(Cina,India,
Nigeria,Rus
sia,Etiopia)
t
Xt
1994
4
1998
10
2002
20
2006
34
2010
70
2006
2010
75
60
45
30
15
1998
1999
2000
2001
2002
0
1994
1998
2002
Un altro esempio
140000
In carico
120000
100000
80000
60000
1990
1600
1992
1994
1996
1998
overdose
1400
1200
1000
800
1990
1992
1994
1996
1998
Yt
overdose
Zt
Yt / Xt %
67500
1161
1,72
1
92583
1383
1,49
1992
2
103805
1217
1,17
1993
3
104742
888
0,85
1994
4
113742
867
0,76
1995
5
123828
1195
0,96
1996
6
129828
1566
1,21
1997
7
131717
1153
0,88
t
Anno
Anno
t0=’80
1990
0
1991
Xt
in carico
Un altro esempio non certo leggero. Xt sono i
pazienti tossicodipendenti in carico presso
strutture del Sistema Sanitario Nazionale. Yt
sono gli episodi di overdose rilevati (fonte:
Ministero degli Interni). Zt (rapporto statistico)
misura i casi di overdose ogni cento presi in
carico.
Trasformazioni di serie
storiche
140000
Xt –Xt-1
(Xt –Xt-1)
/Xt-1
Xt /Xt-1
67500
-
-
-
92583
+25083
+0,372
1,372
103805
+11222
+0,121
1,121
104742
+937
+0,009
1,009
113742
+9000
+0,086
1,086
123828
+10086
+0,089
1,089
129828
+6000
+0,048
1,048
131717
+1889
+0,015
1,015
Xt
in carico
Xt
120000
100000
80000
60000
1990
28000
1992
1994
1996
0,4
differenze
21000
0,3
14000
0,2
7000
0,1
0
1990
1992
1994
1996
1998
0
1990
1998
Tassi di
variazione
1992
1994
1996
1998
Per capire l’andamento di una
serie è utile calcolare (e rappresentare graficamente) una sua
trasformata che renda conto
(tramite differenze o rapporti)
delle variazioni per unità di
tempo.
Numeri indici
Abbiamo già visto come i numeri indici siano quozienti tra le intensità di
uno stesso fenomeno in due istanti temporali diversi (o in due ambiti territoriali diversi)
bIt
= xt / x b
I numeri indici temporali sono quindi misure derivate da una serie storica
xt (per t=0,1,2,..,t,..T)
Il denominatore è detto base del N.I. e costituisce il termine rispetto a cui
si analizza la variazione del fenomeno.
I due deponenti di i indicano: a sinistra b=tempo base, a destra t=tempo
corrente. Sulla stessa serie storica xt si calcolano più serie parallele di N.I. :
·
N.I. a base fissa (denominatore fisso per tutta la serie)
·
N.I. a base mobile (denominatore di bit è = xt-i)
Base fissa e base mobile
Serie
storica
xt
N.I. base
fissa
x0 = 100
N.I. base
fissa
x3 = 100
X0
100
x0/x3 %
X1
x1/x0 %
x1/x3 %
x1/x0 %
Proprietà di circolarità o di
concatenamento:
concatenando gli indici a base mobile
(cioè moltiplicandoli tra loro in
successione) si ritrovano i
corrispondenti n.i. a base fissa
X2
x2/x0 %
x2/x3 %
x2/x1 %
x3/x0 =(x1/x0).(x2/x1).(x3/x2)
X3
x3/x0 %
100
x3/x2 %
t (anno)
Xt
occupati
bit
(’76=100)
t-1it
1976
9000
100,0
-
91,0
1977
9371
104,1
104,1
94,8
1978
9889
109.9
105,5
100,0
1979
10444
116,0
105,6
105,6
1980
11178
124,2
107,0
113,0
N.I. a
base
mobile
0i3
bit
(’78=100)
= 0i1 . 1i2 . 2i3
Tra n.i. a base mobile e tassi di variazione o incremento vale la relazione:
t-1it=1+rt
Valori assoluti e numeri indici:
confronti grafici
140000
Xt
120000
100000
80000
t
60000
1990
140
1992
1994
1996
1998
t-1it
132
t
Anno
Xt
in carico
t-1it
=
Xt /Xt-1
1990
67500
-
1991
92583
137,160
1992
103805
112,121
1993
104742
100,903
1994
113742
108,593
1995
123828
108,867
1996
129828
104,845
1997
131717
101,455
NB: l’ammontare iniziale del carattere può essere attualizzato moltiplicandolo per il prodotto dei numeri indici a base mobile:
124
116
108
100
1990
Il grafico dei n.i.
a base mobile
dei casi di tossicofilia evidenzia
come
l’incremento
annuo,
tolto il primo intervallo, è abbastanza
stabile
(linea continua
vs linea tratteggiata)
t
1992
1994
1996
1998
Xt = X0   t
t-1it
67500(1,37160)(1,12121)(..)(1,01455)=
= 67550  (1,95136) = 131717
Numeri indici e trend
esponenziali
t
Xt
t-1it
1998
3
-
1999
12
4,000
2000
55
4,583
2001
190
3,455
2002
580
3,053
6
5
4
Questo tipo di andamento
è rivelato dalla serie degli
indici a base mobile corrispondenti: essi tenderanno o a restare costanti o a
variare linearmente.
In casi simili a un grafico
su scala lineare sfuggono
le variazioni ‘basse’: si usano talvolta carte millimetrate semilogaritmiche.
3
2
1
0
1997
Spesso (cfr casi di E-com
e Aids) abbiamo a che fare con serie che si impennano ‘esponenzialmente’.
1998
1999
2000
2001
2002
t
Xt
t-1it
1994
4
-
1998
10
2,500
2002
20
2,000
2006
34
1,700
2010
70
2,059
3
2,5
2
1,5
1
0,5
0
1994
1998
2002
2006
2010
La trasformata logaritmica
2
1,6
1,2
0,8
0,4
0
-0,4 0
-0,8
-1,2
-1,6
-2
Nella carta a scala semilogaritmica sulla
ordinata si trova non X ma la sua
trasformata logaritmica.
Y=f(x)=logx
x
1
2
3
4
5
6
Si tratta di una funzione matematica che
cresce indefinitamente con X ma in modo
assai più lento e indefinitamente decelerato (se X<1 logX è negativo)
Perbacco, la trasformata logaritmica di X è davvero lineare!
Calcolare un logaritmo è
(oggi) semplicissimo. Digitate per esempio la cifra
5,3 sulla macchinetta, poi
cliccate sul tasto “log” o
“ln” (non Log): otterrete
1,6677, che è appunto il
logaritmo corrispondente.
t
Xt
log Xt
5
1994
4
1,386
4
1998
10
2,303
2002
20
2,996
3
2
2006
2010
34
70
3,526
4,248
1
1994
1998
2002
2006
2010
Tassi medi di incremento
Torniamo ai tassi di occupazione. In 4 intervalli di tempo (bienni) gli
occupati passano da 9000mila a 11178mila, con un incremento totale
del 24,2%. I 4 tassi di incremento annui sono 4,1%; 5,5%; 5,6%; 7%.
Possiamo domandarci: qual è il tasso medio di incremento del periodo?
Un modo per calcolare un tasso medio può consistere nel farne la media
aritmetica semplice (somma dei tassi divisa per il loro numero). Tasso
medio periodale semplice è la media aritmetica delle variazioni
relative intervenute in ciascun periodo nell’intervallo 0—T.
Xt
occupati
Xt =
Xt-1* 1,055
9000
9000
9371
9500
9889
10027
10444
10583
11178
11170
r = (r1+r2+..+rk)/k = (i=1..k ri)/k =
(4,1+5,5+5,6+7,0)/4 = 22,2/4 = 5,55
Ma il tasso medio semplice ha un difetto:
applicato allo stock iniziale non dà il corretto
valore finale della serie. Il risultato finale è
11170, pari al 24,1% di incremento rispetto
a x0 , mentre il valore esatto è il 24,2%.
Tasso medio composto
0r4
=
0i 4
-1 = (x1/x0).(x2/x1).(x3/x2).(x4/x3) - 1 = 1,242-1
Noi vogliamo che il tasso di incremento finale sia equiripartito tra i 4
periodi. Invece di fare la somma dei tassi di variazione (divisa per k=4),
una alternativa consiste nella equiripartizione (tramite radice di
ordine k=4) del prodotto dei numeri indici :
r = 4(x1/x0).(x2/x1).(x3/x2).(x4/x3) - 1 = 4x4/x0 - 1
r = 411178/9000 - 1 = 41,242 - 1 = 1,055675
Ora il prodotto (N-1) volte dell’ammontare iniziale della serie storica per
il tasso medio periodale composto è pari all’ammontare finale.
9000.r=9501.r=10030.r=10588.r=11178=xt CVD
Il tasso medio periodale composto è la media geometrica delle variazioni relative intervenute tra 0 e T.
Funzione obiettivo
Abbiamo già detto che una buona media analitica implica l’esistenza di
una sintesi algebrica delle proprietà individuali in una corrispondente proprietà, dotata di significato, del collettivo.
Media secondo Chisini rispetto a una data funzione obiettivo è appunto
quel valore numerico che, sostituito a ogni modalità osservata, lascia
inalterata la funzione obiettivo stessa.
La funzione obiettivo più diffusa è l’intensità totale del carattere studiato,
somma delle modalità osservate nelle N unità della popolazione.
L’intensità totale ripartita tra le N unità è la media aritmetica.
m
m
x n
i 1
N
mx  M ( X )  E ( X )  m1   xi f i 
i 1
i i
Per es., se Tizio Caio e Sempronio hanno rispettivamente 4, 6 e 11 euro
in tasca, tutti insieme possiedono T=21 euro, e la media corretta è T/N=7
euro. Infatti se ciascuno di loro avesse 7 euro il totale non muterebbe.
Prodotto come funzione
obiettivo
Ma supponiamo ora di analizzare la variabile “indice a base mobile del
costo della vita” su due anni. Nel primo anno non ci sia incremento
(0i1=1,00), nel secondo anno ci sia un’inflazione del 44% (1i2=1,44). Fatto
100 il costo della vita in t=0, esso sarà ancora 100 in t=1 e 144 in t=2.
In questo caso non ci interessa tenere fissa l’intensità totale degli indici,
ma il rapporto tra costo iniziale e costo finale della vita.
144=1000i11i2
0i11i2=(144/100)=1,44
Quando le modalità sono legate tra loro da un meccanismo moltiplicativo,
la corretta funzione obiettivo è il prodotto delle modalità osservate.
E se per ripartire equamente una somma la si divide per il numero di
modalità [(a+a+a)/3=3a/3=a], per ripartire un prodotto occorre fare la
radice di ordine N [3(aaa)=3(a3)=a].
Nell’esempio la media ‘giusta’ è 3(1,44)=1,2 che, sostituito ai due indici
0i1 e 1i2 osservati, dà il giusto costo finale della vita. Usando la media
aritmetica m=1,22, il costo finale sarebbe stato 148,84: molto superiore!
La media geometrica e il suo
calcolo
La media geometrica lascia inalterata una particolare funzione obiettivo, il
prodotto di tutte le modalità, ponderate per le rispettive numerosità.
m
mg  M 0 ( X )  m0  N  xi
i 1
ni
Nota: nelle serie storiche la numerosità delle modalità è sempre 1!:
La media geometrica non è così semplice da calcolare. La media aritmetica si ottiene sommando N modalità e dividendo per N. La media geometrica si ottiene moltiplicando N modalità e poi facendo la radice N-esima
del prodotto. Che complicazione!
Il logaritmo di un prodotto è = alla somCi viene in aiuto una funzione di ma dei logaritmi.
trasformazione di X che abbiamo
Il logaritmo di xn è = a nlogx
già conosciuto: la trasformata
Il logaritmo di nX=x(1/n) è = a (1/n)logx
logaritmica Y=logX.
Non temete, non toccheremo l’argomento. Ci interessano solo certe proprietà ‘algebriche’ di logX.
Se y=logX, X=antilogY
Dulcis in fundo, logaritmi e antilogaritmi
si calcolano con le macchinette da 1 $!
Ancora sul calcolo della media
geometrica
Date le proprietà della trasformata logaritmica, vediamo cosa succede al
logaritmo della media geometrica:
m
log m0  log N  xi
m
1
n
 log  xi i 
N
i 1
ni
i 1
1

N
m
1
log xi 

N
i 1
ni
m
 n log x
i 1
i
i
Quindi il logaritmo di Mg è nient’altro che una media aritmetica
calcolata non sulle modalità di
base ma sui loro logaritmi.
Mg = E(logX)
Abbiamo già visto come calcolare un logaritmo. Ma quando avremo fatto
la somma ifilogxi, come fare per risalire alla media geometrica?
E’ altrettanto semplice. Una volta calcolata la ifilogxi digitatela sulla
vostra macchinetta e schiacciate la funzione “ex”.
m0  anti log log m0 
Per esempio l’antilogaritmo di 1,6677 è 5,3
Un esempio di procedura di
calcolo (e tre note)
logxt = 0,6685
t-1it
logxt
Mg xt-1
M(x)xt-1
92583
1,372
0,3163
74264
74655
103805
1,121
0,1141
81706
82568
104742
1,009
0,0089
89894
91321
113742
1,086
0,0824
98902
101001
123828
1,089
0,0851
108813
111707
M(X)=xt/N=7,740/7=1,106
129828
1,048
0,0468
119717
123548
La serie stimata è esponenziale
131717
1,015
0,0149
131715
136644
7,740
0,6685
xt
Mg = antilog = 1,10021
140000
NB1: se si ricalcola il montante (1990=67500)
usando M(X) esso risulta sovrastimato.
NB2: è sempre vero che Mg (X)  M(X)
NB3: Mg si calcola anche come
logMg=logxt/N=0,0955
n(x
t/x0)=
7(131717/67500)= 71,95136=1,10021
120000
100000
80000
60000
1990
1992
1994
1996
1998
Un altro esempio
t
Xt
t-1it
1994
4
-
-
1998
10
2,500
0,9163
M(X)=xt/N=8,259/4=2,06475
2002
20
2,000
0,6931
logMg=logxt/N=2,86222/4=0,71555
2006
34
1,700
0,5306
2010
70
2,059
0,7222
8,259
2,8622
Xt
Mg xt-1
M(x)xt-1
1994
4
-
-
1998
10
8,181
8,259
2002
20
16,733
17,053
2006
34
34,225
35,210
2010
70
70,000
72,700
t
log
t-1it
Qual è il giusto (si fa per dire) tasso medio di crescita dell’epidemia di Aids?
Mg = antilog = 2,04532
NB:la media geometrica è sempre<M(X)!
Nota: la media
aritmetica porta
a sovrastimare
il valore finale
di oltre il 3,8%
(72700 invece
che 72000)!!
75
60
45
30
15
0
1994
1998
2002
2006
2010
Confrontare incidenti e feriti
xt
incidenti
yt
feriti
1980
163,8
222,9
1981
165,7
225,2
1982
159,9
217,4
1983
161,1
219,7
1984
159,0
217,5
1985
157,8
216,1
1986
155,4
213,2
1987
158,2
217,5
1988
166,0
228,2
1989
160,8
216,3
1990
161,8
221,0
1991
170,7
240,7
1992
170,8
241,1
1993
153,4
216,1
1994
170,7
239,2
t
anno
Riportare
due serie
storiche
su scale
comparabili consente a
volte di
cogliere
interessanti correlazioni
tra serie
storiche
246
166
210
150
1980
1982
1984
1986
1988
1990
1992
1994
1996
Per esempio, le due serie (incidenti in rosso a tratto
continuo, feriti in blu a tratteggio) hanno ordini di
grandezza differenti. Ma se li riportiamo su scale
comparabili, ci accorgiamo come l’andamento sia
simile. Scala e andamento sono cose distinte.
Confrontare incidenti e vittime
xt
incidenti
wt
morti
1980
163,8
11,1
1981
165,7
10,5
1982
159,9
10,0
1983
161,1
9,9
1984
159,0
9,2
1985
157,8
9,2
1986
155,4
9,4
1987
158,2
9,1
1988
166,0
9,0
1989
160,8
8,7
1990
161,8
9,2
1991
170,7
9,6
1992
170,8
9,6
1993
153,4
8,6
1994
170,7
8,4
t
anno
8,2
150
1980
1980
Ma
cosa1982
è mai1984
questa ‘correlazione’?Confrontare due andamenti ci conduce nel dominio
dell’analisi
bivariata
1986
1988
1990
1992
1994
1996
In questo caso le due serie (incidenti in rosso a tratto continuo, vittime in blu a tratteggio), riportati su scale comparabili, mostrano andamenti differenti. Non pare esserci ‘correlazione’ tra le due serie.
Da tre serie, altre serie
(rapporti statistici)
zt
fer/incid
kt
morti/in
1980
1,361
68
1981
1,359
63
1982
1,360
62
1983
1,364
61
1984
1,368
58
1985
1,369
58
1986
1,372
60
1987
1,375
57
1988
1,375
54
1989
1,345
54
1990
1,366
57
1991
1,410
56
1992
1,411
56
1993
1,409
56
1994
1,401
49
t
anno
Lavorare con
serie di rapporti statistici
è dunque un
modo più
compatto per
analizzare
due fenomeni
insieme
1335
48
1980
1980
Anche combinare due serie in forma di rapporto statistico permette
spesso di capire di più. Per esempio, la serie delle vittime per incidente, in rosso a tratto continuo,
sembra declinare, mentre quella
dei feriti per incidente, in blu
tratteggiato, si impenna.
Scarica

TQA.A05.SerieOrdinate - Dipartimento di Sociologia