TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.5 Serie ordinate e numeri indici In questa lezione.. In questa lezione ci occuperemo delle Serie ordinate. Familiarizzeremo con la rappresentazione grafica. Analizzeremo le possibili trasformazioni delle serie. Ci soffermeremo in particolare sui numeri indici. Infine, partendo da dati di serie storiche, introdurremo una importante media analitica, la media geometrica. Serie ordinate e serie storiche Abbiamo definito SERIE ORDINATA la successione di modalità osservate di un carattere, rispettando l’ordine di rilevazione: X = {x1, x2, x3, .., xN-2, xN-1, xN} Ovviamente rinunciando a classificare ulteriormente le osservazioni perdiamo in sinteticità, ma manteniamo l’informazione dell’ordine della serie. E in certi casi (come per le ‘serie storiche’) l’ordine (l’unità di tempo di rilevazione) è fondamentale. t Xt X +1 X+1 +2 X+2 +i X+1 X Attenti. In forma di tabella una serie storica appare spesso su due colonne, ma non si tratta di coppie di modalità e numerosità: la numerosità è sempre 1 per ogni modalità! La prima colonna riporta in realtà l’indice (di sequenza temporale) che caratterizza l’osservazione. L’analisi di serie storiche è, sì, un’analisi monovariata, ma difatto associa due variabili Rappresentazione grafica La rappresentazione grafica sul tempo è il modo più efficace per rappresen-tare l’evoluzione di una serie storica. Data la serie storica Xt, t=1,2,..N, si rappresentano in una piano cartesiano tutte le N coppie {t, Xt}, ponendo sulle ascisse il tempo t e sull’ordinata le osservazioni Xt, e unendo poi con una spezzata gli N punti così individuati. In questo modo si può tentare in modo intuitivo di scorporare le componenti erratiche del processo da eventuali leggi temporali ipotizzabili. Trend lineare Ciclo Trend nonlineare Stagionalità Aids e e-commerce t Xt 1998 3 1999 12 2000 55 2001 190 2002 580 600 550 500 450 400 350 300 250 200 150 100 50 0 1997 Fatturato in milioni di euro di imprese in settore Ecommerce Due esempi sorprendentemente simmetrici: a differenza dei diagrammi ad aste, qui i punti di coordinate (Xt,t) sono legati in una spezzata. Previsioni milioni casi conclamati Aids 5 paesi (Cina,India, Nigeria,Rus sia,Etiopia) t Xt 1994 4 1998 10 2002 20 2006 34 2010 70 2006 2010 75 60 45 30 15 1998 1999 2000 2001 2002 0 1994 1998 2002 Un altro esempio 140000 In carico 120000 100000 80000 60000 1990 1600 1992 1994 1996 1998 overdose 1400 1200 1000 800 1990 1992 1994 1996 1998 Yt overdose Zt Yt / Xt % 67500 1161 1,72 1 92583 1383 1,49 1992 2 103805 1217 1,17 1993 3 104742 888 0,85 1994 4 113742 867 0,76 1995 5 123828 1195 0,96 1996 6 129828 1566 1,21 1997 7 131717 1153 0,88 t Anno Anno t0=’80 1990 0 1991 Xt in carico Un altro esempio non certo leggero. Xt sono i pazienti tossicodipendenti in carico presso strutture del Sistema Sanitario Nazionale. Yt sono gli episodi di overdose rilevati (fonte: Ministero degli Interni). Zt (rapporto statistico) misura i casi di overdose ogni cento presi in carico. Trasformazioni di serie storiche 140000 Xt –Xt-1 (Xt –Xt-1) /Xt-1 Xt /Xt-1 67500 - - - 92583 +25083 +0,372 1,372 103805 +11222 +0,121 1,121 104742 +937 +0,009 1,009 113742 +9000 +0,086 1,086 123828 +10086 +0,089 1,089 129828 +6000 +0,048 1,048 131717 +1889 +0,015 1,015 Xt in carico Xt 120000 100000 80000 60000 1990 28000 1992 1994 1996 0,4 differenze 21000 0,3 14000 0,2 7000 0,1 0 1990 1992 1994 1996 1998 0 1990 1998 Tassi di variazione 1992 1994 1996 1998 Per capire l’andamento di una serie è utile calcolare (e rappresentare graficamente) una sua trasformata che renda conto (tramite differenze o rapporti) delle variazioni per unità di tempo. Numeri indici Abbiamo già visto come i numeri indici siano quozienti tra le intensità di uno stesso fenomeno in due istanti temporali diversi (o in due ambiti territoriali diversi) bIt = xt / x b I numeri indici temporali sono quindi misure derivate da una serie storica xt (per t=0,1,2,..,t,..T) Il denominatore è detto base del N.I. e costituisce il termine rispetto a cui si analizza la variazione del fenomeno. I due deponenti di i indicano: a sinistra b=tempo base, a destra t=tempo corrente. Sulla stessa serie storica xt si calcolano più serie parallele di N.I. : · N.I. a base fissa (denominatore fisso per tutta la serie) · N.I. a base mobile (denominatore di bit è = xt-i) Base fissa e base mobile Serie storica xt N.I. base fissa x0 = 100 N.I. base fissa x3 = 100 X0 100 x0/x3 % X1 x1/x0 % x1/x3 % x1/x0 % Proprietà di circolarità o di concatenamento: concatenando gli indici a base mobile (cioè moltiplicandoli tra loro in successione) si ritrovano i corrispondenti n.i. a base fissa X2 x2/x0 % x2/x3 % x2/x1 % x3/x0 =(x1/x0).(x2/x1).(x3/x2) X3 x3/x0 % 100 x3/x2 % t (anno) Xt occupati bit (’76=100) t-1it 1976 9000 100,0 - 91,0 1977 9371 104,1 104,1 94,8 1978 9889 109.9 105,5 100,0 1979 10444 116,0 105,6 105,6 1980 11178 124,2 107,0 113,0 N.I. a base mobile 0i3 bit (’78=100) = 0i1 . 1i2 . 2i3 Tra n.i. a base mobile e tassi di variazione o incremento vale la relazione: t-1it=1+rt Valori assoluti e numeri indici: confronti grafici 140000 Xt 120000 100000 80000 t 60000 1990 140 1992 1994 1996 1998 t-1it 132 t Anno Xt in carico t-1it = Xt /Xt-1 1990 67500 - 1991 92583 137,160 1992 103805 112,121 1993 104742 100,903 1994 113742 108,593 1995 123828 108,867 1996 129828 104,845 1997 131717 101,455 NB: l’ammontare iniziale del carattere può essere attualizzato moltiplicandolo per il prodotto dei numeri indici a base mobile: 124 116 108 100 1990 Il grafico dei n.i. a base mobile dei casi di tossicofilia evidenzia come l’incremento annuo, tolto il primo intervallo, è abbastanza stabile (linea continua vs linea tratteggiata) t 1992 1994 1996 1998 Xt = X0 t t-1it 67500(1,37160)(1,12121)(..)(1,01455)= = 67550 (1,95136) = 131717 Numeri indici e trend esponenziali t Xt t-1it 1998 3 - 1999 12 4,000 2000 55 4,583 2001 190 3,455 2002 580 3,053 6 5 4 Questo tipo di andamento è rivelato dalla serie degli indici a base mobile corrispondenti: essi tenderanno o a restare costanti o a variare linearmente. In casi simili a un grafico su scala lineare sfuggono le variazioni ‘basse’: si usano talvolta carte millimetrate semilogaritmiche. 3 2 1 0 1997 Spesso (cfr casi di E-com e Aids) abbiamo a che fare con serie che si impennano ‘esponenzialmente’. 1998 1999 2000 2001 2002 t Xt t-1it 1994 4 - 1998 10 2,500 2002 20 2,000 2006 34 1,700 2010 70 2,059 3 2,5 2 1,5 1 0,5 0 1994 1998 2002 2006 2010 La trasformata logaritmica 2 1,6 1,2 0,8 0,4 0 -0,4 0 -0,8 -1,2 -1,6 -2 Nella carta a scala semilogaritmica sulla ordinata si trova non X ma la sua trasformata logaritmica. Y=f(x)=logx x 1 2 3 4 5 6 Si tratta di una funzione matematica che cresce indefinitamente con X ma in modo assai più lento e indefinitamente decelerato (se X<1 logX è negativo) Perbacco, la trasformata logaritmica di X è davvero lineare! Calcolare un logaritmo è (oggi) semplicissimo. Digitate per esempio la cifra 5,3 sulla macchinetta, poi cliccate sul tasto “log” o “ln” (non Log): otterrete 1,6677, che è appunto il logaritmo corrispondente. t Xt log Xt 5 1994 4 1,386 4 1998 10 2,303 2002 20 2,996 3 2 2006 2010 34 70 3,526 4,248 1 1994 1998 2002 2006 2010 Tassi medi di incremento Torniamo ai tassi di occupazione. In 4 intervalli di tempo (bienni) gli occupati passano da 9000mila a 11178mila, con un incremento totale del 24,2%. I 4 tassi di incremento annui sono 4,1%; 5,5%; 5,6%; 7%. Possiamo domandarci: qual è il tasso medio di incremento del periodo? Un modo per calcolare un tasso medio può consistere nel farne la media aritmetica semplice (somma dei tassi divisa per il loro numero). Tasso medio periodale semplice è la media aritmetica delle variazioni relative intervenute in ciascun periodo nell’intervallo 0—T. Xt occupati Xt = Xt-1* 1,055 9000 9000 9371 9500 9889 10027 10444 10583 11178 11170 r = (r1+r2+..+rk)/k = (i=1..k ri)/k = (4,1+5,5+5,6+7,0)/4 = 22,2/4 = 5,55 Ma il tasso medio semplice ha un difetto: applicato allo stock iniziale non dà il corretto valore finale della serie. Il risultato finale è 11170, pari al 24,1% di incremento rispetto a x0 , mentre il valore esatto è il 24,2%. Tasso medio composto 0r4 = 0i 4 -1 = (x1/x0).(x2/x1).(x3/x2).(x4/x3) - 1 = 1,242-1 Noi vogliamo che il tasso di incremento finale sia equiripartito tra i 4 periodi. Invece di fare la somma dei tassi di variazione (divisa per k=4), una alternativa consiste nella equiripartizione (tramite radice di ordine k=4) del prodotto dei numeri indici : r = 4(x1/x0).(x2/x1).(x3/x2).(x4/x3) - 1 = 4x4/x0 - 1 r = 411178/9000 - 1 = 41,242 - 1 = 1,055675 Ora il prodotto (N-1) volte dell’ammontare iniziale della serie storica per il tasso medio periodale composto è pari all’ammontare finale. 9000.r=9501.r=10030.r=10588.r=11178=xt CVD Il tasso medio periodale composto è la media geometrica delle variazioni relative intervenute tra 0 e T. Funzione obiettivo Abbiamo già detto che una buona media analitica implica l’esistenza di una sintesi algebrica delle proprietà individuali in una corrispondente proprietà, dotata di significato, del collettivo. Media secondo Chisini rispetto a una data funzione obiettivo è appunto quel valore numerico che, sostituito a ogni modalità osservata, lascia inalterata la funzione obiettivo stessa. La funzione obiettivo più diffusa è l’intensità totale del carattere studiato, somma delle modalità osservate nelle N unità della popolazione. L’intensità totale ripartita tra le N unità è la media aritmetica. m m x n i 1 N mx M ( X ) E ( X ) m1 xi f i i 1 i i Per es., se Tizio Caio e Sempronio hanno rispettivamente 4, 6 e 11 euro in tasca, tutti insieme possiedono T=21 euro, e la media corretta è T/N=7 euro. Infatti se ciascuno di loro avesse 7 euro il totale non muterebbe. Prodotto come funzione obiettivo Ma supponiamo ora di analizzare la variabile “indice a base mobile del costo della vita” su due anni. Nel primo anno non ci sia incremento (0i1=1,00), nel secondo anno ci sia un’inflazione del 44% (1i2=1,44). Fatto 100 il costo della vita in t=0, esso sarà ancora 100 in t=1 e 144 in t=2. In questo caso non ci interessa tenere fissa l’intensità totale degli indici, ma il rapporto tra costo iniziale e costo finale della vita. 144=1000i11i2 0i11i2=(144/100)=1,44 Quando le modalità sono legate tra loro da un meccanismo moltiplicativo, la corretta funzione obiettivo è il prodotto delle modalità osservate. E se per ripartire equamente una somma la si divide per il numero di modalità [(a+a+a)/3=3a/3=a], per ripartire un prodotto occorre fare la radice di ordine N [3(aaa)=3(a3)=a]. Nell’esempio la media ‘giusta’ è 3(1,44)=1,2 che, sostituito ai due indici 0i1 e 1i2 osservati, dà il giusto costo finale della vita. Usando la media aritmetica m=1,22, il costo finale sarebbe stato 148,84: molto superiore! La media geometrica e il suo calcolo La media geometrica lascia inalterata una particolare funzione obiettivo, il prodotto di tutte le modalità, ponderate per le rispettive numerosità. m mg M 0 ( X ) m0 N xi i 1 ni Nota: nelle serie storiche la numerosità delle modalità è sempre 1!: La media geometrica non è così semplice da calcolare. La media aritmetica si ottiene sommando N modalità e dividendo per N. La media geometrica si ottiene moltiplicando N modalità e poi facendo la radice N-esima del prodotto. Che complicazione! Il logaritmo di un prodotto è = alla somCi viene in aiuto una funzione di ma dei logaritmi. trasformazione di X che abbiamo Il logaritmo di xn è = a nlogx già conosciuto: la trasformata Il logaritmo di nX=x(1/n) è = a (1/n)logx logaritmica Y=logX. Non temete, non toccheremo l’argomento. Ci interessano solo certe proprietà ‘algebriche’ di logX. Se y=logX, X=antilogY Dulcis in fundo, logaritmi e antilogaritmi si calcolano con le macchinette da 1 $! Ancora sul calcolo della media geometrica Date le proprietà della trasformata logaritmica, vediamo cosa succede al logaritmo della media geometrica: m log m0 log N xi m 1 n log xi i N i 1 ni i 1 1 N m 1 log xi N i 1 ni m n log x i 1 i i Quindi il logaritmo di Mg è nient’altro che una media aritmetica calcolata non sulle modalità di base ma sui loro logaritmi. Mg = E(logX) Abbiamo già visto come calcolare un logaritmo. Ma quando avremo fatto la somma ifilogxi, come fare per risalire alla media geometrica? E’ altrettanto semplice. Una volta calcolata la ifilogxi digitatela sulla vostra macchinetta e schiacciate la funzione “ex”. m0 anti log log m0 Per esempio l’antilogaritmo di 1,6677 è 5,3 Un esempio di procedura di calcolo (e tre note) logxt = 0,6685 t-1it logxt Mg xt-1 M(x)xt-1 92583 1,372 0,3163 74264 74655 103805 1,121 0,1141 81706 82568 104742 1,009 0,0089 89894 91321 113742 1,086 0,0824 98902 101001 123828 1,089 0,0851 108813 111707 M(X)=xt/N=7,740/7=1,106 129828 1,048 0,0468 119717 123548 La serie stimata è esponenziale 131717 1,015 0,0149 131715 136644 7,740 0,6685 xt Mg = antilog = 1,10021 140000 NB1: se si ricalcola il montante (1990=67500) usando M(X) esso risulta sovrastimato. NB2: è sempre vero che Mg (X) M(X) NB3: Mg si calcola anche come logMg=logxt/N=0,0955 n(x t/x0)= 7(131717/67500)= 71,95136=1,10021 120000 100000 80000 60000 1990 1992 1994 1996 1998 Un altro esempio t Xt t-1it 1994 4 - - 1998 10 2,500 0,9163 M(X)=xt/N=8,259/4=2,06475 2002 20 2,000 0,6931 logMg=logxt/N=2,86222/4=0,71555 2006 34 1,700 0,5306 2010 70 2,059 0,7222 8,259 2,8622 Xt Mg xt-1 M(x)xt-1 1994 4 - - 1998 10 8,181 8,259 2002 20 16,733 17,053 2006 34 34,225 35,210 2010 70 70,000 72,700 t log t-1it Qual è il giusto (si fa per dire) tasso medio di crescita dell’epidemia di Aids? Mg = antilog = 2,04532 NB:la media geometrica è sempre<M(X)! Nota: la media aritmetica porta a sovrastimare il valore finale di oltre il 3,8% (72700 invece che 72000)!! 75 60 45 30 15 0 1994 1998 2002 2006 2010 Confrontare incidenti e feriti xt incidenti yt feriti 1980 163,8 222,9 1981 165,7 225,2 1982 159,9 217,4 1983 161,1 219,7 1984 159,0 217,5 1985 157,8 216,1 1986 155,4 213,2 1987 158,2 217,5 1988 166,0 228,2 1989 160,8 216,3 1990 161,8 221,0 1991 170,7 240,7 1992 170,8 241,1 1993 153,4 216,1 1994 170,7 239,2 t anno Riportare due serie storiche su scale comparabili consente a volte di cogliere interessanti correlazioni tra serie storiche 246 166 210 150 1980 1982 1984 1986 1988 1990 1992 1994 1996 Per esempio, le due serie (incidenti in rosso a tratto continuo, feriti in blu a tratteggio) hanno ordini di grandezza differenti. Ma se li riportiamo su scale comparabili, ci accorgiamo come l’andamento sia simile. Scala e andamento sono cose distinte. Confrontare incidenti e vittime xt incidenti wt morti 1980 163,8 11,1 1981 165,7 10,5 1982 159,9 10,0 1983 161,1 9,9 1984 159,0 9,2 1985 157,8 9,2 1986 155,4 9,4 1987 158,2 9,1 1988 166,0 9,0 1989 160,8 8,7 1990 161,8 9,2 1991 170,7 9,6 1992 170,8 9,6 1993 153,4 8,6 1994 170,7 8,4 t anno 8,2 150 1980 1980 Ma cosa1982 è mai1984 questa ‘correlazione’?Confrontare due andamenti ci conduce nel dominio dell’analisi bivariata 1986 1988 1990 1992 1994 1996 In questo caso le due serie (incidenti in rosso a tratto continuo, vittime in blu a tratteggio), riportati su scale comparabili, mostrano andamenti differenti. Non pare esserci ‘correlazione’ tra le due serie. Da tre serie, altre serie (rapporti statistici) zt fer/incid kt morti/in 1980 1,361 68 1981 1,359 63 1982 1,360 62 1983 1,364 61 1984 1,368 58 1985 1,369 58 1986 1,372 60 1987 1,375 57 1988 1,375 54 1989 1,345 54 1990 1,366 57 1991 1,410 56 1992 1,411 56 1993 1,409 56 1994 1,401 49 t anno Lavorare con serie di rapporti statistici è dunque un modo più compatto per analizzare due fenomeni insieme 1335 48 1980 1980 Anche combinare due serie in forma di rapporto statistico permette spesso di capire di più. Per esempio, la serie delle vittime per incidente, in rosso a tratto continuo, sembra declinare, mentre quella dei feriti per incidente, in blu tratteggiato, si impenna.