Statistica sociale Laurea specialistica in Progettazione e gestione del turismo culturale Lezione 9 Introduzione all’analisi statistica dei dati (3) Gianluca Dominutti Si presentano quindi alcune misure statistiche che consentono di descrivere in sintesi le distribuzioni di frequenze costruite in precedenza. In particolare si parlerà di 1 Indici di posizione 2 Indici di variabilità 3 Indici di variabilità relativa 4 La mutabilità 5 Rapporti statistici 1 Indici di posizione 1 Indici di posizione Gli indici di posizione sono delle misure medie di sintesi che rappresentano una distribuzione di frequenze. Considereremo le misure che sono applicabili ai caratteri qualitativi (moda) e ai caratteri quantitativi (mediana, media), ricordando che le elaborazioni che si fanno sulle variabili non sono applicabili alle mutabili. 1.1 La moda (Mo) La moda è la modalità del carattere, mutabile o variabile, a cui è associata la frequenza più elevata, ovvero è la modalità o intensità più frequente. Esempio Distribuzione di frequenze della mutabile colore dei capelli Modalità Bianco N frequenze assolute 20 Biondo chiaro 25 Biondo cenere 28 Castano chiaro 50 Castano scuro 62 Nero 15 Totale 200 1 Indici di posizione - Mediana Un indice più elaborato è la mediana che, applicata a caratteri quantitativi, ci dice qual è la modalità che si trova esattamente al centro di un insieme di dati ordinati, ovvero è quel valore che bipartisce la distribuzione in modo tale da lasciare metà delle osservazioni al di sopra e metà delle osservazioni al di sotto del valore stesso. Questo indice ci consente di ottenere il “baricentro” della distribuzione che, associato alla moda, può rappresentare in maniera più adeguata la distribuzione delle osservazioni. Consideriamo un insieme di soggetti ai quali è stata chiesta l’età: 50 37 42 53 28 la prima operazione da fare è ordinare in modo crescente i valori osservati 28 37 42 50 53 ci si posiziona quindi sul valore centrale, ovvero il 42, che divide a metà la distribuzione, infatti è preceduto da due valori ed à seguito da altri due. La mediana è rappresentata da 42 anni. 1 Indici di posizione - Media Moda e mediana sono utili indici medi di posizione che però non utilizzano tutte le informazioni raccolte ma solo quelle relative, rispettivamente, alla modalità più frequente o alle intensità che occupano la posizione centrale nella distribuzione. Una misura che invece tiene conto di tutte le osservazioni è la media, applicabile su dati quantitativi. Si possono calcolare diverse tipi di media: a) Media aritmetica semplice La media aritmetica si ottiene sommando tutte le intensità osservate e dividendo il risultato per il numero di osservazioni. In termini formali si avrà: n X ∑x = n i =1 i dove: = la lettera X soprassegnata con una barretta orizzontale indica la media X ∑ x = si legge “sommatoria per i che va da 1 a n degli xi”, ovvero la somma di tutte le intensità osservate (xi) dalla prima (la numero 1) alla ennesima (numero n) n = totale delle osservazioni. Applichiamo il calcolo della media agli esempi usati per il calcolo della mediana: esempio 1: 28 37 42 50 53 n i =1 i X = 28 + 37 + 42 + 50 + 53 210 = = 42 5 5 2 Indici di variabilità Esistono diverse misure di variabilità: 2.1 Campo di variazione o range 2.2 Scarto interquartile 2.3 Scostamento semplice medio 2.4 Varianza 2.5 Scarto quadratico medio 2.1 Indici di variabilità – Campo di variazione È l’indice di variabilità più semplice e si ottiene per differenza tra il valore più elevato e il più piccolo. range = x max – x min esempio a): 28 37 42 50 53 range = 53 – 28 = 25 esempio b): 1 3 42 range = 85 – 1 = 84 79 85 Nell’esempio a) il campo di definizione è pari a 25 mentre nell’esempio b) è di 84. Se quindi associamo all’informazione sulla media e sulla mediana questi due dati abbiamo immediatamente la percezione di trovarci in presenza di una distribuzione abbastanza concentrata attorno al valore medio nell’esempio a) e, diversamente, molto dispersa nell’esempio b). Questo indice è semplice da calcolare tuttavia risente troppo dei casi estremi. Se ad esempio ci troviamo di fronte ad una distribuzione di questo tipo: 20 23 25 26 99 verifichiamo che il range è pari a 79 ma non riesce a descrivere adeguatamente la dispersione dei dati. 2.2 Indici di variabilità – Scarto interquantile Lo scarto interquartile si calcola per differenza tra il quartile superiore (Qs = terzo quartile, corrispondente al 75° percentile) e il quartile inferiore (Qi = primo quartile, corrispondente al 25° percentile): range interquartile = Qs - Qi È un indice più stabile, che ignora le “code” della distribuzione e ci dice i valori entro i quali si posiziona il 50% delle osservazioni. 2.3 Indici di variabilità – Scostamento semplice medio Per calcolare gli indici di variabilità su menzionati dobbiamo dunque calcolare la somma degli scarti dei singoli valori dalla media ma, in base alla prima proprietà della media, sappiamo che tale somma è nulla. Per superare questo ostacolo è quindi necessario operare sugli scarti in modo tale che la loro somma algebrica non dia valore nullo. Nello scostamento semplice medio il problema viene risolto considerando gli scarti in valore assoluto: n S= ∑ i =1 − xi − x n In tal modo tutti gli scarti sono positivi e la somma non si annulla. Applichiamo l’indice di variabilità agli esempi. esempio a): 28 37 42 50 53 S = |28 - 42| + |37 - 42| + |42 - 42| + |50 - 42| + |53 – 42| = 14 + 5 +0 + 8 + 11 = 38 = 7,6 5 esempio b): 5 1 3 42 5 79 85 S = |1 - 42| + |3 - 42| + |42 - 42| + |79 - 42| + |85 – 42| = 41 + 39 +0 + 37 + 43 = 160 = 32 5 esempio c): 5 42 42 42 S = |42 - 42| + |42 - 42| + |42 - 42| + |42 - 42| + |42 – 42| = 0 5 5 42 42 2.4 Indici di variabilità - Varianza Un’ulteriore modo per calcolare una misura di variabilità superando il vincolo rappresentato dalla seconda proprietà della media è quello di elevare gli scarti al quadrato e poi calcolarne la media. L’indice così calcolato è la varianza, che viene indicata con la lettera greca sigma al quadrato: − ⎛ ⎞ − ⎜ ⎟ ∑ x x i ⎠ i =1 ⎝ = n σ 2 2 n i n Calcoliamo ora la varianza sui dati dei nostri tre esempi. esempio a): 28 37 42 50 53 79 85 σ2 = (28 – 42)2 + (37 - 42)2 + (42 - 42)2 + (50 - 42)2 + (53 – 42)2 = 5 = 196 + 25 + 0 + 64 + 121 = 406 = 81,2 5 5 esempio b): 1 3 42 σ2 = (1 - 42)2 + (3 - 42)2 + (42 - 42)2 + (79 - 42)2 + (85 – 42)2 = 5 = 1.681 + 1.521 + 0 + 1.369 + 1.849 = 6.420 = 1.284 5 5 2.5 Indici di variabilità – Scarto quadratico medio Lo scarto quadratico medio σ è la radice quadrata della varianza, e consente di riportare l’indice di variabilità all’unità di misura originale: − ⎞ ⎛ ⎜ xi − x ⎟ ∑ ⎠ i =1 ⎝ n σ esempio a): σ = σ 2 = σ 2 = σ 2 i n 28 37 42 50 53 1 3 42 79 85 42 42 42 42 42 = 1.284 = 35,83 esempio c): σ σ = n = 81,2 = 9,01 esempio b): σ = 2 2 =0 Gli scarti quadratici medi così calcolati ci dicono qual è in media la distanza tra i dati e la media della distribuzione nell’unità di misura originale. Nell’esempio c) qualunque sia l’indice di variabilità utilizzato avrà sempre valore pari a zero in quanto la variabilità è nulla, mentre negli altri due esempi l’indice è più elevato laddove la dispersione attorno alla media è più ampia. 3 Indici di variabilità – Indici di variabilità relativa Se di una distribuzione conosciamo solo un indice di variabilità, ad esempio lo scarto quadratico medio, ma non abbiamo altre informazioni, non saremo in grado di capire se la variabilità osservata sia veramente grande o se invece l’indice sia influenzato dall’unità di misura adottata. Il problema si pone inoltre quando siamo interessati a fare dei confronti tra variabili di natura diversa. Nel primo caso si fa riferimento, ad esempio, al confronto tra un indice di variabilità calcolato su merce pesata in tonnellate e quello su merce pesata in grammi, nel secondo caso si immagini di dover decidere se c’è più variabilità nel peso o nell’altezza di un campione di persone. Si rende necessario introdurre un indice che sia svincolato dall’unità di misura e renda comparabili gli aggregati. Parleremo quindi di: 3.1 coefficiente di variazione 3.1 Indici di variabilità – Coefficiente di variazione Il coefficiente di variazione è dato dal rapporto tra lo scarto quadratico medio e la media, moltiplicato per 100: CV = σ * 100 − x esempio a): Età X = 42; σ 28 = 9,01 X = 176,6 175 σ 50 42 53 CV = (9,01/42) * 100 = 21,45 esempio b): Altezza 37 = 5,00 168 181 CV = 182 177 ( 5,00 / 176,6) * 100 = 2,83 4 Mutabilità L’attitudine dei caratteri qualitativi ad assumere diverse modalità è detta mutabilità. Si consideri la seguente distribuzione di una generica mutabile A: A N massima omogeneità massima eterogeneità a1 n1 0 n/k a2 n2 0 n/k ... ... ... ... ai ni n n/k ... ... ... ... ak nn 0 n/k Totale n n n Le modalità del carattere sono k ed n sono le osservazioni. Si possono incontrare due situazioni estreme, che rappresentano dei valori teorici di riferimento, mentre nella realtà le distribuzioni presentano gradi diversi di mutabilità. Consideriamo questi casi estremi: massima omogeneità e massima eterogeneità. Si ha la massima omogeneità quando tutte le unità statistiche assumono la medesima modalità e le altre modalità hanno frequenza pari a zero. Nella tabella si nota come tutte le n osservazioni sono concentrate sulla modalità ai e le altre hanno frequenza 0. Diversamente si ha massima eterogeneità (ovvero omogeneità nulla), quando vi è una equidistribuzione delle unità tra le modalità del carattere, ovvero le n osservazioni sono presenti in numero uguale tra le modalità. Quindi, se abbiamo k modalità, ciascuna avrà un numero uguale di soggetti dato dal rapporto n/k. 5 Indici di variabilità – I rapporti statistici I rapporti statistici consentono di ricavare informazioni di sintesi riguardanti le distribuzioni di frequenza. Tra i tanti presenteremo 5.1 rapporti di composizione 5.2 rapporti di coesistenza 5.3 rapporti di derivazione 5.4 rapporti di durata 5.5. numeri indici 5.1 I rapporti statistici – I rapporti di composizione 5.1 rapporti di composizione sono dati dal rapporto di una parte delle osservazioni con l’insieme delle osservazioni stesse e forniscono un’informazione sulla composizione del campione con riferimento al carattere (mutabile o variabile) osservato. In altre parole stiamo parlando delle percentuali: n *100 N i 5.2 I rapporti statistici – I rapporti di coesistenza Stabiliscono una relazione tra due modalità del carattere. Ad esempio il rapporto tra maschi e femmine moltiplicato per 100 ci dice quanti maschi ci sono ogni 100 femmine: M *100 F Facciamo un altro esempio, considerando il titolo di studio di un campione di persone. Nella terza colonna sono stati calcolati anche i rapporti di composizione Titolo N Rapporti di composizione Licenza elementare 10 4,0 Licenza media 35 14,0 120 48,0 Laurea 60 24,0 Diploma post-laurea 25 10,0 250 100,0 Diploma superiore Totale 5.2 I rapporti statistici – I rapporti di coesistenza Ad esempio si può calcolare il seguente rapporto di coesistenza: laureati diplomati * 100 = 60 * 100 = 50 120 significa che ogni 100 diplomati ci sono 50 laureati. 5.3 I rapporti statistici – I rapporti di derivazione Sono calcolati utilizzando i dati riferiti ad un fenomeno rapportati con quelli riferiti al fenomeno da cui derivano e che ne rappresenta il presupposto. Sono rapporti di derivazione quelli che hanno come argomento una popolazione dalla quale deriva il fenomeno evidenziato. Ad esempio citiamo: 5.3.1 quoziente di natalità 5.3.2 quoziente di fecondità 5.3.3 quoziente di mortalità. 5.3.1 Quoziente di natalità Il quoziente di natalità è dato da: [nt / Pt] * 1000 rapporto tra i nati vivi (nt) nell’arco di un generico anno t, e la popolazione media di quell’anno (Pt). Il quoziente viene moltiplicato per 1000 ed esprime il numero di nati vivi nell’anno t per ogni 1000 abitanti. 5.3 I rapporti statistici – I rapporti di derivazione 5.3.2 Quoziente di fecondità Il quoziente di fecondità è dato da: [nt / F15-49] * 1000 rapporto tra i nati vivi (nt) nell’arco di un generico anno t, e la popolazione media femminile in età feconda, che convenzionalmente è compresa tra 15 e 49 anni moltiplicato per 1000. 5.3.3 Quoziente di mortalità Il quoziente di mortalità è dato da: [Dt / Pt] * 1000 rapporto tra i decessi (Dt) avvenuti nell’arco di un generico anno t, e la popolazione media di quell’anno (Pt). Il quoziente viene moltiplicato per 1000 ed esprime il numero di morti nell’anno t per ogni 1000 abitanti. 5.3 I rapporti statistici – I rapporti di derivazione Tabella 1 - Tassi generici di natalità e mortalità per regione - Anni 2005-2008 (per 1.000 residenti) Natalità Mortalità REGIONI Piemonte Valle d'Aosta Lombardia Trentino-Alto Adige Bolzano-Bozen Trento Veneto Friuli-Venezia Giulia Liguria Emilia-Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna ITALIA *Stima. Fonte: Istat 2005 2006 2007 2008* 2005 2006 2007 2008* 8,6 9,4 9,8 10,9 11,5 10,4 9,8 8,4 7,5 9,2 8,7 9,0 8,8 9,6 8,6 7,9 10,8 9,5 8,2 9,1 10,1 8,0 9,5 8,7 10,0 10,0 10,7 11,1 10,3 9,9 8,6 7,5 9,4 8,7 9,0 9,0 9,8 8,5 7,7 10,8 9,3 8,4 9,2 10,0 8,0 9,5 8,8 9,9 10,0 10,7 11,2 10,1 9,9 8,7 7,6 9,5 8,8 9,1 9,1 9,5 8,7 7,8 10,7 9,4 8,2 9,0 9,8 8,0 9,5 9,0 10,2 10,2 10,7 11,0 10,4 10,0 8,6 7,8 9,7 9,1 9,3 9,3 10,1 8,7 7,6 10,5 9,4 8,3 9,0 9,8 8,2 9,6 11,1 10,6 9,1 8,4 7,9 8,9 9,1 11,5 13,3 11,1 11,3 11,5 10,2 9,4 10,4 11,1 8,4 8,2 9,6 9,0 9,4 8,5 9,7 10,9 10,0 8,9 8,4 7,6 9,0 8,9 11,3 13,1 10,8 11,0 10,9 10,3 9,1 10,1 11,2 8,1 8,0 9,6 8,7 9,2 8,4 9,5 10,8 10,2 8,9 8,3 7,5 9,0 9,1 11,2 13,1 10,9 11,2 11,0 10,4 9,0 10,4 10,7 8,5 8,5 9,7 9,0 9,6 8,6 9,6 11,1 10,2 9,1 8,4 7,7 9,1 9,2 11,6 13,4 11,0 11,3 11,3 10,4 9,2 10,1 11,2 8,5 8,4 9,6 9,0 9,2 8,6 9,7 5.4 I rapporti statistici – I rapporti di durata Sono indici che vengono utilizzati laddove c’è un ricambio di popolazione in entrata e uscita e si vuole calcolare la durata media della permanenza di tale popolazione. È utilizzato, ad esempio, per calcolare il numero medio di giorni di degenza dei pazienti in un ospedale o in una struttura che si occupa di riabilitazione o la durata media delle presenze in una struttura turistica. I dati di cui abbiamo bisogno per costruire un indice di durata sono: C0 = ammontare della popolazione all’inizio del periodo t considerato E = popolazione complessivamente entrata nell’arco del periodo t U = popolazione complessivamente uscita nell’arco del periodo t t = arco di tempo considerato: un anno, un mese, una settimana, ecc. Con questi dati siamo in grado di calcolare: C1 = C0 + E – U popolazione alla fine del periodo t C = (C0 + C1) / 2 consistenza media della popolazione nel periodo t Fe = E / t flusso medio di entrata della popolazione nel periodo t Fu = U / t flusso medio di uscita della popolazione nel periodo t F = (Fe + Fu) / 2 flusso medio della popolazione nel periodo t 5.4 I rapporti statistici – I rapporti di durata Per il calcolo dell’indice utilizzeremo C ed F, che potremo semplificare nel seguente modo: C = (C0 + C1) / 2 F = (Fe + Fu) / 2 L’indice di durata D sarà dato da: D=C/F Consideriamo ad esempio il flusso di pazienti in un reparto ospedaliero: C0 = 20 (ricoverati presenti al 1 gennaio dell’anno t) E = 580 (pazienti ricoverati nell’arco dell’anno t) U = 570 (pazienti dimessi nell’arco dell’anno t) C1 = Co + E – U = 20 + 580 – 570 = 30 t = 365 giorni C = (C0 + C1) / 2 = (20 + 30) / 2 = 25 F = (E + U) / 2t = (580 + 570) / (2*365) = 1.150 / 730 = 1,57 D = C / F = 25 / 1,57 = 15,9 ≈ 16 Il numero medio di giorni di ricovero dei malati in quel reparto ospedaliero è di 16 giorni. 5.5 I rapporti statistici – I rapporti indici Sono dei rapporti statistici che, calcolati su grandezze omogenee, consentono di misurare: a) le variazioni relative di un fenomeno in un dato periodo rispetto allo stesso fenomeno misurato in periodi diversi, e otterremo un indice temporale b) le variazioni relative di un fenomeno in un dato luogo rispetto allo stesso fenomeno misurato in luoghi diversi, e otterremo un indice spaziale. Consideriamo un esempio riferito al calcolo di un indice temporale, ricordando però che il medesimo metodo di calcolo è applicabile anche agli indici spaziali. La distribuzione che ha come argomento il tempo è detta serie storica o temporale. Per costruire i rapporti indici si utilizza un anno di riferimento al quale rapportare il valore che il fenomeno ha assunto nel tempo, che si chiama base. Con riferimento alle basi che si possono utilizzare, si distinguono due tipi di rapporti indice: a base fissa e a base mobile 5.5 I rapporti statistici – I rapporti indici Serie storica degli immatricolati dell’Università A Anni Matricole Rapporto indice a base fissa 1998 = 100 Rapporto indice a base mobile 1998 4000 100,00 1999 4500 112,50 112,50 2000 4900 122,50 108,89 2001 4800 120,00 97,96 2002 5270 131,75 109,79 2003 5420 135,50 102,85 5.5 I rapporti statistici – I rapporti indici Per costruire i rapporti indici si utilizza un anno di riferimento al quale rapportare il valore che il fenomeno ha assunto nel tempo, che si chiama base. Con riferimento alle basi che si possono utilizzare, si distinguono due tipi di rapporti indice: a base fissa e a base mobile. I rapporti indice a base fissa sono quelli che utilizzano sempre lo stesso anno come riferimento e confrontano l’andamento del fenomeno nel tempo rapportandolo all’anno base (che convenzionalmente viene indicato come “anno zero”). Nell’esempio i rapporti indice a base fissa sono riportati nella terza colonna, nella cui intestazione si evidenzia che l’anno base è il 1998 e il suo valore di riferimento è 100. Gli indici del nostro esempio sono stati calcolati confrontando il numero di matricole di ciascun anno con quelle del 1998. Detto x il numero di matricole e utilizzando al determinatore l’anno di riferimento (x0 = 1998) otteniamo: x0 / x0 = (4000 / 4000)*100 = 100 x1 / x0 = (4500 / 4000)*100 = 112,5 x2 / x0 = (4900 / 4000)*100 = 122,5 x3 / x0 = (4800 / 4000)*100 = 120,0 x4 / x0 = (5270 / 4000)*100 = 131,75 5.5 I rapporti statistici – I rapporti indici In termini generali i rapporti indice a base fissa si calcolano rapportando il valore osservato nell’anno t (xt) con quello osservato nell’anno base (x0): xt / x0 Le informazioni che deduciamo da questi indici è che, rispetto al 1998, c’è stato un progressivo aumento delle immatricolazioni quantificabile in termini percentuali: nell’anno 1 (ovvero il 1999) c’è stato un aumento di iscrizioni del 12,5% rispetto all’anno precedente; nel 2000 si è avuto un incremento del 22,5% rispetto all’anno base; nel 2001 l’incremento è stato più contenuto ma le iscrizioni sono comunque aumentate del 20% rispetto al 1998; nei successivi anni c’è stata una grande ripresa con una crescita del 31,75% nel 2002 e del 35,5% nel 2003. In altre parole, se dal rapporto indice sottraiamo 100, otteniamo il valore dell’incremento espresso in termini percentuali rispetto all’anno base. 5.5 I rapporti statistici – I rapporti indici I rapporti indice a base mobile sono quelli che utilizzano come anno base l’anno precedente. Nell’esempio i rapporti indice a base mobile sono riportati nella quarta colonna e il procedimento di calcolo è stato il seguente (ricordando che x1 = 1999, x2 = 2000 e così via): x1 / x0 = (4500 / 4000)*100 = 112,5 x2 / x1 = (4900 / 4500)*100 = 108,89 x3 / x2 = (4800 / 4900)*100 = 97,96 x4 / x3 = (5270 / 4800)*100 = 109,79 Come si può notare il primo indice che incontriamo è quello calcolato in x1/x0 in quanto le matricole dell’anno 1998 non possono essere confrontate con quelle dell’anno precedente, a noi sconosciuto. Anche in questo caso possiamo calcolare le variazioni percentuali rispetto all’anno precedente e notiamo così che nel 2001 c’è stata una diminuzione di immatricolazioni pari al 2,04% rispetto al 2000 (infatti 97,96-100=-2,04). In termini generali i rapporti indice a base mobile si calcolano rapportando il valore osservato nell’anno t (xt) con quello osservato nell’anno precedente (xt-1): xt / xt-1