Elaborazione Statistica dei Dati Sperimentali Facoltà di Scienze MM FF e NN, Università Sannio Rappresentazione dei dati con istogrammi Giovanni Filatrella ([email protected]) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Dati grezzi I dati sperimentali si presentano in genere sotto forma di tabelle: Tasso di fecondità totale per 1.000 donne in età 15-49 per regione di residenza - Anni 1982-1997 Table 10.1 continue - Total fertility rate per 1.000 women aged 15-49 by region of residence - Years 1982-1997 REGIONI E RIPARTIZIONI 1990 1991 1992 1993 Piemonte 1101 1124 1080 1046 Valle d'Aosta 1.183 1.160 1.116 1.013 Lombardia 1.147 1.124 1.125 1.100 Trentino-Alto Adige 1.402 1.410 1.420 1.345 Veneto .159 1.115 1.138 1.092 Friuli-Venezia Giulia 1.029 1.024 1.043 950 Liguria 1.011 1.007 1.027 960 Emilia-Romagna 1.013 1.007 993 968 Toscana 1.082 1.052 1.048 1.019 Umbria 1.176 1.162 1.176 1.108 Marche 1.230 1.207 1.187 1.131 Lazio 1.280 1.233 1.259 1.208 Abruzzo 1.394 1.353 1.349 1.296 Molise 1.425 1.406 1.421 1.326 Campania 1.809 1.810 1.794 1.663 Puglia 1.654 1.601 1.584 1.486 Basilicata 1.660 1.557 1.570 1.435 Calabria 1.744 1.668 1.653 1.564 Sicilia 1.853 1.775 1.792 1.670 Sardegna 1.370 1.291 1.223 1.164 Nord 1.117 1.104 1.101 1.064 Centro 1.206 1.169 1.179 1.134 Sud 1.712 1.664 1.654 1.547 ITALIA 1.358 1.328 1.326 1.262 (a) Dati provvisori. (a) Provisional data. Fonte: ISTAT - Servizio "Popolazione e cultura". Source: ISTAT - Unit "Popolazione e cultura". 1994 1026 1.082 1.068 1.339 1.064 942 928 956 982 1.074 1.087 1.168 1.245 1.280 1.601 1.437 1.363 1.432 1.548 1.089 1.040 1.094 1.466 1.215 1995 1028 1.102 1.074 1.335 1.073 941 915 967 979 1.061 1.107 1.109 1.175 1.209 1.499 1.369 1.327 1.396 1.455 1.055 1.043 1.068 1.391 1.187 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1996 1047 1.196 1.099 1.385 1.101 975 938 1.006 995 1.068 1.085 1.121 1.191 1.166 1.570 1.367 1.269 1.351 1.468 1.030 1.075 1.076 1.403 1.205 1997 (a) 1088 1.314 1.141 1.436 1.150 1.02 969 1.035 1.03 1.097 1.116 1.167 1.185 1.211 1.573 1.386 1.284 1.329 1.487 1.108 1.115 1.116 1.419 1.217 2 Analisi dei dati I dati così raccolti devono essere elaborati per rispondere a delle domande: 1. Il tasso di fertilità è stato maggiore nel 1992 o nel 1993? 2. Le variazioni da una regione all’altra sono grandi? 3. Quale potrebbe essere stato sulla base di questi dati il tasso nel 1998? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 3 Come si risponde in presenza di variabilità: Il tasso di fertilità è stato maggiore nel 1992 o nel 1993? I valori sottolineati sono quelli maggiori, e non sempre appartengono allo stesso anno. 1991 1992 1.124 1.160 1.124 1.410 1.115 1.024 1.007 1.007 1.052 1.162 1.207 1.233 1.353 1.406 1.810 1.601 1.557 1.668 1.775 1.291 1.080 1.116 1.125 1.420 1.138 1.043 1.027 993 1.048 1.176 1.187 1.259 1.349 1.421 1.794 1.584 1.570 1.653 1.792 1.223 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali L’analisi statistica di questi dati dovrebbe dare una risposta quantitativa 4 Importante In presenza di variabilità la domanda “qual è più grande” potrebbe dipendere da molti fattori – in seguito vedremo quindi vari approcci che potrebbero quindi dare risultati diversi per lo stesso insieme di dati. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 5 Definizioni • Individui: i soggetti delle misure • Variabile casuale: Una grandezza misurabile che assume valori in principio diversi per i diversi individui Ex: nella tabella (1) se si seleziona una regione un “individuo” è un anno. La variabile casuale è il tasso di fertilità. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 6 Applicazione del concetto di “individuo” e “variabile casuale” 1990 Val d'Aosta 1.183 1991 1.160 1992 1.116 1993 1.013 1994 1.082 1995 1.102 1996 1.196 1997 1.314 In corrispondenza di ogni anno (ovvero di ogni individuo) si misura una quantità: il numero di figli nati in quell’anno per 1000 donne (la variabile casuale). Nell’analisi di qualsiasi tipo di dati è essenziale innanzitutto comprendere quali siano gli “individui” e quale sia la “variabile casuale”. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 7 Nomenclatura dei diversi tipi di variabili casuali Una grandezza misurabile, cioè una variabile casuale, può comunque appartenere a diverse categorie: 1) Continua: può assumere un qualsiasi valore fra i numeri reali; 2) Discreta: può assumere un qualsiasi valore fra i numeri interi; 3) Nominale: può assumere diversi valori, ma fra questi non vi è nessun ovvio ordinamento. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 8 Esempi di variabile continua: 1. Misurare l’altezza di coloro che seguono questo corso; 2. Misurare il peso di coloro che seguono questo corso; 3. Misurare la distanza che percorre ognuno di coloro che seguono questo corso per raggiungere la Facoltà. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 9 Esempi di variabile discreta: 1. Misurare l’anno di nascita di coloro che seguono questo corso; 2. Misurare il numero di fratelli e sorelle di coloro che seguono questo corso; 3. Misurare il numero di crediti già conseguiti da coloro che seguono questo corso. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 10 Esempi di variabile nominale: 1. Misurare il luogo di nascita di coloro che seguono questo corso; 2. Misurare la scuola di provenienza di coloro che seguono questo corso; 3. Misurare il Codice di Avviamento Postale della residenza di coloro che seguono questo corso. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 11 Applicazione alla tabella sul tasso di fertilità: REGIONI E RIPARTIZIONI Valle d'Aosta Lombardia Trentino-Alto Adige Veneto Friuli-Venezia Giulia Liguria Emilia-Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna 1990 1.183 1.147 1.402 .159 1.029 1.011 1.013 1.082 1.176 1.230 1.280 1.394 1.425 1.809 1.654 1.660 1.744 1.853 1.370 1991 1.160 1.124 1.410 1.115 1.024 1.007 1.007 1.052 1.162 1.207 1.233 1.353 1.406 1.810 1.601 1.557 1.668 1.775 1.291 1992 1.116 1.125 1.420 1.138 1.043 1.027 993 1.048 1.176 1.187 1.259 1.349 1.421 1.794 1.584 1.570 1.653 1.792 1.223 1993 1.013 1.100 1.345 1.092 950 960 968 1.019 1.108 1.131 1.208 1.296 1.326 1.663 1.486 1.435 1.564 1.670 1.164 1994 1.082 1.068 1.339 1.064 942 928 956 982 1.074 1.087 1.168 1.245 1.280 1.601 1.437 1.363 1.432 1.548 1.089 1995 1.102 1.074 1.335 1.073 941 915 967 979 1.061 1.107 1.109 1.175 1.209 1.499 1.369 1.327 1.396 1.455 1.055 1996 1.196 1.099 1.385 1.101 975 938 1.006 995 1.068 1.085 1.121 1.191 1.166 1.570 1.367 1.269 1.351 1.468 1.030 1997 1.314 1.141 1.436 1.150 1.02 969 1.035 1.03 1.097 1.116 1.167 1.185 1.211 1.573 1.386 1.284 1.329 1.487 1.108 Per le tre variabili casuali: x1 {Il tasso di fertilità per il 1991 nelle varie regioni} x2 {L’anno in cui ogni regione ha mostrato il minimo tasso di fertilità} x3 {La regione che ogni anno ha mostrato il massimo tasso di fertilità} stabilire di quale tipo si tratti G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 12 Risposte 1. x1 {Il tasso di fertilità per il 1991 nelle varie regioni} continua 2. x2 {L’anno in cui ogni regione ha mostrato il minimo tasso di fertilità} discreta 3. x3 {La regione che ogni anno ha mostrato il massimo tasso di fertilità} nominale G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 13 Problema Il tasso di fertilità è il numero di figli, quindi dovrebbe essere un intero. Perché invece asseriamo che può assumere un qualsiasi valore e quindi è una variabile continua? Rispondere a casa scrivendo la motivazione. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 14 Importanza dell’elaborazione dei dati Es.: per le variabili x2 e x3, anche se la tabella contiene sicuramente l’informazione, non è ovvio sapere cosa succede. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 15 x1 {Il tasso di fertilità misurato nel 1991} 1,124 1,162 1,775 1,160 1,207 1,291 1,124 1,233 1,410 1,353 1991 1,115 1,024 1,406 1,810 1,007 1,601 1,007 1,557 1,052 1,668 OSSERVAZIONI • • Gli individui sono le regioni La variabile casuale è continua Ma aver isolato i dati non basta a darci un’idea di cosa succeda. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 16 Ordinare i dati dal più piccolo al più grande è utile: 1,007 1,007 1,024 1,052 1,115 1,124 1,124 1,160 1,162 1,207 1,233 1,291 1,353 1,406 1,410 1,557 1,601 1,668 1,775 1,810 Questa prima elaborazione aiuta a comprendere cosa succede. D: cosa si nota dalla tabella ordinata? 1,007 1,007 1,024 1,052 1,115 1,124 1,124 1,160 1,162 1,207 1,233 1,291 1,353 1,406 1,410 1,557 1,601 1,668 1,775 1,810 individui per i quali la variabile compresa fra 1 ed 1,2 individui per i quali la variabile è compresa fra 1,2 ed 1,4 individui per i quali la variabile è compresa fra 1,4 ed 1,6 individui per i quali la variabile è compresa fra 1,6 ed 1,8 individui per i quali la variabile è compresa fra 1,8 e 2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 17 Suddivisione in “Classi” Gli intervalli della slide precedente si dicono “classi”: I classe: 1 b 1.2 II classe: 1.2 b 1.4 III classe: 1.4 b 1.6 IV classe: 1.6 b 1.8 V classe: 2 b b{tasso di natalità} Il numero di individui in una classe è la “frequenza assoluta” : 9 4 3 3 1 Ni{frequenza assoluta} G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 18 Definizioni • Si dice “Classe” un intervallo di valori della variabile casuale cui un individuo può appartenere o no. Il numero di classi in cui suddividere dei dati grezzi dipende da come risulta più efficace la rappresentazione. • L’intervallo della variabile casuale compreso in una classe si dice “Ampiezza della classe”. Anche le ampiezze delle classi non possono essere decise a priori. Ove possibile, è preferibile che siano tutte uguali. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 19 Rappresentazione efficace della suddivisione in “Classi” La “freq. assoluta” diviso il totale N di individui è la “frequenza relativa”: 0.45 0.20 0.15 0.15 0.05 fi=Ni/N{frequenza relativa} La “freq. assoluta” può essere espressa in percentuali: 45% 20% 15% 15% 5% una percentuale {fiX100} G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 20 No b 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1,0071 1,007 1,024 1,052 1,115 1,124 1,124 1,160 1,162 1,207 1,233 1,291 1,353 1,4063 1,410 1,557 1,6014 1,668 1,775 1,8105 Totali Classe 20 frequenza frequenza assoluta relativa 9 0.45 4 0.20 frequenza relativa % 45.00% 20.00% Tabella riassuntiva Una tabella dei dati ordinati contiene gli elementi essenziali per rappresentare le misure: Ni % fi 100 N Ni relativa fi N assoluta fi Ni relativa 3 0.15 15.00% 3 0.15 15.00% 1 0.05 5.00% 1 100.00% i 1,2,...M G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 21 Rappresentazione grafica: l’Istogramma Alcune regole: 1. Chiarire cosa c’è sugli assi; 2. Indicare solo pochi valori a distanze uniformi; 3. Scegliere dimensioni tali che simboli e numeri siano facilmente leggibili. Frequenza rel. 0.4 0.3 0.2 0.1 1.0 1.2 1.4 1.6 1.8 2.0 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali b (variabile casuale)22 La scelta delle classi influenza l’aspetto degli istogrammi Può capitare che i dati siano distribuiti in modo tale che la divisione in classi ne influenzi molto l’aspetto: Percentuale di boschi andati a fuoco nel 1985 nelle varie regioni italiane (Fonte: ISTAT). 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Piemonte Valle D'Aosta Lombardia Trentino - Alto Adige Veneto Friuli - Venezia Giulia Liguria Emilia - Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali S (%) 0,34 0,45 0,27 0,04 0,27 0,20 2,34 0,12 0,64 0,74 0,93 2,27 0,73 1,48 4,91 3,63 1,52 2,43 0,87 1,75 23 No S(%) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0,04 0,12 0,20 0,27 0,27 0,34 0,45 0,64 0,73 0,74 0,87 0,93 1,48 1,52 1,75 2,27 2,34 2,43 19 3,63 20 4,91 Totali Tabella distribuzione superficie incendi 1985 Classe frequenza frequenza assoluta relativa frequenza relativa % 1 7 35% 0,35 2 3 5 1 0,25 0,05 25% 5% 4 2 0,10 10% 5 6 7 8 9 10 3 0 0 1 0 1 0,15 0,00 0,00 0,05 0,00 0,05 15% 0% 0% 5% 0% 5% 20 1,00 100% E’ difficile rappresentare i dati in questa forma perché molte classi risultano vuote. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 24 Istogrammi di dati distribuiti in modo “anomalo” I problemi che sono sorti: 1. I valori per piccole superfici cadono tutti nella stessa classe 2. I singoli valori per grandi superfici sembrano costituire dei picchi con un significato Frequenza rel. Ampiezza: 0.4 0.5% 0.3 0.2 0.1 5.0 % Superficie 25 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali incendiata 0.0 1.0 2.0 3.0 4.0 Un diverso tipo di suddivisione in classi Molte regioni sono afflitte da piccoli incendi In poche regioni gli incend sono devastanti Frequenza rel. Ampiezza: 0.8 1% 0.6 Rimane il problema che il 60% è appiattito in una sola classe. 0.4 0.2 5.0 % Superficie 26 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali incendiata 0.0 1.0 2.0 3.0 4.0 Istogrammi di dati non uniformemente separati Per ovviare a questi inconvenienti a volte la soluzione è scegliere classi di ampiezza non uniforme. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 27 No S(%) 1 0,04 2 0,12 3 0,20 4 0,27 5 0,27 6 0,34 7 0,45 8 0,64 9 0,73 10 0,74 11 0,87 12 0,93 13 1,48 14 1,52 15 1,75 16 2,27 17 2,34 18 2,43 19 3,63 20 4,91 Totali Classe Area del rett. altezza 0.25% 0,6 3 0,15 15% 2 0,25% 0,8 4 0,2 20% 3 0,5% 0,5 5 0,25 25% 4 1% 0,15 3 0,15 15% 5 6 7 1% 1% 1% 0,15 0,05 0,05 3 1 1 20 0,15 0,05 0,05 1,00 15% 5% 5% 100% 1 freq. freq. assoluta relativa G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Freq. relativa % II elab Si sono scelte classi di ampiezza diversa 28 Istogrammi con ampiezza delle classi non uniforme Densità di frequenza 0.8 Ampiezza variabile 0.6 Si riescono a distinguere i dati anche vicino allo 0% Però: 1. La frequenza è prop. all’area dei rettangoli 2. L’asse verticale è una densità di frequenza 0.4 0.2 5.0 % Superficie 29 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali incendiata 0.0 1.0 2.0 3.0 4.0