Elaborazione Statistica dei Dati Sperimentali Facoltà di Scienze MM FF e NN, Università Sannio Misure di posizione Giovanni Filatrella ([email protected]) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Sintesi dei dati Un istogramma o una tabella di dati contengono molte informazioni E’ utile talvolta riassumere i dati con degli indicatori (indici) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 2 “Indici” o “misure” di posizione D: Esiste un singolo valore che possa dare qualche indicazione su come si distribuisce la variabile casuale? Frequenza rel. 0.4 0.3 0.2 0.1 1.0 1.2 1.4 1.6 1.8 2.0 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali tasso 3di fertilità A cosa serve questo valore? • Per riassumere i dati occorre avere in mente una domanda • A seconda del tipo di analisi che si vuole fare il tipo di “riassunto” dei dati è diverso. NON vi è una risposta in assoluto “corretta” G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 4 Esempi Il tipo di analisi più comune è la media aritmetica: n x x i 1 i n Proprietà di cui gode:conserva le trasformazioni di scala operate sui dati: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 5 Alternative: Mediana: La mediana divide la distribuzione in due parti uguali. E’ definita come quel valore (centrale) che, una volta ordinati i dati del campione, lascia alla sua sinistra e alla sua destra la metà del campione, cioè divide a metà la distribuzione dei dati. Per esempio: 2, 5, 6, 8, 13, 15, 19, 22, 38 hanno mediana 13 (il 5° di 9 valori) 3, 4, 8, 9, 13, 16, 17, 20, 21, 22 hanno mediana 14,5 (la media fra il 5° e il 6° di 10 valori) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 6 Formalmente: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 7 Procedura: 6, 6.7, 3.8, 7, 5.8 I valori ordinati sono: 3.8, 5.8, 6, 6.7, 7 mediana G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 8 Esempio (2) 6, 6.7, 3.8, 7, 5.8, 9.975 I valori ordinati sono: 3.8, 5.8, 6, 6.7, 7, 9.975 6 6. 7 Mediana 6.35 2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 9 Cosa fare se i dati sono già raggruppati in classi: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 10 Esempio La classe che contiene la mediana è la numero 3, (58 ┤ 70), Quindi la mediana è: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 11 Importante • La mediana non gode delle proprietà matematiche della media! G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 12 III esempio di indice di posizione: la MODA Si definisce Moda il valore della variabile casuale della classe che si presenta con maggiore frequenza (rispetto alle classi adiacenti se esiste un ordinamento, variabili discrete o continue): Relative Frequency Histogram 35 Relative Frequency (in %) 30 25 20 15 10 5 0 0 2 4 6 x-Axis G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 8 10 12 13 La moda di una distribuzione di dati potrebbe non corrispondere ad un solo valore: Relative Frequency Histogram 40 Relative Frequency (in %) 35 30 25 20 15 10 5 0 0 2 4 6 x-Axis G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 8 10 12 14 Moda dai dati grezzi Per i dati sperimentali non si può calcolare un indice a prescindere dalla scelta di “individui” e “variabile casuale”: Tasso di fecondità totale per 1.000 donne in età 15-49 per regione di residenza - Anni 1982-1997 Table 10.1 continue - Total fertility rate per 1.000 women aged 15-49 by region of residence - Years 1982-1997 REGIONI E RIPARTIZIONI 1990 1991 1992 1993 Piemonte 1101 1124 1080 1046 Valle d'Aosta 1.183 1.160 1.116 1.013 Lombardia 1.147 1.124 1.125 1.100 Trentino-Alto Adige 1.402 1.410 1.420 1.345 Veneto .159 1.115 1.138 1.092 Friuli-Venezia Giulia 1.029 1.024 1.043 950 Liguria 1.011 1.007 1.027 960 Emilia-Romagna 1.013 1.007 993 968 Toscana 1.082 1.052 1.048 1.019 Umbria 1.176 1.162 1.176 1.108 Marche 1.230 1.207 1.187 1.131 Lazio 1.280 1.233 1.259 1.208 Abruzzo 1.394 1.353 1.349 1.296 Molise 1.425 1.406 1.421 1.326 Campania 1.809 1.810 1.794 1.663 Puglia 1.654 1.601 1.584 1.486 Basilicata 1.660 1.557 1.570 1.435 Calabria 1.744 1.668 1.653 1.564 Sicilia 1.853 1.775 1.792 1.670 Sardegna 1.370 1.291 1.223 1.164 Nord 1.117 1.104 1.101 1.064 Centro 1.206 1.169 1.179 1.134 Sud 1.712 1.664 1.654 1.547 ITALIA 1.358 1.328 1.326 1.262 (a) Dati provvisori. (a) Provisional data. Fonte: ISTAT - Servizio "Popolazione e cultura". Source: ISTAT - Unit "Popolazione e cultura". 1994 1026 1.082 1.068 1.339 1.064 942 928 956 982 1.074 1.087 1.168 1.245 1.280 1.601 1.437 1.363 1.432 1.548 1.089 1.040 1.094 1.466 1.215 1995 1028 1.102 1.074 1.335 1.073 941 915 967 979 1.061 1.107 1.109 1.175 1.209 1.499 1.369 1.327 1.396 1.455 1.055 1.043 1.068 1.391 1.187 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1996 1047 1.196 1.099 1.385 1.101 975 938 1.006 995 1.068 1.085 1.121 1.191 1.166 1.570 1.367 1.269 1.351 1.468 1.030 1.075 1.076 1.403 1.205 1997 (a) 1088 1.314 1.141 1.436 1.150 1.02 969 1.035 1.03 1.097 1.116 1.167 1.185 1.211 1.573 1.386 1.284 1.329 1.487 1.108 1.115 1.116 1.419 1.217 15 D: A quali dati si possono applicare i vari indici? • Media: solo alle variabili casuali intere o reali • Mediana: solo alle variabili casuali intere o reali • Moda: a qualsiasi distribuzione di dati (anche a quelli nominali) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 16 Esempi di applicazione delle misure di posizione I guasti in un sistema produttivo risultano causati da: 1. Errore umano 12 2. Problemi dell’impianto 22 3. Malfunzionamenti software 7 4. Difetti dei materiali 5 5. Cause sconosciute 6 D.: Cosa scegliereste e perché? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 17 II esempio di applicazione delle misure di posizione I guasti in un sistema produttivo hanno provocato delle interruzioni di: 1. 0-1h 26 2. 1-3h 10 3. 3h-1d 2 4. 1-7d 1 D.: Cosa scegliereste e perché? e come procedereste con i calcoli? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 18 III esempio di applicazione delle misure di posizione I tempi di attesa di un prodotto da parte dei clienti risultano essere stati: 1. 0-2d 2 2. 2-4d 11 3. 4-6d 5 4. 28d 1 D.: Cosa scegliereste e perché? e come procedereste con i calcoli? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 19 Attenzione: Sono riportate spesso delle relazioni empiriche fra moda, mediana e media. Non prendetele troppo sul serio! G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 20 Altra caratterizzazione delle distribuzioni: i percentili Percentile: il p-mo percentile è il minimo dato di una lista tale che almeno p% dei valori della lista siano minori o uguali ad esso. Pertanto per ottenere i percentili da un insieme di dati è necessario ordinarli in una lista. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 21 Nomenclatura: • 25mo percentile I Quartile, o Lower Quartile • 50mo percentile Mediana • 75mo percentile III Quartile, o Upper Quartile G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 22 Esercizio: Classi di altezza 171-175 176-180 181-185 186-190 191-195 196-200 Totale Numero atleti 14 18 28 33 17 15 125 Determinare: 1. Media aritmetica 2. Mediana 3. Moda 4. 10°, 50°, 90° percentile 5. 1°, 2°, 3° Quartile G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 23