Presentazione a cura della prof.ssa ANNUNZIATA DI BIASE Dicembre 2014 Statistica descrittiva Statistica descrittiva e inferenziale Distribuzioni di frequenza Rappresentazioni grafiche Indici di sintesi e di dispersione I termine statistica ha una radice italiana e cioè deriva dalla parola “STATO”. Questa definizione apparve per la prima volta nel 1589 ad opera di Ghislin, che la indicò come “descrizione delle qualità che caratterizzano gli elementi che compongono uno Stato”. Nella sua prima eccezione, quindi, la statistica è principalmente lo studio di informazioni di interesse nazionale. Solo in un secondo momento, questa disciplina cominciò ad allargare i propri confini e ad assumere il significato più generale di analisi quantitativa dei fenomeni collettivi che hanno attitudine a variare. La statistica è lo studio dei fenomeni collettivi (ossia di quei fenomeni che riguardano una pluralità di soggetti), che hanno attitudine a variare. Essa si occupa di raccogliere ed analizzare dati, relativi ad un gruppo di persone (studenti di una scuola, elettori di una regione, abitanti di un quartiere,…) o oggetti (automobili, dischi, libri,…) per trarre conclusioni e fare previsioni. Nello studio della statistica si distingue generalmente tra la statistica descrittiva e la statistica inferenziale. La statistica descrittiva: E’ un’ indagine che si occupa della raccolta, dell’elaborazione dei dati e della descrizione dei fenomeni collettivi o di massa. Essa si occupa di descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi. Quindi, per così dire si occupa di fotografare una data situazione e di sintetizzarne le caratteristiche salienti. La statistica inferenziale: Studia le modalità con cui è possibile estendere all’intero universo statistico le conclusioni di un’ indagine svolta su di un campione e permette di valutare il grado di attendibilità di tali conclusioni. Essa utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni future o comunque incerte. L’INDAGINE STATISTICA E LE SUE FASI Per INDAGINE STATISTICA si intende un’insieme di attività finalizzate ad approfondire la conoscenza di un fenomeno. Le sue FASI sono: 1. IMPOSTAZIONE DELL’INDAGINE STATISTICA 2. RILEVAZIONE DEI DATI 3. SPOGLIO E TRASCRIZIONE DEI DATI 4. ELABORAZIONE DATI 1) IMPOSTAZIONE DELL’INDAGINE STATISTICA In questa prima fase occorre precisare: LO SCOPO DELLA RICERCA GLI OBIETTIVI CHE SI VOGLIONO RAGGIUNGERE LE UNITÀ STATISTICHE OGGETTO DI INDAGINI DISTRIBUZIONE STATISTICHE Una distribuzione statistica serve ordinare e classificare i soggetti secondo un certo criterio. Le distribuzioni statistiche derivano dall’operazione di classificazione delle unità considerate secondo le modalità di uno o più caratteri. Se si riferisce ad un solo carattere la distribuzione statistica si definisce SEMPLICE. Se si riferisce a 2, 3,….N caratteri allora la distribuzione statistica si definisce DOPPIA, TRIPLA,…MULTIPLA. Se il carattere considerato è qualitativo la distribuzione statistica si chiama anche SERIE STATISTICA. Se il carattere è quantitativo allora si parla di SERIAZIONE STATISTICA. 2) RILEVAZIONE DEI DATI – CARATTERI Per rilevare dati statistici, è fondamentale sapere esattamente COSA si vuole misurare e COME. In questa fase occorre individuare in modo preciso la caratteristica (CARATTERE) della popolazione che vogliamo sottoporre a studio. TECNICA DI RACCOLTA DEI DATI Tecnicamente, la raccolta dei dati può essere fatta in modi diversi: misurazioni, questionario ecc.., tuttavia la raccolta più seguita è quella dell’ INTERVISTA DIRETTA o INDIRETTA. L’intervista diretta prevede domande poste direttamente dall’intervistatore. L’intervista indiretta prevede il riempimento di un questionario a risposte aperte o chiuse che l’intervistato deve riempire in tutte le sue parti come il censimento. In Italia il censimento si effettua ogni dieci anni (anni in cui l’ultima cifra è 1, come l’ultimo che è stato rilevato nel 2011, i precedenti 2001,1991,…,1861 (anno dell’unità d’Italia) il prossimo sarà nel 2021). INDAGINE STATISTICA Esempio di intervista indiretta: Questionario sull’impiego del tempo libero Dati generali Dati specifici 6 Pratichi uno sport SI NO 8 Ascolti la musica SI NO 1 Cittadinanza ................ 9 Suoni qualche strumento SI NO 2 Sesso M 11 Guardi la televisione SI NO 3 Età ................ 12 Frequenti discoteche SI NO 4 Peso ................ 13 Vai al cinema SI NO 5 Altezza ................. 14 Ti dedichi alla lettura SI NO 15 Coltivi qualche hobby Si NO 16 Pratichi volontariato SI NO F ORGANI PREPOSTI ALLA RACCOLTA DEI DATI La raccolta dei dati può essere fatta da CHIUNQUE abbia interesse a fare una ricerca statistica. In Italia l’organo più importante che si occupa della raccolta dei dati e della loro successiva elaborazione è L’ISTITUTO CENTRALE DI STATISTICA (sigla ISTAT) In una rilevazione dei dati i caratteri stanno ad indicare l’ insieme dei fenomeni oggetto di studio riguardanti le caratteristiche che differenziano tra loro le unità statistiche. NATURA DEI CARATTERI I caratteri (dati raccolti) possono essere di natura QUANTITATIVA oppure QUALITATIVA. I caratteri o dati qualitativi (o mutabili) sono rappresentati da aggettivi (nazionalità, religione, ecc). I caratteri o dati quantitativi (o variabili) sono espressi da numeri (altezza, peso, ecc.). MODALITA’ DI UN CARATTERE Le modalità sono i diversi aspetti che un carattere può assumere. Esempio: M ed F sono le 2 modalità del carattere sesso. NATURA DI UNA MODALITA’ Carattere qualitativo Carattere quantitativo La modalità può essere Nominale o sconnessa Le modalità NON si possono ordinare secondo una scala di misurazione. Es. credo religioso, malattie,… Ordinale Le modalità si possono ordinare secondo una scala di misurazione. Es. giudizi, titolo di studio,... La modalità può essere Discreta Continua Le modalità sono numeri INTERI. Es. numero fratelli,… Le modalità sono numeri REALI. Es. altezze, pesi,… QUANTITATIVI QUALITATIVI Tipo di carattere Nominale Ordinale Esempi "stato civile", "zona di redidenza" "titolo di studio", "professione" "numero di componenti il Discreto nucleo familiare", "numero di esami sostenuti" Continuo "reddito", "temperatura" Esempi caratteri qualitativi Esempio 1 – modalità nominale o sconnesse: Sesso: M, F Corso di Laurea: Med. Ing. Sc.Pol. Giur. Stat. Mat. Provincia: Cz, Mi, Na, Pa, RM Religione. Cat., Mus.,. Ebreo, Indù, Taoista Esempio 2 – modalità ordinate: Giudizio: Suff. Buono, Ottimo Posizione graduatoria: I II III IV V Classe Soc.: Bassa, Media, Alta Titolo Studio: Nessuno, Elem., Med.inf., Med.sup., Laurea Esempi caratteri quantitativi Esempio 1 – modalità discrete: a. N° componenti famiglia: 1 2 3 4 5 6 7 8 b. N° posti letto ospedale: 125 128 136 547 874 1258 2581 c. Residenti comune: 854 1258 5890 6587 15897 178.985 3.58.211 458.547 2.427.258 Esempio 2 – modalità continue: a. Precipitazioni in pollici a Torino nel mese di aprile (20 giorni): 2.93.73.24.03.92.12.92.91.1 0.43.03.33.21.02.25.43.53.6 4.0 b. Altezza maschi Italiani: 175,3 168,4 187,1 158,4 167,5 170.2 174,6 175.6 SCHEMA RIASSUNTIVO La statistica è lo studio quantitativo di un fenomeno collettivo: si studia individuando il collettivo statistico o popolazione statistica che è l’insieme delle unità statistiche: i singoli casi rispetto ai quali il fenomeno si manifesta le caratteristiche, dette caratteri, delle unità statistiche che ci sembrano rilevanti per la descrizione del fenomeno stesso Il modo in cui ogni carattere si manifesta nelle unità statistiche viene descritto attraverso delle modalità Le modalità possono essere di tipo qualitativo: si esprimono tramite aggettivi e sostantivi; possono essere sconnesse: se non possono essere ordinate ordinate se si può stabilire un ordine quantitativo: si esprimono tramite numeri; possono essere discrete se vengono descritte da numeri interi continue se vengono descritte da numeri reali METODI DI RILEVAZIONE DEI DATI La rilevazione dei dati può essere effettuata su tutta la popolazione oggetto di studio, cioè su tutto l’UNIVERSO, oppure su una porzione di esso, cioè su un CAMPIONE. Gli elementi della popolazione studiata prendono il nome di UNITA’ STATISTICHE. 3) SPOGLIO E TRASCRIZIONE DEI DATI Per lo spoglio dei dati occorre utilizzare un’operazione semplice, ma fondamentale che è il CONTEGGIO. Infatti dopo la rilevazione dei dati occorre contare quante volte una modalità di un carattere si è ripetuta cioè con che frequenza si è ripetuta. Dopo aver contato i dati, vengono scritti in tabelle (rappresentazione numerica) che possono essere semplici o composte. Una TABELLA SEMPLICE è formata da DUE COLONNE e consente la classificazione dei dati rispetto ad un SOLO CARATTERE. Una TABELLA COMPOSTA è formata COLONNE, e consente la classificazione rispetto a PIÙ CARATTERI da dei PIÙ dati 1) TABELLA SEMPLICE ESEMPIO: Riportiamo in una TABELLA SEMPLICE i DATI riguardanti le TEMPERATURE registrate durante una giornata autunnale ad intervalli di sei ore: 1) h=0; T=2°C; 2) h=6;T=2°C; 3) h=12;T=11°C; 4) h=18;T=8°C; 5) h=24;T=4°C dati tabella semplice Orario (h) Temperatura (°C) 0 2 6 2 12 11 18 8 24 4 2) TABELLA COMPOSTA ESEMPIO: Riportiamo in una TABELLA COMPOSTA i DATI riguardanti le ALTEZZE (h) ed i PESI (P) di una famiglia di quattro persone: 1) Padre; h = 175 cm; p = 80 kg; 2) Madre: h = 170 cm; p = 64 kg; 3) Figlio h = 180 cm; p = 74 kg; 4) Figlia h = 173 cm; p = 60 kg dati tabella composta Componente altezza nucleo h = cm peso P = kg Padre 175 80 Madre 170 64 Figlio 180 74 Figlia 173 60 4) ELABORAZIONE DEI DATI In questa fase i dati vengono sottoposti ad una elaborazione matematica il cui scopo è quello di esprimere i risultati dell’indagine in modo sintetico, mediante: 1. rappresentazione numerica dei dati e relative frequenze 2. rappresentazione grafica dei dati 3. Indici di centralità RAPPRESENTAZIONE DEI DATI STATISTICI La rappresentazione dei essere NUMERICA e GRAFICA Rappresentazione numerica dei dati: Rappresentazione grafica dei dati: dati può 1) TABELLE SEMPLICI 2) TABELLE COMPOSTE 1) DIAGRAMMI CARTESIANI 2) ISTOGRAMMI 3) IDEOGRAMMI 4) DIAGRAMMI A TORTA FREQUENZE ASSOLUTE La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ di un CARATTERE si ripete. carattere Colore capelli (carattere) N° persone (frequenza assoluta) Neri 10 6 Castani modalità Rossi 1 Biondi 5 totale 22 Frequenze assolute FREQUENZE RELATIVE Le FREQUENZE ASSOLUTE, di due distribuzioni di dati, anche della stessa specie, non sono confrontabili in quanto si riferiscono, in generale, ad un diverso numero di casi complessivi. Questo inconveniente viene superato introducendo il concetto di FREQUENZA RELATIVA La frequenza relativa di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi. Spesso si esprime la frequenza relativa in forma percentuale. Frequenza relativa = frequenza assoluta / totale casi Esempio: Colore capelli N° persone Frequenza Relativa (carattere) (frequenza assoluta) (f.a./totale) Neri 10 0,46 Castani 6 0,28 Rossi 1 0,02 Biondi 5 24 totale 22 1 Frequenze relative FREQUENZE RELATIVE PERCENTUALI La frequenza relativa percentuale di una certa modalità è data dalla frequenza relativa moltiplicata per 100. Frequenza relativa percentuale = frequenza relativa per 100 Esempio: Colore capelli N° persone Frequenza Relativa Frequenza Relativa % (carattere) (frequenza assoluta) (f.a./totale) Neri 10 0,4545 45,45 Castani 6 0,2727 27,27 Rossi 1 0,0455 4,55 Biondi 5 0,2272 22,72 totale 22 1 100 Frequenze percentuali FREQUENZA CUMULATA E RETROCUMULATA Consideriamo un carattere le cui modalità siano ordinate. Si chiama frequenza cumulata (assoluta o relativa) della modalità x la somma delle frequenze (assolute o relative) della modalità x e di tutte quelle modalità che precedono la x. Si chiama frequenza retrocumulata (assoluta o relativa) della modalità x la somma delle frequenze (assolute o relative) della modalità x e di tutte quelle modalità che seguono la x. Esempio: Colore capelli N° persone Frequenza. Cum assoluta Frequenza Retrocumulata assoluta (carattere) (frequenza assoluta) Rossi 1 1+0=1 1+5+6+10+22= 44 Biondi 5 5+1=6 5+6+10+22=43 Castani 6 6+5+1=12 6+10+22=38 Neri 10 10+6+5+1=22 10+22=32 totale 22 22+10+6+5+1= 44 22+0=22 SCHEMA RIASSUNTIVO Lo spoglio dei questionari o delle schede di rilevazione porta alla costruzione della tabella o matrice dei dati grezzi: tabella in cui a ogni unità statistica compete una riga nella quale sono specificate le modalità che la descrivono in riferimento ai caratteri studiati; da essa si ottengono le assoluta: numero delle modalità da esso descritte tabelle di frequenza per ogni modalità contengono la frequenza corrispondente relativa: rapporto tra la frequenza assoluta e la numerosità del collettivo considerato la frequenza di una modalità può essere può anche essere espressa in forma percentuale. Essa serve a confrontare due collettivi distinti e a valutare il “ peso” di una modalità rispetto alla totalità del collettivo cumulata: somma delle frequenze di tutte le modalità minori o uguali alla modalità considerata retrocumulata: somma delle frequenze di tutte le modalità maggiori o uguali alla modalità considerata DISTRIBUZIONE DI FREQUENZA In una tabella di frequenza a ogni modalità di un carattere è associato un numero che rappresenta la frequenza di quella modalità. Non è difficile riconoscere che ci troviamo di fronte a una funzione. Si chiama distribuzione di frequenza la funzione che associa a ogni modalità ad un dato carattere la sua frequenza. Il dominio di una distribuzione di frequenza è l’insieme delle modalità di un carattere. CLASSI DI FREQUENZE Se in una DISTRIBUZIONE i dati sono molto NUMEROSI, allora i valori dei caratteri possono essere raggruppati in classi; nel caso di caratteri quantitativi le classi sono sovente intervalli di valori, i cui valori estremi siano compresi in uno e un solo intervallo. La suddivisione in classi consente di determinare le frequenze assolute e relative delle classi in luogo delle singole modalità. Si definisce ampiezza di una classe la differenza tra l’estremo superiore e l’estremo inferiore della stessa. Le classi possono essere: 1. di pari ampiezza ampie) 2. di pari frequenza frequenti). (equi(equi- REGOLE PER LA COSTRUZIONE DELLE CLASSI Le regole fondamentali per la suddivisione in classi dei valori del carattere rilevati sono le seguenti: 1. Le classi devono essere esaustive: ogni valore deve appartenere ad almeno una classe; 2. le classi devono essere a due a due disgiunte, quindi ogni valore deve appartenere ad una sola classe (in modo da evitare che esso sia considerato due volte e quindi siano contate due volte le unità statistiche che hanno come determinazione del carattere quel valore ); 3. le classi devono essere ordinate in modo che i valori della prima precedono tutti quelli della seconda classe e quelli della seconda precedono quelli della terza classe e cosi via. I raggruppamenti delle classi possono essere operati in modo diverso, ma devono essere ordinate in ordine crescente. Di ogni classe si calcola: l’ampiezza, la densità di frequenza (se le ampiezze delle classi sono diverse) e il valore centrale. Ampiezza = differenza tra l’estremo superiore e l’estremo inferiore. Densità di frequenza = rapporto tra la frequenza relativa e l’ampiezza. Valore centrale = media aritmetica tra l’estremo inferiore e l’estremo superiore. TRASCRIZIONE DEI DATI PER CLASSI La rappresentazione di una DISTRIBUZIONE DI DATI PER CLASSI, si presenta VANTAGGIOSA quando i dati sono molto NUMEROSI. Rappresentazione numerica E S E M P I O Rappresentazione per classi di peso PESO (Kg) (termini) N° STUDENTI (frequenze) CLASSI DI PESO (termini) N° STUDENTI (frequenze) 52 1 50 – 60 Kg 4 54 1 60 – 70 Kg 7 55 2 70 – 80 Kg 3 61 1 totale 14 63 1 68 2 69 3 71 1 73 1 75 1 TOTALE 14 L’ informazione, diviene meno precisa nel caso di una distribuzione per classi, tuttavia la visione della distribuzione diventa più semplice e rapida RAPPRESENTAZIONI GRAFICHE dei dati statistici Le INFORMAZIONI che derivano da una raccolta dati sono più evidenti se sono visualizzate attraverso GRAFICI I GRAFICI possono essere di diverso tipo: Rappresentazioni grafiche dei dati: 1) 2) 3) 4) DIAGRAMMI CARTESIANI ISTOGRAMMI IDEOGRAMMI DIAGRAMMI A TORTA Le rappresentazioni grafiche hanno l’obiettivo di illustrare, mediante: -figure, -linee o segmenti, -superfici o aree, -solidi, -simboli convenzionali -ecc. una distribuzione di frequenze o delle modalità di uno o più caratteri. Per massimizzare l’efficacia di un grafico l’attenzione deve essere concentrata sui dati. Pertanto le componenti di supporto: • Devono essere presenti solo se necessarie: titoli degli assi, legende e etichette in alcuni casi possono essere essenziali per la comprensione del grafico, ma in altri possono essere del tutto inutili. • Devono essere lievi: è preferibile usare linee più leggere per gli assi e per la griglia e linee più marcate per i dati. Gli effetti decorativi non devono allontanare l’attenzione del lettore dai dati. Un grafico chiaro Un grafico confuso 30 30 25 25 20 20 15 Serie1 10 10 15 10 10 0 0 A B C Nel grafico tutte le componenti hanno il massimo impatto. Il risultato è un grafico confuso, difficile da leggere anche se sono presenti solo 3 valori. A B C Il grafico a destra è più facile da leggere. Il ricorso a poche componenti di supporto permette di concentrare l’attenzione sui dati. 1. Diagrammi cartesiani 2. Diagrammi cartesiani a segmenti 3. Istogrammi 3. Poligono di frequenza DIAGRAMMA CARTESIANO Un DIAGRAMMA CARTESIANO è formato da due RETTE (assi) perpendicolari tra loro, l’asse ORIZZONTALE si chiama ASCISSA (asse X), l’asse VERTICALE si chiama ORDINATA (asse Y). Su di essi vengono riportati i dati statistici, viene usato per rappresentare le SERIE STORICHE. Esempio: Riportiamo su di un DIAGRAMMA CARTESIANO le TEMPERATURE registrare ogni sei ore, durante una giornata autunnale : 1) h=0; T=2°c2) h=6;T=2°C 3) h=12;T=11°C 4) h=18;T=6°C 5) h=24;T=4°C Basta riportare sull’ asse X il Tempo e sull’ asse Y le Temperature dati Grafico T (°C) Y 12 10 8 6 4 (0;2) 2 0 (12;11) (18;6) (6;2) (24;4) 6 12 18 24 h (ore) DIAGRAMMA CARTESIANO X ISTOGRAMMA L’ISTOGRAMMA è un grafico a colonne: le colonne (rettangoli) hanno basi uguali e possono essere disegnate una vicino all’altra. L’altezza è proporzionale alla frequenza di ciascun dato. Vien usato nei caratteri quantitativi CONTINUI. Esempio: Riportiamo in un ISTOGRAMMA le marche di cellulari più in uso fra i giovani : NOKIA (300), SIEMENS (240), SAMSUG (120), PANASONIC (80), MOTOROLA (50) 320_ 280_ 240_ 300 240 200_ ISTOGRAMMA 160_ 120_ 180_ 140_ 120 80 50 Noki Siem Sams Pana Moto Gli istogrammi si impiegano per rappresentare graficamente distribuzioni di frequenza di caratteri quantitativi le cui modalità sono costituite da classi di valori. A tal fine occorre distinguere due casi, ovvero: 1. Le classi di valori hanno uguale ampiezza. In questo caso avremo tanti rettangoli contigui, ciascuno avente base uguale all’ampiezza della classe e altezza uguale o proporzionale alla frequenza (assoluta o relativa) assunta nell’insieme delle unità della classe. 2. Le classi di valori hanno diversa ampiezza. In quest’altro caso avremo una serie di rettangoli aventi basi diverse uguali all’ampiezza delle classi e altezze da calcolarsi, in modo che le frequenze siano proporzionali alle aree dei rispettivi rettangoli. In ordinata, pertanto, avremo le cosiddette densità di frequenza date dal rapporto tra la frequenza (assoluta o relativa) di ciascuna classe e la relativa ampiezza. Esempio: Ampiez Classi za della xi xl xi 1 classe di 0 |--| 2 2 --| 4 4 --| 6 6 --| 8 8 --| 11 Totale 2 2 2 2 3 Freq. relativa ni fi n 0,60 0,24 0,08 0,06 0,02 1,00 Densità di Somma delle frequenza aree i fi Pl dl hl hi l 1 di 0,30 0,60 0,12 0,84 0,040 0,92 0,030 0,98 0,0067 1,00 La classe (0 ; 2) indica un intervallo chiuso con l’estremo inferiore uguale a zero e l’estremo superiore uguale a 2. Tutte le altre classi indicano degli intervalli aperti all’estremo inferiore e chiusi all’estremo superiore. densità di frequenza Istogramma normalizzato del numero di stabilimenti (classi equiampie) 0.30 0.25 0.20 0.15 0.10 0.05 0.0 0 2 4 6 classi di modalità 8 10 Il poligono di frequenza è una spezzata che unisce i punti aventi per ascissa i punti centrali delle classi e per ordinata la relativa frequenza. In un istogramma, il poligono delle frequenze unisce i punti medi dei lati superiori dei rettangoli; la spezzata deve essere chiusa e deve toccare l’asse delle ascisse all’esterno delle classi estreme, in modo che l’area all’interno del poligono di frequenza equivalga a quella dell’istogramma. Ogni vertice del poligono delle frequenze corrisponde al valore centrale di una classe. Il termine “poligono” è usato impropriamente perché indica una spezzata aperta (e non chiusa). Se le classi hanno la stessa ampiezza, (di solito si considerano come vertici della spezzata anche i punti corrispondenti ai valori centrali delle classi immediatamente precedenti e immediatamente successive a quelle per le quali la frequenza è diversa da zero. Queste classi hanno frequenza zero. Si può verificare che in tal modo la somma delle aree dei rettangoli dell’istogramma è uguale all’area delimitata dall’asse orizzontale e dal poligono delle frequenze. La somma delle aree dei rettangoli di un istogramma è uguale all’area sottostante il poligono delle frequenze. Sono impiegati per rappresentare graficamente caratteri quantitativi DISCRETI, non divisi in classi, e possono configurarsi a segmenti verticali. Esempio. Numero dei componenti per famiglia, numero delle stanze delle abitazioni, numero di unità locali delle aziende e così via. Essi si costruiscono come gli usuali diagrammi cartesiani aventi due assi perpendicolari: l’asse delle ascisse (x) e l’asse delle ordinate (y), aventi origine comune in zero. Ogni coppia ordinata di valori (xi,yi) determinerà un punto nel piano e l’insieme di tutte le coppie (xi = modalità quantitativa i-esima, yi = frequenza della modalità i-esima) determinerà l’insieme dei punti nel piano che costituiscono la rappresentazione grafica della distribuzione considerata. Per rendere maggiormente visibili tali punti, si tracciano dei segmenti verticali congiungenti l’ascissa (xi) con il punto del piano corrispondente all’ordinata (yi). E’ da notare che in questo caso è scorretto costruire il poligono o spezzata di frequenza congiungendo tra loro i punti poiché il carattere considerato è discreto e quindi, per sua natura, non possiede i valori intermedi a quelli indicati dalle modalità quantitative. Una spezzata di frequenza che unisse tra loro le modalità, infatti, attribuirebbe anche valori intermedi alle modalità stesse. 1. Grafici a barre: ortogrammi o a nastri 2. Diagrammi circolari 3. Ideogrammi 4. Cartogrammi, mappe tematiche I grafici a barre sono impiegati per rappresentare graficamente caratteri con modalità qualitative, serie sconnesse o rettilinee e possono essere di due tipi: 1. A colonne se sono costituiti da una successione di colonne, segmenti verticali o rettangoli (a base uguale) equidistanti, in numero pari alle modalità del carattere, e hanno altezza uguale o proporzionale alla frequenza (assoluta o relativa). Sull’asse delle ascisse (orizzontale) si riportano le modalità, sull’asse delle ordinate (verticale) si riportano le frequenze. 2. A nastri, se sono costituiti da tanti nastri (segmenti orizzontali, rettangoli) sovrapposti ed equidistanti, in numero pari alle modalità del carattere, e hanno lunghezza uguale o proporzionale alla frequenza (assoluta o relativa). Sull’asse delle ascisse (orizzontale) si riportano le frequenze, sull’asse delle ordinate (verticale) si riportano le modalità. Ortogramma a colonne Ortogramma a nastri Se la rappresentazione grafica riguarda una serie sconnessa, l’ordine in cui saranno poste le modalità è arbitrario; se si tratta invece di una serie rettilinea (es. titolo di studio), le modalità saranno poste nell’ordine naturale che esse presentano nella serie. Esempio di ortogramma: popolazione per condizione, settore di attività economica degli occupati e sesso in Italia nel 1981. Maschi(in migliaia) Agricoltura Industria 1.7865.901 Altre attività 6.520 In cerca di Occupazione 808 Femmine(in migliaia) 9731.826 3.745 1.104 Gli ortogrammi si utilizzano anche per rappresentare contemporaneamente dati di segno opposto come entrate e uscite, importazioni ed esportazioni. Un esempio di ortogramma per la rappresentazione contemporanea di dati positivi e negativi è quello riportato sotto. Carattere qualitativo nominale a barre verticali: ORTOGRAMMA N.B. E’ possibile costruire il diagramma a barre riportando in ordinata le frequenze assolute OPPURE le frequenze relative, la forma della rappresentazione risulta invariata. principali cause di morte nell'uomo nei Paesi industrializzati (fonte: WHO) Nel grafico precedente, la scala delle ascisse indica i tassi di mortalità per 100.000 persone e per anno (cioè il numero di morti ogni 100.000 persone in 1 anno per ogni causa considerata). In particolare, le barre verdi forniscono i valori osservati nel 1900, quelle gialle i valori del 1984. Ora, confrontando le differenze fra le barre verdi e le gialle per tutte le cause riportate nel grafico, saltano agli occhi gli enormi progressi ottenuti per le malattie infettive tubercolosi, influenza, polmonite ecc.) alcune delle quali risultano oggi pressoché scomparse nei Paesi industrializzati a cui il grafico si riferisce. La facilità con cui abbiamo acquisito informazioni dal grafico, è una conseguenza della loro visualizzazione in forma di grafico a barre: questa rappresentazione consente di cogliere le caratteristiche salienti della rilevazione statistica e di effettuare raffronti con notevole immediatezza rispetto ai soli dati numerici. Per contro, a questa maggior immediatezza di sintesi può far riscontro una diminuzione del senso critico nel valutare i dati. DIAGRAMMI CIRCOLARI O AEROGRAMMA L’AREOGRAMMA è un tipo di rappresentazione grafica alla quale si ricorre quando si vogliono rappresentare le parti che compongono un fenomeno statistico, usato nei caratteri qualitativi SCONNESSI. In tal caso si traccia una CIRCONFERENZA e si procede alla sua divisione in parti proporzionali alle intensità delle componenti del fenomeno statistico. Esempio Un collezionista si ritrova con 5.750 francobolli di cui: 1.250 sono della Città del Vaticano, 1.100 della Repubblica di S Marino e 3.400 Italiani. Rappresentare il fenomeno statistico mediante un diagramma a torta. ampiezza settori circolari percentuali 1.250 C.Vat 100 22% 5.750 S.Mar Ital. 22% 59% 19% 1.100 100 19% 5.750 3.400 100 59% 5.750 C.Vat 1.250 360 78 5.750 S.Mar AEROGRAMMA o diagramma a torta Ital. 1.100 360 69 5.750 3.400 360 213 5.750 I diagrammi circolari (o aereogrammi) per la loro forma circolare, sono comunemente noti come ‘‘diagrammi a torta’’. Sono particolarmente adatti alle serie sconnesse o rettilinee. Sono efficaci per mettere in evidenza l’importanza relativa delle singole modalità rispetto al totale. IDEOAGRAMMA L’IDEOGRAMMA è un tipo di rappresentazione grafica nel quale il fenomeno statistico viene rappresentato mediante l’impiego di FIGURE che richiamano idealmente il contenuto del fenomeno e dove la sua frequenza è proporzionale alle DIMENSIONI oppure al NUMERO delle figure impiegate. Quando il fenomeno da rappresentare non si può rappresentare con una figura intera allora si ricorre ad una FRAZIONE di essa. Esempio Rappresentare mediante un ideogramma le popolazioni di due cittadine formate da 6.500 e 4.000 abitanti. Unità di riferimento = 1.000 abitanti 6.550 abitanti 4.000 abitanti I cartogrammi sono grafici utili per rappresentare serie territoriali o geografiche. Per costruire un cartogramma occorre disporre di una carta geografica o topografica in cui siano chiaramente delimitate le diverse zone, regioni, circoscrizioni (geografiche, politiche, amministrative) rispetto alle quali viene analizzata l’intensità o la frequenza di uno o più caratteri (es. nati, morti, reddito pro capite, secondo le Regioni, Province, Comuni). I cartodiagrammi non sono altro che dei cartogrammi in cui, anziché delle serie territoriali semplici, vengono rappresentate delle serie territoriali di due o più caratteri. Esempio: I nati vivi e i morti per 1.000 abitanti nelle 20 Regioni italiane nel 1986. SCHEMA RIASSUNTIVO Caratteri qualitativi sconnessi Diagramma a Diagramma a Diagramma a Diagramma a Caratteri qualitativi ordinati Diagramma a colonne Diagramma a nastri Caratteri quantitativi discreti Caratteri quantitativi continui torta colonne: istogramma nastri o a barre segmento Diagramma ad aste o segmenti Diagramma a colonne:istogrammi Serie storiche Diagramma cartesiano Diagramma a colonne: ortogrammi Serie geografiche Cartogramma La scelta della rappresentazione grafica Questi 2 grafici rappresentano la stessa distribuzione. Qual è più chiaro? Quale settore del diagramma circolare è maggiore? La scelta della rappresentazione grafica Per la maggior parte delle persone è confrontare segmenti piuttosto che angoli. più facile Nel diagramma circolare i settori numero 1 e 4 sembrano identici, mentre nel diagramma a barre è evidente la differenza. E’ opportuno rappresentare la stessa distribuzione con più grafici per individuare quello che meglio rappresenta il messaggio che si vuole veicolare. I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. di calcolo MEDIE (semplici e (tengono conto di TUTTI i di sintesi ponderate) valori della distribuzione) di posizione (si calcolano tenendo MEDIANA MODA conto solo di ALCUNI valori) INDICI di dispersione CAMPO DI VARIAZIONE O RANGE VARIANZA SCARTO QUADRATICO MEDIO COEFFICIENTE DI VARIAZIONE MEDIA ARITMETICA SEMPLICE Consideriamo una distribuzione di DATI DIVERSI UNO DALL’ALTRO: a a .............. an 1 2 La MEDIA ARITMETICA SEMPLICE è uguale alla somma dei dati divisa per n, cioè: a a a ...... a n 1 2 3 M n Le medie sono adatte a rappresentare distribuzioni di caratteri quantitativi MEDIA ARITMETICA SEMPLICE Esempio di calcolo Un alunno nei tre compiti di matematica ha riportato i voti presenti in tabella. Calcolare la MEDIA ARITMETICA dei voti. COMPITO VOTO N° 1 7 N° 2 8 N° 3 6 TOTALE 21 a a a M 1 M 2 3 n 7 8 6 21 7 3 3 Dove: 21 = somma dei voti 3 = numero dei voti 7 = MEDIA ARITMETICA dei voti MEDIA ARITMETICA PONDERATA Se i dati si presentano con una certa FREQUENZA o PESO allora il calcolo della media deve essere effettuato sommando ogni termine tante volte quante indica la sua frequenza. Supponiamo che: Il termine a1 si presenta con frequenza p1 Il termine a2 si presenta con frequenza p2 ………………………………………………………………………… Il termine an si presenta con frequenza pn Il calcolo della MEDIA PONDERATA si effettua con la relazione: Mp a p a p a p ...... an pn 1 1 2 2 3 2 3 3 p p p ....... pn 1 MEDIA ARITMETICA PONDERATA Esempio di calcolo 20 Studenti di una classe, hanno ottenuti in matematica i voti riportati in tabella. Calcolare la MEDIA PONDERATA dei voti. Voto in Matematica Numero studenti 4 2 5 3 6 8 7 5 8 2 totale 20 Mp a p a p a p a p a p 1 1 2 3 3 4 p p p p p 1 Mp 2 2 3 4 4 5 5 5 4 2 53 68 7 5 8 2 122 6,1 2 38 5 2 20 Dove: 122 = somma dei voti 20 = numero di studenti 6,1 = MEDIA PONDERATA dei voti MEDIA PONDERATA NEL CASO DI UNA DISTIBUZIONE DI DATI PER CLASSI In questo caso ad ogni classe, viene sostituito il TERMINE CENTRALE, calcolato mediante la semisomma dei termini estremi della classe (X1-X2). I termini centrali cosi ottenuti costituiscono i termini a1; a2; a3; ecc. della distribuzione. classe frequenza X1-X2 p1 X2-X3 p2 X3-X4 p3 ecc. ecc. Infine la media ponderata si calcola con la relazione SEMISOMME x x a1 1 2 2 x x a2 2 Mp 3 2 Termine centrale frequenze a1 p1 a2 p2 a3 p3 ecc. ecc. a p a p a p ...... an pn 1 1 2 2 3 2 3 3 p p p ....... pn 1 MEDIA PONDERATA DI UNA DISTIBUZIONE DI DATI PER CLASSI Esempio di calcolo Si fa riferimento ai dati della tabella 1 Classi di età (anni) CALCOLO valori centrali n° persone (Frequenze) 0 - 20 a1 35 20 - 40 4 40 - 60 1 totale 40 a2 0 20 20 10 2 2 termini central i n° persone (Frequenz e) a1 = 10 P1 = 35 a2 = 30 20 40 60 30 a3 = 50 2 2 totale P2 = 4 P3 = 1 40 Calcolo della media ponderata a p a p a p 1035304 501 520 Mp 1 1 2 2 3 3 13 p p p 40 40 1 2 3 Età media = 13 anni MODA Si definisce MODA di una distribuzione di dati il termine corrispondente alla MASSIMA FREQUENZA assoluta o relativa. ESEMPIO: di voti: Determinare la MODA della seguente distribuzione VOTO FREQUENZA 5 4 6 8 7 4 8 2 9 1 Il termine che corrisponde alla massima frequenza (8) è il 6, pertanto: MODA = 6 La moda è particolarmente adatta a rappresentare distribuzioni di caratteri qualitativi Le distribuzioni di frequenza possono essere: zeromodali: nessuna modalità ha una frequenza più elevata degli altricioè fanno tutti frequenza uguale ad 1. Esempio A = {1, 2, 3, 4, 5, 6} unimodali : c’è una sola modalità con una frequenza più elevata degli altri. Esempio: A = {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7, 8} bimodali : ci sono due modalità con una frequenza più elevata degli altri. Esempio: A = {1, 2, 2, 3, 3, 3, 3, 5, 6, 6, 6, 6, 7, 7, 8, 8 } trimodali, ecc : ci sono tre,…, modalità con una frequenza più elevata degli altri. Esempio: A = {1, 2, 3, 3, 3, 3, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8}. plurimodali: tutte le modalità della distribuzione hanno la stessa frequenza diversa da uno. CLASSE MODALE Nel caso di caratteri continui e per distribuzioni fornite per classi equi-ampie il calcolo della moda avviene mediante l’individuazione della classe modale, cioè quella caratterizzata dalla massima frequenza. Se le classi non sono equi - ampie è bene dividere la frequenza assoluta di ogni classe per l’ampiezza dell’intervallo ottenendo la cosiddetta “densità di frequenza”. La classe modale è quella con la densità di frequenza più alta. Per la determinazione della classe modale è opportuno ricorrere all'istogramma, individuando l'intervallo di altezza massima, ovvero il punto di massimo della curva. La classe con la maggiore densità media (che corrisponde all'altezza dell'istogramma) è quella modale. MEDIANA MEDIANA il termine che occupa il POSTO CENTRALE di una distribuzione di dati ordinati in modo crescenti. La mediana è adatta a rappresentare distribuzioni di caratteri quantitativi. Si definisce ESEMPIO: di voti: Determinare la MEDIANA della seguente distribuzione VOTO FREQUENZA 5 4 6 8 7 4 8 2 9 1 Si ordinano i dati in maniera crescente 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 8 8 9 Il TERMINE CENTRALE è il 6, infatti è quello che lascia alla sua destra e alla sua sinistra un eguale numero di termini, pertanto si ha: MEDIANA = 6 Per caratteri quantitativi discreti: •Si dispongono i valori in una serie ordinata in modo crescente o decrescente e si conta il numero totale n di dati: •se n è dispari, la mediana corrisponde al valore numerico del dato che occupa la posizione (n+1)/2; •se n è pari, la mediana è calcolata come la media aritmetica dei valori che occupano le posizioni (n/2) e (n/2)+1 . Per caratteri quantitativi continui: Il raggruppamento in classi delle modalità consente al più di determinare la classe mediana nella quale ricade l’unità statistica che bipartisce la distribuzione ordinata delle modalità. 80 Quando i dati sono distribuiti uniformemente su entrambi i lati del picco la distribuzione è simmetrica. Quando i dati non sono distribuiti uniformemente su entrambi i lati del picco la distribuzione è asimmetrica. In una distribuzione unimodale valgono le seguenti relazioni: media=mediana=moda ( simmetria) moda<mediana<media (asimmetria +) media < mediana < moda (asimmetria -) RICAPITOLANDO I principali indicatori della statistica descrittiva sono: 1. media: è la somma di tutte le N osservazioni divisa per N. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la media è 43/8 2. moda: è il numero di osservazioni che compare con maggior frequenza. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la moda è 4. In alcune distribuzioni, la moda può mancare, oppure essere presente per più di un valore; in questo caso, si hanno distribuzioni bimodali (due mode), trimodali (tre mode), plurimodali. 3. mediana: è il numero che compare al centro dei valori osservati, se questi sono dispari; se sono pari, è la media fra i due valori centrali. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la mediana è (4 + 5)/2 Calcolare la media e la mediana di una serie di 6 dati (10,1; 10,8; 13,1; 13,9; 14,2; 14,5; ) e rappresentarle graficamente. la media è 12,85 la mediana, essendo n pari, è data dalla media aritmetica dei valori che occupano le posizioni 3 e 4 quindi sarà: 13.1 13.9 Me 13.5 2 85 esempio: Disegnato l'istogramma delle frequenze (v. fig. a destra) calcolare le stime campionarie per un paziente del quale è stato registrato il seguente numero di battiti cardiaci al minuto in un periodo di 10 giorni: -[73, 72, 73, 74, 70, 76, 72, 74, 74, 73] Le stime campionarie sono: la media è data dalle osservazioni/N = (73 + 72 + 73 + 74 + 70 + 76 + 72 + 74 + 74 + 73)/10 = 73,1 la mediana, trattandosi di un insieme costituito da osservazioni in numero pari, è data dalla media dei valori centrali: 70, 72, 72, 73, 73, 73, 74, 74, 74, 76 (73 + 73)/2 = 73 la moda è bimodale, ed è costituita dai due valori più frequenti: 73 e 74 Prova tu ……… Esercizio Lanciando due dadi, si sono registrati i seguenti punteggi totali: 10 – 9 – 8 – 11 – 5 – 4 – 10 – 4 – 7 – 7 – 9 – 10 – 4 – 6 – 8 – 9 – 6 – 5 – 6 – 8 – 7 – 10 – 9 – 5 – 6 – 3 – 8 – 7 – 5 – 7 – 11 1. organizza i dati in una tabella di frequenza 2. qual è il dato con la maggior frequenza 3. sono usciti più frequentemente risultati dispari o pari? 4. sono usciti più frequentemente risultati maggiori o minori di 7? 5. qual è la frequenza percentuale del punteggio 6? 6. Determina la MODA e la MEDIANA INDICATORI DI DISPERSIONE CAMPO DI VARIAZIONE (RANGE) La caratteristica dei valori misurati per un certa osservazione a distribuirsi attorno ad un valore medio è chiamato dispersione. Per misurare la dispersione o variabilità dei valori, si utilizzano indicatori statistici detti di dispersione. Il campo di variazione o range di una raccolta di dati è la differenza tra il massimo ed il minimo valore osservati: R = xmax − xmin Il campo di variazione è poco usato perchè: • trascura la maggior parte dell’informazione disponibile • risente eccessivamente dei valori estremi. VARIANZA (σ2) La VARIANZA serve per valutare la VARIABILITÀ di un fenomeno statistico. La VARIANZA è la media aritmetica degli scarti al quadrato, si indica con il simbolo σ2 ( si legge sigma al quadrato) e si calcola con la relazione: a M 2 a M 2 ........ an M 2 2 2 1 n 1) La VARIANZA è sempre POSITIVA: infatti i termini (aM)2 sono tutti positivi 2) La VARIANZA è uguale a ZERO se la VARIABILITÀ è nulla 3) La VARIANZA è tanto più ALTA quanto più alta è la VARIABILITÀ VARIABILITA’ DI UN FENOMENO STATISTICO Per comprendere cos’è la VARIABILITA’ di un fenomeno statistico consideriamo la tabella che segue, nella quale vengono indicati quanti televisori sono stati venduti da un commerciante nei primi tre mesi del 2003 e 2004 Dalla tabella si nota che nel 2003 mese 2003 2004 la vendita mensile dei televisori Gennaio 30 40 risulta COSTANTE (30-30-30), mentre nel 2004 essa subisce una febbraio 30 20 VARIAZIONE (40-20-30) marzo 30 30 totale 90 90 Pertanto: 2) SI HA VARIABILITÀ nelle vendite del 2004 1) NON SI HA VARIABILITÀ nelle Vendite del 2003 Si ha VARIABILITA’ quando i dati relativi ad un fenomeno statistico non sono tutti uguali. CALCOLO DELLA VARIANZA I prezzi di CILIEGIE ed ANGURIE, in una settimana, variano secondo i dati riportati in tabella. Stabilire in base al calcolo della VARIANZA quale dei due prodotti ha subito una maggiore variazione di prezzo. giorno 1 Kg di Ciliegie 1 Kg di Angurie Scarto ciliegie Scarto al quadrato Scarto angurie Scarto al quadrato Lunedì € 5,00 € 1,00 - 0,25 0,0625 + 0,25 0,0625 Martedì € 5,10 € 1,00 - 0,15 0,0225 + 0,25 0,0625 Mercoledì € 5,20 € 0,80 - 0,05 0,0025 + 0,05 0,0025 Giovedì € 5,30 € 0,70 + 0,05 0,0025 - 0,05 0,0025 Venerdì € 5,40 € 0,50 + 0,15 0,0225 - 0,25 0,0625 Sabato € 5,50 € 0,50 + 0,25 0,0625 - 0,25 0,0625 MEDIA € 5,25 € 0,75 0 0,175 0 0,225 Per le angurie si ha: M = 0,75 e σ2 = 0,225/6 = 0,04 Per le ciliegie si ha: M = 5,25 e σ2 = 0,175/6 = 0,03 Essendo la VARIANZA delle angurie (0,04), maggiore della VARIANZA delle ciliegie (0,03), il prezzo delle angurie ha subito una variazione maggiore rispetto al prezzo delle ciliegie SCARTO QUADRATICO MEDIO (σ) o deviazione standard A volte per misurare il grado di VARIABILITÀ di una distribuzione di dati, si preferisce ricorrere allo SCARTO QUADRATICO MEDIO cioè alla RADICE QUADRATA della VARIANZA. La deviazione standard, scarto tipo o scarto quadratico medio è un indice di dispersione statistico, vale a dire una stima della variabilità di una popolazione di dati o di una variabile casuale. La deviazione standard è data dalla RADICE QUADRATA della VARIANZA. varianza 2 L’IMPORTANZA dello scarto quadratico medio risiede nel fatto che esso permette di giungere al concetto di NORMALITA’ nel campo statistico. COEFFICIENTE DI VARIAZIONE Il coefficiente di variazione, definito dal rapporto fra deviazione standard e la media aritmetica dei dati, V = σ/ m (m = media aritmetica dei dati, con m diverso da zero) fornisce una indicazione della variabilità delle osservazioni rilevate. In particolare, se: •V = 1, allora σ = m e la media non è un indice corretto; •V = 0, allora σ = 0 e la media è un indice perfetto; •V > 0.5, la media non è un indice corretto; •V ≤ 0.5, la media è un indice corretto. NORMA e FUORI NORMA Un CARATTERE su cui si indaga si dice compreso NELLA NORMA quando esso non differisce dal CARATTERE MEDIO di più o di meno tre volte lo SCARTO QUADRATICO MEDIO. Un CARATTERE che va fuori tali limiti si dice FUORI NORMA. Esempio: Se una popolazione evidenzia un’ALTEZZA MEDIA H = 175 cm con uno SCARTO QUADRATICO MEDIO σ = 5 cm, possiamo dire che: Un’ALTEZZA rientra NELLA NORMA se compresa tra: H – 3 x σ = 175 – 3 x 5 = 160 cm H + 3 x σ = 175 + 3 x 5 = 190 cm ALTEZZE fuori da tale intervallo (160;190cm) sono FUORI NORMA ESEMPI esempio 1: studiare la curva di distribuzione i cui valori sono: 95, 96, 97, 98, 99, 101, 102, 103, 104, 105 il campo di variazione è: 105 - 95 = 10 la media è: 100 e non corrisponde ad alcun valore realmente osservato; la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica la moda è mancante (zeromodale) la deviazione standard o scarto quadratico è: 3.3 ed indica che la media fornisce una stima adeguata delle misure osservate. Infatti, nell'intervallo (100 - 3.3); (100 + 3.3) cadono 6 valori su 10 il coefficiente di variazione è: 3,3/ 100 = 0.033, un valore molto basso e quindi la media è un indicatore corretto. esempio 2: Studiare la curva di distribuzione i cui valori sono: 95, 95, 95, 95, 95, 105, 105, 105, 105, 105 il campo di variazione è: 105 - 95 = 10 la media è: 100 e non corrisponde ad alcun valore realmente osservato; la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica la moda è: bimodale, con i valori 95 e 105. Questo è l'indicatore più appropriato per la distribuzione in oggetto. la deviazione standard è: 5 ed indica che la media fornisce una stima adeguata delle misure osservate. Infatti, nell'intervallo (100 - 5); (100 + 5) cadono 10 valori su 10 il coefficiente di variazione è: 5/ 100 = 0.05, un valore basso. Inoltre, anche senza osservare il grafico, si può intuire che i valori osservati sono concentrati agli estremi. La media, in questo caso, è un indice corretto. esempio 3: studiare la curva di distribuzione i cui valori sono: 0, 0, 50, 50, 100, 100, 150,150, 200, 200 il campo di variazione è: 200 - 0 = 200 la media è: 100 corrisponde a due valori realmente osservati; la mediana è: 100 ed è uguale alla media; ciò indica una distribuzione simmetrica la moda è: plurimodale la deviazione standard è: 70,7 ed indica che la media fornisce una stima adeguata delle misure osservate. Nell'intervallo (100 - 70,7); (100 + 70,7) cadono 6 valori su 10 e l'intervallo in cui cadono i dati è coperto al 50% il coefficiente di variazione è: 70.7/ 100 = 0.7 un valore alto, e quindi l'indicatore più adatto è la moda in quanto la distribuzione è multimodale. esempio 4: studiare la curva di distribuzione i cui valori sono: 20, 40, 50, 60, 70, 80, 90, 90, 100, 200, 200, 200 il campo di variazione è: 200 - 20 = 180 la media è: 100 e corrisponde ad un valore realmente osservato; la mediana è: 85 ed è differente dalla media; ciò indica una distribuzione asimmetrica la moda è 200. Questo è l'indicatore più appropriato per la distribuzione in oggetto. la deviazione standard è: 61.6 e la media fornisce una stima adeguata delle misure osservate. il coefficiente di variazione è: 61.6/ 100 = 0.62 un valore elevato, infatti i valori osservati sono piuttosto distribuiti. La presenza di un valore estremo (200) provoca una distorsione sugli indici di variabilità e toglie significato rappresentativo alla media. Questo è un caso piuttosto frequente in campo medico (per es., i valori degli esami del sangue) ed in altri settori applicativi. In questo caso, il valore della media è troppo spostato a destra rispetto alla maggior parte dei valori della distribuzione di frequenza. L'indicatore migliore è pertanto la mediana, che risente meno dei valori estremi. FINE PRESENTAZIONE …e adesso… buon lavoro!