I.P.S.S.C.T.P. “S.Pertini” CROTONE Rappresentazione dei dati statistici Autore: prof. Enrico Paniconi E-mail [email protected] RAPPRESENTAZIONE dei dati statistici La rappresentazione dei dati può essere NUMERICA e GRAFICA Rappresentazione numerica dei dati: Rappresentazione grafica dei dati: 1) TABELLE SEMPLICI 2) TABELLE COMPOSTE 1) 2) 3) 4) DIAGRAMMI CARTESIANI ISTOGRAMMI IDEOGRAMMI DIAGRAMMI A TORTA RAPPRESENTAZIONE NUMERICA dei dati statistici Rappresentazione numerica dei dati: 1) TABELLE SEMPLICI 2) TABELLE COMPOSTE 1) TABELLE SEMPLICI Una TABELLA SEMPLICE è formata da DUE COLONNE e consente la classificazione dei dati rispetto ad un SOLO CARATTERE 2) TABELLE COMPOSTE Una TABELLA COMPOSTA è formata da PIÙ COLONNE, e consente la classificazione dei dati rispetto a PIÙ CARATTERI RAPPRESENTAZIONE NUMERICA 1) TABELLA SEMPLICE ESEMPIO: Riportiamo in una TABELLA SEMPLICE i DATI riguardanti le TEMPERATURE registrate durante una giornata autunnale ad intervalli di sei ore:1)h=0;T=2°c 2)h=6;T=2°C 3)h=12;T=11°C 4)h=18;T=8°C 5)h=24;T=4°C dati tabella semplice Orario (h) Temperatura (°C) 0 2 6 2 12 11 18 8 24 4 RAPPRESENTAZIONE NUMERICA 2) TABELLA COMPOSTA ESEMPIO: Riportiamo in una TABELLA COMPOSTA i DATI riguardanti le ALTEZZE (h) ed i PESI (P) di una famiglia di quattro persone: 1) Padre; h = 175 cm; p = 80 kg 2) Madre: h = 170 cm; p = 64 kg dati tabella composta 3) Figlio h = 180 cm; p = 74 kg 4) Figlia h = 173 cm; p = 60 kg Componente altezza peso nucleo h = cm P = kg Padre Madre 175 170 80 64 Figlio Figlia 180 173 74 60 TRASCRIZIONE DEI DATI PER CLASSI La rappresentazione di una DISTRIBUZIONE DI DATI PER CLASSI, si presenta VANTAGGIOSA quando i dati sono molto NUMEROSI per una rappresentazione ponderata Rappresentazione ponderata E S E M P I O PESO (Kg) (termini) N° STUDENTI (frequenze) 52 1 54 1 55 2 61 1 63 1 68 2 69 3 71 1 73 1 75 1 TOTALE 14 Rappresentazione per classi di peso CLASSI DI PESO (termini) N° STUDENTI (frequenze) 50 – 60 Kg 4 60 – 70 Kg 7 70 – 80 Kg 3 totale 14 L’ informazione, diviene meno precisa nel caso di una distribuzione per classi, tuttavia la visione della distribuzione diventa più semplice e rapida RAPPRESENTAZIONI GRAFICHE dei dati statistici Le INFORMAZIONI che derivano da una raccolta dati sono più evidenti se sono visualizzate attraverso GRAFICI I GRAFICI possono essere di diverso tipo: Rappresentazioni grafiche dei dati: 1) 2) 3) 4) DIAGRAMMI CARTESIANI ISTOGRAMMI IDEOGRAMMI DIAGRAMMI A TORTA RAPPRESENTAZIONE GRAFICA 1) DIAGRAMMA CARTESIANO Un DIAGRAMMA CARTESIANO è formato da due RETTE (assi) perpendicolari tra loro, l’asse ORIZZONTALE si chiama ASCISSA(asse X), l’asse VERTICALE si chiama ORDINATA (asse Y). Su di essi vengono riportati i dati statistici Esempio: Riportiamo su di un DIAGRAMMA CARTESIANO le TEMPERATURE registrare ogni sei ore, durante una giornata autunnale : 1) h=0; T=2°c 2) h=6;T=2°C 3) h=12;T=11°C 4) h=18;T=6°C 5) h=24;T=4°C Basta riportare sull’ asse X il Tempo e sull’ asse Y le Temperature dati Grafico T (°C) Y 12 10 8 6 4 2 (0;2) 0 (12;11) (18;6) (6;2) (24;4) 6 12 18 24 h (ore) DIAGRAMMA CARTESIANO X rappresentazione grafica 2) ISTOGRAMMA L’ISTOGRAMMA è un grafico a colonne: le colonne (rettangoli) hanno basi uguali e possono essere disegnate una vicino all’altra. L’altezza è proporzionale alla frequenza di ciascun dato. Esempio: Riportiamo in un ISTOGRAMMA le marche di cellulari più in uso fra i giovani : NOKIA (300), SIEMENS (240), SAMSUG (120), PANASONIC (80), MOTOROLA (50) 320_ 280_ 240_ 300 240 200_ ISTOGRAMMA 160_ 120_ 180_ 140_ 120 80 50 Noki Siem Sams Pana Moto rappresentazione grafica 5) IDEOAGRAMMA L’IDEOGRAMMA è un tipo di rappresentazione grafica nel quale il fenomeno statistico viene rappresentato mediante l’impiego di FIGURE che richiamano idealmente il contenuto del fenomeno e dove la sua INTENSITÀ è proporzionale alle DIMENSIONI oppure al NUMERO delle figure impiegate Quando il fenomeno da rappresentare non si può rappresentare con una figura intera allora si ricorre ad una FRAZIONE di essa Esempio Rappresentare mediante un ideogramma le popolazioni di due cittadine formate da 6.500 e 4.000 abitanti Unità di riferimento = 1.000 abitanti 6.550 abitanti 4.000 abitanti rappresentazione grafica 6) AEROGRAMMA O DIAGRAMMI A TORTA L’AREOGRAMMA è un tipo di rappresentazione grafica alla quale si ricorre quando si vogliono rappresentare le parti che compongono un fenomeno statistico In tal caso si traccia una CIRCONFERENZA e si procede alla sua divisione in parti proporzionali alle intensità delle componenti del fenomeno statistico Esempio Un collezionista si ritrova con 5.750 francobolli di cui: 1.250 sono della Città del Vaticano, 1.100 della Repubblica di S Marino e 3.400 Italiani Rappresentare il fenomeno statistico mediante un diagramma a torta percentuali C.Vat 22% 1.250 100 22% 5.750 1.100 S.Mar 100 19% 5.750 Ital. ampiezza settori circolari 3.400 100 59% 5.750 59% 19% AEROGRAMMA o diagramma a torta C.Vat 1.250 360 78 5.750 S.Mar Ital. 1.100 360 69 5.750 3.400 360 213 5.750 I.P.S.S.C.T.P. “S.Pertini” CROTONE Elementi di Statistica Autore: prof. Enrico Paniconi Cosa mi aspetto da te…… Dovrai essere in grado di: Interpretare e utilizzare le rappresentazioni statistiche riferite a situazioni della vita quotidiana e professionale Ti insegnerò a…… individuare il ruolo e il significato degli elementi grafici presenti nelle diverse tipologie di diagrammi conoscere i criteri organizzatori di una tabella di dati distinguere frequenze assolute e frequenze percentuali determinare indici centrali e di variabilità formulare ipotesi intuitive su eventuali relazioni tra i dati descritti in una tabella o in un grafico Quindi saprai…… individuare le informazioni in una rappresentazione statistica (diagrammi e tabelle) usare e interpretare misure di centralità e di dispersione confrontare diverse distribuzioni con lo stesso carattere individuare relazioni tra le variabili rappresentate per descrivere il fenomeno ed effettuare previsioni STATISTICA E FENOMENI COLLETTIVI La STATISTICA si occupa dello studio dei FENOMENI COLLETTIVI. Un fenomeno collettivo è un insieme di fenomeni singoli, tutti dello stesso tipo. Un fenomeno singolo costituisce una unità statistica ESEMPIO L’altezza di un alunno in una classe costituisce un FENOMENO SINGOLO. L’altezza di tutti gli alunni in una classe costituisce un FENOMENO COLLETTIVO L’INDAGINE STATISTICA E LE SUE FASI Per INDAGINE STATISTICA si intende un’insieme di attività finalizzate ad approfondire la conoscenza di un fenomeno. Le sue FASI sono: 1) IMPOSTAZIONE DELL’INDAGINE STATISTICA 2) RACCOLTA DATI 3) SPOGLIO E TRASCRIZIONE DEI DATI 4) ELABORAZIONE DATI 1) IMPOSTAZIONE DELL’INDAGINE STATISTICA In questa prima fase occorre precisare: LO SCOPO DELLA RICERCA GLI OBIETTIVI CHE SI VOGLIONO RAGGIUNGERE LE UNITÀ STATISTICHE OGGETTO DI INDAGINI 2) RACCOLTA DEI DATI In questa seconda fase occorre stabilire in modo preciso quali sono i dati da rilevare NATURA DEI DATI I dati raccolti possono essere di natura QUANTITATIVA oppure QUALITATIVA I dati qualitativi sono rappresentati da aggettivi (nazionalità, religione, ecc) I dati quantitativi sono espressi da numeri (altezza, peso, ecc.) METODI DI RACCOLTA DEI DATI La raccolta dei dati può essere GLOBALE oppure a CAMPIONE La raccolta globale riguarda tutte le unità statistiche che compongono il fenomeno collettivo La raccolta a campione riguarda solo una parte delle unità statistiche che compongono il fenomeno collettivo TECNICA DI RACCOLTA DEI DATI Tecnicamente,la raccolta dei dati può essere fatta in modi diversi, tuttavia la raccolta più seguita è quella dell’INTERVISTA DIRETTA o INDIRETTA L’intervista diretta prevede domande poste direttamente dall’intervistatore L’intervista indiretta prevede il riempimento di un questionario che l’intervistato deve riempire in tutte le sue parti ORGANI PREPOSTI ALLA RACCOLTA DEI DATI La raccolta dei dati può essere fatta da CHIUNQUE abbia interesse a fare una ricerca statistica. In Italia l’organo più importante che si occupa della raccolta dei dati e della loro successiva elaborazione è L’ISITUTO CENTRALE DI STATISTICA (sigla ISTAT) 3) SPOGLIO E TRASCRIZIONE DEI DATI Tale fase comporta: ENUMERAZIONE DEI DATI L’enumerazione dei dati avviene scrivendo materialmente un numero progressivo (001, 002, ecc.) su ogni questionario allo scopo di effettuare un controllo sul numero delle unità statistiche effettivamente prese in considerazione CLASSIFICAZIONE DEI DATI IN GRUPPI I dati raccolti, dopo essere stati enumerati vengono CLASSIFICATI in GRUPPI ossia suddivisi in classi omogenee TRASCRIZIONE IN TABELLE Una volta enumerati e classificati, i dati vengono trascritti in TABELLE. Si distinguono diversi tipi di TABELLE 4) ELABORAZIONE DEI DATI In questa fase i dati vengono sottoposti ad una elaborazione matematica il cui scopo è quello di esprimere i risultati dell’indagine in modo sintetico L’elaborazione matematica dei dati in alcuni casi è semplice in altri è complessa Alcune forme di elaborazione dei dati statistici sono: 1) 2) 3) 4) 5) 6) 7) 8) I RAPPORTI STATISTICI LA MEDIA ARITMETICA LA MEDIA PONDERATA GLI SCARTI DALLA MEDIA ARITMETICA LA VARIANZA LO SCARTO QUADRATICO MEDIO LA MODA LA MEDIANA 4) ELABORAZIONE DEI DATI In questa fase i dati vengono sottoposti ad una elaborazione matematica il cui scopo è quello di esprimere i risultati dell’indagine in modo sintetico Alcune forme di elaborazione dei dati statistici sono: 1) 2) 3) 4) 5) 6) 7) 8) LE FREQUENZE ASSOLUTE E RELATIVE LA MEDIA ARITMETICA LA MEDIA PONDERATA GLI SCARTI DALLA MEDIA ARITMETICA LA VARIANZA LO SCARTO QUADRATICO MEDIO LA MODA LA MEDIANA FREQUENZE ASSOLUTE La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ di un CARATTERE si ripete carattere Colore capelli (carattere) Neri modalità N° persone (frequenza assoluta) 10 Castani 6 Rossi 1 biondi 5 totale 22 Frequenze assolute FREQUENZE RELATIVE Le FREQUENZE ASSOLUTE, di due distribuzioni di dati, anche della stessa specie, non sono confrontabili in quanto si riferiscono, in generale, ad un diverso numero di casi complessivi. Questo inconveniente viene superato introducendo il concetto di FREQUENZA RELATIVA La frequenza relativa di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi moltiplicato per 100: frequenza relativa frequenza assoluta100 frequenza totale OSSERVAZIONE: Le frequenze relative non sono altro che RAPPORTI PERCENTUALI CALCOLO DELLE FREQUENZE RELATIVE Consideriamo i dati presenti nella seguente tabella Colore capelli frequenze (carattere) assolute neri 10 castani 6 rossi 1 biondi 5 TOTALE 22 Calcolo FREQUENZE RELATIVE 10 100 45,45 22 6 100 27,27 22 1 100 4,54 22 5 100 22,72 22 Colore capelli frequenze assolute frequenze relative % neri 10 45,46 castani 6 27,27 rossi 1 4,55 biondi 5 22,72 TOTALE 22 100 MEDIA ARITMETICA SEMPLICE Consideriamo una distribuzione di DATI DIVERSI UNO DALL’ALTRO: a a .............. an 1 2 La MEDIA ARITMETICA SEMPLICE è uguale alla somma dei dati divisa per n, cioè: a a a ...... a n 1 2 3 M n MEDIA ARITMETICA SEMPLICE Esempio di calcolo Un alunno nei tre compiti di matematica ha riportato i voti presenti in tabella. Calcolare la MEDIA ARITMETICA dei voti. COMPITO VOTO N° 1 7 N° 2 8 N° 3 6 TOTALE 21 a a a M 1 M 2 3 n 7 8 6 21 7 3 3 Dove: 21 = somma dei voti 3 = numero dei voti 7 = MEDIA ARITMETICA dei voti MEDIA ARITMETICA PONDERATA Se i dati si presentano con una certa FREQUENZA o PESO allora il calcolo della media deve essere effettuato sommando ogni termine tante volte quante indica la sua frequenza Supponiamo che: Il termine a1 si presenta con frequenza p1 Il termine a2 si presenta con frequenza p2 ………………………………………………………………………… Il termine an si presenta con frequenza pn Il calcolo della MEDIA PONDERATA si effettua con la relazione: Mp a p a p a p ...... an pn 1 1 2 2 3 2 3 3 p p p ....... pn 1 MEDIA ARITMETICA PONDERATA Esempio di calcolo 20 Studenti di una classe, hanno ottenuti in matematica i voti riportati in tabella Calcolare la MEDIA PONDERATA dei voti. Voto in Matematica Numero studenti 4 2 5 3 6 8 7 5 8 2 totale 20 Mp a p a p a p a p a p 1 1 2 3 3 4 p p p p p 1 Mp 2 2 3 4 4 5 5 5 4 2 53 6 8 7 5 8 2 122 6,1 2 38 5 2 20 Dove: 122 = somma dei voti 20 = numero di studenti 6,1 = MEDIA PONDERATA dei voti MEDIA PONDERATA NEL CASO DI UNA DISTIBUZIONE DI DATI PER CLASSI In questo caso ad ogni classe, viene sostituito il TERMINE CENTRALE, calcolato mediante la semisomma dei termini estremi della classe (X1-X2) I termini centrali cosi ottenuti costituiscono i termini a1; a2; a3; ecc. della distribuzione classe frequenza X1-X2 p1 X2-X3 p2 X3-X4 p3 ecc. ecc. Infine la media ponderata si calcola con la relazione SEMISOMME x x a1 1 Termine centrale frequenze a1 p1 a2 p2 a3 p3 ecc. ecc. 2 2 x x a2 2 Mp 3 2 a p a p a p ...... an pn 1 1 2 2 3 2 3 3 p p p ....... pn 1 MEDIA PONDERATA DI UNA DISTIBUZIONE DI DATI PER CLASSI Esempio di calcolo Si fa riferimento ai dati della tabella 1 Classi di età (anni) CALCOLO n° persone (Frequenze) 0 - 20 valori centrali 35 20 - 40 4 40 - 60 1 totale 40 a1 0 20 20 10 2 2 a2 20 40 60 30 2 2 termini centrali n° persone (Frequenze) a1 = 10 P1 = 35 a2 = 30 P2 = 4 a3 = 50 P3 = 1 totale 40 Calcolo della media ponderata Mp a p a p a p 1 1 2 2 p p p 1 2 3 3 3 1035 304 501 520 13 40 Età media = 13 anni 40 VARIABILITA’ DI UN FENOMENO STATISTICO Per comprendere cos’è la VARIABILITA’ di un fenomeno statistico consideriamo la tabella che segue, nella quale vengono indicati quanti televisori sono stati venduti da un commerciante nei primi tre mesi del 2003 e 2004 mese 2003 2004 Gennaio 30 40 febbraio 30 20 marzo 30 30 90 90 totale Dalla tabella si nota che nel 2003 la vendita mensile dei televisori risulta COSTANTE (30-30-30), mentre nel 2004 essa subisce una VARIAZIONE (40-20-30) Pertanto: 1) NON SI HA VARIABILITÀ nelle Vendite del 2003 2) SI HA VARIABILITÀ nelle vendite del 2004 Si ha VARIABILITA’quando i dati relativi ad un fenomeno statistico non sono tutti uguali SCARTI DALLA MEDIA ARITMETICA Si definiscono SCARTI DALLA MEDIA ARITMETICA le Differenze fra ciascun TERMINE e la MEDIA ARITMETICA Data la seguente distribuzione di dati a1; a2; a3; ……….; an Sia M la loro media aritmetica, gli SCARTI sono: (a1-M); (a2-M); (a3-M); (………); (an-M) Gli scarti possono essere POSITIVI e NEGATIVI, tuttavia la loro SOMMA e SEMPRE UGUALE A ZERO S = (a1-M) + (a2-M) + (a3-M) + (………) + (an-M) = 0 VARIANZA (σ2) La VARIANZA serve per valutare la VARIABILITÀ di un fenomeno statistico La VARIANZA è la media aritmetica degli scarti al quadrato, si indica con il simbolo σ2 ( si legge sigma al quadrato) e si calcola con la relazione: a M 2 a M 2 ........ an M 2 2 2 1 n 1) La VARIANZA è sempre POSITIVA: infatti i termini (a-M)2 sono tutti positivi 2) La VARIANZA è uguale a ZERO se la VARIABILITÀ è nulla 3) La VARIANZA è tanto più ALTA quanto più alta è la VARIABILITÀ CALCOLO DELLA VARIANZA I prezzi di CILIEGIE ed ANGURIE, in una settimana, variano secondo i dati riportati in tabella. Stabilire in base al calcolo della VARIANZA quale dei due prodotti ha subito una maggiore variazione di prezzo. giorno 1 Kg di Ciliegie 1 Kg di Angurie Scarto ciliegie Scarto al quadrato Scarto angurie Scarto al quadrato Lunedì € 5,00 € 1,00 - 0,25 0,0625 + 0,25 0,0625 Martedì € 5,10 € 1,00 - 0,15 0,0225 + 0,25 0,0625 Mercoledì € 5,20 € 0,80 - 0,05 0,0025 + 0,05 0,0025 Giovedì € 5,30 € 0,70 + 0,05 0,0025 - 0,05 0,0025 Venerdì € 5,40 € 0,50 + 0,15 0,0225 - 0,25 0,0625 Sabato € 5,50 € 0,50 + 0,25 0,0625 - 0,25 0,0625 MEDIA € 5,25 € 0,75 0 0,175 0 0,225 Per le angurie si ha: M = 0,75 e σ2 = 0,225/6 = 0,04 Per le ciliegie si ha: M = 5,25 e σ2 = 0,175/6 = 0,03 Essendo la VARIANZA delle angurie (0,04), maggiore della VARIANZA delle ciliegie (0,03), il prezzo delle angurie ha subito una variazione maggiore rispetto al prezzo delle ciliegie SCARTO QUADRATICO MEDIO (σ) A volte per misurare il grado di VARIABILITÀ di una distribuzione di dati, si preferisce ricorrere allo SCARTO QUADRATICO MEDIO cioè alla RADICE QUADRATA della VARIANZA varianza 2 L’IMPORTANZA dello scarto quadratico medio risiede nel fatto che esso permette di giungere al concetto di NORMALITA’ nel campo statistico NORMA e FUORI NORMA Un CARATTERE su cui si indaga si dice compreso NELLA NORMA quando esso non differisce dal CARATTERE MEDIO di più o di meno tre volte lo SCARTO QUADRATICO MEDIO. Un CARATTERE che va fuori tali limiti si dice FUORI NORMA Esempio: Se una popolazione evidenzia un’ALTEZZA MEDIA H = 175 cm con uno SCARTO QUADRATICO MEDIO σ = 5 cm, possiamo dire che Un’ALTEZZA rientra NELLA NORMA se compresa tra: H – 3 x σ = 175 – 3 x 5 = 160 cm H + 3 x σ = 175 + 3 x 5 = 190 cm ALTEZZE fuori da tale intervallo (160;190cm) sono FUORI NORMA MODA Si definisce MODA di una distribuzione di dati il termine corrispondente alla MASSIMA FREQUENZA. In sostanza si tratta del termine più comune ESEMPIO: Determinare la MODA della seguente distribuzione di voti: VOTO FREQUENZA 5 4 6 8 7 4 8 2 9 1 Il termine che corrisponde alla massima frequenza (8) è il 6, pertanto: MODA = 6 MEDIANA Si definisce MEDIANA il termine che occupa il POSTO CENTRALE di una distribuzione di dati ordinati in modo crescenti ESEMPIO: Determinare la MEDIANA della seguente distribuzione di voti: VOTO FREQUENZA 5 4 6 8 7 4 8 2 9 1 Si ordinano i dati in maniera crescente 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 8 8 9 Il TERMINE CENTRALE è il 6, infatti è quello che lascia alla sua destra e alla sua sinistra un eguale numero di termini, pertanto si ha: MEDIANA = 6 Se i dati sono in numero pari, allora si hanno due termini centrali, in tal caso come mediana si prende la loro media aritmetica Prova tu……… Esercizio Lanciando due dadi, si sono registrati i seguenti punteggi totali: 10 – 9 – 8 – 11 – 5 – 4 – 10 – 4 – 7 – 7 – 9 – 10 – 4 – 6 – 8 – 9 – 6 – 5 – 6 – 8 – 7 – 10 – 9 – 5 – 6 – 3 – 8 – 7 – 5 – 7 – 11 1. organizza i dati in una tabella di frequenza 2. qual è il dato con la maggior frequenza 3. sono usciti più frequentemente risultati dispari o pari? 4. sono usciti più frequentemente risultati maggiori o minori di 7? 5. qual è la frequenza percentuale del punteggio 6? 6. Determina la MODA e la MEDIANA VERIFICA: INDAGINE STATISTICA Questionario sull’impiego del tempo libero Dati generali Dati specifici 6 Pratichi uno sport SI NO 8 Ascolti la musica SI NO 1 Cittadinanza ................ 9 Suoni qualche strumento SI NO 2 Sesso M 11 Guardi la televisione SI NO 3 Età ................ 12 Frequenti discoteche SI NO 4 Peso ................ 13 Vai al cinema SI NO 5 Altezza ................. 14 Ti dedichi alla lettura SI NO 15 Coltivi qualche hobby Si NO 16 Pratichi volontariato SI NO F