Rappresentazione dei dati Spesso è importante rappresentare graficamente, tramite tabelle o diagrammi opportuni, la corrispondenza tra i valori a frequenza non nulla e le loro frequenze assolute o relative (o anche cumulative). Una prima rappresentazione è quella tabulare Rappresentazione dei dati Un grafico è un diagramma di rappresentazione della relazione fra variabili. Esso mostra come le variazioni di una variabile siano correlate a quella di un’altra. Esistono in statistica diversi tipi di grafici: •a rettangoli •circolare •ideogrammi Rappresentazione dei dati In un esperimento, la quantità che si controlla o che volutamente si varia generalmente costituisce la variabile indipendente e viene posta, su di un grafico, sull’asse delle ascisse (asse orizzontale o asse x). La quantità che varia in corrispondenza delle variazioni della variabile indipendente, è detta variabile dipendente e viene rappresentata sull'asse delle ordinate (asse verticale o asse y). E' sempre bene specificare la natura della grandezza rappresentata, la relativa unità di misura e l'orientamento degli assi. La prevalenza dell'arrotondamento sulla precisione degli strumenti, con l'introduzione delle cifre significative, consente di unificare i metodi di studio delle grandezze continue e quelli delle grandezze discrete. In effetti, dobbiamo anzitutto osservare che ogni misura può sempre esprimersi in numeri interi, a patto di cambiare opportunamente unità di misura. Così, gli esiti di un qualsiasi conteggio possono considerarsi come “arrotondati” e descriversi utilizzando gli stessi strumenti matematici che servono nel caso di una variabile continua Esempi Misuriamo le altezze di 100 persone: vengono naturalmente raggruppate in classi ampie un centimetro, che è la nostra unità di misura base L’unità di misura (precisione richiesta) è “al centimetro”, e l’errore ammesso è di mezzo centimetro Misuriamo gli stipendi dei dipendenti di un’azienda (500 individui, supponiamo): potremo raggrupparli in classi ampie tra i cinquanta e i cento euro L’unità di misura (precisione richiesta) è “al centinaio di euro”, e l’errore ammesso è di cinquanta euro Misuriamo le età degli immatricolati ai corsi di laurea della Facoltà di Scienze per questo anno accademico L’unità di misura (precisione richiesta) è “l’anno”, e l’errore ammesso è di sei mesi Risulta molto conveniente rappresentare graficamente la frequenza tramite il grafico della . In tali tipi di grafico, detti istogrammi, si evidenziano i rettangoli compresi tra il diagramma della e l'asse delle x perchè, a norma della definizione stessa della , è l’area di ciascuno di essi che esprime la frequenza dell'intervallo di base. Rappresentazione dei dati Per rappresentare la distribuzione di una variabile numerica continua si utilizza gli istogrammi. L’asse delle ascisse riporta i valori della variabile considerata. I rettangoli possono avere la stessa base o base diversa. Questi possono presentare anche area (e non semplicemente l'altezza) proporzionale alla frequenza della categoria rappresentata. Diagramma di frequenza Rappresentazione dei dati Per rappresentare i dati discreti è indicato l’uso del grafico a barre. Mostra singoli valori in un dato periodo oppure confronta degli elementi. In un grafico a barre, generalmente le categorie sono disposte sull'asse orizzontale ed i valori associati, anche in forma percentuale, sull'asse verticale. Diagramma a barre Viene utilizzato per dati di livello nominale, ordinale e proporzionale discreto con relative frequenze assolute, frequenze relative o percentuali espresse mediante l’altezza dei rettangoli e non mediante le loro aree. Questo tipo di grafico evidenzia la discontinuità delle misure separando i rettangoli con spazi vuoti Avendo acquisito questo modo di descrivere la frequenza, che al momento si presenta tipico delle variabili continue, possiamo tornare alle variabili discrete, allo scopo di mostrare come si possano applicare anche ad esse una nozione di “densità di frequenza” e la rappresentazione grafica della frequenza tramite istogrammi. A tale scopo, consideriamo l'esempio di un certo numero di lanci di un dado. Possiamo riguardare il risultato di ciascun lancio, ad esempio il 3, come ottenuto per arrotondamento da una misura eseguita con uno strumento la cui precisione non va oltre le cifre intere, sulle quali, come abbiamo visto, c'è un’incertezza di 0.5 in più in meno. Decidiamo allora di comportarci come se stessimo misurando delle lunghezze, che vogliamo esprimere, diciamo, in centimetri, con un metro senza taratura per i millimetri. l'esito 3 sarà per noi equivalente a una lunghezza (o altra grandezza continua) “reale” magari un po’ maggiore o un po’ minore di 3, ma più vicina al 3 che al 2 o al 4. Entrati in quest’ordine d'idee, l'effettivo campo di variazione dei possibili esiti diviene l'intervallo (0.5, 6.5) Le rappresentazioni grafiche utilizzate per le frequenze assolute si applicano senza modifiche alle frequenze relative. Possiamo osservare che il grafico della funzione F mostra che la frequenza cumulativa, oltre che crescente, com’è ovvio, è anche una funzione discontinua e costante a tratti, del tipo delle funzioni a gradino. Possiamo concludere che l'esito di un qualsiasi esperimento può essere descritto in termini più o meno precisi. Le osservazioni circa le variabili continue, dal momento che non siamo sempre in grado di conoscere in modo completo l'esito di un esperimento (il cui risultato possa essere un qualsiasi numero reale), sono utili a sottolineare questa caratteristica, evidenziando come la nostra descrizione dei risultati degli esperimenti è necessariamente vaga almeno nella maggior parte dei casi. Possiamo incidere sulla vaghezza scegliendo strumenti dotati di maggiore precisione. In alcuni casi risulta conveniente, in vista di particolari obiettivi, adottare un basso livello di precisione (essendo così deliberatamente vaghi) nella determinazione dei risultati degli esperimenti, indipendentemente dal fatto che la variabile oggetto del nostro studio sia continua o discreta. Così, potremmo ragionevolmente sostenere che è la vaghezza (o l’imprecisione) nel determinare e registrare gli esiti delle esperienze il vero elemento unificante le variabili continue e discrete. Esempi Misuriamo l’altezza di un gruppo di persone utilizzando, anziché un comune metro, un regolo non graduato di cui però sappiamo che è lungo venti centimetri. Supponendo che tutti i membri del gruppo siano adulti, possiamo formulare l'ipotesi a priori che nessuno di essi abbia un'altezza inferiore a un metro. Possiamo allora limitarci a misurare l’eccedenza di ciascuna altezza rispetto a questo minimo, e ad indicare entro quanti regoli a partire da un metro essa si trova. Così, un’altezza di un metro e settanta centimetri equivarrà a tre regoli e mezzo, e una di m 1.65 a poco più di tre regoli (tre regoli e un quarto, ma il nostro strumento di misura non ci consente di registrarlo con precisione). Dunque, ogni esperimento darà un esito descrivibile come un intervallo: (1, 1.20], (1.20, 1.40], etc… Che differenza c’è tra questo caso e quello in cui le altezze sono rilevate con una precisione al centimetro? A ben guardare, sotto l'aspetto concettuale, nessuna: abbiamo solo cambiato l'unità di misura. Ciascun intervallo ha un punto medio (1.10 per il primo intervallo, 1.30 per il secondo, etc.), il nostro strumento ha una precisione non superiore alla ventina di centimetri, e noi “arrotondiamo” ogni esito al valore centrale dell'intervallo con un'incertezza (in più o in meno) di 10 cm, ossia pari alla metà (0.5) della più piccola unità di misura leggibile sul nostro strumento. Consideriamo adesso un esempio di grandezza discreta. Contiamo le assenze di un gruppo di studenti nel corso dell’anno scolastico 19981999. Possiamo adottare l'unità di misura “settimana”, e descrivere l'esito di ciascun esperimento come un intervallo (0, 7], (7, 14], (14, 21],…. e così via. I valori centrali di questi intervalli sono rispettivamente 3.5, 10.5, 17.5, e così via, e noi ci comportiamo come se ciascuno degli esperimenti avesse fornito uno di questi risultati a meno di un “arrotondamento” di mezza (0.5) settimana (la più piccola unità di misura leggibile, o scelta deliberatamente come tale). Conclusioni Il risultato di ogni esperimento è sempre un intervallo di valori, detto classe di frequenza, che si può riguardare come intervallo di incertezza, o di errore, rispetto al suo punto medio, detto valore centrale della classe. Da ciò consegue che, sotto il profilo operativo, la distinzione tra una variabile continua ed una discreta si riduce alla circostanza che, per quest’ultima, ogni classe di frequenza può, dove si voglia, ridursi a un singoletto (cosa che invece ovviamente non si può fare per le variabili continue). Va tuttavia osservato esplicitamente che tale riduzione non è obbligatoria. Costruire un diagramma a barre delle frequenze per le frequenze del colore dei capelli di un campione costituito da 48 maschi. Le frequenze ottenute sono riportate nella seguente tabella Colore capelli xi Frequenza i Frequenze relativa i/n Percentuale i/n Nero 10 10/48=0.2083 20.83 Biondo 14 14/48=0.2917 29.17 Castano 20 20/48=0.4167 41.67 Rosso 4 24/48=0.0833 8.33 48 1.0000 100% Frequenza Variabile di livello nominale Nero Biondo Castano Rosso Rettangoli aventi base di lunghezza fissata e altezza uguale a 1 sulla scala di frequenza Grafici a barre consecutive Istogramma Utilizzato per dati continui di livello a intervalli e proporzionale. Diversamente dai diagrammi a barre, esso mostra le frequenze, le frequenze relative o le percentuali tramite l’area dei rettangoli e non sempre tramite l’altezza. Lunghezza (cm) xi Frequenza i 1.2 2 1.3 7 1.4 10 1.5 12 1.6 10 1.7 7 1.8 2 50 Istogramma: dati non raggruppati Frequenza Istogramma simmetrico unimodale 1.2 1.3 1.4 1.5 1.6 Lunghezza 1.7 1.8 Se si usano basi di ampiezza uguale per tutte le categorie, la frequenza di ogni categoria è proporzionale sia all’altezza che all’area del suo rettangolo. Lo spazio tra i rettangoli mostra come la variabile misurabile non è continua e non ha unità di misura uniformi e standard Istogramma Rettangolo: categoria di misura la cui ampiezza della base va dal confine inferiore al confine superiore dell’intervallo di approssimazione. Valore medio: valore della misura di riferimento della categoria Istogramma: dati raggruppati 1. Ogni rettangolo rappresenta la frequenza di una classe 2. L’ampiezza della base del rettangolo rappresenta l’ampiezza di una classe 3. Se si usano basi di ampiezza uguale per tutte le categorie, la frequenza di ogni categoria è proporzionale sia all’altezza che all’area del suo rettangolo Peso (kg) xi 0.1-0.5 0.6-1.0 mi 0.3 0.8 Frequenza i 3 13 1.1-1.5 1.6-2.0 1.3 1.8 42 15 2.1-2.5 2.3 7 80 Densità di frequenza Istogramma: dati raggruppati 0.3 0.8 1.3 1.8 2.3 Peso (kg) Lo spazio tra i rettangoli mostra come la variabile misurabile è una misura di livello a intervalli o proporzionale. Poligono di frequenza per dati non raggruppati E’ necessario fissare che tutte le misure di una categoria siano al centro dell’intervallo di approssimazione della categoria stessa Lunghezza (cm) xi Frequenza i 1.2 2 1.3 7 1.4 10 1.5 12 1.6 10 1.7 7 1.8 2 50 Poligono E’ un grafico lineare di distribuzione di frequenze, di frequenze relative o di percentuali che mostra le varie relazioni per mezzo di punti uniti da segmenti o da linee continue. Possiamo avere poligoni di dati raggruppati e non. Nel caso di poligoni per dati raggruppati al massimo vengono utilizzate dalle 5 alle 20 classi. Aumentando le classi si passa da n ad N e il poligono diventa una curva liscia che prende il nome di curva di frequenza. Frequenza Poligono: dati non raggruppati 1.1 1.2 1.3 1.4 1.5 1.6 Lunghezza 1.7 1.8 1.9 Poligono di frequenza per dati raggruppati 1. Si assume che tutte le misure di una classe corrispondano al valore centrale 2. In presenza di classi uniformi si associa la frequenza (assoluta, relativa o espressa in percentuale) sopra il valore centrale Peso (kg) xi 0.6-1.0 1.1-1.5 mi 0.8 1.3 Frequenza i 3 13 1.6-2.0 2.1-2.5 1.8 2.3 42 15 2.6 -3.0 2.8 7 80 Densità di frequenza Poligono: dati raggruppati 0.3 0.8 1.3 1.8 2.3 2.8 Peso (kg) 3.3 Altri grafici 1.Ideogramma 2.Grafico circolare 3.Esposizione stelo e foglie 4.Ogiva Grafici circolari o “a torta” Colore capelli xi Percentuale % Nero 35 Biondo 26 Castano 30 Rosso 9 100% colore capelli 9% 35% nero biondo 30% castano rosso 26% Grafici circolari o “a torta” Ideogrammi Grafici a barre in cui queste ultime vengono sostituite da figure stilizzate, facilmente riconoscibili. La stessa icona può anche essere presente in diversi modi (es grandezza) a cui si associano diversi contenuti Esposizione stelo e foglie Ci consente una rapida visione della simmetria e delle modalità e identifica facilmente le ampiezze delle classi più adatte a raggruppare i dati in distribuzioni. Abbiamo una linea verticale di numeri detti parti iniziali e a ciascuna di esse è associata una linea orizzontale (foglia) linea verticale + linea orizzontale= stelo Esposizione stelo e foglie Ampiezza dello stelo distanza tra il più piccolo valore registrato su uno stelo e il più piccolo registrato sullo stelo immediatamente successivo 1. Semplice Ogni stelo ha una diversa parte iniziale e ogni parte iniziale può avere più di una cifra, ogni foglia deve avere solo una cifra 2. Allungata 3. Schiacciata