Rappresentazione dei dati
Spesso è importante
rappresentare graficamente,
tramite tabelle o diagrammi
opportuni, la corrispondenza tra
i valori a frequenza non nulla e
le loro frequenze assolute o
relative (o anche cumulative).
Una prima rappresentazione è
quella tabulare
Rappresentazione dei dati
Un grafico è un diagramma di
rappresentazione della relazione fra
variabili. Esso mostra come le
variazioni di una variabile siano
correlate a quella di un’altra.
Esistono in statistica diversi tipi di
grafici:
•a rettangoli
•circolare
•ideogrammi
Rappresentazione dei dati
In un esperimento, la quantità che si controlla o
che volutamente si varia generalmente costituisce
la variabile indipendente e viene posta, su di un
grafico, sull’asse delle ascisse (asse orizzontale o
asse x). La quantità che varia in corrispondenza
delle variazioni della variabile indipendente, è
detta variabile dipendente e viene rappresentata
sull'asse delle ordinate (asse verticale o asse y).
E' sempre bene specificare la natura della
grandezza rappresentata, la relativa unità di
misura e l'orientamento degli assi.
La prevalenza dell'arrotondamento sulla
precisione degli strumenti, con l'introduzione
delle cifre significative, consente di unificare i
metodi di studio delle grandezze continue e quelli
delle grandezze discrete. In effetti, dobbiamo
anzitutto osservare che ogni misura può sempre
esprimersi in numeri interi, a patto di cambiare
opportunamente unità di misura.
Così, gli esiti di un qualsiasi conteggio possono
considerarsi come “arrotondati” e descriversi
utilizzando gli stessi strumenti matematici che
servono nel caso di una variabile continua
Esempi
Misuriamo le altezze di 100 persone: vengono naturalmente
raggruppate in classi ampie un centimetro, che è la nostra
unità di misura base
L’unità di misura (precisione richiesta) è “al centimetro”,
e l’errore ammesso è di mezzo centimetro
Misuriamo gli stipendi dei dipendenti di un’azienda (500
individui, supponiamo): potremo raggrupparli in classi ampie
tra i cinquanta e i cento euro
L’unità di misura (precisione richiesta) è “al centinaio di euro”,
e l’errore ammesso è di cinquanta euro
Misuriamo le età degli immatricolati ai corsi di laurea della
Facoltà di Scienze per questo anno accademico
L’unità di misura (precisione richiesta) è “l’anno”,
e l’errore ammesso è di sei mesi
Risulta molto conveniente rappresentare
graficamente la frequenza tramite il
grafico della . In tali tipi di grafico,
detti istogrammi, si evidenziano i
rettangoli compresi tra il diagramma
della  e l'asse delle x perchè, a norma
della definizione stessa della , è l’area
di ciascuno di essi che esprime la
frequenza dell'intervallo di base.
Rappresentazione dei dati
Per rappresentare la distribuzione di una variabile
numerica continua si utilizza gli istogrammi.
L’asse delle ascisse riporta i valori della variabile
considerata. I rettangoli possono avere la stessa base
o base diversa. Questi possono presentare anche area
(e non semplicemente l'altezza) proporzionale alla
frequenza della categoria rappresentata.
Diagramma di frequenza
Rappresentazione dei dati
Per rappresentare i dati discreti è
indicato l’uso del grafico a barre.
Mostra singoli valori in un dato periodo
oppure confronta degli elementi. In un
grafico a barre, generalmente le
categorie sono disposte sull'asse
orizzontale ed i valori associati, anche in
forma percentuale, sull'asse verticale.
Diagramma a barre
Viene utilizzato per dati di livello nominale, ordinale e proporzionale discreto con
relative frequenze assolute, frequenze relative o percentuali espresse mediante
l’altezza dei rettangoli e non mediante le loro aree. Questo tipo di grafico evidenzia
la discontinuità delle misure separando i rettangoli con spazi vuoti
Avendo acquisito questo modo di descrivere la frequenza,
che al momento si presenta tipico delle variabili continue,
possiamo tornare alle variabili discrete, allo scopo di
mostrare come si possano applicare anche ad esse una
nozione di “densità di frequenza” e la rappresentazione
grafica della frequenza tramite istogrammi. A tale scopo,
consideriamo l'esempio di un certo numero di lanci di un
dado. Possiamo riguardare il risultato di ciascun lancio, ad
esempio il 3, come ottenuto per arrotondamento da una
misura eseguita con uno strumento la cui precisione non va
oltre le cifre intere, sulle quali, come abbiamo visto, c'è
un’incertezza di 0.5 in più in meno. Decidiamo allora di
comportarci come se stessimo misurando delle lunghezze,
che vogliamo esprimere, diciamo, in centimetri, con un
metro senza taratura per i millimetri.
l'esito 3 sarà per noi equivalente a una
lunghezza (o altra grandezza continua)
“reale” magari un po’ maggiore
o un po’ minore di 3,
ma più vicina al 3 che al 2 o al 4.
Entrati in quest’ordine d'idee, l'effettivo
campo di variazione dei possibili esiti diviene
l'intervallo (0.5, 6.5)
Le rappresentazioni grafiche utilizzate per le
frequenze assolute si applicano senza
modifiche alle frequenze relative.
Possiamo osservare che il grafico della funzione F mostra
che la frequenza cumulativa, oltre che crescente, com’è
ovvio, è anche una funzione discontinua e costante a
tratti, del tipo delle funzioni a gradino.
Possiamo concludere che l'esito di un
qualsiasi esperimento può essere descritto in
termini più o meno precisi. Le osservazioni
circa le variabili continue, dal momento che
non siamo sempre in grado di conoscere in
modo completo l'esito di un esperimento (il
cui risultato possa essere un qualsiasi
numero reale), sono utili a sottolineare
questa caratteristica, evidenziando come la
nostra descrizione dei risultati degli
esperimenti è necessariamente vaga almeno
nella maggior parte dei casi.
Possiamo incidere sulla vaghezza scegliendo
strumenti dotati di maggiore precisione. In
alcuni casi risulta conveniente, in vista di
particolari obiettivi, adottare un basso
livello di precisione (essendo così
deliberatamente vaghi) nella determinazione
dei risultati degli esperimenti,
indipendentemente dal fatto che la variabile
oggetto del nostro studio sia continua o
discreta. Così, potremmo ragionevolmente
sostenere che è la vaghezza (o
l’imprecisione) nel determinare e registrare
gli esiti delle esperienze il vero elemento
unificante le variabili continue e discrete.
Esempi
Misuriamo l’altezza di un gruppo di persone
utilizzando, anziché un comune metro, un regolo non
graduato di cui però sappiamo che è lungo venti
centimetri. Supponendo che tutti i membri del
gruppo siano adulti, possiamo formulare l'ipotesi a
priori che nessuno di essi abbia un'altezza inferiore
a un metro. Possiamo allora limitarci a misurare
l’eccedenza di ciascuna altezza rispetto a questo
minimo, e ad indicare entro quanti regoli a partire
da un metro essa si trova. Così, un’altezza di un
metro e settanta centimetri equivarrà a tre regoli e
mezzo, e una di m 1.65 a poco più di tre regoli (tre
regoli e un quarto, ma il nostro strumento di misura
non ci consente di registrarlo con precisione).
Dunque, ogni esperimento darà un esito
descrivibile come un intervallo: (1, 1.20],
(1.20, 1.40], etc… Che differenza c’è tra
questo caso e quello in cui le altezze sono
rilevate con una precisione al centimetro? A ben
guardare, sotto l'aspetto concettuale, nessuna:
abbiamo solo cambiato l'unità di misura. Ciascun
intervallo ha un punto medio (1.10 per il primo
intervallo, 1.30 per il secondo, etc.), il nostro
strumento ha una precisione non superiore alla
ventina di centimetri, e noi “arrotondiamo” ogni
esito al valore centrale dell'intervallo con
un'incertezza (in più o in meno) di 10 cm, ossia
pari alla metà (0.5) della più piccola unità di
misura leggibile sul nostro strumento.
Consideriamo adesso un esempio di grandezza
discreta. Contiamo le assenze di un gruppo di
studenti nel corso dell’anno scolastico 19981999. Possiamo adottare l'unità di misura
“settimana”, e descrivere l'esito di ciascun
esperimento come un intervallo (0, 7], (7, 14],
(14, 21],…. e così via. I valori centrali di
questi intervalli sono rispettivamente 3.5,
10.5, 17.5, e così via, e noi ci comportiamo
come se ciascuno degli esperimenti avesse
fornito uno di questi risultati a meno di un
“arrotondamento” di mezza (0.5) settimana
(la più piccola unità di misura leggibile, o
scelta deliberatamente come tale).
Conclusioni
Il risultato di ogni esperimento è sempre un
intervallo di valori, detto classe di frequenza,
che si può riguardare come intervallo di
incertezza, o di errore, rispetto al suo punto
medio, detto valore centrale della classe. Da ciò
consegue che, sotto il profilo operativo, la
distinzione tra una variabile continua ed una
discreta si riduce alla circostanza che, per
quest’ultima, ogni classe di frequenza può, dove si
voglia, ridursi a un singoletto (cosa che invece
ovviamente non si può fare per le variabili
continue). Va tuttavia osservato esplicitamente
che tale riduzione non è obbligatoria.
Costruire un diagramma a barre delle frequenze
per le frequenze del colore dei capelli di un
campione costituito da 48 maschi. Le frequenze
ottenute sono riportate nella seguente tabella
Colore capelli
xi
Frequenza
i
Frequenze relativa
i/n
Percentuale
i/n
Nero
10
10/48=0.2083
20.83
Biondo
14
14/48=0.2917
29.17
Castano
20
20/48=0.4167
41.67
Rosso
4
24/48=0.0833
8.33

48
1.0000
100%
Frequenza
Variabile di livello nominale
Nero
Biondo
Castano
Rosso
Rettangoli aventi base di lunghezza fissata e altezza uguale a 1 sulla scala di frequenza
Grafici a barre consecutive
Istogramma
Utilizzato per dati continui di livello a intervalli e proporzionale.
Diversamente dai diagrammi a barre, esso mostra le frequenze, le
frequenze relative o le percentuali tramite l’area dei rettangoli e
non sempre tramite l’altezza.
Lunghezza (cm)
xi
Frequenza
i
1.2
2
1.3
7
1.4
10
1.5
12
1.6
10
1.7
7
1.8
2

50
Istogramma: dati non raggruppati
Frequenza
Istogramma simmetrico unimodale
1.2 1.3
1.4
1.5 1.6
Lunghezza
1.7 1.8
Se si usano basi di ampiezza uguale per tutte le categorie, la frequenza di ogni categoria è
proporzionale sia all’altezza che all’area del suo rettangolo.
Lo spazio tra i rettangoli mostra come la variabile misurabile non è continua e non ha unità di misura uniformi e
standard
Istogramma
Rettangolo: categoria di misura la cui ampiezza della
base va dal confine inferiore al confine
superiore dell’intervallo di approssimazione.
Valore medio: valore della misura di riferimento della
categoria
Istogramma: dati raggruppati
1. Ogni rettangolo rappresenta la frequenza di una classe
2. L’ampiezza della base del rettangolo rappresenta
l’ampiezza di una classe
3. Se si usano basi di ampiezza uguale per tutte le categorie, la
frequenza di ogni categoria è proporzionale sia all’altezza che
all’area del suo rettangolo
Peso (kg)
xi
0.1-0.5
0.6-1.0
mi
0.3
0.8
Frequenza
i
3
13
1.1-1.5
1.6-2.0
1.3
1.8
42
15
2.1-2.5
2.3
7

80
Densità di frequenza
Istogramma: dati raggruppati
0.3 0.8
1.3 1.8 2.3
Peso (kg)
Lo spazio tra i rettangoli mostra come la variabile misurabile è una misura di livello a intervalli o proporzionale.
Poligono di frequenza per dati non raggruppati
E’ necessario fissare che tutte le misure di una categoria siano al
centro dell’intervallo di approssimazione della categoria stessa
Lunghezza (cm)
xi
Frequenza
i
1.2
2
1.3
7
1.4
10
1.5
12
1.6
10
1.7
7
1.8
2

50
Poligono
E’ un grafico lineare di distribuzione di frequenze,
di frequenze relative o di percentuali che mostra le
varie relazioni per mezzo di punti uniti da segmenti
o da linee continue. Possiamo avere poligoni di dati
raggruppati e non. Nel caso di poligoni per dati
raggruppati al massimo vengono utilizzate dalle 5
alle 20 classi. Aumentando le classi si passa da n
ad N e il poligono diventa una curva liscia che
prende il nome di curva di frequenza.
Frequenza
Poligono: dati non raggruppati
1.1
1.2 1.3
1.4
1.5 1.6
Lunghezza
1.7 1.8
1.9
Poligono di frequenza per dati raggruppati
1. Si assume che tutte le misure di una classe
corrispondano al valore centrale
2. In presenza di classi uniformi si associa la frequenza (assoluta,
relativa o espressa in percentuale) sopra il valore centrale
Peso (kg)
xi
0.6-1.0
1.1-1.5
mi
0.8
1.3
Frequenza
i
3
13
1.6-2.0
2.1-2.5
1.8
2.3
42
15
2.6 -3.0
2.8
7

80
Densità di frequenza
Poligono: dati raggruppati
0.3 0.8
1.3
1.8
2.3 2.8
Peso (kg)
3.3
Altri grafici
1.Ideogramma
2.Grafico circolare
3.Esposizione stelo e foglie
4.Ogiva
Grafici circolari o “a torta”
Colore capelli
xi
Percentuale
%
Nero
35
Biondo
26
Castano
30
Rosso
9

100%
colore capelli
9%
35%
nero
biondo
30%
castano
rosso
26%
Grafici circolari o “a torta”
Ideogrammi
Grafici a barre in cui queste ultime vengono sostituite da
figure stilizzate, facilmente riconoscibili.
La stessa icona può anche essere presente in diversi modi
(es grandezza) a cui si associano diversi contenuti
Esposizione stelo e foglie
Ci consente una rapida visione della simmetria e delle modalità
e identifica facilmente le ampiezze delle classi più adatte a
raggruppare i dati in distribuzioni.
Abbiamo una linea verticale di numeri detti parti iniziali e a
ciascuna di esse è associata una linea orizzontale (foglia)
linea verticale + linea orizzontale= stelo
Esposizione stelo e foglie
Ampiezza dello stelo
distanza tra il più piccolo valore registrato su uno stelo e il
più piccolo registrato sullo stelo immediatamente successivo
1. Semplice
Ogni stelo ha una diversa parte iniziale e ogni parte iniziale può
avere più di una cifra, ogni foglia deve avere solo una cifra
2. Allungata
3. Schiacciata
Scarica

Rappresentazione dati