Presentazione a cura
della prof.ssa
ANNUNZIATA DI BIASE
Dicembre 2014
Statistica descrittiva

Statistica descrittiva e inferenziale

Distribuzioni di frequenza

Rappresentazioni grafiche

Indici di sintesi e di dispersione
I termine statistica ha una radice italiana e cioè
deriva dalla parola “STATO”. Questa definizione
apparve per la prima volta nel 1589 ad opera di
Ghislin, che la indicò come “descrizione delle
qualità che caratterizzano gli elementi che
compongono uno Stato”.
Nella sua prima eccezione, quindi, la statistica è
principalmente lo studio di informazioni di
interesse nazionale. Solo in un secondo
momento,
questa
disciplina
cominciò
ad
allargare i propri confini e ad assumere il
significato più generale di analisi quantitativa dei
fenomeni collettivi che hanno attitudine a
variare.
La statistica è lo studio dei fenomeni collettivi
(ossia di quei fenomeni che riguardano una
pluralità di soggetti), che hanno attitudine a
variare.
Essa si occupa di raccogliere ed analizzare
dati, relativi ad un gruppo di persone (studenti
di una scuola, elettori di una regione, abitanti
di un quartiere,…) o oggetti (automobili, dischi,
libri,…) per trarre conclusioni e fare previsioni.
Nello studio della statistica si distingue generalmente tra la
statistica descrittiva e la statistica inferenziale.
La statistica descrittiva: E’ un’ indagine che si occupa della
raccolta, dell’elaborazione dei dati e della descrizione dei
fenomeni collettivi o di massa.
Essa si occupa di descrivere la massa dei dati sperimentali con
pochi numeri o grafici significativi. Quindi, per così dire si occupa
di fotografare una data situazione e di sintetizzarne le
caratteristiche salienti.
La statistica inferenziale: Studia le modalità con cui è possibile
estendere all’intero universo statistico le conclusioni di un’
indagine svolta su di un campione e permette di valutare il grado
di attendibilità di tali conclusioni.
Essa utilizza i dati statistici, anche opportunamente sintetizzati
dalla statistica descrittiva, per fare previsioni di tipo probabilistico
su situazioni future o comunque incerte.
L’INDAGINE STATISTICA E LE SUE FASI
Per INDAGINE STATISTICA si intende un’insieme di
attività finalizzate ad approfondire la conoscenza di
un fenomeno. Le sue FASI sono:
1. IMPOSTAZIONE DELL’INDAGINE
STATISTICA
2. RILEVAZIONE DEI DATI
3. SPOGLIO E TRASCRIZIONE
DEI DATI
4. ELABORAZIONE DATI
1) IMPOSTAZIONE DELL’INDAGINE STATISTICA
In questa prima fase occorre precisare:

LO SCOPO DELLA RICERCA

GLI OBIETTIVI CHE SI VOGLIONO
RAGGIUNGERE

LE UNITÀ STATISTICHE OGGETTO
DI INDAGINI
DISTRIBUZIONE STATISTICHE
Una distribuzione statistica serve
ordinare e
classificare i soggetti secondo un certo criterio.
Le distribuzioni statistiche derivano dall’operazione
di classificazione delle unità considerate secondo le
modalità di uno o più caratteri. Se si riferisce ad un
solo carattere la distribuzione statistica si definisce
SEMPLICE. Se si riferisce a 2, 3,….N caratteri allora
la distribuzione statistica si definisce DOPPIA,
TRIPLA,…MULTIPLA.
Se il carattere considerato è qualitativo la
distribuzione statistica si chiama anche SERIE
STATISTICA.
Se il carattere è quantitativo allora si parla di
SERIAZIONE STATISTICA.
2) RILEVAZIONE DEI DATI – CARATTERI
Per rilevare dati statistici, è fondamentale sapere esattamente
COSA si vuole misurare e COME.
In questa fase occorre individuare
in modo preciso
la
caratteristica (CARATTERE) della popolazione che vogliamo
sottoporre a studio.

TECNICA DI RACCOLTA DEI DATI
Tecnicamente, la raccolta dei dati può essere fatta in modi
diversi: misurazioni, questionario ecc.., tuttavia la raccolta più
seguita è quella dell’ INTERVISTA DIRETTA o INDIRETTA.
L’intervista diretta prevede domande poste direttamente
dall’intervistatore.
L’intervista indiretta prevede il riempimento di un questionario a
risposte aperte o chiuse che l’intervistato deve riempire in tutte
le sue parti come il censimento. In Italia il censimento si
effettua ogni dieci anni (anni in cui l’ultima cifra è 1, come
l’ultimo che è stato rilevato nel 2011, i precedenti
2001,1991,…,1861 (anno dell’unità d’Italia) il prossimo sarà nel
2021).
INDAGINE STATISTICA
Esempio di intervista indiretta:
Questionario sull’impiego
del tempo libero
Dati generali
Dati specifici
6 Pratichi uno sport
SI
NO
8 Ascolti la musica
SI
NO
1 Cittadinanza
................
9 Suoni qualche strumento SI
NO
2 Sesso
M
11 Guardi la televisione
SI
NO
3 Età
................
12 Frequenti discoteche
SI
NO
4 Peso
................
13 Vai al cinema
SI
NO
5 Altezza
.................
14 Ti dedichi alla lettura
SI NO
15 Coltivi qualche hobby
Si
NO
16 Pratichi volontariato
SI
NO
F
 ORGANI PREPOSTI ALLA RACCOLTA DEI DATI
La raccolta dei dati può essere fatta da CHIUNQUE abbia
interesse a fare una ricerca statistica.
In Italia l’organo più importante che si occupa della
raccolta dei dati e della loro successiva elaborazione è
L’ISTITUTO CENTRALE DI STATISTICA (sigla ISTAT)
In una rilevazione dei dati i caratteri stanno ad indicare l’
insieme dei fenomeni oggetto di studio riguardanti le
caratteristiche che differenziano tra loro le unità
statistiche.
 NATURA DEI CARATTERI
I caratteri (dati
raccolti) possono
essere di natura
QUANTITATIVA oppure QUALITATIVA.
I caratteri o dati qualitativi (o mutabili) sono rappresentati
da aggettivi (nazionalità, religione, ecc).
I caratteri o dati quantitativi (o variabili) sono espressi da
numeri (altezza, peso, ecc.).

MODALITA’ DI UN CARATTERE
Le modalità sono i diversi aspetti che un carattere può
assumere.
Esempio: M ed F sono le 2 modalità del carattere sesso.

NATURA DI UNA MODALITA’
Carattere
qualitativo
Carattere
quantitativo
La modalità può essere
Nominale
o sconnessa
Le modalità NON si
possono ordinare
secondo una scala
di misurazione.
Es. credo religioso,
malattie,…
Ordinale
Le modalità si
possono ordinare
secondo una scala
di misurazione.
Es. giudizi, titolo di
studio,...
La modalità può essere
Discreta
Continua
Le modalità sono
numeri INTERI.
Es. numero
fratelli,…
Le modalità sono
numeri REALI.
Es. altezze, pesi,…
QUANTITATIVI
QUALITATIVI
Tipo di carattere
Nominale
Ordinale
Esempi
"stato civile",
"zona di redidenza"
"titolo di studio",
"professione"
"numero di componenti il
Discreto
nucleo familiare",
"numero di esami
sostenuti"
Continuo
"reddito",
"temperatura"
Esempi caratteri qualitativi
Esempio 1 – modalità nominale o sconnesse:
 Sesso: M, F
 Corso di Laurea: Med. Ing. Sc.Pol. Giur. Stat. Mat.
 Provincia: Cz, Mi, Na, Pa, RM
 Religione. Cat., Mus.,. Ebreo, Indù, Taoista
Esempio 2 – modalità ordinate:
 Giudizio: Suff. Buono, Ottimo
 Posizione graduatoria: I
II III IV V
 Classe Soc.: Bassa, Media, Alta
 Titolo Studio: Nessuno, Elem., Med.inf., Med.sup.,
Laurea
Esempi caratteri quantitativi
Esempio 1 – modalità discrete:
a.
N° componenti famiglia: 1 2 3 4 5 6 7 8
b.
N° posti letto ospedale: 125 128 136 547 874
1258 2581
c.
Residenti comune: 854 1258 5890 6587 15897
178.985 3.58.211 458.547 2.427.258
Esempio 2 – modalità continue:
a.
Precipitazioni in pollici a Torino nel mese di
aprile (20 giorni):
2.93.73.24.03.92.12.92.91.1
0.43.03.33.21.02.25.43.53.6 4.0
b.
Altezza maschi Italiani: 175,3 168,4 187,1 158,4
167,5 170.2 174,6 175.6
SCHEMA RIASSUNTIVO
La statistica è lo studio quantitativo di
un fenomeno collettivo: si studia individuando
il collettivo statistico o popolazione
statistica che è l’insieme delle
unità statistiche: i singoli casi
rispetto ai quali il fenomeno si
manifesta
le caratteristiche, dette caratteri, delle
unità statistiche che ci sembrano rilevanti
per la descrizione del fenomeno stesso
Il modo in cui ogni carattere si manifesta nelle unità statistiche viene descritto attraverso
delle modalità
Le modalità possono essere di tipo
qualitativo: si esprimono tramite
aggettivi e sostantivi; possono essere
sconnesse: se non
possono essere
ordinate
ordinate se si
può stabilire un
ordine
quantitativo: si esprimono
tramite numeri; possono essere
discrete se
vengono descritte
da numeri interi
continue se
vengono descritte
da numeri reali
 METODI DI RILEVAZIONE DEI DATI
La rilevazione dei dati può essere effettuata su tutta la
popolazione oggetto di studio, cioè su tutto l’UNIVERSO,
oppure su una porzione di esso, cioè su un CAMPIONE.
Gli elementi della popolazione studiata prendono il nome
di UNITA’ STATISTICHE.
3) SPOGLIO E TRASCRIZIONE DEI DATI
Per lo spoglio dei dati occorre utilizzare un’operazione
semplice, ma fondamentale che è il CONTEGGIO. Infatti
dopo la rilevazione dei dati occorre contare quante volte
una modalità di un carattere si è ripetuta cioè con che
frequenza si è ripetuta. Dopo aver contato i dati, vengono
scritti in tabelle (rappresentazione numerica) che possono
essere semplici o composte.
Una TABELLA SEMPLICE è formata da DUE COLONNE e
consente la classificazione dei dati rispetto ad un SOLO
CARATTERE.
Una TABELLA COMPOSTA è formata
COLONNE, e consente la classificazione
rispetto a PIÙ CARATTERI
da
dei
PIÙ
dati
1) TABELLA SEMPLICE
ESEMPIO:
Riportiamo in una TABELLA SEMPLICE i
DATI riguardanti le TEMPERATURE registrate durante
una giornata autunnale ad intervalli di sei ore: 1) h=0;
T=2°C;
2) h=6;T=2°C;
3) h=12;T=11°C; 4) h=18;T=8°C;
5) h=24;T=4°C
dati
tabella
semplice
Orario
(h)
Temperatura
(°C)
0
2
6
2
12
11
18
8
24
4
2) TABELLA COMPOSTA
ESEMPIO: Riportiamo in una TABELLA COMPOSTA i DATI
riguardanti le ALTEZZE (h) ed i PESI (P) di una famiglia di
quattro persone: 1) Padre; h = 175 cm; p = 80 kg; 2) Madre:
h = 170 cm; p = 64 kg; 3) Figlio h = 180 cm; p = 74 kg;
4) Figlia h = 173 cm; p = 60 kg
dati
tabella
composta
Componente altezza
nucleo
h = cm
peso
P = kg
Padre
175
80
Madre
170
64
Figlio
180
74
Figlia
173
60
4) ELABORAZIONE DEI DATI
In questa fase i dati vengono sottoposti ad una
elaborazione matematica il cui scopo è quello di
esprimere i risultati dell’indagine in modo sintetico,
mediante:
1. rappresentazione numerica dei dati e relative frequenze
2. rappresentazione grafica dei dati
3. Indici di centralità
RAPPRESENTAZIONE DEI DATI STATISTICI
La rappresentazione dei
essere NUMERICA e GRAFICA
Rappresentazione
numerica dei dati:
Rappresentazione
grafica dei dati:
dati
può
1) TABELLE SEMPLICI
2) TABELLE COMPOSTE
1) DIAGRAMMI CARTESIANI
2) ISTOGRAMMI
3) IDEOGRAMMI
4) DIAGRAMMI A TORTA
FREQUENZE ASSOLUTE
La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ di
un CARATTERE si ripete.
carattere
Colore
capelli
(carattere)
N° persone
(frequenza
assoluta)
Neri
10
6
Castani
modalità
Rossi
1
Biondi
5
totale
22
Frequenze
assolute
FREQUENZE RELATIVE
Le FREQUENZE ASSOLUTE, di due distribuzioni di
dati, anche della stessa specie, non sono
confrontabili in quanto si riferiscono, in generale, ad
un diverso numero di casi complessivi.
Questo inconveniente viene superato introducendo
il concetto di FREQUENZA RELATIVA
La frequenza relativa di una certa modalità è data
dal rapporto tra la frequenza assoluta di tale
modalità ed il numero totale dei casi.
Spesso si esprime la frequenza relativa in forma
percentuale.
Frequenza relativa = frequenza assoluta / totale casi
Esempio:
Colore capelli
N° persone
Frequenza
Relativa
(carattere)
(frequenza
assoluta)
(f.a./totale)
Neri
10
0,46
Castani
6
0,28
Rossi
1
0,02
Biondi
5
24
totale
22
1
Frequenze
relative
FREQUENZE RELATIVE PERCENTUALI
La frequenza relativa percentuale di una certa
modalità è data dalla frequenza relativa moltiplicata per
100.
Frequenza relativa percentuale = frequenza relativa per 100
Esempio:
Colore
capelli
N° persone
Frequenza
Relativa
Frequenza
Relativa
%
(carattere)
(frequenza
assoluta)
(f.a./totale)
Neri
10
0,4545
45,45
Castani
6
0,2727
27,27
Rossi
1
0,0455
4,55
Biondi
5
0,2272
22,72
totale
22
1
100
Frequenze
percentuali
FREQUENZA CUMULATA E RETROCUMULATA
Consideriamo un carattere le cui modalità siano
ordinate.
Si chiama frequenza cumulata (assoluta o
relativa) della modalità x la somma delle
frequenze (assolute o relative) della modalità x e
di tutte quelle modalità che precedono la x.
Si chiama frequenza retrocumulata (assoluta o
relativa) della modalità x la somma delle
frequenze (assolute o relative) della modalità x e
di tutte quelle modalità che seguono la x.
Esempio:
Colore
capelli
N° persone
Frequenza. Cum
assoluta
Frequenza
Retrocumulata
assoluta
(carattere)
(frequenza
assoluta)
Rossi
1
1+0=1
1+5+6+10+22=
44
Biondi
5
5+1=6
5+6+10+22=43
Castani
6
6+5+1=12
6+10+22=38
Neri
10
10+6+5+1=22
10+22=32
totale
22
22+10+6+5+1=
44
22+0=22
SCHEMA RIASSUNTIVO
Lo spoglio dei questionari o delle schede di rilevazione porta alla costruzione della
tabella o matrice dei dati grezzi: tabella in cui a ogni unità statistica compete una riga
nella quale sono specificate le modalità che la descrivono in riferimento ai caratteri
studiati; da essa si ottengono le
assoluta: numero delle modalità da
esso descritte
tabelle di
frequenza
per ogni
modalità
contengono la
frequenza
corrispondente
relativa: rapporto tra la frequenza
assoluta e la numerosità del
collettivo considerato
la frequenza
di una
modalità può
essere
può anche essere espressa in forma
percentuale. Essa serve a
confrontare due collettivi distinti e
a valutare il “ peso” di una
modalità rispetto alla totalità del
collettivo
cumulata: somma delle frequenze
di tutte le modalità minori o uguali
alla modalità considerata
retrocumulata: somma delle
frequenze di tutte le modalità
maggiori o uguali alla modalità
considerata
DISTRIBUZIONE DI FREQUENZA
In una tabella di frequenza a ogni modalità di un
carattere è associato un numero che rappresenta
la frequenza di quella modalità.
Non è difficile riconoscere che ci troviamo di
fronte a una funzione.
Si chiama distribuzione di frequenza la funzione
che associa a ogni modalità ad un dato carattere
la sua frequenza.
Il dominio di una distribuzione di frequenza è
l’insieme delle modalità di un carattere.
CLASSI DI FREQUENZE
Se in una DISTRIBUZIONE i dati sono molto NUMEROSI,
allora i valori dei caratteri possono essere raggruppati in
classi; nel caso di caratteri quantitativi le classi sono
sovente intervalli di valori, i cui valori estremi siano
compresi in uno e un solo intervallo. La suddivisione in
classi consente di determinare le frequenze assolute e
relative delle classi in luogo delle singole modalità.
Si definisce ampiezza di una
classe
la
differenza
tra
l’estremo
superiore
e
l’estremo
inferiore
della
stessa.
Le classi possono essere:
1. di pari ampiezza
ampie)
2. di pari frequenza
frequenti).
(equi(equi-
REGOLE PER LA COSTRUZIONE DELLE CLASSI
Le regole fondamentali per la suddivisione in classi
dei valori del carattere rilevati sono le seguenti:
1. Le classi devono essere esaustive: ogni valore
deve appartenere ad almeno una classe;
2. le classi devono essere a due a due disgiunte,
quindi ogni valore deve appartenere ad una sola
classe (in modo da evitare che esso sia
considerato due volte e quindi siano contate due
volte le unità statistiche che hanno come
determinazione del carattere quel valore );
3. le classi devono essere ordinate in modo che i
valori della prima precedono tutti quelli della
seconda classe e quelli della seconda precedono
quelli della terza classe e cosi via.
I raggruppamenti delle classi possono essere
operati in modo diverso, ma devono essere
ordinate in ordine crescente. Di ogni classe si
calcola: l’ampiezza, la densità di frequenza (se
le ampiezze delle classi sono diverse) e il valore
centrale.
Ampiezza = differenza tra l’estremo superiore e
l’estremo inferiore.
Densità di frequenza = rapporto tra la frequenza
relativa e l’ampiezza.
Valore centrale = media aritmetica tra l’estremo
inferiore e l’estremo superiore.
TRASCRIZIONE DEI DATI PER CLASSI
La rappresentazione di una DISTRIBUZIONE DI DATI PER CLASSI,
si presenta VANTAGGIOSA quando i dati sono molto NUMEROSI.
Rappresentazione numerica
E
S
E
M
P
I
O
Rappresentazione per classi di peso
PESO (Kg)
(termini)
N°
STUDENTI
(frequenze)
CLASSI DI PESO
(termini)
N° STUDENTI
(frequenze)
52
1
50 – 60 Kg
4
54
1
60 – 70 Kg
7
55
2
70 – 80 Kg
3
61
1
totale
14
63
1
68
2
69
3
71
1
73
1
75
1
TOTALE
14
L’ informazione, diviene meno
precisa
nel caso di una
distribuzione per classi, tuttavia
la
visione della distribuzione
diventa più semplice e rapida
RAPPRESENTAZIONI GRAFICHE
dei dati statistici
Le INFORMAZIONI che derivano da una raccolta dati
sono più evidenti se sono visualizzate attraverso GRAFICI
I
GRAFICI possono essere di diverso tipo:
Rappresentazioni
grafiche dei dati:
1)
2)
3)
4)
DIAGRAMMI CARTESIANI
ISTOGRAMMI
IDEOGRAMMI
DIAGRAMMI A TORTA
Le rappresentazioni grafiche hanno l’obiettivo di
illustrare, mediante:
-figure,
-linee o segmenti,
-superfici o aree,
-solidi,
-simboli convenzionali
-ecc.
una distribuzione di frequenze o delle modalità di
uno o più caratteri.
Per massimizzare l’efficacia di un grafico l’attenzione
deve essere concentrata sui dati.
Pertanto le componenti di supporto:
•
Devono essere presenti solo se necessarie: titoli degli
assi, legende e etichette in alcuni casi possono essere
essenziali per la comprensione del grafico, ma in altri
possono essere del tutto inutili.
•
Devono essere lievi: è preferibile usare linee più leggere
per gli assi e per la griglia e linee più marcate per i dati.
Gli effetti decorativi non devono allontanare l’attenzione
del lettore dai dati.
Un grafico chiaro
Un grafico confuso
30
30
25
25
20
20
15
Serie1
10
10
15
10
10
0
0
A
B
C
Nel grafico tutte le componenti
hanno il massimo impatto.
Il risultato è un grafico confuso,
difficile da leggere anche se sono
presenti solo 3 valori.
A
B
C
Il grafico a destra è più
facile da leggere.
Il
ricorso
a
poche
componenti di supporto
permette di concentrare
l’attenzione sui dati.
1. Diagrammi cartesiani
2. Diagrammi cartesiani a segmenti
3. Istogrammi
3. Poligono di frequenza
DIAGRAMMA CARTESIANO
Un DIAGRAMMA CARTESIANO è formato da due RETTE (assi)
perpendicolari tra loro, l’asse ORIZZONTALE si chiama ASCISSA
(asse X), l’asse VERTICALE si chiama ORDINATA (asse Y). Su di
essi vengono riportati i dati statistici, viene usato per
rappresentare le SERIE STORICHE.
Esempio:
Riportiamo su di un DIAGRAMMA CARTESIANO le TEMPERATURE
registrare ogni sei ore, durante una giornata autunnale : 1) h=0;
T=2°c2) h=6;T=2°C 3) h=12;T=11°C 4) h=18;T=6°C 5) h=24;T=4°C
Basta riportare sull’ asse X il Tempo e sull’ asse Y le Temperature
dati
Grafico
T (°C)
Y
12
10
8
6
4 (0;2)
2
0
(12;11)
(18;6)
(6;2)
(24;4)
6 12 18 24
h (ore)
DIAGRAMMA CARTESIANO
X
ISTOGRAMMA
L’ISTOGRAMMA è un grafico a colonne: le colonne (rettangoli)
hanno basi uguali e possono essere disegnate una vicino
all’altra. L’altezza è proporzionale alla frequenza di ciascun dato.
Vien usato nei caratteri quantitativi CONTINUI.
Esempio:
Riportiamo in un ISTOGRAMMA le marche di cellulari più in uso fra
i giovani : NOKIA (300), SIEMENS (240), SAMSUG (120), PANASONIC
(80), MOTOROLA (50)
320_
280_
240_
300
240
200_
ISTOGRAMMA
160_
120_
180_
140_
120
80
50
Noki Siem Sams Pana Moto
Gli istogrammi si impiegano per rappresentare
graficamente distribuzioni di frequenza di caratteri
quantitativi le cui modalità sono costituite da classi di
valori.
A tal fine occorre distinguere due casi, ovvero:
1. Le classi di valori hanno uguale ampiezza. In questo
caso avremo tanti rettangoli contigui, ciascuno
avente base uguale all’ampiezza della classe e
altezza uguale o proporzionale alla frequenza
(assoluta o relativa) assunta nell’insieme delle unità
della classe.
2. Le classi di valori hanno diversa ampiezza. In quest’altro caso
avremo una serie di rettangoli aventi basi diverse uguali
all’ampiezza delle classi e altezze da calcolarsi, in modo che le
frequenze siano proporzionali alle aree dei rispettivi rettangoli.
In ordinata, pertanto, avremo le cosiddette densità di
frequenza date dal rapporto tra la frequenza (assoluta o
relativa) di ciascuna classe e la relativa ampiezza.
Esempio:
Ampiez
Classi
za della
xi  xl  xi 1 classe
di
0 |--| 2
2 --| 4
4 --| 6
6 --| 8
8 --| 11
Totale
2
2
2
2
3
Freq.
relativa
ni
fi 
n
0,60
0,24
0,08
0,06
0,02
1,00
Densità di
Somma delle
frequenza
aree
i
fi
Pl   dl hl
hi 
l 1
di
0,30
0,60
0,12
0,84
0,040
0,92
0,030
0,98
0,0067
1,00
La classe (0 ; 2) indica un intervallo chiuso con l’estremo
inferiore uguale a zero e l’estremo superiore uguale a 2. Tutte
le altre classi indicano degli intervalli aperti all’estremo
inferiore e chiusi all’estremo superiore.
densità di
frequenza
Istogramma normalizzato del numero di stabilimenti
(classi equiampie)
0.30
0.25
0.20
0.15
0.10
0.05
0.0
0
2
4
6
classi di modalità
8
10
Il poligono di frequenza è una spezzata che unisce i punti aventi
per ascissa i punti centrali delle classi e per ordinata la relativa
frequenza. In un istogramma, il poligono delle frequenze unisce i
punti medi dei lati superiori dei rettangoli; la spezzata deve essere
chiusa e deve toccare l’asse delle ascisse all’esterno delle classi
estreme, in modo che l’area all’interno del poligono di frequenza
equivalga a quella dell’istogramma. Ogni vertice del poligono delle
frequenze corrisponde al valore centrale di una classe. Il termine
“poligono” è usato impropriamente perché indica una spezzata
aperta (e non chiusa).
Se le classi hanno la stessa ampiezza, (di solito si considerano
come vertici della spezzata anche i punti corrispondenti ai valori
centrali
delle
classi
immediatamente
precedenti
e
immediatamente successive a quelle per le quali la frequenza è
diversa da zero. Queste classi hanno frequenza zero. Si può
verificare che in tal modo la somma delle aree dei rettangoli
dell’istogramma è uguale all’area delimitata dall’asse orizzontale e
dal poligono delle frequenze. La somma delle aree dei rettangoli di
un istogramma è uguale all’area sottostante il poligono delle
frequenze.
Sono impiegati per rappresentare graficamente caratteri
quantitativi DISCRETI, non divisi in classi, e possono configurarsi
a segmenti verticali.
Esempio. Numero dei componenti per famiglia, numero delle
stanze delle abitazioni, numero di unità locali delle aziende e così
via.
Essi si costruiscono come gli usuali diagrammi cartesiani aventi
due assi perpendicolari: l’asse delle ascisse (x) e l’asse delle
ordinate (y), aventi origine comune in zero. Ogni coppia ordinata
di valori (xi,yi) determinerà un punto nel piano e l’insieme di tutte
le coppie (xi = modalità quantitativa i-esima, yi = frequenza della
modalità i-esima) determinerà l’insieme dei punti nel piano che
costituiscono la rappresentazione grafica della distribuzione
considerata.
Per rendere maggiormente visibili tali punti, si tracciano dei
segmenti verticali congiungenti l’ascissa (xi) con il punto del
piano corrispondente all’ordinata (yi).
E’ da notare che in questo caso è scorretto costruire il
poligono o spezzata di frequenza congiungendo tra loro i
punti poiché il carattere considerato è discreto e quindi,
per sua natura, non possiede i valori intermedi a quelli
indicati dalle modalità quantitative. Una spezzata di
frequenza che unisse tra loro le modalità, infatti,
attribuirebbe anche valori intermedi alle modalità stesse.
1. Grafici a barre: ortogrammi o a nastri
2. Diagrammi circolari
3. Ideogrammi
4. Cartogrammi, mappe tematiche
I grafici a barre sono impiegati per rappresentare graficamente
caratteri con modalità qualitative, serie sconnesse o rettilinee e
possono essere di due tipi:
1. A colonne se sono costituiti da una successione di colonne,
segmenti verticali o rettangoli (a base uguale) equidistanti,
in numero pari alle modalità del carattere, e hanno altezza
uguale o proporzionale alla frequenza (assoluta o relativa).
Sull’asse delle ascisse (orizzontale) si riportano le modalità,
sull’asse delle ordinate (verticale) si riportano le frequenze.
2. A nastri, se sono costituiti da tanti nastri (segmenti
orizzontali, rettangoli) sovrapposti ed equidistanti, in
numero pari alle modalità del carattere, e hanno lunghezza
uguale o proporzionale alla frequenza (assoluta o relativa).
Sull’asse delle ascisse (orizzontale) si riportano le
frequenze, sull’asse delle ordinate (verticale) si riportano le
modalità.
Ortogramma a colonne
Ortogramma a nastri
Se la rappresentazione grafica riguarda una serie sconnessa, l’ordine
in cui saranno poste le modalità è arbitrario; se si tratta invece di una
serie rettilinea (es. titolo di studio), le modalità saranno poste
nell’ordine naturale che esse presentano nella serie.
Esempio di ortogramma:
popolazione per condizione, settore di attività
economica degli occupati e sesso in Italia nel 1981.
Maschi(in
migliaia)
Agricoltura Industria
1.7865.901
Altre attività
6.520
In cerca di Occupazione 808
Femmine(in
migliaia)
9731.826
3.745
1.104
Gli ortogrammi si utilizzano anche per rappresentare
contemporaneamente dati di segno opposto come
entrate e uscite, importazioni ed esportazioni. Un
esempio di ortogramma per la rappresentazione
contemporanea di dati positivi e negativi è quello
riportato sotto.
Carattere qualitativo nominale a barre verticali:
ORTOGRAMMA
N.B. E’ possibile costruire il diagramma a barre riportando in ordinata le
frequenze assolute OPPURE le frequenze relative, la forma della
rappresentazione risulta invariata.
principali cause di morte nell'uomo nei Paesi
industrializzati (fonte: WHO)
Nel grafico precedente, la scala delle ascisse indica i
tassi di mortalità per 100.000 persone e per anno (cioè il
numero di morti ogni 100.000 persone in 1 anno per ogni
causa considerata). In particolare, le barre verdi
forniscono i valori osservati nel 1900, quelle gialle i
valori
del
1984.
Ora, confrontando le differenze fra le barre verdi e le
gialle per tutte le cause riportate nel grafico, saltano
agli occhi gli enormi progressi ottenuti per le malattie
infettive tubercolosi, influenza, polmonite ecc.) alcune
delle quali risultano oggi pressoché scomparse nei Paesi
industrializzati a cui il grafico si riferisce.
La facilità con cui abbiamo acquisito informazioni dal
grafico, è una conseguenza della loro visualizzazione in
forma di grafico a barre: questa rappresentazione
consente di cogliere le caratteristiche salienti della
rilevazione statistica e di effettuare raffronti
con
notevole immediatezza rispetto ai soli dati numerici. Per
contro, a questa maggior immediatezza di sintesi può far
riscontro una diminuzione del senso critico nel valutare i
dati.
DIAGRAMMI CIRCOLARI O AEROGRAMMA
L’AREOGRAMMA è un tipo di rappresentazione grafica alla quale si
ricorre quando si vogliono rappresentare le parti che compongono
un fenomeno statistico, usato nei caratteri qualitativi SCONNESSI.
In tal caso si traccia una CIRCONFERENZA e si procede alla sua
divisione in parti proporzionali alle intensità delle componenti del
fenomeno statistico.
Esempio
Un collezionista si ritrova con 5.750 francobolli di cui: 1.250 sono
della Città del Vaticano, 1.100 della Repubblica di S Marino e 3.400
Italiani. Rappresentare il fenomeno statistico mediante un
diagramma a torta.
ampiezza settori circolari
percentuali
1.250
C.Vat 
100  22%
5.750
S.Mar 
Ital. 
22%
59%
19%
1.100
100  19%
5.750
3.400
100  59%
5.750
C.Vat 
1.250
 360  78
5.750
S.Mar 
AEROGRAMMA o
diagramma a torta
Ital. 
1.100
 360  69
5.750
3.400
 360  213
5.750
I
diagrammi
circolari
(o
aereogrammi) per la loro forma
circolare, sono comunemente
noti come ‘‘diagrammi a torta’’.
Sono particolarmente adatti
alle
serie
sconnesse
o
rettilinee.
Sono efficaci per mettere in
evidenza l’importanza relativa
delle singole modalità rispetto
al totale.
IDEOAGRAMMA
L’IDEOGRAMMA
è un tipo di rappresentazione grafica nel
quale il fenomeno statistico viene rappresentato mediante
l’impiego di FIGURE che richiamano idealmente il contenuto del
fenomeno e dove la sua frequenza è proporzionale alle
DIMENSIONI oppure al NUMERO delle figure impiegate.
Quando il fenomeno da rappresentare non si può rappresentare
con una figura intera allora si ricorre ad una FRAZIONE di essa.
Esempio
Rappresentare mediante un ideogramma le popolazioni di due
cittadine formate da 6.500 e 4.000 abitanti.
Unità di riferimento = 1.000 abitanti
6.550 abitanti
4.000 abitanti
I cartogrammi sono grafici utili
per rappresentare serie
territoriali o geografiche.
Per costruire un cartogramma
occorre disporre di una carta
geografica o topografica in cui
siano chiaramente delimitate
le diverse zone, regioni,
circoscrizioni (geografiche,
politiche, amministrative)
rispetto alle quali viene
analizzata l’intensità o la
frequenza di uno o più caratteri
(es. nati, morti, reddito pro
capite, secondo le Regioni,
Province, Comuni).
I cartodiagrammi non sono altro che dei cartogrammi in
cui, anziché delle serie territoriali semplici, vengono
rappresentate delle serie territoriali di due o più caratteri.
Esempio: I nati vivi e i morti per 1.000 abitanti nelle 20
Regioni italiane nel 1986.
SCHEMA RIASSUNTIVO
Caratteri qualitativi sconnessi
Diagramma a
Diagramma a
Diagramma a
Diagramma a
Caratteri qualitativi ordinati
Diagramma a colonne
Diagramma a nastri
Caratteri quantitativi discreti
Caratteri quantitativi continui
torta
colonne: istogramma
nastri o a barre
segmento
Diagramma ad aste o segmenti
Diagramma a colonne:istogrammi
Serie storiche
Diagramma cartesiano
Diagramma a colonne: ortogrammi
Serie geografiche
Cartogramma
La scelta della rappresentazione grafica
Questi 2 grafici rappresentano la stessa distribuzione.
Qual è più chiaro?
Quale settore del diagramma circolare è maggiore?
La scelta della rappresentazione grafica
Per la maggior parte delle persone è
confrontare segmenti piuttosto che angoli.
più
facile
Nel diagramma circolare i settori numero 1 e 4 sembrano
identici, mentre nel diagramma a barre è evidente la
differenza.
E’ opportuno rappresentare la stessa distribuzione con
più grafici per individuare quello che meglio rappresenta
il messaggio che si vuole veicolare.
I grafici finora analizzati ci danno informazioni qualitative;
possiamo quantificarle ricorrendo ai seguenti indici.
di calcolo
MEDIE (semplici e
(tengono conto di TUTTI i
di sintesi
ponderate)
valori della distribuzione)
di posizione
(si calcolano tenendo
MEDIANA
MODA
conto solo di ALCUNI valori)
INDICI
di dispersione
CAMPO DI VARIAZIONE O RANGE
VARIANZA
SCARTO QUADRATICO MEDIO
COEFFICIENTE DI VARIAZIONE
MEDIA ARITMETICA SEMPLICE
Consideriamo una distribuzione di DATI DIVERSI
UNO DALL’ALTRO:
a a .............. an
1 2
La MEDIA ARITMETICA SEMPLICE è uguale alla
somma dei dati divisa per n, cioè:
a  a  a ...... a
n
1
2
3
M
n
Le medie sono adatte a rappresentare distribuzioni di
caratteri quantitativi
MEDIA ARITMETICA SEMPLICE
Esempio di calcolo
Un alunno nei tre compiti di matematica ha riportato i
voti presenti in tabella.
Calcolare la MEDIA ARITMETICA dei voti.
COMPITO
VOTO
N° 1
7
N° 2
8
N° 3
6
TOTALE
21
a a a
M 1
M
2
3
n
7  8  6 21
 7
3
3
Dove:
21 = somma dei voti
3 = numero dei voti
7 = MEDIA ARITMETICA dei voti
MEDIA ARITMETICA PONDERATA
Se i dati si presentano con una certa FREQUENZA o PESO
allora il calcolo della media deve essere effettuato
sommando ogni termine tante volte quante indica la sua
frequenza.
Supponiamo che:
Il termine a1 si presenta con frequenza p1
Il termine a2 si presenta con frequenza p2
…………………………………………………………………………
Il termine an si presenta con frequenza pn
Il calcolo della MEDIA PONDERATA si effettua con la
relazione:
Mp 
a  p  a  p  a  p ...... an  pn
1
1
2
2
3
2
3
3
p  p  p ....... pn
1
MEDIA ARITMETICA PONDERATA
Esempio di calcolo
20 Studenti di una classe, hanno ottenuti in matematica i
voti riportati in tabella.
Calcolare la MEDIA PONDERATA dei voti.
Voto in
Matematica
Numero
studenti
4
2
5
3
6
8
7
5
8
2
totale
20
Mp 
a  p a  p a  p a  p a  p
1
1
2
3
3
4
p p p p p
1
Mp 
2
2
3
4
4
5
5
5
4 2  53  68  7 5  8 2 122

 6,1
2  38  5  2
20
Dove:
122 = somma dei voti
20 = numero di studenti
6,1 = MEDIA PONDERATA dei voti
MEDIA PONDERATA NEL CASO DI UNA
DISTIBUZIONE DI DATI PER CLASSI
In questo caso ad ogni classe, viene sostituito il TERMINE
CENTRALE, calcolato mediante la semisomma dei termini
estremi della classe (X1-X2).
I termini centrali cosi ottenuti costituiscono i termini a1; a2;
a3; ecc. della distribuzione.
classe
frequenza
X1-X2
p1
X2-X3
p2
X3-X4
p3
ecc.
ecc.
Infine la media
ponderata si
calcola con la
relazione
SEMISOMME
x x
a1  1
2
2
x x
a2  2
Mp 
3
2
Termine
centrale
frequenze
a1
p1
a2
p2
a3
p3
ecc.
ecc.
a  p  a  p  a  p ...... an  pn
1
1
2
2
3
2
3
3
p  p  p ....... pn
1
MEDIA PONDERATA
DI UNA DISTIBUZIONE DI DATI PER CLASSI
Esempio di calcolo
Si fa riferimento ai dati della tabella 1
Classi di
età (anni)
CALCOLO
valori centrali
n° persone
(Frequenze)
0 - 20
a1 
35
20 - 40
4
40 - 60
1
totale
40
a2 
0  20 20
 10
2
2
termini
central
i
n°
persone
(Frequenz
e)
a1 = 10
P1 = 35
a2 = 30
20  40 60
  30
a3 = 50
2
2
totale
P2 = 4
P3 = 1
40
Calcolo della media ponderata
a  p  a  p  a  p 1035304 501 520
Mp  1 1 2 2 3 3 

13
p p p
40
40
1
2
3
Età media = 13 anni
MODA
Si definisce MODA di una distribuzione di dati il termine
corrispondente alla MASSIMA FREQUENZA assoluta o relativa.
ESEMPIO:
di voti:
Determinare la MODA della seguente distribuzione
VOTO
FREQUENZA
5
4
6
8
7
4
8
2
9
1
Il termine che corrisponde alla
massima frequenza (8) è il 6,
pertanto:
MODA = 6
La moda è particolarmente adatta a rappresentare
distribuzioni di caratteri qualitativi
Le distribuzioni di frequenza possono essere:
zeromodali: nessuna modalità ha una frequenza più
elevata degli altricioè fanno tutti frequenza uguale ad 1.
Esempio A = {1, 2, 3, 4, 5, 6}
unimodali : c’è una sola modalità con una frequenza più
elevata degli altri.
Esempio: A = {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7, 8}
bimodali : ci sono due modalità con una frequenza più
elevata degli altri.
Esempio: A = {1, 2, 2, 3, 3, 3, 3, 5, 6, 6, 6, 6, 7, 7, 8, 8 }
trimodali, ecc : ci sono tre,…, modalità con una
frequenza più elevata degli altri.
Esempio: A = {1, 2, 3, 3, 3, 3, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8}.
plurimodali: tutte le modalità della distribuzione hanno
la stessa frequenza diversa da uno.
CLASSE MODALE
Nel caso di caratteri continui e per distribuzioni fornite
per classi equi-ampie il calcolo della moda avviene
mediante l’individuazione della classe modale, cioè
quella caratterizzata dalla massima frequenza.
Se le classi non sono equi - ampie è bene dividere la
frequenza assoluta di ogni classe per l’ampiezza
dell’intervallo ottenendo la cosiddetta “densità di
frequenza”. La classe modale è quella con la densità di
frequenza più alta.
Per la determinazione della classe modale è opportuno
ricorrere all'istogramma, individuando l'intervallo di
altezza massima, ovvero il punto di massimo della curva.
La classe con la maggiore densità media (che
corrisponde all'altezza dell'istogramma) è quella modale.
MEDIANA
MEDIANA
il termine che occupa il POSTO
CENTRALE di una distribuzione di dati ordinati in modo
crescenti. La mediana è adatta a rappresentare distribuzioni di
caratteri quantitativi.
Si definisce
ESEMPIO:
di voti:
Determinare la MEDIANA della seguente distribuzione
VOTO
FREQUENZA
5
4
6
8
7
4
8
2
9
1
Si ordinano i dati in maniera crescente
5 5 5 5 6 6 6 6 6
6
6 6 7 7 7 7 8 8 9
Il TERMINE CENTRALE è il 6, infatti è
quello che lascia alla sua destra e alla
sua sinistra un eguale numero di termini,
pertanto si ha:
MEDIANA = 6
Per caratteri quantitativi discreti:
•Si dispongono i valori in una serie ordinata in modo
crescente o decrescente e si conta il numero totale
n di dati:
•se n è dispari, la mediana corrisponde al valore
numerico del dato che occupa la posizione (n+1)/2;
•se n è pari, la mediana è calcolata come la media
aritmetica dei valori che occupano le posizioni (n/2)
e (n/2)+1 .
Per caratteri quantitativi continui:
Il raggruppamento in classi delle modalità consente
al più di determinare la classe mediana nella quale
ricade
l’unità
statistica
che
bipartisce
la
distribuzione ordinata delle modalità.
80
Quando
i
dati
sono
distribuiti
uniformemente su entrambi i lati del
picco la distribuzione è simmetrica.
Quando i dati
non sono distribuiti
uniformemente su entrambi i lati del
picco la distribuzione è asimmetrica.
In una distribuzione unimodale valgono le
seguenti relazioni:
media=mediana=moda
( simmetria)
moda<mediana<media (asimmetria +)
media < mediana < moda (asimmetria -)
RICAPITOLANDO
I principali indicatori della statistica descrittiva sono:
1. media: è la somma di tutte le N osservazioni divisa per N.
Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11], la media è 43/8
2. moda: è il numero di osservazioni che compare con
maggior frequenza. Per es., per i valori [1, 2, 4, 4, 5, 7, 9, 11],
la moda è 4. In alcune distribuzioni, la moda può mancare,
oppure essere presente per più di un valore; in questo caso,
si hanno distribuzioni bimodali (due mode), trimodali
(tre mode), plurimodali.
3. mediana: è il numero che compare al centro dei valori
osservati, se questi sono dispari; se sono pari, è la media
fra i due valori centrali. Per es., per i valori [1, 2, 4, 4, 5, 7,
9, 11], la mediana è (4 + 5)/2
Calcolare la media e la mediana di una serie di 6 dati
(10,1; 10,8; 13,1; 13,9; 14,2; 14,5; )
e rappresentarle graficamente.
la media è 12,85
la mediana, essendo n pari, è data dalla media
aritmetica dei valori che occupano le posizioni 3 e 4
quindi sarà:
13.1  13.9
Me 
 13.5
2
85
esempio:
Disegnato l'istogramma delle
frequenze (v. fig. a destra) calcolare
le stime campionarie per un paziente
del quale è stato registrato il
seguente numero di battiti cardiaci al
minuto in un periodo di 10 giorni:
-[73, 72, 73, 74, 70, 76, 72, 74, 74, 73]
Le stime campionarie sono:
la media è data dalle
osservazioni/N = (73 + 72 + 73 + 74 +
70 + 76 + 72 + 74 + 74 + 73)/10 = 73,1
la mediana, trattandosi di un insieme
costituito da osservazioni in numero
pari, è data dalla media dei valori
centrali:
70, 72, 72, 73, 73, 73, 74, 74, 74,
76 (73 + 73)/2 = 73
la moda è bimodale, ed è costituita
dai due valori più frequenti: 73 e 74
Prova tu ………
Esercizio
Lanciando due dadi, si sono registrati i seguenti
punteggi totali:
10 – 9 – 8 – 11 – 5 – 4 – 10 – 4 – 7 – 7 – 9 – 10 – 4 – 6 – 8
– 9 – 6 – 5 – 6 – 8 – 7 – 10 – 9 – 5 – 6 – 3 – 8 – 7 – 5 – 7 –
11
1.
organizza i dati in una tabella di frequenza
2.
qual è il dato con la maggior frequenza
3.
sono usciti più frequentemente risultati dispari o
pari?
4.
sono usciti più frequentemente risultati maggiori o
minori di 7?
5.
qual è la frequenza percentuale del punteggio 6?
6.
Determina la MODA e la MEDIANA
INDICATORI DI DISPERSIONE
CAMPO DI VARIAZIONE (RANGE)
La caratteristica dei valori misurati per un certa
osservazione a distribuirsi attorno ad un valore medio è
chiamato dispersione.
Per misurare la dispersione o variabilità dei valori, si
utilizzano indicatori statistici detti di dispersione.
Il campo di variazione o range di una raccolta di dati è
la differenza tra il massimo ed il minimo valore
osservati: R = xmax − xmin
Il campo di variazione è poco usato perchè:
• trascura la maggior parte dell’informazione disponibile
• risente eccessivamente dei valori estremi.
VARIANZA (σ2)
La VARIANZA serve per valutare la VARIABILITÀ di un
fenomeno statistico.
La VARIANZA è la media aritmetica degli scarti al
quadrato, si indica con il simbolo σ2 ( si legge sigma
al quadrato) e si calcola con la relazione:
a  M 2  a  M 2  ........ an  M 2

2
2 1
n
1) La VARIANZA è sempre POSITIVA: infatti i termini (aM)2 sono tutti positivi
2) La VARIANZA è uguale a ZERO se la VARIABILITÀ è
nulla
3) La VARIANZA è tanto più ALTA quanto più alta è la
VARIABILITÀ
VARIABILITA’
DI UN FENOMENO STATISTICO
Per comprendere cos’è la VARIABILITA’ di un fenomeno
statistico consideriamo la tabella che segue, nella quale
vengono indicati quanti televisori sono stati venduti da un
commerciante nei primi tre mesi del 2003 e 2004
Dalla tabella si nota che nel 2003
mese
2003 2004
la vendita mensile dei televisori
Gennaio
30
40
risulta COSTANTE
(30-30-30),
mentre nel 2004 essa subisce una
febbraio
30
20
VARIAZIONE (40-20-30)
marzo
30
30
totale
90
90
Pertanto:
2) SI HA VARIABILITÀ nelle vendite
del 2004
1) NON SI HA VARIABILITÀ nelle
Vendite del 2003
Si ha VARIABILITA’ quando i dati relativi ad un
fenomeno statistico non sono tutti uguali.
CALCOLO DELLA VARIANZA
I prezzi di CILIEGIE ed ANGURIE, in una settimana, variano
secondo i dati riportati in tabella. Stabilire in base al calcolo della
VARIANZA quale dei due prodotti ha subito una maggiore
variazione di prezzo.
giorno
1 Kg di
Ciliegie
1 Kg di
Angurie
Scarto
ciliegie
Scarto al
quadrato
Scarto
angurie
Scarto al
quadrato
Lunedì
€ 5,00
€ 1,00
- 0,25
0,0625
+ 0,25
0,0625
Martedì
€ 5,10
€ 1,00
- 0,15
0,0225
+ 0,25
0,0625
Mercoledì
€ 5,20
€ 0,80
- 0,05
0,0025
+ 0,05
0,0025
Giovedì
€ 5,30
€ 0,70
+ 0,05
0,0025
- 0,05
0,0025
Venerdì
€ 5,40
€ 0,50
+ 0,15
0,0225
- 0,25
0,0625
Sabato
€ 5,50
€ 0,50
+ 0,25
0,0625
- 0,25
0,0625
MEDIA
€ 5,25
€ 0,75
0
0,175
0
0,225
Per le angurie si ha: M = 0,75 e σ2 = 0,225/6 = 0,04
Per le ciliegie si ha: M = 5,25 e σ2 = 0,175/6 = 0,03
Essendo la VARIANZA delle angurie (0,04), maggiore della
VARIANZA delle ciliegie (0,03), il prezzo delle angurie ha
subito una variazione maggiore rispetto al prezzo delle ciliegie
SCARTO QUADRATICO MEDIO (σ) o
deviazione standard
A volte per misurare il grado di VARIABILITÀ di una
distribuzione di dati, si preferisce ricorrere allo SCARTO
QUADRATICO MEDIO cioè alla RADICE QUADRATA della
VARIANZA. La deviazione standard, scarto tipo o scarto
quadratico medio è un indice di dispersione statistico,
vale a dire una stima della variabilità di una popolazione di
dati o di una variabile casuale. La deviazione standard è
data dalla RADICE QUADRATA della VARIANZA.
  varianza   2
L’IMPORTANZA dello scarto quadratico medio risiede
nel fatto che esso permette di giungere al concetto di
NORMALITA’ nel campo statistico.
COEFFICIENTE DI VARIAZIONE
Il coefficiente di variazione, definito dal rapporto
fra deviazione standard e la media aritmetica dei
dati, V = σ/ m (m = media aritmetica dei dati, con m
diverso da zero) fornisce una indicazione della
variabilità
delle
osservazioni
rilevate.
In
particolare, se:
•V = 1, allora σ = m e la media non è un indice
corretto;
•V = 0, allora σ = 0 e la media è un indice perfetto;
•V > 0.5, la media non è un indice corretto;
•V ≤ 0.5, la media è un indice corretto.
NORMA e FUORI NORMA
Un CARATTERE su cui si indaga si dice compreso NELLA NORMA
quando esso non differisce dal CARATTERE MEDIO di più o di meno
tre volte lo SCARTO QUADRATICO MEDIO.
Un CARATTERE che va fuori tali limiti si dice FUORI
NORMA.
Esempio:
Se una popolazione evidenzia un’ALTEZZA MEDIA H = 175
cm con uno SCARTO QUADRATICO MEDIO σ = 5 cm,
possiamo dire che:
Un’ALTEZZA rientra NELLA NORMA se compresa tra:
H – 3 x σ = 175 – 3 x 5 = 160 cm
H + 3 x σ = 175 + 3 x 5 = 190 cm
ALTEZZE fuori da tale intervallo (160;190cm) sono FUORI
NORMA
ESEMPI
esempio 1:
studiare la curva di distribuzione i cui valori sono: 95,
96, 97, 98, 99, 101, 102, 103, 104, 105
il campo di variazione è: 105 - 95 = 10
la media è: 100 e non corrisponde ad alcun valore
realmente osservato;
la mediana è: 100 ed è uguale alla media; ciò indica una
distribuzione simmetrica
la moda è mancante (zeromodale)
la deviazione standard o scarto quadratico è: 3.3 ed
indica che la media fornisce una stima adeguata delle
misure osservate. Infatti, nell'intervallo (100 - 3.3); (100
+ 3.3) cadono 6 valori su 10
il coefficiente di variazione è: 3,3/ 100 = 0.033, un
valore molto basso e quindi la media è un indicatore
corretto.
esempio 2:
Studiare la curva di distribuzione i cui valori
sono: 95, 95, 95, 95, 95, 105, 105, 105, 105, 105
il campo di variazione è: 105 - 95 = 10
la media è: 100 e non corrisponde ad alcun
valore realmente osservato;
la mediana è: 100 ed è uguale alla media; ciò
indica una distribuzione simmetrica
la moda è: bimodale, con i valori 95 e 105. Questo è
l'indicatore più appropriato per la distribuzione in oggetto.
la deviazione standard è: 5 ed indica che la media fornisce
una stima adeguata delle misure osservate. Infatti,
nell'intervallo (100 - 5); (100 + 5) cadono 10 valori su 10
il coefficiente di variazione è: 5/ 100 = 0.05, un valore
basso. Inoltre, anche senza osservare il grafico, si può
intuire che i valori osservati sono concentrati agli estremi.
La media, in questo caso, è un indice corretto.
esempio 3:
studiare la curva di distribuzione i
cui valori sono: 0, 0, 50, 50, 100, 100, 150,150, 200, 200
il campo di variazione è: 200 - 0 = 200
la media è: 100 corrisponde a due valori realmente
osservati;
la mediana è: 100 ed è uguale alla media; ciò indica una
distribuzione simmetrica
la moda è: plurimodale
la deviazione standard è: 70,7 ed indica che la media
fornisce una stima adeguata delle misure osservate.
Nell'intervallo (100 - 70,7); (100 + 70,7) cadono 6 valori su 10
e l'intervallo in cui cadono i dati è coperto al 50%
il coefficiente di variazione è: 70.7/ 100 = 0.7 un valore alto,
e quindi l'indicatore più adatto è la moda in quanto la
distribuzione è multimodale.
esempio 4:
studiare la curva di
distribuzione i cui valori sono:
20, 40, 50, 60, 70, 80, 90, 90,
100, 200, 200, 200
il campo di variazione è: 200 - 20 = 180
la media è: 100 e corrisponde ad un valore realmente osservato;
la mediana è: 85 ed è differente dalla media; ciò indica una
distribuzione asimmetrica
la moda è 200. Questo è l'indicatore più appropriato per la
distribuzione in oggetto.
la deviazione standard è: 61.6 e la media fornisce una stima
adeguata delle misure osservate.
il coefficiente di variazione è: 61.6/ 100 = 0.62 un valore elevato,
infatti i valori osservati sono piuttosto distribuiti.
La presenza di un valore estremo (200) provoca una distorsione
sugli indici di variabilità e toglie significato rappresentativo alla
media. Questo è un caso piuttosto frequente in campo medico
(per es., i valori degli esami del sangue) ed in altri settori
applicativi. In questo caso, il valore della media è troppo
spostato a destra rispetto alla maggior parte dei valori della
distribuzione di frequenza. L'indicatore migliore è pertanto la
mediana, che risente meno dei valori estremi.
FINE
PRESENTAZIONE
…e adesso…
buon lavoro!
Scarica

a 1