Completiamo i grafici

Diagramma logaritmico: variante del diagramma cartesiano; si
usa se ci sono valori delle y molto piccoli e molto grandi (nessuna
scala sarebbe adeguata), oppure se si vogliono evidenziare le
variazioni in percentuale, piuttosto che quelle assolute

Diagramma di Pareto: serve per rappresentare la perdita
economica (difettosità e loro costi).

Diagramma a scatola e baffi (box-plot): consente di
visualizzare alcune caratteristiche della distribuzione statistica
(campo di variazione, percentili, media aritmetica, mediana, massimo,
minimo)
Diagramma a scatola e baffi (box-plot)
Diagramma a scatola e baffi (box-plot): consente di
visualizzare alcune caratteristiche della distribuzione
statistica (campo di variazione, percentili, media aritmetica,
mediana, massimo, minimo)
Internamente alla scatola sono rappresentati: mediana e media
aritmetica
 Le linee esterne rappresentano il I e il III quartile (la distanza misura la
dispersione della distribuzione)
 La distanza tra ciascun quartile e la mediana rappresenta la forma della
distribuzione

◦ Se è diversa, la distribuzione è asimmetrica
◦ Se la distribuzione è normale, media e mediana coincidono; le distanze tra I quartile e
mediana e tra mediana e III quartile coincidono, cosi’ come minimo e I quartile, III
quartile e massimo. In generale, queste distanze danno informazioni sulla forma della
coda della distribuzione
Esempio 2.14
Sia data una tabella che riporta il diametro (cm) di 25 tubi
prodotti da 3 macchinari diversi. Macchina A Macchina B Macchina C
74,030
73,995
73,988
74,002
73,992
74,009
73,995
73,985
74,008
73,998
73,994
74,004
73,983
74,006
74,012
74,000
73,994
74,006
73,984
74,000
73,988
74,004
74,010
74,015
73,982
74,002
73,992
74,024
73,996
74,007
73,994
74,006
74,003
73,995
74,000
73,998
74,000
74,002
73,967
74,014
73,984
74,012
74,010
74,002
74,010
74,001
73,999
73,989
74,008
73,984
74,019
74,001
74,021
73,993
74,015
73,997
73,994
73,993
74,009
73,990
73,994
74,007
73,998
73,994
73,998
74,005
73,986
74,018
74,003
74,013
74,009
73,990
73,990
73,993
73,995
Esempio 2.14
Sia data una tabella che riporta il diametro (cm) di 25 tubi
prodotti da 3 macchinari diversi.
Per ottenere il diagramma, occorre innanzitutto determinare esplicitamente le
statistiche di base
Macchina A
Macchina B
Macchina C
I° quartile
73,992
73,995
73,993
valore minimo
73,982
73,967
73,986
media
73,999
74,000
74,001
mediana
74,000
74,001
73,998
valore massimo
74,030
74,024
74,021
III° quartile
74,006
74,007
74,009
Esempio 2.14
Sia data una tabella che riporta il diametro (cm) di 25 tubi
prodotti da 3 macchinari diversi.
Ora dobbiamo inserire il grafico.
Selezioniamo le celle e inseriamo il grafico a linee (con indicatori).
Cambiare l’opzione di Selezionata dati “Scambia colonne/righe”
Esempio 2.14
Le 3 osservazioni sono unite da linee che non ci interessano.
Per rimuoverle, nel menù Formato selezionare Serie dei dati selezionati ,
selezionare la linea, Colore Linea “nessuna”;
Nel menù Layout, selezionare Analisi; poi indicare “LineeLinee di MinMax” e poi “Barre Barre Crescenti-decrescenti”
74.04
Box-Plot per il diametro di tubi prodotti da tre macchinari
74.03
74.02
74.01
74.00
73.99
73.98
I° quartile
valore minimo
media
73.97
mediana
valore massimo
III° quartile
73.96
Macchina A
Macchina B
Macchina C
Sintesi dei dati in una tabella

Spesso si vuole effettuare una sintesi dei
dati per ottenere indici che misurino gli
aspetti più rilevanti.
◦ Indici di posizione / misure di tendenza
centrale
◦ Indici di variabilità (cap. 4)
◦ Indici di forma (cap.5)
Principali indici statistici
I grafici finora analizzati ci danno informazioni qualitative; possiamo
quantificarle ricorrendo ai seguenti indici.
Sianox1 , x2 ,..., xn
n osservazioni numeriche
MODA
di posizione
MEDIANA
MEDIA
QUARTILI E PERCENTILI
SCARTO QUADRATICO MEDIO
INDICI
di dispersione
VARIANZA
RANGE
ERRORE STANDARD
di forma
ASIMMETRIA (SKEWNESS)
CURTOSI ( KURTOSIS)
di dispersione
di posizione
•media:
Indici: Schema riassuntivo
x

x
i
i
N
•moda: punto di max della distribuzione
•mediana: valore sotto al quale cadono la metà dei valori campionari. Si
dispongono i dati in ordine crescente e si prende quello che occupa la posizione
centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)
•varianza
•deviazione standard
•range
s2 
i 
s
xi  x

2
N 1
R  xmax  xmin
di forma
>0 coda a ds
•skewness (coeff. di asimmetria)
<0 coda a sin
=0 simmetrica
•curtosi: misura quanto la distribuzione è appuntita
> 0 più appuntita
< 0 meno appuntita
Le misure (indici) di variabilità

I valori medi (nelle varie forme) condensano i dati in un solo valore
(spesso indicato come centro della distribuzione).

Purtroppo non è sufficiente per rappresentare le osservazioni
effettuate. Quindi si affiancano indici che forniscono informazioni
sulla dispersione, cioè sulla distanza delle osservazioni dal valore
medio.
Minore è la distanza delle osservazioni dal centro
• maggiore è la rappresentatività del valore medio
• minore è la variabilità

Se l’indice di variabilità è nullo allora tutti
i valori sono uguali tra loro.

Per analizzare la distribuzione, occorre:
◦ Calcolare valore medio
◦ Valutare la dispersione:
 Calcolare quanto distano le osservazioni dal valore
medio
 Calcolare quanto distano i valori tra loro
Vedremo:
Campo di variazione, varianza, scarto quadratico medio
Campo di variazione (range)

E’ la differenza tra l’osservazione più piccola e
quella più grande

In Excel usiamo max e min

Nella cella scriviamo (se A1:E2 è la matrice dati)
=MAX(A1:E2)-MIN(A1:E2)
PROVATE VOI SU UNA
TABELLA PRECEDENTE
Varianza

E’ la media dei quadrati degli scarti dalla media aritmetica
1
n
2
( xi - x )

1
n 1

In Excel usiamo la funzione VAR(num1;num2;…) se gli
argomenti sono un campione della popolazione. Se si tratta di tutta
la popolazione, si usa la funzione VAR.POP

Come sempre, i valori testo e logici sono ignorati. Se si vuole
considerarli, usare la funzione MEDIA.VALORI
PROVATE VOI SU UNA
TABELLA PRECEDENTE
Scarto quadratico medio o deviazione standard
La varianza esprime un indice in funzione del quadrato dell’unità di
misura delle osservazioni.
 E’ preferibile calcolare la radice quadrata della varianza, detta
deviazione standard (per mantenere la stessa unità di misura).

=
1
n
2
(
x
x
)
 i
n 1 1
In Excel si usa la funzione DEV.ST(num1;num2;…) se gli
argomenti sono un campione della popolazione. Se si tratta di tutta
la popolazione, si usa la funzione DEV.ST.POP
 Come sempre, i valori testo e logici sono ignorati. Se si vuole
considerarli, usare la funzione DEV.ST.VALORI

PROVATE VOI SU UNA
TABELLA PRECEDENTE
Errore standard
Sebbene lo strumento di statistica descrittiva
negli strumenti di analisi è in grado di generare
un report che include l'errore standard della
media, non esiste alcuna funzione in Microsoft
Excel per calcolare automaticamente il valore di
per sé.
Per calcolare l'errore standard della media, si
può utilizzare
= DEV.ST(matrice)/SQRT(Conteggio del campione)
Fonte: http://support.microsoft.com/kb/214076/it
Più piccolo/grande(k)
PICCOLO(matrice; k)
GRANDE(matrice; k)
Misure di tendenza centrale

Spesso si vuole effettuare una sintesi dei
dati per ottenere indici che misurino gli
aspetti più rilevanti.
◦ Indici di posizione (scorsa lezione; medie)
◦ Indici di variabilità (cap. 4)
◦ Indici di forma (cap.5)
Misure di forma

Si tratta di misure che evidenziano se una
distribuzione è simmetrica rispetto ad un
valore e se risulta più o meno appiattita
Vedremo
Asimmetria e curtosi (appiattimento)
rispetto ad alcune distribuzione note
Asimmetria (skewness)
Indica l’assenza di specularità rispetto all’asse di
simmetria della distribuzione
 Esistono diversi indici di asimmetria


Si possono usare media aritmetica, moda e mediana
(x, Mo, Me) per verificare se una distribuzione è
asimmetrica o meno
◦ Se coincidono, è simmetrica
◦ Se Mo<Me< x, è asimmetrica positiva (coda verso destra)
◦ Se x < Me<Mo, è asimmetrica negativa (coda verso sinistra)
Asimmetria in Excel

Usa l’indice di simmetria aF (proposto da Fisher), in cui al denominatore
compare la deviazione standard

Si tratta della funzione
ASIMMETRIA(num1;num2;…)
di almeno 3 argomenti e tale che la deviazione standard sia diversa da zero; se così
non è, viene restituito un errore
◦ aF = 0 simmetrica rispetto la media aritmetica
◦ aF > 0 asimmetrica a destra
◦ aF < 0 asimmetrica a sinistra
Esempio asimmetria positiva
Data la seguente tabella di voti riportati da 18 studenti
N. casi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
voti
3
4
4
4
4
4
4
4
5
5
5
6,5
6,5
7
7
8
8
9
Analisi dati
Per convenzione, se la coda più lunga è a destra della media (cioè esistono molti valori
con forti scarti positivi e pochi valori con deboli scarti negativi) si parla di asimmetria
positiva e si vuole che il valore dell'indice di asimmetria assuma segno positivo.
Media = 5,4
Asimmetria = 0,61
Il valore di asimmetria è maggiore di zero, quindi la curva si presenta così:
Curtosi

Fa riferimento alla maggiore o minore gibbosità di una
distribuzione, in prossimità del suo massimo (e quindi alla
lunghezza delle code)
Per valutare l’aspetto della curva, si paragona ad una curva
«normale» (teorica nota) avente stesse frequenza
complessiva, media e deviazione standard
 Si usa un altro indice di Fisher, che coinvolge la deviazione
standard al denominatore: vale 0 se la curva è normale;
positivo o negativo se è più appuntita o meno di una
normale


In Excel è la funzione CURTOSI(num1;num2;…) di
almeno 4 argomenti e tale che la deviazione standard sia
diversa da zero; se così non è, viene restituito un errore
CURTOSI: leptocurtica
In nero la curva «normale» mesocurtica
CURTOSI: platicurtica
distribuzione
platicurtica
In nero la curva «normale» mesocurtica
Statistica descrittiva (cap.6)

Molti indici trattati finora sono generati
automaticamente da Excel, usando Statistica
descrittiva del menù Analisi dei dati.

Proviamo
◦ Etichette nella prima riga/Etichette nella prima
colonna: deselezionarle se l’intervallo non contiene
etichette (altrimenti selezionare quella appropriata,
come nell’esempio 6.3)
Esempio 6.1
La tabella seguente riporta il peso in grammi di un campione
di 100 tavolette di cioccolato. Proviamo a richiamare la
funzione Riepilogo statistiche
99,9
99,9
99,7
99,7
99,7
99,6
99,7
99,8
99,9
99,7
99,8
99,7
99,9
99,7
99,7
99,8
99,9
99,7
99,8
99,7
99,8
99,7
99,8
99,8
99,8
99,8
99,9
99,9
99,8
99,9
99,7
99,8
99,8
99,7
99,8
100,0
99,7
99,8
99,8
99,8
99,8
99,8
100,0
100,0
99,9
99,6
99,9
99,9
99,8
99,8
99,6
99,8
99,8
99,8
99,7
99,6
99,9
100,0
99,8
99,8
99,8
100,0
99,8
99,6
99,8
99,6
99,8
99,8
99,7
99,6
99,7
99,8
99,8
99,8
99,8
99,8
99,9
99,6
99,7
100,0
99,8
99,8
99,8
99,9
99,9
99,8
100,0
99,9
99,8
100,0
99,7
99,9
100,0
99,8
99,8
99,8
99,8
99,9
99,7
99,9
99,7
Esempio 6.1
La tabella seguente riporta il peso in grammi di un campione
di 100 tavolette di cioccolato.
Proviamo a richiamare la funzione Riepilogo statistiche
Media
Errore standard
Mediana
Moda
99,79652336
0,010062453
99,79312502
#N/D
Deviazione standard
0,100624532
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Più grande(1)
Più piccolo(1)
0,010125296
0,083114239
0,069723767
0,484818884
99,55261744
100,0374363
9979,652336
100
100,0374363
99,55261744
Non
esistono
duplicati
Media
Errore standard
Mediana
Moda
99,79652336
0,010062453
99,79312502
#N/D
Deviazione standard
Varianza
campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Più grande(1)
Più piccolo(1)
0,100624532
0,010125296
0,083114239
0,069723767
0,484818884
99,55261744
100,0374363
9979,652336
100
100,0374363
99,55261744
Non
esistono
duplicati
Esempio 6.3
La tabella seguente riporta la quantità (in quintali) di
semilavorati stoccati in un magazzino negli ultimi 9 anni.
Proviamo a richiamare la funzione Riepilogo statistiche
• selezionare le celle escludendo la prima colonna
Esempio 6.3
La tabella seguente riporta la quantità (in quintali) di
semilavorati stoccati in un magazzino negli ultimi 9 anni.
1995
1996
1997
1998
1999
2000
2001
2002
2003
Gen
22
20
19
19
19
20
19
20
20
Feb
25
22
13
16
7
25
27
22
15
Mar
25
19
22
21
26
17
20
19
27
Apr
24
19
15
19
19
11
16
16
25
Mag
21
16
22
15
24
18
18
22
17
Giu
22
22
20
14
22
23
25
19
19
Lug
28
31
20
32
26
25
26
25
28
Ago
23
22
22
23
23
24
24
22
24
Set
19
17
21
20
14
17
17
18
20
Ott
25
25
19
24
18
21
25
20
19
Nov
23
14
21
21
19
16
15
16
20
Dic
15
21
16
15
18
17
17
17
20
Funzioni del Riepilogo statistiche
Manualmente:
Riepilogo statistiche
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Più grande(2)
Più piccolo(3)
=MEDIA(A2:A101)
=G6/RADQ(G14)
=MEDIANA(A2:A101)
=MODA(A2:A101)
Non hanno
=DEV.ST(A2:A101)
funzione
=VAR(A2:A101)
esplicita
=CURTOSI(A2:A101)
=ASIMMETRIA(A2:A101)
=MAX(A2:A101)-MIN(A2:A101)
=MIN(A2:A101)
=MAX(A2:A101)
=SOMMA(A2:A101)
=CONTA.NUMERI(A2:A101)
=GRANDE(A2:A101;2)
=PICCOLO(A2:A101;3)
Esercizio
Esercizio 2 (Riepilogo statistiche)
La tabella nel file EsameRiepilogoStatisticheTavolette.xlsx riporta il
peso in grammi di un campione di 100 tavolette di cioccolato.
a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella
tabella, che contenga, oltre alle statistiche standard (media, mediana, ….
Curtosi…) anche il Secondo più grande e il Terzo più piccolo,
utilizzando la funzione Riepilogo statistiche.
b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione
Riepilogo statistiche, ma calcolando i valori necessari (media, mediana, etc.)
con le opportune funzioni di Excel, in modo che la tabella risultante sia
identica a quello fornita al punto a).
Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio
nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento
b).
Scarica

Lezione 4 - Dipartimento di Informatica