Esercitazione di riepilogo
23 Aprile 2013
Grafici

Grafico a barre
◦ Servono principalmente per rappresentare variabili (caratteri) qualitative,
quantitative e discrete.

Grafico a settori circolari (torta)
◦

Si usano quando si vuole evidenziare come il fenomeno viene suddiviso tra le
varie modalità che lo compongono.
Istogramma
◦ Vengono utilizzati per rappresentare distribuzioni di variabili quantitative
continue, rappresentate in classi

Diagramma cartesiano
◦ Si usa quando si vuole rappresentare l’andamento di un fenomeno (serie
statistica), che varia in funzione di un parametro.

Diagramma di dispersione
◦ Si usano nel caso di una statistica doppia, in cui entrambi i caratteri sono delle variabili
◦ Serve per osservare la “dispersione” ossia la vicinanza o distanza tra le unità statistiche

Altri diagrammi (diagramma logaritmico, di Pareto, scatola e baffi)
Istogramma
Vengono utilizzati per rappresentare distribuzioni di
variabili quantitative continue, rappresentate in classi
Classi di uguale ampiezza
Classi di ampiezza diversa
Rettangoli con
- stessa base
-altezza proporzionale alla frequenza
Rettangoli con
-Base proporzionali all’ampiezza
della classe
-Altezza proporzionale alla densità
di frequenza (freq. diviso ampiezza
della classe)
area dei rettangoli = frequenza totale
moltiplicato l’ampiezza della classe
Area dei rettangoli = frequenza della
classe
Automaticamente
Usando “Analisi dei dati”: Istogramma
dà automaticamente classi, frequenze e
relativo istogramma.
 Eventualmente raffinare le classi.

Manualmente…
Calcola l’ampiezza delle classi
 Calcola la densità di frequenza
(frequenza/ampiezza)

Sulle ascisse rappresenta le classi
 Si “innalzano” i rettangoli di base due
valori successivi delle ascisse, e per
altezze le densità

Frequenza
Come estrarre queste frequenze con Excel?
1. Considerare solo la colonna dei tempi
2. Individuare il valore minimo e il valore massimo
(funzioni)
3. Preparare la colonna delle classi di singolo valore, a
partire dal minimo fino al massimo. Usare il
Riempimento (Home) e incremento di 1.
Abbiamo creato quindi le classi di ampiezza 1.
Vogliamo ora calcolare le frequenze di ogni singolo valore
(queste sono le nostre classi).
Frequenza
Come estrarre queste frequenze con Excel?
La funzione FREQUENZA ha bisogno di una matrice dati (quindi
selezionare la colonna dei tempi) e di una matrice delle classi (quindi
selezionare quella appena creata).
Attenzione: affinché sia riportata la frequenza per ogni valore della classe,
occorre che la formula sia in “forma di matrice”. Occorre quindi, PRIMA
di richiamare la funzione evidenziare la colonna in cui andrà il risultato
(tante celle quante sono le classi +1)
Quando poi, dalla finestra di dialogo della funzione FREQUENZA, si
immette la matrice delle classi, non premere INVIO ma premere
CTRL+MAIUSC+INVIO. Se non si fa così, si visualizza un solo valore.
Esercizio
Esercizio 1 (Istogramma delle frequenze)
La tabella disponibile nel file EsameIstogrammaGeyser.xlsx fornisce un
campione di 24 misurazioni dei tempi di attesa per l’eruzione successiva (in
minuti).
a) Fornire un istogramma delle frequenze dei tempi di eruzione del geyser
scegliendo opportunamente le classi in modo che rappresentino in maniera
significativa il fenomeno, utilizzando lo strumento Analisi dei dati.
b) Ripetere l’esercizio (di cui al punto a)) senza far uso dello strumento
Analisi dei dati, ma calcolando i valori necessari (frequenze, etc.) con le
opportune funzioni di Excel, in modo che l’istogramma risultante sia identico
a quello fornito al punto a).
Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio
nominato Svolgimento a), e il punto b) in un foglio nominato
Svolgimento b).
Altri grafici 2.7

Diagramma logaritmico: variante del diagramma cartesiano; si
usa se ci sono valori delle y molto piccoli e molto grandi (nessuna
scala sarebbe adeguata), oppure se si vogliono evidenziare le
variazioni in percentuale, piuttosto che quelle assolute

Diagramma di Pareto: serve per rappresentare la perdita
economica (difettosità e loro costi).

Diagramma a scatola e baffi (box-plot): consente di
visualizzare alcune caratteristiche della distribuzione statistica
(campo di variazione, percentili, media aritmetica, mediana, massimo,
minimo)
Diagramma logaritmico – Esempio 2.11

Diagramma logaritmico: variante del diagramma cartesiano; si
usa se ci sono valori delle y molto piccoli e molto grandi (nessuna
scala sarebbe adeguata), oppure se si vogliono evidenziare le
variazioni in percentuale, piuttosto che quelle assolute.

Si usa la scala logaritmica per rappresentare le ordinate
Anni
Esempio 2.11. La tabella mostra il
traffico dei passeggeri negli
aeroporti italiani nel periodo
1948-1983.
1948
1953
1958
1963
1968
1973
1978
1983
Passeggeri
(migliaia)
212
324
922
2855
5612
10171
12842
14864
Diagramma logaritmico
Anni
1948
1953
1958
1963
1968
1973
1978
1983
Passeggeri
(migliaia)
212
324
922
2855
5612
10171
12842
14864
Passeggeri (migliaia)
Passeggeri (migliaia)
16000
14000
100000
12000
10000
10000
8000
Passeggeri
(migliaia)
6000
1000
4000
100
2000
10
0
1948 1953 1958 1963 1968 1973 1978 1983
Diagramma cartesiano
Passeggeri…
1
19481953195819631968197319781983
Diagramma logaritmico
Esempio 2.11
Usiamo la scala logaritmica (valori molto distanti tra loro…)
Creiamo il foglio con i dati
PROVIAMO
 Scegliamo il grafico Logaritmico
 Nella casella Serie e Etichette X indicare le celle relative agli anni
 Nella etichetta Serie e Valori indicare le celle con i valori del traffico

Se non c’è questa opzione, fare clic sul grafico.
Formato  Selezione corrente : fare clic sulla freccia
accanto alla casella Area del grafico e quindi su Asse
verticale (valori).
Doppi click su Formato Selezione : Opzioni assi: per
modificare l'asse dei valori in logaritmico, selezionare la casella di
controllo Scala logaritmica.
Diagramma di Pareto

Diagrammi di Pareto: servono per rappresentare la
perdita economica (difettosità e loro costi).
Ordinate: frequenza di ciascun tipo di difetto
riscontrato
 Ascisse: tipologie di difetto in ordine di frequenza
decrescente


Curva cumulativa: rappresenta i valori cumulativi per
ciascun tipo di difetto  è possibile valutare quanto
siano “pesanti” i primi difetti rispetto alla globalità dei
difetti
Esempio 2.12
La tabella seguente riporta la distribuzione, per tipologia di difetto,
di 200 pezzi meccanici. Graficare l’andamento della difettosità.
Tipo di difetto
deformazione
foro
graffio
giuoco
rottura
macchia
altri
Numero di
difetti
104
42
20
14
10
7
3
Riportare i dati nel foglio excel. Ordinare i dati in senso decrescente (dati, ordina),
in un nuovo foglio. Aggiungere C1 “totale cumulato”; in C3 inserire =B3 e poi in
C4 inserire =B4+C3 e poi trascinare.
Per le percentuali cumulate, nella cella D3 digitare =C3/$C$9 e poi trascinamento
(formattare celle come “percentuali”)
Tipo di difetto
deformazione
foro
graffio
giuoco
rottura
macchia
altri
Numero di
difetti
104
42
20
14
10
7
3
Totale
cumulato
104
146
166
180
190
197
200
Percentuale
cumulata
52,00%
73,00%
83,00%
90,00%
95,00%
98,50%
100,00%
Ora dobbiamo inserire il grafico.
Selezioniamo le celle B1:B9 e D1:D9;
selezioniamo Grafico Istogramma
Serie, Etichette asse X: selezionare A3:A10
Valori: B3:B9
Selezionare la parte di istogramma che riguarda la percentuale cumulata e
cambiare il grafico (a linee). Poi, selezionare la serie “percentuale
cumulata” (formato, elementi grafico – menu sinistra) e “formato
selezione.” Opzioni serie “traccia la serie lungo asse secondario”.
Diagramma
di Pareto
Tipo di difetto
deformazione
foro
graffio
giuoco
rottura
macchia
altri
Numero di
difetti
104
42
20
14
10
7
3
120
120,00%
100
100,00%
80
80,00%
60
60,00%
40
40,00%
20
20,00%
0
0,00%
Percentuale
Totale
cumulato cumulata
104
52,00%
146
73,00%
166
83,00%
180
90,00%
190
95,00%
197
98,50%
200
100,00%
Numero di difetti
Percentuale…
Diagramma a scatola e baffi (box-plot)
Diagramma a scatola e baffi (box-plot): consente di visualizzare
alcune caratteristiche della distribuzione statistica (campo di
variazione, percentili, media aritmetica, mediana, massimo, minimo)



Internamente alla scatola sono rappresentati: mediana e media
aritmetica
Le linee esterne rappresentano il I e il III quartile (la distanza
misura la dispersione della distribuzione)
La distanza tra ciascun quartile e la mediana rappresenta la forma
della distribuzione
◦ Se è diversa, la distribuzione è asimmetrica
◦ Se la distribuzione è normale, media e mediana coincidono; le distanze
tra I quartile e mediana e tra mediana e III quartile coincidono, così
come minimo e I quartile, III quartile e massimo. In generale, queste
distanze danno informazioni sulla forma della coda della distribuzione
Esempio 2.14
Sia data una tabella che riporta il diametro (cm) di 25 tubi
prodotti da 3 macchinari diversi.
Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base
(inserire la formula relativa alla macchina A, poi fare il trascinamento).
PROVIAMO
Esempio 2.14
Sia data una tabella che riporta il diametro (cm) di 25 tubi
prodotti da 3 macchinari diversi.
Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base
(inserire la formula relativa alla macchina A, poi fare il trascinamento).
PROVIAMO
Dobbiamo inserire il grafico.
Selezioniamo le celle F2:I8 e inseriamo il grafico a linee (con indicatori).
Cambiare l’opzione di Selezionata dati “Scambia colonne/righe”
PROVIAMO
Esempio 2.14
Le 3 osservazioni sono unite da linee che non ci interessano.
Per rimuoverle, nel menù Formato selezionare nel menù a tendina a sinistra la
serie dei dati selezionati, per es. Serie I quartile, doppio click su Formato
selezione, selezionare la linea, Colore Linea “nessuna”;
Nel menù Layout, selezionare Analisi; poi indicare “LineeLinee di MinMax” e poi “Barre Barre Crescenti-decrescenti”
PROVIAMO
Diagramma boxplot
74,04
74,03
74,02
74,01
I° quartile
74
valore minimo
73,99
media
73,98
mediana
73,97
valore massimo
73,96
III° quartile
73,95
73,94
73,93
Macchina A
Macchina B
Macchina C
Sintesi dei dati in una tabella

Spesso si vuole effettuare una sintesi dei
dati per ottenere indici che misurino gli
aspetti più rilevanti.
◦ Indici di posizione / misure di tendenza
centrale: medie, mediana, quartili, percentili e
moda (cap. 3)
◦ Indici di variabilità: range, varianza, scarto
quadratico medio (cap. 4)
◦ Indici di forma: asimmetria e curtosi (cap.5)
di dispersione
di posizione
•media:
Indici: Schema riassuntivo
x

x
i
i
N
•moda: punto di max della distribuzione
•mediana: valore sotto al quale cadono la metà dei valori campionari. Si
dispongono i dati in ordine crescente e si prende quello che occupa la posizione
centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)
•varianza
•deviazione standard
•range
s2 
i 
s
xi  x

2
N 1
R  xmax  xmin
di di forma
>0 coda a ds
•skewness (coeff. di asimmetria)
<0 coda a sin
=0 simmetrica
•curtosi: misura quanto la distribuzione è appuntita
> 0 più appuntita
< 0 meno appuntita
Principali indici statistici
I grafici finora analizzati ci danno informazioni qualitative; possiamo
quantificarle ricorrendo ai seguenti indici.
Sianox1 , x2 ,..., xn
n osservazioni numeriche
MODA
di posizione
MEDIANA
MEDIA
QUARTILI E PERCENTILI
SCARTO QUADRATICO MEDIO
INDICI
di dispersione
VARIANZA
RANGE
ERRORE STANDARD
di forma
ASIMMETRIA (SKEWNESS)
CURTOSI ( KURTOSIS)
Errore standard
Sebbene lo strumento di statistica descrittiva
negli strumenti di analisi è in grado di generare
un report che include l'errore standard della
media, non esiste alcuna funzione in Microsoft
Excel per calcolare automaticamente il valore di
per sé.
Per calcolare l'errore standard della media, si
può utilizzare
= DEV.ST(matrice)/SQRT(Conteggio)
Più piccolo/grande(k)
Per calcolare il minimo, il secondo minimo,
e in genere il k-esimo elemento più piccolo,
si usa:
PICCOLO(matrice; k)
Analogamente per il k-esimo elemento più
grande
GRANDE(matrice; k)
Statistica descrittiva (cap.6)

Molti indici trattati finora sono generati
automaticamente da Excel, usando Statistica
descrittiva del menù Analisi dei dati.

Proviamo
◦ Etichette nella prima riga/Etichette nella prima
colonna: deselezionarle se l’intervallo non contiene
etichette (altrimenti selezionare quella appropriata,
come nell’esempio 6.3)
Esempio 6.1
La tabella seguente riporta il peso in grammi di un campione
di 100 tavolette di cioccolato.
Proviamo a richiamare la funzione Riepilogo statistiche
Media
Errore standard
Mediana
Moda
99,79652336
0,010062453
99,79312502
#N/D
Deviazione standard
0,100624532
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Più grande(1)
Più piccolo(1)
0,010125296
0,083114239
0,069723767
0,484818884
99,55261744
100,0374363
9979,652336
100
100,0374363
99,55261744
Non
esistono
duplicati
Funzioni del Riepilogo statistiche
Manualmente:
Riepilogo statistiche
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Più grande(2)
Più piccolo(3)
=MEDIA(A2:A101)
=DEV.ST(A2:A101)/RADQ(G14)
=MEDIANA(A2:A101)
=MODA(A2:A101)
Non hanno
=DEV.ST(A2:A101)
funzione
=VAR(A2:A101)
esplicita
=CURTOSI(A2:A101)
=ASIMMETRIA(A2:A101)
=MAX(A2:A101)-MIN(A2:A101)
=MIN(A2:A101)
=MAX(A2:A101)
=SOMMA(A2:A101)
=CONTA.NUMERI(A2:A101)
=GRANDE(A2:A101;2)
=PICCOLO(A2:A101;3)
Esercizio
Esercizio 2 (Riepilogo statistiche)
La tabella nel file Esempio 6.1 alla pagina
http://www.di.unisa.it/professori/anselmo/LabPIXBio.htm, riporta il peso in
grammi di un campione di 100 tavolette di cioccolato.
a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella
tabella, che contenga, oltre alle statistiche standard (media, mediana, …)
anche il Secondo più grande e il Terzo più piccolo, utilizzando la
funzione Riepilogo statistiche.
b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione
Riepilogo statistiche, ma calcolando i valori necessari (media, mediana,
etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia
identica a quello fornita al punto a).
Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio
nominato Svolgimento a), e il punto b) in un foglio nominato
Svolgimento b).
Scarica

Diagramma logaritmico - Dipartimento di Informatica