Esercitazione di riepilogo 23 Aprile 2013 Grafici Grafico a barre ◦ Servono principalmente per rappresentare variabili (caratteri) qualitative, quantitative e discrete. Grafico a settori circolari (torta) ◦ Si usano quando si vuole evidenziare come il fenomeno viene suddiviso tra le varie modalità che lo compongono. Istogramma ◦ Vengono utilizzati per rappresentare distribuzioni di variabili quantitative continue, rappresentate in classi Diagramma cartesiano ◦ Si usa quando si vuole rappresentare l’andamento di un fenomeno (serie statistica), che varia in funzione di un parametro. Diagramma di dispersione ◦ Si usano nel caso di una statistica doppia, in cui entrambi i caratteri sono delle variabili ◦ Serve per osservare la “dispersione” ossia la vicinanza o distanza tra le unità statistiche Altri diagrammi (diagramma logaritmico, di Pareto, scatola e baffi) Istogramma Vengono utilizzati per rappresentare distribuzioni di variabili quantitative continue, rappresentate in classi Classi di uguale ampiezza Classi di ampiezza diversa Rettangoli con - stessa base -altezza proporzionale alla frequenza Rettangoli con -Base proporzionali all’ampiezza della classe -Altezza proporzionale alla densità di frequenza (freq. diviso ampiezza della classe) area dei rettangoli = frequenza totale moltiplicato l’ampiezza della classe Area dei rettangoli = frequenza della classe Automaticamente Usando “Analisi dei dati”: Istogramma dà automaticamente classi, frequenze e relativo istogramma. Eventualmente raffinare le classi. Manualmente… Calcola l’ampiezza delle classi Calcola la densità di frequenza (frequenza/ampiezza) Sulle ascisse rappresenta le classi Si “innalzano” i rettangoli di base due valori successivi delle ascisse, e per altezze le densità Frequenza Come estrarre queste frequenze con Excel? 1. Considerare solo la colonna dei tempi 2. Individuare il valore minimo e il valore massimo (funzioni) 3. Preparare la colonna delle classi di singolo valore, a partire dal minimo fino al massimo. Usare il Riempimento (Home) e incremento di 1. Abbiamo creato quindi le classi di ampiezza 1. Vogliamo ora calcolare le frequenze di ogni singolo valore (queste sono le nostre classi). Frequenza Come estrarre queste frequenze con Excel? La funzione FREQUENZA ha bisogno di una matrice dati (quindi selezionare la colonna dei tempi) e di una matrice delle classi (quindi selezionare quella appena creata). Attenzione: affinché sia riportata la frequenza per ogni valore della classe, occorre che la formula sia in “forma di matrice”. Occorre quindi, PRIMA di richiamare la funzione evidenziare la colonna in cui andrà il risultato (tante celle quante sono le classi +1) Quando poi, dalla finestra di dialogo della funzione FREQUENZA, si immette la matrice delle classi, non premere INVIO ma premere CTRL+MAIUSC+INVIO. Se non si fa così, si visualizza un solo valore. Esercizio Esercizio 1 (Istogramma delle frequenze) La tabella disponibile nel file EsameIstogrammaGeyser.xlsx fornisce un campione di 24 misurazioni dei tempi di attesa per l’eruzione successiva (in minuti). a) Fornire un istogramma delle frequenze dei tempi di eruzione del geyser scegliendo opportunamente le classi in modo che rappresentino in maniera significativa il fenomeno, utilizzando lo strumento Analisi dei dati. b) Ripetere l’esercizio (di cui al punto a)) senza far uso dello strumento Analisi dei dati, ma calcolando i valori necessari (frequenze, etc.) con le opportune funzioni di Excel, in modo che l’istogramma risultante sia identico a quello fornito al punto a). Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento b). Altri grafici 2.7 Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute Diagramma di Pareto: serve per rappresentare la perdita economica (difettosità e loro costi). Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo) Diagramma logaritmico – Esempio 2.11 Diagramma logaritmico: variante del diagramma cartesiano; si usa se ci sono valori delle y molto piccoli e molto grandi (nessuna scala sarebbe adeguata), oppure se si vogliono evidenziare le variazioni in percentuale, piuttosto che quelle assolute. Si usa la scala logaritmica per rappresentare le ordinate Anni Esempio 2.11. La tabella mostra il traffico dei passeggeri negli aeroporti italiani nel periodo 1948-1983. 1948 1953 1958 1963 1968 1973 1978 1983 Passeggeri (migliaia) 212 324 922 2855 5612 10171 12842 14864 Diagramma logaritmico Anni 1948 1953 1958 1963 1968 1973 1978 1983 Passeggeri (migliaia) 212 324 922 2855 5612 10171 12842 14864 Passeggeri (migliaia) Passeggeri (migliaia) 16000 14000 100000 12000 10000 10000 8000 Passeggeri (migliaia) 6000 1000 4000 100 2000 10 0 1948 1953 1958 1963 1968 1973 1978 1983 Diagramma cartesiano Passeggeri… 1 19481953195819631968197319781983 Diagramma logaritmico Esempio 2.11 Usiamo la scala logaritmica (valori molto distanti tra loro…) Creiamo il foglio con i dati PROVIAMO Scegliamo il grafico Logaritmico Nella casella Serie e Etichette X indicare le celle relative agli anni Nella etichetta Serie e Valori indicare le celle con i valori del traffico Se non c’è questa opzione, fare clic sul grafico. Formato Selezione corrente : fare clic sulla freccia accanto alla casella Area del grafico e quindi su Asse verticale (valori). Doppi click su Formato Selezione : Opzioni assi: per modificare l'asse dei valori in logaritmico, selezionare la casella di controllo Scala logaritmica. Diagramma di Pareto Diagrammi di Pareto: servono per rappresentare la perdita economica (difettosità e loro costi). Ordinate: frequenza di ciascun tipo di difetto riscontrato Ascisse: tipologie di difetto in ordine di frequenza decrescente Curva cumulativa: rappresenta i valori cumulativi per ciascun tipo di difetto è possibile valutare quanto siano “pesanti” i primi difetti rispetto alla globalità dei difetti Esempio 2.12 La tabella seguente riporta la distribuzione, per tipologia di difetto, di 200 pezzi meccanici. Graficare l’andamento della difettosità. Tipo di difetto deformazione foro graffio giuoco rottura macchia altri Numero di difetti 104 42 20 14 10 7 3 Riportare i dati nel foglio excel. Ordinare i dati in senso decrescente (dati, ordina), in un nuovo foglio. Aggiungere C1 “totale cumulato”; in C3 inserire =B3 e poi in C4 inserire =B4+C3 e poi trascinare. Per le percentuali cumulate, nella cella D3 digitare =C3/$C$9 e poi trascinamento (formattare celle come “percentuali”) Tipo di difetto deformazione foro graffio giuoco rottura macchia altri Numero di difetti 104 42 20 14 10 7 3 Totale cumulato 104 146 166 180 190 197 200 Percentuale cumulata 52,00% 73,00% 83,00% 90,00% 95,00% 98,50% 100,00% Ora dobbiamo inserire il grafico. Selezioniamo le celle B1:B9 e D1:D9; selezioniamo Grafico Istogramma Serie, Etichette asse X: selezionare A3:A10 Valori: B3:B9 Selezionare la parte di istogramma che riguarda la percentuale cumulata e cambiare il grafico (a linee). Poi, selezionare la serie “percentuale cumulata” (formato, elementi grafico – menu sinistra) e “formato selezione.” Opzioni serie “traccia la serie lungo asse secondario”. Diagramma di Pareto Tipo di difetto deformazione foro graffio giuoco rottura macchia altri Numero di difetti 104 42 20 14 10 7 3 120 120,00% 100 100,00% 80 80,00% 60 60,00% 40 40,00% 20 20,00% 0 0,00% Percentuale Totale cumulato cumulata 104 52,00% 146 73,00% 166 83,00% 180 90,00% 190 95,00% 197 98,50% 200 100,00% Numero di difetti Percentuale… Diagramma a scatola e baffi (box-plot) Diagramma a scatola e baffi (box-plot): consente di visualizzare alcune caratteristiche della distribuzione statistica (campo di variazione, percentili, media aritmetica, mediana, massimo, minimo) Internamente alla scatola sono rappresentati: mediana e media aritmetica Le linee esterne rappresentano il I e il III quartile (la distanza misura la dispersione della distribuzione) La distanza tra ciascun quartile e la mediana rappresenta la forma della distribuzione ◦ Se è diversa, la distribuzione è asimmetrica ◦ Se la distribuzione è normale, media e mediana coincidono; le distanze tra I quartile e mediana e tra mediana e III quartile coincidono, così come minimo e I quartile, III quartile e massimo. In generale, queste distanze danno informazioni sulla forma della coda della distribuzione Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base (inserire la formula relativa alla macchina A, poi fare il trascinamento). PROVIAMO Esempio 2.14 Sia data una tabella che riporta il diametro (cm) di 25 tubi prodotti da 3 macchinari diversi. Per ottenere il diagramma, occorre innanzitutto determinare le statistiche di base (inserire la formula relativa alla macchina A, poi fare il trascinamento). PROVIAMO Dobbiamo inserire il grafico. Selezioniamo le celle F2:I8 e inseriamo il grafico a linee (con indicatori). Cambiare l’opzione di Selezionata dati “Scambia colonne/righe” PROVIAMO Esempio 2.14 Le 3 osservazioni sono unite da linee che non ci interessano. Per rimuoverle, nel menù Formato selezionare nel menù a tendina a sinistra la serie dei dati selezionati, per es. Serie I quartile, doppio click su Formato selezione, selezionare la linea, Colore Linea “nessuna”; Nel menù Layout, selezionare Analisi; poi indicare “LineeLinee di MinMax” e poi “Barre Barre Crescenti-decrescenti” PROVIAMO Diagramma boxplot 74,04 74,03 74,02 74,01 I° quartile 74 valore minimo 73,99 media 73,98 mediana 73,97 valore massimo 73,96 III° quartile 73,95 73,94 73,93 Macchina A Macchina B Macchina C Sintesi dei dati in una tabella Spesso si vuole effettuare una sintesi dei dati per ottenere indici che misurino gli aspetti più rilevanti. ◦ Indici di posizione / misure di tendenza centrale: medie, mediana, quartili, percentili e moda (cap. 3) ◦ Indici di variabilità: range, varianza, scarto quadratico medio (cap. 4) ◦ Indici di forma: asimmetria e curtosi (cap.5) di dispersione di posizione •media: Indici: Schema riassuntivo x x i i N •moda: punto di max della distribuzione •mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari) •varianza •deviazione standard •range s2 i s xi x 2 N 1 R xmax xmin di di forma >0 coda a ds •skewness (coeff. di asimmetria) <0 coda a sin =0 simmetrica •curtosi: misura quanto la distribuzione è appuntita > 0 più appuntita < 0 meno appuntita Principali indici statistici I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. Sianox1 , x2 ,..., xn n osservazioni numeriche MODA di posizione MEDIANA MEDIA QUARTILI E PERCENTILI SCARTO QUADRATICO MEDIO INDICI di dispersione VARIANZA RANGE ERRORE STANDARD di forma ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS) Errore standard Sebbene lo strumento di statistica descrittiva negli strumenti di analisi è in grado di generare un report che include l'errore standard della media, non esiste alcuna funzione in Microsoft Excel per calcolare automaticamente il valore di per sé. Per calcolare l'errore standard della media, si può utilizzare = DEV.ST(matrice)/SQRT(Conteggio) Più piccolo/grande(k) Per calcolare il minimo, il secondo minimo, e in genere il k-esimo elemento più piccolo, si usa: PICCOLO(matrice; k) Analogamente per il k-esimo elemento più grande GRANDE(matrice; k) Statistica descrittiva (cap.6) Molti indici trattati finora sono generati automaticamente da Excel, usando Statistica descrittiva del menù Analisi dei dati. Proviamo ◦ Etichette nella prima riga/Etichette nella prima colonna: deselezionarle se l’intervallo non contiene etichette (altrimenti selezionare quella appropriata, come nell’esempio 6.3) Esempio 6.1 La tabella seguente riporta il peso in grammi di un campione di 100 tavolette di cioccolato. Proviamo a richiamare la funzione Riepilogo statistiche Media Errore standard Mediana Moda 99,79652336 0,010062453 99,79312502 #N/D Deviazione standard 0,100624532 Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Più grande(1) Più piccolo(1) 0,010125296 0,083114239 0,069723767 0,484818884 99,55261744 100,0374363 9979,652336 100 100,0374363 99,55261744 Non esistono duplicati Funzioni del Riepilogo statistiche Manualmente: Riepilogo statistiche Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Più grande(2) Più piccolo(3) =MEDIA(A2:A101) =DEV.ST(A2:A101)/RADQ(G14) =MEDIANA(A2:A101) =MODA(A2:A101) Non hanno =DEV.ST(A2:A101) funzione =VAR(A2:A101) esplicita =CURTOSI(A2:A101) =ASIMMETRIA(A2:A101) =MAX(A2:A101)-MIN(A2:A101) =MIN(A2:A101) =MAX(A2:A101) =SOMMA(A2:A101) =CONTA.NUMERI(A2:A101) =GRANDE(A2:A101;2) =PICCOLO(A2:A101;3) Esercizio Esercizio 2 (Riepilogo statistiche) La tabella nel file Esempio 6.1 alla pagina http://www.di.unisa.it/professori/anselmo/LabPIXBio.htm, riporta il peso in grammi di un campione di 100 tavolette di cioccolato. a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella tabella, che contenga, oltre alle statistiche standard (media, mediana, …) anche il Secondo più grande e il Terzo più piccolo, utilizzando la funzione Riepilogo statistiche. b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione Riepilogo statistiche, ma calcolando i valori necessari (media, mediana, etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia identica a quello fornita al punto a). Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento b).