STATISTICA DESCRITTIVA CON EXCEL Corso di CPS - II parte: Statistica Laurea in Informatica Sistemi e Reti 2004-2005 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Obiettivi della lezione •Introduzione all’uso di EXCEL •Statistica descrittiva •Utilizzo dello strumento: Analisi dei dati • Utilizzo dello strumento: Statistica descrittiva • Frequenze e Istogrammi •Utilizzo dello strumento: Istogrammi •Media e varianza di dati raggruppati. 2 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Introduzione a EXCEL Excel è un’applicazione di foglio elettronico che permette di raccogliere ed elaborare i dati inseriti dall’utente I dati vengono raccolti in tabelle. Tabella: insieme di celle disposte secondo righe (identificate da numeri) e colonne (identificate da lettere). Costituisce un foglio di lavoro. Cartella di lavoro: insieme di fogli di lavoro 3 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Inserimento dati Per inserire un dato in una cella: cliccare sulla cella e inserire il dato. Dare conferma con INVIO. Se i dati immessi sono numeri, vengono interpretati come dati numerici, altrimenti sono interpretati come testo. EXCEL: Ordinamento dati Per ordinare i dati selezionare i dati che si vogliono ordinare e dal menu DATI cliccare ORDINA 4 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Inserimento funzioni Cliccare su una cella ed inserire un =. • o scrivere direttamente la formula • o utilizzare formule predefinite cliccando f x e scegliendo la funzione desiderata. Riferimenti di cella •relativo: viene modificato se la formula viene copiata in una posizione diversa da quella di creazione (es. A1) •assoluto: NON viene modificato se la formula viene copiata in una posizione diversa da quella di creazione (es. $A$1) •misto: indica un riferimento assoluto solo per la riga o la colonna scelta (es. A$1 $A1) 5 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Principali funzioni statistiche accessibili tramite il menu funzioni •MEDIA (num1, num2,…) •MEDIANA (num1, num2,…) •MODA (num1, num2,…) •DEV.ST (num1, num2,…) •VAR (num1, num2,…) •MAX (num1, num2,…) •MIN (num1, num2,…) •QUARTILE(dati;quarto) •PERCENTILE(dati,k) 6 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Indici statistici - RICHIAMI di posizione •media: •moda: punto di max della distribuzione •mediana: valore sotto al quale cadono la metà dei valori campionari. Si dispongono i dati in ordine crescente e si prende quello che occupa la posizione centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari) ( x − x) ∑ = di dispersione 2 σ2 •varianza •deviazione standard i N −1 R = xmax − xmin >0 coda a ds •range <0 coda a sin •quartili / percentili di di forma i •skewness (coeff. di asimmetria) xi − x ∑i σ N 3 =0 simmetrica xi − x ∑i σ •curtosi: misura quanto la distribuzione è appuntita N >0 poco appuntita 4 <0 molto appuntita 7 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Esempi di semplici analisi descrittive dei dati •Es1Descr.xls: Livelli di rumore misurati in 36 diverse occasioni presso la stazione di una grande città •Es2Descr.xls: Sicurezza dei voli negli USA, veicoli commerciali, anni 1980-1995 •Es3Descr.xls : Tempi di vita (in ore) di un campione di 40 transistors. 8 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: TOOLBOX DI ANALISI DATI (STRUMENTI DI) ANALISI DATI è un insieme di strumenti di analisi dei dati che consente di ridurre i passaggi necessari allo sviluppo di complesse analisi statistiche. Forniti i dati e i parametri per ciascuna analisi, lo strumento utilizzerà le funzioni macro statistiche appropriate, visualizzando i risultati in una tabella di output. Per visualizzare un elenco degli strumenti di analisi: scegliere Analisi dati dal menu Strumenti. Se tale comando non è visualizzato, dal menu Strumenti selezionare Aggiunte… e scegliere Analisi dati. 9 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Strumento di analisi Statistica descrittiva Fa un’analisi statistica dei dati selezionati fornendo informazioni sulla tendenza e dispersione dei dati. Opzioni della finestra di dialogo Statistica descrittiva: •intervallo di input: immettere il riferimento di cella per l’intervallo di dati da analizzare •intervallo di output: immettere il riferimento della cella superiore sinistra della tabella di output •Riepilogo statistiche: genera una tabella di output con le seguenti statistiche:Media, Errore standard (della media), Mediana, Moda, Dev. Standard, Varianza, Curtosi, Asimmetria, Intervallo, Min, Max, Somma, Conteggio. 10 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Esempi di analisi descrittive dei dati con il toolbox Analisi Dati Si possono reimpiegare i dati contenuti nei files •Es1Descr.xl •Es2Descr.xls •Es3Descr.xls 11 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Frequenze ed istogrammi RICHIAMI Si considerino N dati da analizzare. Frequenza assoluta: numero di oggetti del tipo i-esimo 0 ≤ νi ≤ N ∑ν i =N i νi Frequenza relativa: f i = N ∑ i νi f i = ∑ =1 i N 12 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Frequenza cumulativa assoluta: Ni è la somma della freq. assoluta + la freq. cumulativa assoluta del dato precedente. i N i = N i −1 + ν i = ∑ ν k 0 ≤ Ni ≤ N k = 01 Frequenza cumulativa relativa: Fi è la somma della freq. relativa + la freq. cumulativa relativa del dato precedente. i Fi = Fi −1 + f i = ∑ f k k = 01 0 ≤ Fi ≤ 1 13 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Istogrammi - RICHIAMI Caso discreto: Si fissano sull’asse delle ascisse i valori delle classi e, in corrispondenza, si disegna una barra la cui altezza è pari alla frequenza (relativa o assoluta) L’altezza ha la stessa unità di misura della probabilità teorica Caso continuo: Si disegnano rettangoli adiacenti, le cui basi sono gli intervalli che definiscono le classi e le altezze sono date dalle frequenze (relative o assolute) L’altezza NON ha la stessa unità di misura della probabilità teorica L’AREA ha la stessa unità di misura della probabilità !! l’altezza del rettangolo deve essere proporzionale al quoziente tra la frequenza della classe e l’ampiezza dell’intervallo che la definisce 14 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Istogrammi - RICHIAMI Per costruire un diagramma delle frequenze bisogna discretizzare in modo opportuno il range dei valori assunti dalla variabile. Qual è la scelta ottimale? Regola empirica: Numero di intervalli = N 15 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Strumento di analisi Istogramma Consente di calcolare le frequenze individuali e cumulative per un intervallo di celle e di classi di dati. Opzioni della finestra di dialogo Istogramma: •intervallo di input: immettere il riferimento di cella per l’intervallo di dati da analizzare •intervallo di classe (facoltativo): immettere un intervallo di celle contenente un insieme di valori limite che definiscano gli intervalli delle classi (se non si usa lo strumento di Analisi Dati è utile per determinare i valori delle classi da porre sull’asse delle ascisse) •intervallo di output: immettere il riferimento della cella superiore sinistra della tabella di output 16 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Esempi di costruzione di istogrammi Dati contenuti nei files •Es1Descr.xl •Es2Descr.xls •Es3Descr.xls •Es4Descr.xls: medie dei voti alla laurea di 30 studenti ammessi a frequentare un corso di specializzazione postlaurea 17 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Esempio di rappresentazione grafica dei dati: Grafici Box and whiskers Grafico in cui vengono rappresentati: -2.13406 -0.19699 -1.56044 -0.17496 -0.17395 0.509197 0.799249 -0.47535 -0.21559 -0.74635 -0.03003 -1.52818 -0.23922 -0.62338 -0.68662 -0.14915 -0.02184 0.966221 0.357001 -0.55592 1.565891 1.6253751 2.227323 4.1674771 5.9947852 2.5625837 -5.7866143 0.4605471 8.2939823 3.7529506 6.7398715 6.1499506 -0.5532495 -1.7223922 -1.4325247 4.3811424 -0.6504182 -1.5430621 4.1540228 -5.4370425 1.1147765 4.1713763 Mediana; quartili; range Colonna1 Colonna2 Media -0.02438 Errore stan 0.10222 Mediana -0.09054 Moda #NUM! Deviazione 1.022198 Varianza c 1.044888 Curtosi 0.04829 Asimmetria -0.0312 Intervallo 5.246894 Minimo -2.55096 Massimo 2.695929 Somma -2.43781 Conteggio 100 Media 2.524512 Errore stan 0.36554 Mediana 2.935484 Moda #NUM! Deviazione 3.6554 Varianza c 13.36195 Curtosi -0.53267 Asimmetria -0.34683 Intervallo 15.83804 Minimo -5.78661 Massimo 10.05142 Somma 252.4512 Conteggio 100 Quartile1 Quartile 3 -0.62438 Quartile1 0.614667 Quartile 3 con EXCEL 0.207913 5.45173 18 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Colonna1 Box Plot (new4.sta 10v*100c) Mediana Minimo Massimo Quartile1 Quartile 3 Colonna2 -0.09054 -2.55096 2.695929 -0.62438 0.614667 Mediana Minimo Massimo Quartile1 Quartile 3 2.935484 -5.78661 10.05142 0.207913 5.45173 12 8 4 con STATISTICA 0 Max Min -4 75% 25% -8 VAR1 VAR2 Median 19 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Media e varianza di dati raggruppati in classi Supponiamo di avere a disposizione solo la tabella di distribuzione delle frequenze (dati raggruppati) di dati continui. Il calcolo diretto di media e varianza NON è più possibile!!! Siano t1 ,..., t k i punti medi degli Classi ti vi intervalli che definiscono le classi 0<x<=1 0,5 e siano ν i le frequenze assolute di 1<x<=2 1,5 ,,, ,,, ,,, ogni classe Media ∑ x= Varianza σ k t νi i =1 i 2 N ( t ∑ = i =1 ) 2 k i − x νi N 1 = N ∑ k t νi − x 2 2 i =1 i 20 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica 1 0 EXCEL: Esempi di analisi di dati raggruppati in classi Dati contenuti nel file •Es5Descr.xls: Numero di pedoni - classificati per età e sesso - deceduti per incidenti stradali in Inghilterra nel 1922. 21 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Correlazione tra variabili Si tratta di effettuare tanalisi di tipo comparativo: • Osservare una variabile su più gruppi di individui • Osservare più variabili su un gruppo di individui • Entrambe le situazioni a. e b. Esiste correlazione tra le variabili? Scatterplot o diagramma a dispersione Umidita' Evaporazione del solvente 35.3 11 29.7 11.1 30.8 12.5 58.8 8.4 61.4 9.3 71.3 8.7 74.4 6.4 76.7 8.5 70.7 7.8 57.5 9.1 46.4 8.2 28.9 12.2 Evaporazione del solvente 14 12 10 8 Evaporazione del solvente 6 4 2 0 0 50 100 22 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica RICHIAMI Date n osservazioni congiunte di 2 variabili {( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )} Covarianza campionaria •Se cx,y>0 a valori grandi (piccoli) di x corrispondono valori grandi (piccoli) di y x e y sono direttamente correlate •Se cx,y<0 a valori grandi (piccoli) di x corrispondono valori piccoli (grandi) di y x e y sono inversamente correlate •Se cx,y=0 le variabili non sono correlate 23 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Indici di variazione bidimensionali - RICHIAMI Indice di correlazione r= cx , y σ xσ y Date n osservazioni congiunte di 2 variabili {( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )} | r |≤ 1, cioè − 1 ≤ r ≤ 1 In particolare, r = ±1 ⇔ ∃ a, b costanti tali che yi = axi + b dove il segno di r = segno di a 24 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Indice di correlazione con EXCEL Sintassi con le funzioni: CORRELAZIONE(matrice1; matrice2) tale istruzione restituisce il coefficiente di correlazione tra due insiemi di dati. Se si vuole calcolare tale indice tra più insiemi di dati (presi a coppie) si utilizza: Strumento di analisi: Correlazione 25 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Strumento di analisi: Correlazione Opzioni della finestra di dialogo Correlazione: •intervallo di input: immettere il riferimento delle celle dei dati da analizzare raggruppati per righe o colonne •intervallo di output: immettere il riferimento della cella superiore sinistra della tabella di output si ottiene una matrice di correlazione i cui valori sono le correlazioni tra le varie variabili analizzate a coppie Morgex Esempio Morgex Etroubles St. Denis Verres Donnas Aosta-aero 1 0.847092 0.350611 0.280437 0.290461 0.461912 Etroubles St. Denis Verres Donnas Aosta-aeroporto 1 0.504904 1 0.546459 0.970382 1 0.429081 0.980004 0.951417 1 0.536435 0.982091 0.919612 0.960682 1 26 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica EXCEL: Esempi di studio di correlazioni Dati contenuti nel file •Es6Descr.xls: Stipendi annuali di varie categorie di lavoratori in anni diversi (in dollari) 27 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica