Statistica con Excel Procedure utili per l’analisi dati ottenute col foglio elettronico. Giovanni Raho 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 1 Fasi di una ricerca • Analisi del problema. • Individuare la popolazione. – Estrarre un campione: vantaggio nell'esaminare un sottoinsieme della popolazione per generalizzare i risultati alla popolazione complessiva • Def. Scegliere alcuni elementi della popolazione – Dall’elenco dei soggetti si possono estrarre casualmente alcuni elementi. • Excel permette l’estrazione di campioni casuali. • Useremo le seguenti procedure: – Generazione di un numero casuale. – Estrazione di un campione da un elenco. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 2 Campione • Nelle scienze applicate il campione è la parte dell'oggetto della ricerca che dovrà essere sottoposta ad un esperimento • In statistica il campione è il numero di rilevazioni fatte per l'indagine • Modalità di selezione del campione • Scelta di comodo (campionamento per quote o convenience sampling). • Scelta ragionata (campionamento ragionato o judgmental sampling). • Scelta casuale (campionamento casuale o random sampling). • Scelta probabilistica (campionamento probabilistico o probabilistic sampling). 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 3 Campione casuale • Ogni elemento della popolazione ha uguale probabilità di far parte del campione. • ... equi probabilità ... • Probabilità: rapporto tra numero degli eventi estratti e numero degli eventi possibili. – Es. 1/6 la probabilità di avere un numero dalle facce di un dado. – 1/40 la probabilità di estrarre un re di picche da 40 carte 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 4 Campionamento in Excel • Casuale • Senza argomento genera un numero casuale tra 0 e 1 • Casuale tra • Genera un numero casuale tra due numeri da indicare. • Campionamento • Se si possiede l’elenco (numerico) dei soggetti è possibile usare la procedura campionamento ottenibile da l’Analisi dati che permette di generare un elenco di oggetti estratti casualmente. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 5 Variabili e misure • Individuare le variabili intervenienti. • Fissare le modalità di misura. • Ossia il modo col quale sono costruite le categorie • • • Misure metriche: si basano su un’unità di misura, sono espresse da numeri razionali e quindi permettono le esecuzioni di operazioni tra numeri. Misure ordinali: in esse valgono le proprietà di maggiore e minore ossia è possibile stabilire una regola di ordinamento. Misure nominali: in esse vale solo la proprietà delle classi di equivalenza: univocità dell’assegnazione ed esaustività. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 6 Analisi: sintesi • Determinare le possibili sintesi. – Valore centrale: • Media aritmetica per le misure metriche • Mediana per le misure ordinali • Moda per le misure nominali. – Grafico e percentuale: • Grafico a torta • Grafico a barre o istogramma (orizzontale o verticale) – Andamento di un fenomeno • Grafici lineari e linee di tendenza (regressione) 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 7 Valori centrali • Il valore centrale / media di una raccolta di valori deve essere valutato: • Excel può calcolare: – S.D. per la media aritmetica (n-1) – Usando n-1 come numero n degli oggetti della ricerca. – S.D. pop (n) – Usando n come numero degli oggetti delle ricerca. – Deviazione interquartilica per la mediana. – Calcolando il primo ed il secondo ed il 3° quartile – Differenza tra valore minimo e massimo per la moda. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 8 Analisi: relazioni • Valutare le possibili relazioni tra le variabili. – Tabella di contingenza/ incroci. Numerosità dei valori comuni a due variabili. Tabelle pivot. – Forme di sviluppo nel tempo dei valori di una variabile: grafico lineare e linea di tendenza. – Coerenza dei valori ottenuti con prove diverse sugli stessi soggetti: Coefficiente di Pearson. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 9 Analisi: relazioni • Valutare le possibili relazioni tra le variabili. – In EXCEL esiste la possibilità di correlare i valori di due variabili con i grafico a dispersione. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 10 Legge di relazione • Fissando un’opportuna linea di tendenza. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 11 Valutazione di una relazione • Due variabili possono assumere valori tra loro dipendenti. • Il test può valutare l’indipendenza tra due variabili. • O la dipendenza. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 12 Test • Coefficiente di Pearson: – Valuta la correlazione tra due variabili. • Test del chi quadrato. – Valuta l’indipendenza tra due o più variabili, ossia la casualità delle relazioni apparenti. – Casualità significa non estensibilità di quanto trovato nel campione con la popolazione. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 13 Correlazione di Pearson • Il test di Pearson è direttamente ottenibile da EXCEL. – Vi sono tuttavia alcune approssimazioni che lo rendono diverso secondo l’edizione di EXCEL usata. – Useremo una opportuna formulazione del test di Pearson che ci permetterà di calcolare tale test direttamente. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 14 Correlazione di Pearson • Useremo per tale calcolo i punteggi normalizzati che permettono di stabilire i punteggi coerenti con la misura usata. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 15 Punteggi normalizzati • Punteggi ottenuti ricorrendo alla media e alla S.D. del gruppo esaminato. 11/04/2011 Edizione 2011 prog. Giocìvanni Raho 16