ARCHEOLOGIA QUANTITATIVA a.a. 2006/2007 ARCHEOLOGIA QUANTITATIVA S.A. Silvano Antonelli -Ricevimento : • durante il corso: Martedì ore 15.30 presso Dipartimento di Informatica, Largo Pontecorvo 2 Stanza 394 • negli altri periodi: su appuntamento posta elettronica : [email protected] Pagina web : (programma, esami, date appelli…) http://www.di.unipi.it/~antonell/ 1 Esame , Propedeuticità ARCHEOLOGIA QUANTITATIVA S.A. Modalità esame: -test scritto -orale -progetto: -facoltativo per i frequentanti -obbligatorio per i non frequentanti 2 Materiale Didattico ARCHEOLOGIA QUANTITATIVA Per la formazione di base: • C.A.Carnevale Maffè, T.Carnevale Maffè, Statistica, Sintesi, Vallardi • S. Berstein, R.Bernstein , Statistica descrittiva, McGraw-Hill • I.Diamond, J.Jefferies, Introduzione alla statistica, McGraw-Hill Per applicazioni in campo archeologico: • IS. Shennan, Quantifyng Archaeology, Edinburgh ,University Press. 1998. S.A. 3 Introduzione (1) ARCHEOLOGIA QUANTITATIVA Negli ultimi quaranta anni si è assistito alla sempre più crescente utilizzazione dell’informatica e delle scienze nell’ambito sociale e umanistico, introducendo, attraverso tecniche matematiche e statistiche, metodi propri delle scienze esatte. S.A. 4 Introduzione (2) ARCHEOLOGIA QUANTITATIVA S.A. Per quanto attiene in particolare all’Archeologia , l’informatica è intervenuta sia nei processi metodologici, sia nello sviluppo di tecniche connesse a tali processi per: sistematizzare e ottimizzare operazioni di catalogazione e gestione dell’informazione definire strumenti idonei ad un trattamento scientifico dei dati 5 ARCHEOLOGIA QUANTITATIVA S.A. I sistemi informatici che rispondono a queste esigenze sono rispettivamente quelli di tipo documentario per il trattamento descrittivo degli oggetti (Sistemi di gestione di basi di dati) e sistemi basati su tecniche matematicostatistiche. Le basi di dati richiedono una strutturazione organica e sistematica dell’informazione; i dati rispecchiano in generale caratteri di omogeneità basati su informazioni intrinseche (specifiche dell’oggetto) ed estrinseche (relazionali). 6 Basi di dati ARCHEOLOGIA QUANTITATIVA S.A. In Archeologia si riconoscono basi di dati di tipo: Fattuale,inerente alla realtà, per la raccolta di elementi concernenti oggetti mobili, edifici, iscrizioni, decorazioni,etc. allo scopo di costituire inventari (assumono quindi una funzione amministrativa) bibliografico con lo scopo di arrivare alla schedatura di diverse pubblicazioni per fornire informazioni sistematiche. Le basi di dati si limitano però a trattare i dati in maniera descrittiva, e non permettono una analisi e una interpretazione dei dati stessi. 7 Sistemi statistici ARCHEOLOGIA QUANTITATIVA S.A. Tenuto conto anche del fatto che i dati di scavo (geografici, stratigrafici, immobili,materiali mobili, etc.) non sono completamente omogenei, l’archeologia si è rivolta ai sistemi basati su tecniche matematico – statistiche. I primi esempi di applicazione si sono avuti negli anni ’50 in archeologia preistorica attraverso l’uso di tecniche grafiche e di statistiche descrittive. Questo approccio ha dato luogo, a partire dagli anni ’60, ad una branca di ricerca definita “Archeologia Quantitativa”, considerata da alcuni ricercatori una disciplina autonoma nell’ambito di un movimento culturale detto New Archaeology. 8 Origini della statistica(1) ARCHEOLOGIA QUANTITATIVA S.A. I primi rilevamenti statistici risalgono all’antichità e derivano dalla naturale esigenza umana della classificazione di tutto ciò che è presente nell’ambiente in cui vive . Alcuni esempi: censimento (census) dei cittadini (Antica Roma) indagini per la previsione delle piene del Nilo (Egitto) I due esempi hanno caratteristiche completamente diverse. 9 Origini della statistica(2) ARCHEOLOGIA QUANTITATIVA S.A. Il censimento ha infatti lo scopo di evidenziare una situazione di fatto e rientra nella logica del certo,fotografando lo stato della popolazione in quel preciso periodo, mentre il secondo rientra nella logica del probabile, gli unici approcci che rispecchiano il comportamento dell’uomo di fronte a qualunque fenomeno. La logica del probabile è il contesto nel quale si pone la statistica, che si avvale del calcolo delle probabilità per studiare i fenomeni, evidenziarne le caratteristiche e stabilire associazioni e relazioni tra fatti. 10 ARCHEOLOGIA QUANTITATIVA S.A. Il campo di interesse della statistica è quello dei fenomeni collettivi che richiedono, per la loro valutazione , grandi quantità di osservazioni. Le tecniche e i metodi statistici si pongono l’obiettivo di ridurre queste grandi quantità di osservazioni a pochi elementi , valori di sintesi che rappresentino la totalità e tengano conto delle variazioni delle osservazioni. Il metodo statistico facilita quindi il confronto tra valori e fenomeni e rende possibile la scoperta di regole nella apparente irregolarità. 11 ARCHEOLOGIA QUANTITATIVA S.A. La statistica è la scienza che studia i fenomeni collettivi mediante metodi matematici fondati sul calcolo delle probabilità. Il procedimento statistico presenta due aspetti: Tecnico, relativamente alla raccolta, elaborazione e presentazione dei dati, anche in forma grafica; Logico che si propone di formulare leggi, trarre deduzioni e conseguenze e mettere in evidenza le cause dei fenomeni. 12 ARCHEOLOGIA QUANTITATIVA S.A. E’ uso differenziare tra : statistica descrittiva: raccogliere ed elaborare dati per ricavare informazioni sintetiche e significative, secondo le esigenze del problema di interesse. statistica inferenziale o induttiva : definire metodi per passare dall’osservazione di casi particolari a leggi generali L’estensione dei risultati di un campione rappresentativo alla totalità della popolazione è detta inferenza, la cui analisi è detta Inferenza statistica. 13 ARCHEOLOGIA QUANTITATIVA S.A. Quando si deduce un parametro di una popolazione sulla base delle corrispondenti osservazioni (statistiche) effettuate su un campione casuale si dice che si effettua una stima che rappresenta una approssimazione statistica dei risultati di una indagine sulla intera popolazione. I risultati tratti dal campione ed estesi alla popolazione evidenziano la presenza di un trade-off (scambio-compromesso) tra costi/tempi e accuratezza della stima. 14 Statistica descrittiva ARCHEOLOGIA QUANTITATIVA S.A. Studio e sintesi de fenomeni collettivi, che sono caratterizzati da risultati incerti. Descrivere e prevedere questa variabilità Popolazione o universo. Unità statistiche o casi. Caratteristiche : variabili Modalità : valori assunti (dati) 15 (fonte : Mike Flechter and Gary R. Lock) ARCHEOLOGIA QUANTITATIVA S.A. 40 Punte di lancia con o senza anello (loop) per stringere la punta sulla immanicatura e spinotto, ribattino (peghole) per bloccare la punta sulla immanicatura. Caratteristiche , attributi di interesse archeologico: Tipo di materiale Luogo ritrovamento Loop: presenza/ assenza Peghole : presenza/ assenza Stato di conservazione Epoca Misure ( distanza, peso, lunghezze,…) 16 Terminologia ARCHEOLOGIA QUANTITATIVA S.A. Unità statistica , di rilevazione,caso: ogni singola punta Universo o popolazione : insieme di tutte le punte Variabile: ogni caratteristica che può manifestarsi in modo diverso in unità diverse Valori, modalità: diversi modi nei quali una variabile può manifestarsi. 17 Variabili e modalità ARCHEOLOGIA QUANTITATIVA S.A. Materiale: bronzo ferro Luogo di ritrovamento: sul terreno sedimento sepoltura Loop: presente assente 18 Variabili e modalità ARCHEOLOGIA QUANTITATIVA S.A. Peghole presente assente Stato di conservazione: eccellente buono soddisfacente scarso Periodo: A.C. Misure: lunghezza, larghezza, cavità etc. in cm. peso in gr. 19 ARCHEOLOGIA QUANTITATIVA 10 8 9 11 massima larghezza massima lunghezza 12 larghezza cavità esterna 13 distanza centro-base lunghezza cavità larghezza cavità interna S.A. 20 Sheda di unità statistica ARCHEOLOGIA QUANTITATIVA S.A. Numero ord. Materiale Contesto Loop Peghole Condizione Data (a.c.) Max Lung. Lung cav. Max Larg. Cav Int. Cav. ester. dist. centro-base Peso 1 ferro sepoltura assente presente soddisfacente 300 12,4 cm 3,1 cm 3,6 cm 1 cm 1,7 cm 6,2 167 gr 21 materiale Peghole ARCHEOLOGIA QUANTITATIVA S.A. Loop Contesto condizione Missing (mancante) 1 2 1 2 bronzo ferro assenza presenza 1 2 1 2 3 1 2 3 4 * assenza presenza sul terreno sedimento sepoltura eccellente buona soddisfacente scarsa 22 ARCHEOLOGIA QUANTITATIVA Scheda di unità statistica codificata Numero ord. 1 Materiale 2 Contesto 3 Loop 1 Peghole 2 Condizione 3 Data (a.c.) 300 Max Lung. 12,4 cm Lung cav. 3,1 cm S.A. Max Larg. 3,6 cm Cav Int. 1 cm Cav. ester. 1,7 cm dist. centro-base 6,2 Peso 167 gr Tutte le unità sono raccolte in una tabella 23 ARCHEOLOGIA QUANTITATIVA S.A. Numero ord. Materiale Contesto 1 2 3 2 2 3 3 2 3 4 2 3 5 2 3 6 2 3 7 2 3 8 2 2 9 2 2 10 2 1 11 2 1 12 2 1 13 2 1 14 2 1 15 2 1 16 2 1 17 2 1 18 2 2 19 2 2 20 2 2 21 1 1 22 1 1 23 1 1 24 1 1 25 1 1 26 1 1 27 1 1 28 1 1 29 1 1 30 1 1 31 1 1 32 1 1 33 1 1 34 1 1 35 1 2 36 1 1 37 1 1 38 1 1 39 1 1 40 1 1 Loop 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 2 2 2 2 1 1 2 1 1 1 1 1 2 1 2 2 2 Peghole CondizioneData (a.c.) Max Lung. Lung cav. Max Larg. 2 3 300 12,4 3,1 3,6 2 4 450 22,6 7,8 4,3 2 4 400 17,9 5,2 4,1 • 4 350 • • • 1 3 350 16,8 6,6 5,7 2 3 400 13,3 3,1 4,1 2 2 450 14,1 5,8 5,8 2 4 600 • 6,1 5,9 2 4 150 22,5 9,2 6,2 2 3 300 16,9 4,5 3,6 2 2 50 19,1 6,4 4,1 2 3 100 25,8 8,6 4,7 2 2 600 22,5 8,4 3,9 2 3 300 27,6 8,7 6 2 2 350 38 9,6 5,6 2 2 350 72,4 14,4 6,4 2 2 350 37,5 10,2 3,9 2 3 450 10,2 3 2,7 2 2 200 11,6 4,6 2 1 3 400 10,8 8,1 2,7 1 2 900 11,4 4,2 1,8 2 2 900 16,6 7,2 2,8 1 1 1000 10,2 3,4 3,3 1 1 1200 18,6 6,6 2,7 1 2 1200 24,4 7,5 4,4 1 1 1000 23,5 8 4,5 1 2 1200 24,8 8,1 3,5 2 1 800 14,1 3,4 3,9 2 2 800 24,6 6 4,8 1 2 800 30,9 5,1 6 2 1 700 20,2 5,9 5,7 2 2 700 12,8 3,5 2,8 2 1 800 16,9 5,5 3,6 2 1 800 14,2 4,3 2,8 2 2 700 18 4,5 5,3 1 2 1000 11,7 8,6 2,4 2 1 800 14,1 5,4 2,4 1 2 1200 17,7 4,8 3,9 2 3 1200 36,6 13,5 6 1 2 800 12,3 2,4 5,4 Cav Int. Cav. ester. dist. 1 1,7 1,3 1,6 1,7 2 1,4 2 1,1 1,7 1,6 1,9 1,2 1,8 1,3 1,7 1,3 2 1,6 1,9 1,5 1,8 1,4 1,6 1,7 2,7 1,5 2,1 2 2,6 2 2,4 1,8 2,1 1,4 1,5 0,9 1,7 1,2 1,7 0,8 1,5 1,6 2 1,9 2,3 1,4 1,6 1,7 2,3 1,8 2,7 1,8 2,1 1,7 2,5 2,1 2,4 1,9 2,4 1,7 2,4 1,5 2,1 1,6 2,3 1,5 2,2 1,6 2,5 1 1,8 1,5 2,4 1,2 1,8 1,6 2,7 1,1 1,6 centro-base peso 6,2 167 11,3 342,1 7,5 322,9 • 154,8 7 358,1 5,6 227,9 6,8 323,8 7,1 285,2 13,1 613,8 5,2 254,3 10,6 310,1 12,7 426,8 18 521,2 14,4 765,1 13,6 1217,2 17,6 2446,5 14,1 675,7 5,8 90,9 5,6 86,8 5,4 109,1 6,1 67,7 9,5 204,5 5,4 170,3 8,5 176,8 11,3 543,2 8,7 628,2 11,1 401 6,1 302,4 8,6 623,5 8 978,9 9,4 607,9 5,9 165,6 8,2 307,9 6 192,4 9,9 524,7 6,6 111,2 8,4 178,7 9,6 273,4 18,1 1304,4 7,2 233,8 24 Scale ARCHEOLOGIA QUANTITATIVA S.A. Abbiamo considerato la misura delle caratteristiche delle variabili, o , come si dice, il livello di misura o scala. Scala nominale Implica solo nomi da assegnare alle diverse categorie,per un processo di classificazione. E’ il livello più basso di misurazione. Tipo di materiale, loop, peghole. Permette di classificare le unità: tutte le punte di ferro, etc e formare quindi nuove classi. 25 Scale Scala ordinale ARCHEOLOGIA QUANTITATIVA S.A. Possiamo formare classi e metterle anche in ordine, ma senza che vi sia una distanza tra le categorie o tra i singoli individui Es.: stato di conservazione Scala a intervalli Quando è possibile stabilire la distanza:è fissata una unità di misura Es. : Data ; l’ unità di misura è l’anno. Manca però il punto iniziale: lo zero assoluto (Temperatura) 26 ARCHEOLOGIA QUANTITATIVA Scala di rapporti (ratio) Ha le stesse proprietà della scala a intervalli In più esiste anche lo zero assoluto Pesi, distanze etc. S.A. 27 Variabili ARCHEOLOGIA QUANTITATIVA S.A. Variabili quantitative (parametriche): - discrete: i valori sono numeri interi positivi - continue:i valori sono numeri positivi, negativi , decimali (reali) Variabili qualitative, nominali (non parametriche): – Sconnesse quando non esiste alcun ordine. Es: colore dei capelli – Ordinabili: Lineari (stato di conservazione) Cicliche (mesi dell’anno) 28 Indici di posizione (misure di tendenza centrale) ARCHEOLOGIA QUANTITATIVA Valori che riassumono le caratteristiche dei dati per: – Sintetizzare i dati – Facilitare il confronto tra situazioni analoghe Medie: • Aritmetica • Geometrica • Ponderata S.A. x i N Mediana: valore centrale della sequenza ordinata dei dati Moda: modalità più ricorrente 29 Indici di dispersione Campo di variazione: differenza tra il valore più grande xl e il più piccolo xs ARCHEOLOGIA QUANTITATIVA S.A. E’ poco significativo: le distribuzioni hanno lo stesso campo di variazione, ma sono molto diverse in quanto a variabilità Varianza Scarto quadratico medio (deviazione standard): è la radice quadrata della varianza 30 Terminologia e formule X Parametri della popolazione Media aritmetica: m deviazione standard : s = x N m ARCHEOLOGIA QUANTITATIVA S.A. 2 i Statistiche del campione Media aritmetica: X deviazione standard : s = Nx 1x 2 i 31 ARCHEOLOGIA QUANTITATIVA S.A. N- ord. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Cav Int. 1 1,3 1,7 1,4 1,1 1,6 1,2 1,3 1,3 1,6 1,5 1,4 1,7 1,5 2 2 1,8 1,4 0,9 1,2 0,8 1,6 1,9 1,4 1,7 1,8 1,8 1,7 2,1 1,9 1,7 1,5 1,6 1,5 1,6 1 1,5 1,2 1,6 1,1 Calcolo: media scarto mediana moda 1,4975 0,308616 1,5 1,6 32 ARCHEOLOGIA QUANTITATIVA S.A. N- ord. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Cav Int. 1 1,3 1,7 1,4 1,1 1,6 1,2 1,3 1,3 1,6 1,5 1,4 1,7 1,5 2 2 1,8 1,4 0,9 1,2 0,8 1,6 1,9 1,4 1,7 1,8 1,8 1,7 2,1 1,9 1,7 1,5 1,6 1,5 1,6 1 1,5 1,2 1,6 1,1 cav. int 2,5 2 1,5 1 0,5 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 Tabella iniziale 33 ARCHEOLOGIA QUANTITATIVA S.A. N- ord. 21 40 5 20 38 7 18 24 12 4 22 10 33 6 35 39 27 17 26 15 16 29 23 30 28 13 3 25 31 37 32 34 11 14 2 8 9 36 1 19 Cav Int. 0,8 1,1 1,1 1,2 1,2 1,2 1,4 1,4 1,4 1,4 1,6 1,6 1,6 1,6 1,6 1,6 1,8 1,8 1,8 2 2 2,1 1,9 1,9 1,7 1,7 1,7 1,7 1,7 1,5 1,5 1,5 1,5 1,5 1,3 1,3 1,3 1 1 0,9 cav. int 2,5 2 1,5 1 0,5 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 34 Punte di misura diversa rispetto a cavità interna ARCHEOLOGIA QUANTITATIVA N.ord. Materiale Contesto Loop 21 1 1 2 5 2 3 1 7 2 3 1 18 2 2 1 22 1 1 1 27 1 1 2 16 2 1 1 29 1 1 1 30 1 1 2 28 1 1 1 14 2 1 1 2 2 3 1 1 2 3 1 19 2 2 1 Peghole CondizioneData (a.c.) Max Lung. Lung cav. Max Larg. 1 2 900 11,4 4,2 1,8 1 3 350 16,8 6,6 5,7 2 2 450 14,1 5,8 5,8 2 3 450 10,2 3 2,7 2 2 900 16,6 7,2 2,8 1 2 1200 24,8 8,1 3,5 2 2 350 72,4 14,4 6,4 2 2 800 24,6 6 4,8 1 2 800 30,9 5,1 6 2 1 800 14,1 3,4 3,9 2 3 300 27,6 8,7 6 2 4 450 22,6 7,8 4,3 2 3 300 12,4 3,1 3,6 2 2 200 11,6 4,6 2 cav. int Cav Int. Cav. ester. dist. 0,8 1,5 1,1 1,7 1,2 1,8 1,4 1,5 1,6 2 1,8 2,1 2 2,4 2,1 2,4 1,9 2,4 1,7 2,5 1,5 2,1 1,3 1,6 1 1,7 0,9 1,7 centro-base peso 6,1 67,7 7 358,1 6,8 323,8 5,8 90,9 9,5 204,5 11,1 401 17,6 2446,5 8,6 623,5 8 978,9 6,1 302,4 14,4 765,1 11,3 342,1 6,2 167 5,6 86,8 cav. int 2,5 S.A. 2 cav. int 1,5 cav. int 1 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 35 Dati raggruppati - Frequenze Si costruisce una partizione dei dati in classi: la frequenza (assoluta) denota il numero di elementi per ciascuna classe. Frequenze assolute, cumulate Frequenze Relative: rapporto tra frequenze assolute e il numero totale di unità statistiche in esame. Le distribuzioni di frequenze si rappresentano mediante tabelle e graficamente. ARCHEOLOGIA QUANTITATIVA S.A. 36 Cavità interna : partizione in intervalli ARCHEOLOGIA QUANTITATIVA S.A. intervalli fr.assolute fr.relative fr.assolute cumulate 1 0,025 1 0,8 - 1 3 0,075 4 1 - 1,2 5 0,125 9 1,2 - 1,4 7 0,175 16 1,4 - 1,6 11 0,275 27 1,6 - 1,8 8 0,2 35 1,2 - 2 4 0,1 39 2 - 2,2 1 0,025 40 >2,2 0 0 40 37 1,1 1,2 1,2 1,2 1,3 1,3 1,3 1,4 1,4 1,4 1,4 1,5 1,5 1,5 1,5 1,5 1,6 1,6 1,6 1,6 1,6 1,6 1,7 1,7 1,7 1,7 1,7 1,8 1,8 1,8 1,9 1,9 2 2 2,1 1 - 1,2 1,2 - 1,4 1,4 - 1,6 1,6 - 1,8 1,2 - 2 2 - 2,2 >2,2 Totale 5 7 11 8 4 1 0 40 0,125 0,175 0,275 0,2 0,1 0,025 0 9 16 27 35 39 40 40 Totale 12,5 17,5 27,5 20 10 2,5 0 100 1 2 3 4 5 6 7 8 9 fr.assolute cum ulate 12 10 50 8 6 fr ARCHEOLOGIA QUANTITATIVA S.A. 7 18 24 12 4 22 10 33 6 35 39 27 17 26 15 16 29 23 30 28 13 3 25 31 37 32 34 11 14 2 8 9 36 1 19 40 30 4 20 10 2 0 ass.cumul 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 fr.assolute classi ogiva (dal basso) 0,3 0,25 0,2 0,15 Serie1 0,1 0,05 0 1 2 3 4 5 6 7 8 9 frequenze relative 38 distribuzione frequenze in 9 intervalli 12 11 10 9 N. oggetti 8 7 6 5 4 2 1 0 <= 0,8 (0,8;1] (1;1,2] (1,2;1,4] (1,4;1,6] (1,6;1,8] (1,8;2] (2;2,2] > 2,2 (1,8;2] (2;2,2] > 2,2 CAV_INT _ Lunghezza cavità interna Casi da 1 a 40 12 11 10 9 8 N. oggetti ARCHEOLOGIA QUANTITATIVA 3 7 6 5 4 S.A. 3 2 1 media 0 <= 0,8 (0,8;1] (1;1,2] (1,2;1,4] (1,4;1,6] (1,6;1,8] CAV_INT _ Curva Normale di Gauss Rappresenta una distribuzione di probabilità media = mediana = moda area compresa tra la curva e l'asse x è uguale ad 1 39 cav.int 0,8 0,9 1 1 1,1 1,1 1,2 1,2 1,2 1,3 1,3 1,3 1,4 1,4 1,4 1,4 1,5 1,5 1,5 1,5 1,5 1,6 1,6 1,6 1,6 1,6 1,6 1,7 1,7 1,7 1,7 1,7 1,8 1,8 1,8 1,9 1,9 2 2 2,1 Lunghezza cavi tà i nterna Casi da 1 a 40 12 11 10 9 8 N. oggetti ARCHEOLOGIA QUANTITATIVA N. ordine 21 19 36 1 40 5 20 38 7 2 8 9 18 24 12 4 37 32 34 11 14 22 10 33 S.A. 6 35 39 28 13 3 25 31 27 17 26 23 30 15 16 29 7 6 5 4 3 2 1 0 <= 0,8 (0,8;1] (1;1,2] (1,2;1,4] (1,4;1,6] (1,6;1,8] (1,8;2] (2;2,2] > 2,2 CAV_INT _ Curva Normale di Gauss (media-scarto , media+scarto) 1,188884 , 1,806116 (1,2 , 1,8) In questo intervallo cadono 28 casi (in rosso) 68,26% 68,26% dei dati di 40 circa è 27,308 (media-2scarto , (media-3scarto , 95.44% 99.74% dei dati dei dati circa circa , , media+2scarto) media+3scarto) 40 Partizione dei dati relativamente alla variabile CONDIZIONE ARCHEOLOGIA QUANTITATIVA S.A. N. ord. 23 24 26 28 31 33 34 37 7 11 13 15 16 17 19 21 22 25 27 29 30 32 35 36 38 40 1 5 6 10 12 14 18 20 39 COND 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 classi 1 2 3 4 COND 1 2 3 4 fr.assoluta 8 18 9 5 Tot = 40 % 20 44 23 13 100 13% 20% 1 2 23% 3 4 44% 20 18 16 20 15 14 12 10 8 6 10 5 4 2 0 0 1 2 Istogramma 3 4 1 2 3 4 Poligono delle frequenze 41 Variabili standardizzate (normalizzate) ARCHEOLOGIA QUANTITATIVA x media scarto x norm. 84 76 10 0,8 90 82 16 0,5 S.A. z xm s 42 Curva normale standardizzata ARCHEOLOGIA QUANTITATIVA S.A. Media = mediana = 0 Scarto = 1 Un numero nella tavola della distribuzione normale rappresenta l' area sottesa dalla curva che si trova tra il valore medio (Z = 0) e il valore standardizzato positivo Z. L'area tra il valore 0 e un valore negativo sarà identica all'area tra il valore medio e quello positivo per la simmetria della curva. Se z non è intero, e quindi del tipo z = a,bc si cerca a,b nella prima colonna della tabella e si prende il valore intersezione della riga selezionata e della colonna 0,0b. Es: z=1,82 area = 0,4656 43 Distribuzione campionaria Popolazione di N=5 individui : 2,3,6,8,11 Media m = 6,0 varianza = 10,8 scarto s329 Si estraggono tutti i campioni di dimensione n=2 23262211 363311661111 Le medie X dei campioni sono: 2,5-4-5-6,5-4,5-5,5-7-7-8,5-9,5 Sono dette medie campionarie. La media delle medie campionarie è: m x =6,0 La varianza della distribuzione delle medie campionarie è 4,05 e quindi lo scarto è: s x = 2,01 ARCHEOLOGIA QUANTITATIVA S.A. 44 Distribuzione campionaria Se si ripete il processo per i campioni di dimensione crescente si osserva che la media della distribuzione campionaria rimane la stessa, mentre lo scarto tende a diminuire. Ad esempio per i 5 campioni di n=4 elementi si ottiene: m = 6,0 s = 0,82 Significato: le medie campionarie sono meno variabili dei valori reali della popolazione in quanto hanno assorbito i valori estremi che invece incidono pesantemente nella popolazione, in conclusione lo scarto quadratico medio della medie campionarie è minore di quello delle medie campionarie. ARCHEOLOGIA QUANTITATIVA S.A. x x 45 Distribuzione campionaria Si consideri ora l’espressione: s SE = n Nel caso dei campioni di dimensione 2 si ha: SE = 2,32 Che approssima bene il valore 2,01 dello scarto della distribuzione campionaria delle medie. Poiché la dimensione del campione è piccola , un valore migliore si ottiene applicando la formula corretta: s SE = n NN 1n ARCHEOLOGIA QUANTITATIVA S.A. da cui SE = 2,01 che coincide con il valore dello scarto della distribuzione campionaria delle medie. 46 Teorema del limite centrale Tre diverse distribuzioni : - della popolazione - all’interno del campione - distribuzione delle media campionarie Se la prima è normale lo sono anche le altre. Nel caso della normalità si può ragionare su un campione di almeno dieci elementi In ogni caso, al crescere della dimensione del campione, la distribuzione delle medie campionarie tende ad essere normale. La dimensione minima ARCHEOLOGIA QUANTITATIVA S.A. è 30. Le relazioni fondamentali sono: mx = m sx = s n 47 Significato , che abbiamo già denotato con SE, è detto errore standard Sappiamo che nell’intervallo (media- scarto, media + scarto) cade il 68,26% dei valori. Ripetiamo le stesse considerazioni per la distribuzione campionaria. L’intervallo in esame è: (m - s , m + s ) Il 68,26% delle medie x dei campioni cadono nell’intervallo, per cui si può scrivere: s x x - s m ovvero: s s x x m - n n sx ARCHEOLOGIA QUANTITATIVA x S.A. x x x x x x 48 ARCHEOLOGIA QUANTITATIVA S.A. Come si interpreta? m -La vera media della popolazione cadrà con probabilità 0,6826 nel suddetto intervallo - L’errore standard non descrive la variabilità della popolazione, ma descrive il grado di certezza con il quale una media campionaria stima la vera media della popolazione. - Gli estremi dell’intervallo sono detti limiti di confidenza o fiduciari - Le stesse considerazioni si ripetono per gli intervalli introdotti nella diapositiva 40. - Le relazioni di n.48 dicono che la media aritmetica del campione è uno stimatore corretto della media della popolazione, mentre SE è uno stimatore distorto dello scarto della popolazione. 49 Stime Abbiamo valutato i parametri della popolazione a partire dai valori corrispondenti del campione: è questa la stima puntuale. Altro aspetto è la stima per intervalli: piuttosto che chiedere quanto vale un parametro , ci domandiamo in quale intervallo cade. Esempio di stima per intervalli Campione ,estratto da popolazione normale, di dimensione n=16 con media 1,71 e scarto 0,12. Dal teorema del limite centrale sappiamo che 1,71 è una buona stima della media della popolazione. La dimensione del campione del campione è sufficientemente grande per approssimare lo scarto della popolazione con quello del campione. 50 ARCHEOLOGIA QUANTITATIVA S.A. ARCHEOLOGIA QUANTITATIVA S.A. Determiniamo ora l’intervallo in cui cadrà la media della popolazione al 95%. L’area di riferimento è quindi 0,95 suddivisa in due parti di 0,4750 Il valore critico corrispondente è Z=1,96. L’intervallo è : (media ±1,96 sn ) ovvero: 1,71 ± 1,96 0,12/4 = 1,71 ± 0,0588 da cui : (1,6512 – 1,7688) Al 95% la media della popolazione cade in questo intervallo; d’altra parte avevamo già stimato che il suo valore fosse 1,71 51 Esempio Popolazione normale: media 100, scarto 15 Campione di dimensione n=40 media 107 E’ casuale questa media? s m s m = = 100 = n = 2,37 ARCHEOLOGIA QUANTITATIVA S.A. x x Standardizziamo: Z = (107-100)/SE = (107-100)/2,37 = 2,95 Area tra 0 e 2,95 è 0,4984 (dalle tavole) Area a destra di 2,95 è 0,5-0,4984=0,0016 è molto piccola e quindi la probabilità che l’evento sia casuale è scarsa. 52 Decisioni statistiche ARCHEOLOGIA QUANTITATIVA S.A. Scopo. Prendere decisioni sulla popolazione partendo da ipotesi relative ad un solo campione Ipotesi nulla H0 : di solito formulata in modo da poter essere rifiutata Ipotesi alternativa HA Verificare, attraverso test di ipotesi o regole di decisione, se i risultati osservati si differenziano in modo significativo da quelli attesi. Errori di valutazione: - di tipo I : si rifiuta ipotesi quando dovrebbe essere accettata - di tipo II : si accetta ipotesi quando dovrebbe essere rifiutata 53 Livello di significatività a : probabilità massima con la quale si accetta di compiere un errore di tipo I 1- a : livello di confidenza o di fiducia Valori tipici: 0,05 (5%) , 0,01 (1%) Metodo Grandi campioni : n30 -Si sfrutta la normalità e quindi si usano le tavole relative alle variabili standardizzate -Si fissa il livello: di solito 5% a cui corrisponde il valore critica Z=1,96 -Si considera il campione : media e scarto -L’area tra -1,96 e +1,96 è l’area di accettazione dell’ipotesi - L’area esterna è la regione critica: i valori differiscono in modo significativo da quelli ipotizzati - L’area esterna è ripartita in due parti simmetriche (due code) oppure è costituisce un unico blocco (una coda) ARCHEOLOGIA QUANTITATIVA S.A. 54 Esempio: Popolazione con media 120 e scarto 10 Campione con n=36 e media 114 Domanda: il campione proviene da quella popolazione? Ipotesi : media =120 Livello = 5% Due metodi A) Metodo degli intervalli di confidenza L’area di accettazione , che si denota con 95%IC è : s (media ±1,96 ) n ovvero: 114 ± 1,96 10/ 36= 114 ± 3,27 da cui : (110,73 ÷117,27) ARCHEOLOGIA QUANTITATIVA S.A. 55 ARCHEOLOGIA QUANTITATIVA S.A. 120 non appartiene all’intervallo e quindi è improbabile che il campione provenga da una popolazione con media 120:Si accetta quindi l’ipotesi alternativa B) Metodo del test statistico Si calcola : Z= (media campionaria-media popolazione)/ SE = (114-120)/SE = -3,6 dove SE = 10/ 36 Ma -3,6 è molto più piccolo di -1,96 e quindi cade nella regione critica L’ipotesi nulla è da scartare e quindi è improbabile che il campione provenga da una popolazione 56 con media 120 ARCHEOLOGIA QUANTITATIVA S.A. Nota: se avessimo formulato l’ipotesi media>120 la regione critica sarebbe stata tutta dalla parte destra della curva e avremmo quindi effettuato un test ad una coda. In questo caso avremmo dovuto considerare solamente metà area 0,50 e quindi togliendo 5% del livello ,l’area di accettabilità sarebbe stata 0,45 a cui corrisponde il valore critico Z=1,64 invece di 1,96. Il metodo sarebbe poi rimasto lo stesso. 57 Piccoli campioni ARCHEOLOGIA QUANTITATIVA S.A. Problemi nuovi: Distribuzione normale 1. Campioni di dimensione n minore di 30 2. Non conoscenza dello scarto della popolazione Distribuzione non normale (asimmetrica) Soluzioni: Teoria dei piccoli campioni:in questo contesto trovano soluzione i primi due problemi. Se la distribuzione è asimmetrica il valore medio più appropriato è la mediana che non risente dei valori estremi. Si usa allora il test dei segni (test non-parametrico) 58 Test di Student (t-test) ARCHEOLOGIA QUANTITATIVA S.A. Si basa sul confronto della media campionaria con quella della popolazione Si definisce la statistica: t = (n-1) ( x m )/s Con il consueto significato dei simboli n = n-1 sono i gradi di libertà Anche in questo caso l’area sottesa dalla curva è 1. Si usa la tabella di Student simile a quella della distribuzione normale. La riga è determinata dai gradi di libertà e la colonna viene selezionata in base al valore del livello di significatività. Si determinano i valori critici t in modo analogo ai valori z. 59 ARCHEOLOGIA QUANTITATIVA S.A. Esempio 1 Popolazione U con media 9,5 Campione : n=15 media=10,64 scarto s= 7,26 a=5% H0: media pop. =9,5 (il campione proviene da U) Test a due code: 0,05/2 =0,025 t = ( 14)(10,64-9,5)/7,26 =0,59 Gradi di libertà = 14 t(0.025) = 2,14 Intervallo IC = (-2,14 , +2,14) t=0,59 appartiene all’intervallo IC L’potesi nulla è accettabile. 60 Esempio 2 ARCHEOLOGIA QUANTITATIVA S.A. Cav Int.Precedenti studi hanno dimostrato che la media era 1,3 cm., e non era noto lo scarto. 1 Interessa sapere se il campione delle 40 punte ,relativemente a questa variabile, 1,3 appartiene oppure no alla stessa popolazione. 1,7 In altre parole , poiché la media del campione è 1,4975 cm., e lo scarto 0,312547 1,4 interessa sapere se sono simili oppure cè una differenza rilevante. 1,1 1,6 Ho: media = 1,3 1,2 1,3 Si usa il t-test 1,3 1,6 t = (media del campione - media in origine)xradice quadrata di (N-1) / scarto del campione di N elementi 1,5 1,4 t = (1,4975 - 1,3) x Radq(40-1) / 0,312547 1,7 1,5 t = 0,1975 x 6,244998 / 0,312547 = 3,95 2 2 Da tabella del t- test 1,8 livello valore 1,4 0,05 (5%) 2,02 0,9 1,2 Poiché 3,95 > 2,02 l'ipotesi deve essere respinta e quindi esiste una significativa diversità 0,8 1,6 1,9 1,4 1,7 1,8 1,8 1,7 2,1 1,9 1,7 1,5 1,6 1,5 1,6 1 1,5 1,2 1,6 1,1 61 Tabelle di frequenze bivariate ARCHEOLOGIA QUANTITATIVA Mater. bronzo ferro S.A. fr.marginali tabella di correlazione tabella di contingenza : : ambedue le variabili sono quantitative almeno una variabile è qualitativa TABELLA DI CONTINGENZA con frequenze assolute sono dette anche frequenze interne o congiunte contesto terreno 19 8 27 sedimento 1 5 6 tabella codificata sepoltura fr.marginali 0 20 7 20 7 40 1 2 fr.marginali 1 19 8 27 2 1 5 6 3 0 7 7 fr.marginali 20 20 40 62 Test Chi-quadro Ricerca di associazione tra il tipo di materiale e la presenza di loop. ARCHEOLOGIA QUANTITATIVA Bronzo 18 Ferro 22 SI loop 3 SI loop 10 NO loop 19 NO loop 8 albero Si usano due tabelle di contingenza : la tabella dei valori osservati e la tabella dei valori attesi S.A. Tabelle dei valori osservati O Materiale No loop Ferro Si loop 19 3 22 frequenze marginali 8 10 18 Valori Osservati O 27 13 40 Totale Materiale No loop Si loop Ferro Bronzo 27 13 22 18 40 Totale Bronzo 63 ARCHEOLOGIA QUANTITATIVA gradi di libertà:1 (scelta del valore iniziale in una delle caselle rosse) Fissando ad esempio il 3 gli altri valori sono univocamente individuati mdiante le frequenze marginali. gradi di libertà=(r-1)(c-1) r = numero righe della tabella c = numero colonne della tabella Tabella dei valori attesi E Ho: ipotesi nulla Possibili errori: tipo 1 tipo 2 Non esiste alcuna associazione (le differenze sono casuali) quindi probabilità di avere loop è 13/40 indipendentementa dal materiale viene respinta ipotesi quando era da accettare viene accettata ipotesi quando era da respingere S.A. Materiale No loop Si loop Ferro 14,85 7,15 Bronzo 12,15 5,85 27 13 22 18 40:13=22:x x=7,15 Valori attesi E 64 Chi-quadro = 7,978,81 Livello di significatività a : probabilità massima di commettere errore di tipo 1 ARCHEOLOGIA QUANTITATIVA S.A. Da tabella del Chi-quadro: (riga individuata dal grado di libertà e colonna da a) livello valore 0,05 (5%) 3,84 0,1 6,63 Il valore calcolato è maggiore e l'ipotesi è da respingere. Pertanto il tipo di materiale e la presenza di loop sono associati. Calcolo manuale del O 19 3 8 10 E 14,85 7,15 12,15 5,85 O-E 4,75 4,15 4,15 4,15 c2 (O - E)2 (O - E)2/E 17,2225 1,16 17,2225 2,41 17,2225 1,42 17,2225 2,94 c 2= (il valore cade nella regione critica) Oi Ei 2 Ei 7,93 65 Correlazione Campione di otto punte di lancia ARCHEOLOGIA QUANTITATIVA S.A. 1 2 3 N ordine Materiale Contesto 21 1 1 19 2 2 1 2 3 36 1 1 40 1 1 20 2 2 7 2 3 18 2 2 4 Loop 2 1 1 2 2 1 1 1 5 6 7 8 9 10 Peghole CondizioneData (a.c.) Max Lung. Lung cav. Max Larg. 1 2 900 11,4 4,2 1,8 2 2 200 11,6 4,6 2 2 3 300 12,4 3,1 3,6 1 2 1000 11,7 8,6 2,4 1 2 800 12,3 2,4 5,4 1 3 400 10,8 8,1 2,7 2 2 450 14,1 5,8 5,8 2 3 450 10,2 3 2,7 media scarto s 11 12 13 14 Cav Int. Cav. ester. dist. centro-base peso 0,8 1,5 6,1 67,7 0,9 1,7 5,6 86,8 1 1,7 6,2 167,0 1 1,8 6,6 111,2 1,1 1,6 7,2 233,8 1,2 1,7 5,4 109,1 1,2 1,8 6,8 323,8 1,4 1,5 5,8 90,9 11,813 1,1753 C'è ssociazione tra le colonne 8 e 13 ? 25 16 14 12 10 8 6 4 2 0 20 8 13 15 8 13 10 5 0 0 2 4 6 8 10 1 2 3 4 5 6 7 8 Coefficiente di correlazione 0,674 La distribuizone evidenzia che esiste una correlazione positiva tra i dati delle colonne 8 e 13: ovvero aumentando i valori di una aumentano anche i valori dell'altra. 66