Schema lezione 5 Intervalli di confidenza Non centrerò quella barca, ne sono convinto al 95% COMPRENDERE: – Significato di intervallo di confidenza – Uso degli stimatori come quantità di pivot per stime intervallari IMPARARE: – popolazioni normali: come determinare intervalli di confidenza per media, varianza, differenza tra due medie – campioni di taglia grande: come determinare intervalli di confidenza per la media – proporzioni e differenze tra proporzioni: come determinare intervalli di confidenza DISTINGUERE: – precisione da affidabilità ELABORARE: – tramite esercizi di interesse applicativo Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 1 Probabilità di un intervallo/intervallo di confidenza 1 Livello di confidenza Esempio : Attenzione: qui si parla di confidenza e non di probabilità! Il vero valore di µ può o meno essere compreso nell’intervallo trovato, però se calcolassi tanti intervalli di confidenza, nel 95% di essi il vero valore di µ cadrebbe all’interno dell’intervallo Coefficiente di affidabilità Con confidenza al 95% possiamo affermare: Modello teorico: il vero valore di µ è compreso nell’intervallo con probabilità 0.95 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 2 Probabilità di un intervallo/intervallo di confidenza 2 E’ un vero lavoro da detective: raduniamo le informazioni disponibili per scoprire la verità: il vero valore di µ ! 36 24 x1 x2 39 x3 20 x10 Un ricercatore vuole determinare il livello di un certo enzima in una popolazione umana. Considera 10 individui e determina il livello dell’enzima per ciascuno di essi, ottenendo una media campionaria uguale a 28. Sappiamo che la variabile di interesse è N(µ,45). Vogliamo stimare µ. Soluzione: Ogni intervallo può o meno contenere il vero valore di µ però per il 95% degli intervalli il vero valore di µ è compreso. 27 x15 Vera distribuzione; µ=30, però l’investigatore non può saperlo. 3 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervalli di confidenza:precisione della stima Per avere un intervallo di confidenza piccolo (molto preciso) devo correre il rischio che il vero valore non sia compreso in esso. E’ come centrare un bersaglio in un tiro a segno. Se il bersaglio è piccolo la probabilità di non centrarlo è alta. Posso avere più intervalli con lo stesso livello di confidenza: sceglierò quello più preciso L’unico modo per ottenere un’alta probabilità per l’intervallo e un’alta precisione è di aumentare la taglia del campione. Diversamente se aumenta la precisione della stima diminuisce la confidenza dell’intervallo. 4 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervalli di confidenza: definizione Definizione: Intervallo di confidenza di livello 1-α per τ(θ) 5 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Probabilità di un intervallo intervallo di confidenza Tecnica per determinare un intervallo di confidenza: 1. Determiniamo una variabile aleatoria, tale che nella sua espressione sia coinvolto il parametro da stimare ma di cui sia nota la distribuzione, che non coinvolge il parametro da stimare Esempio: X±1.96 σ/Ïn Devo scegliere queste variabili in un modo “furbo”: la loro distribuzione non deve coinvolgere il parametro da stimare! 2. Sostituisco alle variabili aleatorie il valore stimato. Nota: nel momento in cui sostituisco la stima alle variabili aleatorie non posso più parlare di probabilità. L’intervallo sarà verificato con una certa CONFIDENZA. 6 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esempio Perché l’intervallo al 99% è più grande di quello al 95%? E’ ragionevole o hai sbagliato i calcoli? 7 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervallo di confidenza per la media Popolazione normale o campione di taglia grande, σ nota Variabile casuale da utilizzare: Gli scienziati sono sicuri al 99% che il rientro nell’atmosfera avverrà lì: è un’area grande senza pericoli, posso sentirmi tranquillo Intervallo di confidenza di livello 1-α: L’intervallo ha lunghezza minima se è simmetrico Popolazione normale σ sconosciuta Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α: T di Student con n-1 gradi di libertà Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Se n è grande la T di Student tende a una normale e ricadiamo nel caso precedente 8 Intervallo di confidenza per la media scelta della statistica corretta La Popolazione è NORMALE ? sì no Il campione è GRANDE ? Il campione è GRANDE ? sì no sì no La varianza è NOTA ? La varianza è NOTA ? La varianza è NOTA ? La varianza è NOTA ? sì no sì z n < 30 z sì no t sì z no t sì z metodi non parametrici no metodi non parametrici no t z 9 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Determinazione della taglia del campione per ottenere intervalli con confidenza prefissata Semiampiezza dell’intervallo Popolazione grande Campionamento CON reinserimento Popolazione piccola Campionamento SENZA reinserimento 2 10 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervallo di confidenza per la varianza Popolazioni normali Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α: Segue la distribuzione del Chi quadro con n-1 gradi di libertà Probability Density Function y=chi2(x;6) 0,175 0,131 0,087 Attenzione: il Chi quadro è una variabile sempre positiva 0,044 0,000 0,00 6,25 12,50 18,75 25,00 11 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervallo di confidenza per differenze tra due medie Popolazioni normali o campioni di taglia grande, σ1 e σ2 note Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α: - (1-α/2) (1-α/2) Popolazioni normali σ1 e σ2 sconosciute ma uguali Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α: -t- (1-α/2) +t (1-α/2) Dove: 12 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervallo di confidenza per differenze tra due medie Popolazioni normali σ1 e σ2 sconosciute e diverse Variabile casuale da utilizzare: Non segue più la distribuzione di Student con n1+n2-2 gradi di libertà Intervallo di confidenza approssimato di livello 1-α: Dove: con: 13 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervallo di confidenza per proporzioni Campioni di taglia grande Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α: E’ vero, però possiamo stimare la varianza tramite Sn/n Ovviamente così introduciamo una nuova approssimazione ma è trascurabile Ho un problema: la varianza dipende dal parametro da stimare p 14 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervallo di confidenza per proporzioni Se il campione è di taglia piccola l’intervallo di confidenza non può utilizzare l’approssimazione normale. I calcoli vanno fatti usando la binomiale: sono calcoli difficili! Per fortuna esistono dei grafici che possono venir utilizzati in questi casi. Taglia del campione per intervalli di ampiezza prefissata Popolazione infinita con reimbussolamento Popolazione finita, senza reimbussolamento 15 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervallo di confidenza per differenze tra proporzioni con n1 e n2 GRANDI 2 Esempio: Dei ricercatori vogliono confrontare gli effetti di due diverse cure sul tempo di ricovero di pazienti con una certa malattia. Si scelgono 200 pazienti a caso e si dividono in due gruppi uguali. Nel primo gruppo i pazienti ricevono il trattamento standard e 78 vengono dimessi entro 3 giorni. Degli altri 100, che hanno sperimentato il nuovo metodo, 90 sono dimessi entro 3 giorni. I medici vogliono stimare la differenza tra le due proporzioni di malati che vengono dimessi entro 3 giorni usando un livello opportuno (p.es. 95%). Soluzione: 16 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Intervallo di confidenza per il rapporto tra le varianze di due popolazioni normali Popolazioni normali Variabile casuale da utilizzare: Segue la distribuzione di Fisher con (n1-1, n2-1) gradi di libertà Intervallo di confidenza di livello 1-α: Distribuzione di Fisher 1.500 1.125 0.750 Attenzione: la variabile di Fisher è sempre positiva ed è tabulata 0.375 0.000 0 1 2 3 4 17 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino (5,5) (10,5) (10,50) Come faccio a determinare F0.025 con n1 en2 gradi di libertà? Sulle tavole non c’è! 18 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esempio: Dei ricercatori selezionano un campione di 21 adulti apparentemente sani (campione 1). Indipendentemente selezionano un campione di taglia 16 da una popolazione di pazienti con il morbo di Parkison (campione 2). La variabile che li interessa è il tempo di reazione a un certo stimolo. Le varianze campionarie risultano 1600, per il primo campione, e 1225 per il secondo. Per confrontarle i ricercatori vogliono un intervallo di confidenza al 95% per il rapporto Soluzione Dati del problema Dalle tavole della distribuzione di Fisher con (20,15) gradi di libertà 19 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi • Si sono effettuate 40 misure del tempo di caduta (in centesimi di secondo) di un sasso da una certa altezza al suolo 63 58 74 78 70 74 75 82 68 69 76 62 72 88 65 81 79 77 66 76 86 72 79 77 60 70 65 69 73 77 72 79 65 66 70 74 84 76 80 69 a. Stimare la deviazione standard delle 40 misure b. Calcolare la media delle 4 misure di ciascuna della colonne. Si può pensare a questi dati come risultanti da 10 esperimenti, in ciascuno dei quali si è trovata la media di 4 tempi. Dato il risultato della parte a., cosa vi aspettate per la deviazione standard delle 10 medie? c. Determinare un intervallo di confidenza al 99% per il tempo medio di caduta del sasso. 20 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino • Cinque persone si sono fatte misurare la capacità respiratoria prima e dopo un certo trattamento, dando luogo ai seguenti risultati: Individuo Prima (X) Dopo (Y) Variazione A 2750 2850 +100 B 2360 2380 +20 C 2950 2800 -150 D 2830 2300 +30 E 2250 2300 +50 Si costruisca un intervallo di confidenza al 95% per µX - µΨ. Supponendo di aver campionato da popolazioni normali caratterizzate dalla stessa varianza. 21 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino • Sedici stazioni meteorologiche, localizzate a caso in uno stato dal clima uniforme, misurano la caduta di pioggia. Nel 1999 registrarono una media di 10 pollici ed una deviazione standard di 1.5 pollici. Costruite, per la caduta media di pioggia nello stato: – un intervallo di confidenza al 95% – un intervallo di confidenza al 99% • Date le seguenti caratteristiche di due campioni casuali estratti da due popolazioni n1 =25 X1 =60.0 s1 =12 X2 =68.0 s2 =10 n2 =15 supponendo σ1= σ2 si determini un intervallo di confidenza al 95% per µ1- µ2 22 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino • • 23 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino