Elaborazione Statistica dei Dati Sperimentali Facoltà di Scienze MM FF e NN, Università del Sannio Valutazione della stima: gli intervalli di confidenza Giovanni Filatrella ([email protected]) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Stima degli intervalli di confidenza Dati due valori del parametro incognito l , l1 e l2, supponendo di conoscere la distribuzione di probabilità dello stimatore di l, dipendente da N esperimenti xi, trovare l1 e l2 significa trovare i loro valori in modo che : P(T l(x)|l1 l l2)=1-a Importante: Gli estremi dell’intervallo sono valori casuali e non fissati. La procedura è generale ed indipendente dai dati xi effettivamente ottenuti, ma i valori da attribuire a l1 e l2 dipendono dagli specifici dati sperimentali. 2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Esempio di applicazione dell’intervallo di confidenza densità di probabilità di Tx “La percentuale x di fumatori in una scuola superiore è compresa fra il 10% ed il 30% ad un livello di significatività del 95%.” 95% x1 x2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali x 3 Livello di significatività degli intervalli di confidenza a è detto livello di significatività dell’intervallo [l1,l2]. 1-a è detto coefficiente o livello di confidenza dell’intervallo [l1,l2]. Ex: per una variabile gaussiana a media 0, trovare l’intervallo di confidenza al 68% del valore medio significa stabilire che tale intervallo è: N 1 2 l1 = x i N N - 1) i =1 N 1 2 l2 = x i N N - 1) i =1 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 4 Scelta degli estremi degli intervalli di confidenza Pur avendo scelto un determinato livello di significatività l’intervallo [l1,l2] potrebbe essere diverso, ad esempio non simmetrico attorno a 0: La scelta più opportuna dipende dallo specifico problema. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 5 Esempi di intervalli di confidenza non simmetrici Un fertilizzante si suppone che migliori la produttività media del frumento. Se è nota la produttività senza fertilizzante potrebbe essere interessante chiedersi a che livello di confidenza l’uso del fertilizzante migliori la produttività abbastanza da ripagarne il costo: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 6 Esempi di intervalli di confidenza non simmetrici densità di probabilità di Tx Un fertilizzante si suppone che migliori la produttività media del frumento. Se è nota la produttività senza fertilizzante xo potrebbe essere interessante chiedersi a che livello di confidenza l’uso del fertilizzante migliori la produttività abbastanza da ripagarne il costo: 70% x2= x0 x1 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali x 7 Interpretazione degli intervalli di confidenza 1. Se si ripetessero le misure sullo stesso sistema con un determinato valore del parametro incognito, allora 1-a delle serie di misure indicherebbero degli intervalli che effettivamente contengono il parametro “vero”. 2. Se si utilizzasse lo stesso metodo per la costruzione degli intervalli su sistemi diversi, allora nella frazione 1a dei casi si indicherebbero intervalli contenenti il valore corretto. Non è corretto però dire che il valore vero del parametro è contenuto nell’intervallo di confidenza con probabilità a G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 8 Applicazione degli intervalli di confidenza Supponiamo di misurare la lunghezza di una scrivania con un metodo soggetto ad errore casuale, quindi ripetendo le misure i valori trovati non sono sempre uguali. Ad esempio si è ottenuto, in cm: 203 201 201 202 204 Fra quali valori è compresa la lunghezza della porta al livello di significatività a=5%? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 9 Passo 1: stima puntuale Poiché supponiamo che le misure siano distribuite gaussianamente, determinare il valore vero della lunghezza della scrivania corrisponde a stimare il valore aspettato della distribuzione delle misure: 1 E[ x] x = N N x ] = 202,2 cm i =1 i La migliore stima della lunghezza della scrivania è 202,2 cm G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 10 Passo 2: stima dell’incertezza La stima che abbiamo effettuato è una valutazione, cioè a sua volta una variabile casuale distribuita gaussianamente la cui deviazione standard può essere stimata essere: s 1 N -1 S= 1 N -1 S = 2 ] 1 N 2 2 x x = 0.68 cm i N - 1 N i =1 1 Il valore vero del parametro incognito è distribuito gaussianamente con valore aspettato E[x] 202.2 cm deviazione standard s0.7 cm G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 11 Rappresentazione grafica dei risultati ottenuti: densità di probabilità E[x]=202.2cm s=0.7cm 201.5 202.2 202.9 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali L(cm) 12 Passo 3: intervallo di confidenza Poiché ora conosciamo “tutto” della distribuzione di probabilità del valore stimato, possiamo rispondere alla domanda “quali sono le lunghezze nelle quali le mie misure, al livello di significatività del 5%, possono essere generate dalla lunghezza vera della scrivania”? : P( ~ | 1 2 ) = 2 1 s 2 e 1 ~ - )2 2s 2 d~ = 1 - a = 95% Il problema viene così ricondotto a trovare gli estremi di una distribuzione gaussiana tali da racchiudere una probabilità del 95%. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 13 Un possibile intervallo di confidenza: Una scelta possibile è di chiedere che la probabilità sia racchiusa in un intervallo simmetrico attorno al valore di massima verosimiglianza: 1 ~ P( | 2 ) = e 2 s 2 ~ - )2 2s 2 ~ a d~ = = 2.5% 2 1.6 2 s Stimando s e conoscendo la stima ~ si trova 2: s 0.7cm, ~ 202.2cm 2 1.6 0.7 202.2)cm = 203.5cm G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 14 Esercizi Trovare 1 nell’esercizio precedente. Se la scrivania deve essere inserita in una rientranza, quale intervallo di confidenza è più opportuno scegliere? **Ad un livello di significatività dell’1% l’intervallo di confidenza è più ampio? Perché? Ripetere l’esercizio ad un livello di significatività dell’1%. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 15