Campionamento Una grandezza fisica e' distribuita secondo una certa PDF La pdf e' caratterizzata da determinati parametri Non abbiamo una conoscenza diretta della pdf Possiamo determinare una distribuzione di frequenza mediante n misure sperimentali Gli N esperimenti che contribuiscono a determinare la distribuzione costituiscono un CAMPIONE. Un campione e' un sottoinsieme degli infiniti risultati possibili, che prendono il nome di POPOLAZIONE Alessandro De Falco, INFN Cagliari 1 8/19/09 Stima di parametri Calcolo delle probabilita' Teoria Dati Noti i parametri delle distribuzioni di probabilita', possiamo predire le caratteristiche dei dati Statistica Teoria Dati I dati forniscono informazioni sulle proprieta' dei parametri o sulla correttezza delle funzioni di distribuzione Alessandro De Falco, INFN Cagliari 2 8/19/09 Statistica, stima Abbiamo n osservazioni indipendenti di una variabile casuale x che costituiscono un CAMPIONE di dimensione n Le xi sono indipendenti: la probabilità congiunta è: f sample x = f x 1 f x 2 ... f x n Date le misure xi vogliamo ottenere le proprietà di f(x) (media, varianza...) STATISTICA: una funzione dei dati (senza parametri incogniti) STIMATORE(STIMA): della f(x) Notazione: Esempi: è lo stimatore del parametro da misurare x= 1 V X = N Alessandro De Falco, INFN Cagliari una statistica usata per estrarre le proprietà 1 N ∑ xi x = x min x max 2 i ∑ x i − i 3 2 V X = 1 N −1 2 ∑ x i − i 8/19/09 Esempi di stimatori Un rivelatore misura la molteplicità delle particelle cariche per ciascuno degli N eventi. Vogliamo determinare la molteplicità media Ecco alcuni stimatori possibili: 1- Media aritmetica delle N misure 2- Somma delle N misure divisa per (N-1) 3- Prendiamo la moda (valore più probabile) 4- Media aritmetica degli eventi dispari 5- Media dei primi 100 eventi. Buttiamo gli altri. 6- Buttiamo via i dati e prendiamo come risultato 43 particelle Come stabiliamo la qualità di uno stimatore? Alessandro De Falco, INFN Cagliari 4 8/19/09 Proprietà generali delle stime Non esiste una regola d'oro per costruire uno stimatore. Si possono però definire alcune proprietà degli stimatori che ne esprimono la qualità: Consistenza: (Assenza di) Bias Efficienza Alessandro De Falco, INFN Cagliari la stima converge al valore del parametro per campioni di grandi dimensioni? Il valore di aspettazione della stima è uguale al valore del parametro da stimare? La varianza dello stimatore è piccola? 5 8/19/09 Consistenza Uno stimatore della quantità da misurare è consistente se, per un numero arbitrariamente grande di misure, il valore dello stimatore converge al valore della quantità da misurare: lim = N ∞ In generale, per una statistica finita, differirà da , a causa delle fluttuazioni statistiche. Per la legge dei grandi numeri, aumentando la dimensione del campione, le fluttuazioni diminuiscono. In queste condizioni, un buono stimatore deve convergere al valore del parametro da determinare Nell'esempio precedente, gli stimatori 1,2,4 sono consistenti. 5 e 6 sono inconsistenti. 3 è consistente solo se moda=media In genere la constistenza è considerata un requisito essenziale per uno stimatore Alessandro De Falco, INFN Cagliari 6 8/19/09 Bias Poichè uno stimatore è una variabile casuale, possiamo calcolare il suo valore medio: 〉=∫∫∫ ... x 1, x 2. .. f x1, f x 2, ... dx 1 dx 2 ... dx n 〈 Il bias è definito come − b= Il bias in generale dipenderà dalla dimensione del campione (n) e dalla forma funzionale dello stimatore. Uno stimatore è senza bias se b=0. Nell'esempio precedente, 1, 4 e 5 non hanno bias -ma 5 non è consistente. 2 ha un bias. Alessandro De Falco, INFN Cagliari 7 8/19/09 È un requisito utile, ma non sempre necessario Se il bias è piccolo rispetto alla varianza, non è considerato importante Ma se si combinano risultati di diversi esperimenti biasati, la varianza si riduce, ma il bias resta Si considera talvolta la quantità: 2 2 2 ] E [ −]2 =V [ ]b E [ − ]=E [ −E [ ] che può essere interpretata come la somma in quadratura dell'errore sistematico e dell'errore statistico. Alessandro De Falco, INFN Cagliari 8 8/19/09 Nota: Consistenza vs bias La consistenza è una proprietà asintotica Il bias è una proprietà che riflette il comportamento che avrebbe la stima se si ripetesse l'esperimento M volte, sempre con lo stesso numero di eventi Una proprietà non implica l'altra Alessandro De Falco, INFN Cagliari 9 8/19/09 Efficienza Confrontiamo due stimatori entrambi consistenti e senza bias: quello con varianza più piccola è il più efficiente Fissata la dimensione del campione, lo stimatore più efficiente avrà maggiore probabilità di essere più vicino al valore vero del parametro da stimare Nell'esempio precedente 1 e 4 sono entrambi consistenti e senza bias, ma 1 è più efficiente di 4. Mentre è relativamente facile trovare se uno stimatore consistente è senza bias, è più complicato stabilire l'efficienza di uno stimatore, perché questa dipende dalla particolare pdf. E' possibile stabilire un limite alla varianza di uno stimatore (minimum variance bound, MVB). Torneremo in seguito su questo punto. Alessandro De Falco, INFN Cagliari 10 8/19/09 Quale stimatore scegliere? Non esiste lo stimatore ideale La scelta richiede giudizio: La varianza dello stimatore dipende dalla pdf, dunque l'efficienza può essere diversa per problemi differenti E' possibile avere uno stimatore che si rivela 'biasato', per cui è necessario bilanciare i vantaggi e gli svantaggi per uno stimatore più efficiente e con un piccolo bias o meno efficiente e con bias nullo Alessandro De Falco, INFN Cagliari 11 8/19/09 Una stima per il valore medio La media aritmetica delle misure xi e' detta media campione 1 x= x= n ∑ xi i Se V[x] è finita, la media campione è una stima consistente e senza bias per il valore medio lim P ∣ −∣ =0 ∀ ∈ R n∞ E[ x ]= 2 1 n 2 1 ∑ E [ xi ]= ∑ = n i V [ x ]= E [ x ]− E [ x ] =E [ 1 n stima senza bias i 1 1 ∑ xi ∑ x j ]− = 2 ∑ E [ x i x j ]−2 n 2 n i,j 2 1 2 2 2 2 2 = 2 [ n −n n ]− = n n Alessandro De Falco, INFN Cagliari stima consistente i 12 j E [ x i x j ]= 2 2 per i≠ j 2 E [ x i ]= 2 8/19/09 Una stima per la varianza Supponiamo che non sia nota la varianza ma sia noto il valore medio In analogia col caso precedente possiamo definire lo stimatore della varianza come 2 S = 1 n ∑ xi −2 i Questa stima è consistente e senza bias: 2 E [ S ]= 2 n 〈 x− 〉 n 2 =〈 x− 〉= 2 Supponiamo che non siano noti nè la varianza nè il valore medio. Se usiamo lo stimatore appena definito sostituendo al valore medio la media campione, otteniamo una stima con bias: Alessandro De Falco, INFN Cagliari 13 8/19/09 Infatti: 2 E [ S ]= 2 n 〈 x−x 〉 n 2 2 2 Per il teorema del limite centrale Dunque: 2 2 2 2 =〈 x 〉−〈 x 〉=〈 x 〉−〈 x 〉〈 x 〉 −〈 x 〉 2 2 〈 x 〉=〈 x〉 2 2 E [ S ]=〈 x 〉−〈 x 〉=〈 x 〉−〈 x 〉−〈 x 〉 〈 x〉 V x −V x Ma ancora il CLT ci dice che: Dunque: 2 2 V x =V x/ n 1 E [ S 2 ]=V x −V x =V x 1− n = n−1 n V x≠V x Per ottenere una stima senza bias si introduce un fattore n/(n-1) detto correzione di Bessel, per cui la stima diventa 2 s =V X = Alessandro De Falco, INFN Cagliari 1 n−1 2 ∑ x i − x = i 14 n n−1 2 2 x − x 8/19/09 Riassumendo: stima per la varianza Supponiamo che non siano noti nè il valore medio nè la varianza Stimiamo2 con la varianza campione 2 s =V X = n 2 2 2 − x − x = x x ∑ i n−1 i n−1 1 Il fattore 1/(n-1) è tenuto in conto in modo che la stima risulti senza bias: E[s2]=2 Se il valore medio è noto a priori, la stima 2 S = è senza bias Alessandro De Falco, INFN Cagliari 1 n ∑ xi −2 = x2 −2 i 15 8/19/09 Stima per la covarianza Per la covarianza Vxy=cov[x,y] possiamo usare la stima senza bias: 1 n V xy = xy− x y ∑ xi − x yi − y = n−1 i n−1 Per il coefficiente di correlazione =Vxy/(xy): r= V xy sx sy ∑ x i − x yi− y = i ∑ x j − x 2⋅∑ y k −y 2 j k xy− x y = 2 2 2 2 1/ 2 x − x y −y r ha un bias che tende a zero per Alessandro De Falco, INFN Cagliari 16 n∞ 8/19/09 La likelihood E' dato un set di misure {x1, x2, x3, ...xN} (ciascuna delle quali puo' essere multidimensionale) Supponiamo che la pdf (f) dipenda da un parametro a (anch'esso eventualmente multidimensionale) La likelihood e' definita come la densità di probabilità che il set di misure {x1, x2, x3, ...xN} sia prodotto a partire dal particolare valore di a: L x1, x 2,. .. x N ; a= f x 1 ; a f x 2 ; a.... f x N ; a=∏ f x i ; a 2 〈 a 〉=∫ a L dx 1. .. dx n Alessandro De Falco, INFN Cagliari 2 〈 a 〉=∫ a L dx 1. .. dx n 17 8/19/09 Efficienza e Minimum Variance Bound Come abbiamo accennato, la varianza di uno stimatore dipende dalla particolare pdf, e può dipendere anche dal particolare valore di a (L=L(xi;a)). 2 2 V a =〈 a −a 〉=〈 a 〉−〈 a 〉 〈 a 〉=∫ a L dx 1. .. dx n 2 2 2 〈 a 〉=∫ a L dx 1. .. dx n C'è un limite all'accuratezza di uno stimatore (per la dimostrazione vedi R. Barlow), detto Minimum Variance Bound (MVB) che, per uno stimatore senza bias è: V a ≥ 1 ovvero 2 〈 d log L / da 〉 se V a = MVB≡ 1 2 〈 d log L / da 〉 altrimenti la sua efficienza è Alessandro De Falco, INFN Cagliari 18 , V a ≥ −1 2 2 〈 d log L / da 〉 a è efficiente MVB V a 8/19/09 Efficienza della media campione per una pdf gaussiana Se la pdf è gaussiana, la media campione è una stima efficiente di n L=∏ i=1 2 d log L d 2 2 1 1 x i − exp − 2 2 2 =− N 2 2 MVB= N per il teorema del limite centrale, è la varianza della media campione Alessandro De Falco, INFN Cagliari 19 8/19/09