Capitolo 5 – Confidenza, significatività, test di Student e del χ2 5.1 L’inferenza Se conosciamo la legge di probabilità di un evento (a priori o a posteriori) possiamo fare delle previsioni su come l’evento si verificherà in futuro, oppure sul risultato di una misura. Il processo con il quale giungiamo alla previsione prende il nome di inferenza. Esso si basa sostanzialmente sul calcolo della varianza e sulla conoscenza dei modelli di probabilità. 5.2 La confidenza La confidenza fornisce una indicazione del livello di certezza che è possibile associare a una previsione sul risultato di una misura. Partiamo da un esempio: Immaginiamo di ripetere moltissime volte il lancio di 10 monete e costruiamo l’istogramma delle frequenze dell’evento “testa”, ponendo sull’asse n il numero di risultati “testa” su 10 lanci e sull’asse y la frequenza dell’evento. Utilizzando la definizione di decile vista al Capitolo 1, si potrebbe affermare che l’80% dei risultati sono compresi tra n1 (valore decile inferiore) e n2 (valore decile superiore). Si preferisce però affermare che, con una confidenza dell’80%, il risultato cadrà tra n1 e n2. N.B. Il tratto da n1 a n2 è chiamato intervallo di confidenza. Ad ogni livello di confidenza (o certezza), detto anche semplicemente livello e indicato con la lettera α, si può associare un intervallo di confidenza. ⇓ L’intervallo di confidenza stima l’andamento di un parametro non noto fornendo una indicazione del grado di certezza sulla giustezza della stima. Esempio: Calcolare l’intervallo di confidenza in cui cade, a un livello del 99%, il numero di teste ottenuto con 100 lanci di una moneta. Soluzione: Indichiamo con [x1, x2] l’intervallo di confidenza. La probabilità di ottenere un numero di teste superiore a x2 sarà dello 0.5% e sarà egualmente dello 0.5% la probabilità di ottenere un numero di teste inferiore a x1. Per la distribuzione Gaussiana si ha <x> = Np e σ2 = Np(1−p). Al fine di usare i dati tabulati passiamo alle variabili standardizzate: z1 = x1 − Np Np (1 − p ) z2 = x2 − Np Np (1 − p ) Poiché la Gaussiana è una curva simmetrica, deve essere z2 = −z1. Dalla Tebella ricaviamo il valore di z2 = 2.575 per cui si ha P(z) = 0.495 (=0.99/2). Sostituendo nelle relazioni delle variabili standardizzate otteniamo x1 = 37.125 e x2 = 62.875. Possiamo quindi affermare, con una confidenza del 99%, che il numero di teste su 100 lanci cadrà tra 37 e 63. Se non è così, è probabile che la moneta sia truccata. Commento: Sono stati ottenuti valori x1, x2 di tipo frazionario, che sono stati arrotondato all’intero più vicino in quanto il numero di teste può essere dato soltanto da un intero. Ciò è dovuto al fatto che la Gaussiana è una approssimazione continua della distribuzione binomiale: ad esempio, la probabilità di avere esattamente 42 teste è data da B(42) ed è praticamente uguale all’area della Gaussiana tra 41.5 e 42.5. 5.2.1 Procedura generale per la stima degli intervalli di confidenza Consideriamo un valore mediato su N casi, ciascuno caratterizzato dallo stesso valore di aspettazione (=stima) µ e varianza σ2. Si opera nel modo seguente: si fissa il livello di confidenza desiderato α (es.: 0.9, 0.95, 0.99). La probabilità complessiva di un risultato fuori dall’intervallo è indicata generalmente con p = 1−α. In corrispondenza a tale valore di p si determina il valore dell’area P sotto la semi-gaussiana da cercare nelle Tabelle. Possono verificarsi due casi: o viene richiesto di “determinare l’intervallo attorno al valor medio in cui cade una frazione α di casi. In questo caso si parla di test a due code e si ha: 1−α P = 0.5 − 2 o viene richiesto di determinare il valore di x2 (x1) al di sotto (al di sopra) del quale cade una frazione α di casi. In questo caso si parla di test a una coda e si ha: P = α − 0.5 Dalla Tabella, in corrispondenza al valore di P, si legge il valore critico della variabile z. Nel caso di test a due code, l’intervallo di confidenza sarà dato da µ±z σ N mentre il valore critico sopra il quale ci si aspetta che cadrà una frazione p = 1−α di casi (test a una coda) sarà data da x2 = µ + z σ N N.B. Questo tipo di previsioni può essere fatto sotto due condizioni: 1) la frequenza (probabilità) dell’evento considerato ha un andamento Gaussiano (per poter usare le tabelle); 2) la varianza dell’evento è nota a priori, o attraverso un numero elevatissimo di misure. 5.3 La significatività Supponiamo di conoscere la media di una variabile “locale” (es.: altezza media dei 35 studenti del 3° anno di chimica di Pavia, h = 180 cm) e di una variabile globale (es.: altezza media dei maschi italiani di 20 anni, µ = 175 cm). Sappiamo, inoltre, che la varianza delle altezze dei maschi italiani è σ2 = (15 cm)2. Ci chiediamo se la differenza tra media locale e media globale è “grande” o “piccola”, in altre parole se e quanto è significativa. Procedimento: si suppone che non vi sia differenza tra i valori di aspettazione dei valori medi (ipotesi zero, H0). Spesso si enuncia esplicitamente anche una ipotesi alternativa, Ha, che viene accettata se si rifiuta H0; si calcola la probabilità p di ottenere, nel caso in cui l’ipotesi H0 sia vera, un valore medio distante dal valore atteso come o più del valore osservato (la media locale). Nel caso in esame, p rappresenta la probabilità che l’altezza media degli studenti pavesi sia maggiore o uguale a 180 cm solo a causa di fluttuazioni statistiche (supponendo cioè nulla ogni differenza sistematica tra pavesi e italiani); se p è minore di un valore limite scelto a priori (tipicamente 0.01) si dice che le due medie sono significativamente diverse nel caso di test a due code, oppure che un valore medio è significativamente maggiore (minore) nel caso di test a una coda. Il livello di significatività si indica con (p < 0.01). Significatività e confidenza sono due aspetti dello stesso problema. Nel caso della significatività misuriamo una differenza tra valori medi e ci chiediamo con che probabilità p possiamo trovare una differenza ancora maggiore in valore assoluto. Soluzione: Si calcola la variabile standardizzata z e, in corrispondenza a questa, si ricava p dalle tavole. Per gli studenti pavesi: z= µ − h 175 − 180 = = −1.9720 σ 15 N 35 in corrispondenza al quale valore le tavole forniscono P = 0.4757 e p = 0.5 – 0.4757 = 0.0243. Poiché il valore di p è maggiore di 0.01, si può concludere che gli studenti pavesi non sono significativamente più alti della media nazionale, intendendo dire che in almeno due casi su cento potremmo ottenere l’altezza media nazionale, se in realtà non esistesse alcuna differenza sistematica. 5.4 Il test di Student Sino ad ora si è supposto di conoscere esattamente (a priori o sull’intera popolazione) la varianza del singolo evento in modo tale da poter costruire la media standard z= x−µ σ (variabile adimensionale Gaussiana) N Se la varianza non è conosciuta esattamente, ma solo stimata mediante la deviazione standard s su N dati, bisogna introdurre una diversa variabile t= x−µ s N s dove viene chiamato errore standard. La variabile t non ha N distribuzione Gaussiana a causa dell’incertezza associata all’errore standard (tipicamente per il basso valore di N), ed occorre pesare in modo opportuno la probabilità che l’errore standard assuma valori diversi da quello atteso. La densità di probabilità della variabile t è descritta dalla cosiddetta distribuzione di Student n +1 ⎛ n +1⎞ Γ⎜ ⎟ ⎛ 2 ⎞− 2 2 ⎠ ⎜ t ⎟ f (t ) = ⎝ 1+ n ⎟⎠ ⎛ n ⎞ ⎜⎝ nπ Γ⎜ ⎟ ⎝2⎠ dove Γ= funzione Gamma (vedi seguito) e n = gradi di libertà (n=N−1). La f(t) ha media = 0 e varianza n/(n−2), sempre maggiore di 1. La distribuzione di Student è simmetrica con un massimo a t=0, meno accentuato rispetto alla Gaussiana e con “code” più alte (vedi Tabella). In pratica, l’incertezza sul denominatore (cioè l’entità dell’errore standard) allarga la distribuzione e tale effetto è tanto più sensibile quanto più si è lontani dal massimo. La Tabella fornisce, per diversi valori dei gradi di libertà, n, e per le diverse probabilità, P (area sottesa dalla curva, equivalente al livello di confidenza), i valori critici, tP, della variabile di Student per cui si ha: tP ∫ f (t ')dt ' = P −∞ In particolare, si ha t0.50 = 0 e t1−P = tP Regole per l’uso della t di Student • Quando la numerosità N (numero di misure/eventi) è minore di 30 è obbligatorio usare la variabile di Student. • Per N > 100 le differenze rispetto alla distribuzione Gaussiana sono trascurabili. • Per 30 ≤ N ≤ 100 l’errore commesso è spesso accettabile. Un esempio di uso della t di Student La densità nominale, dn, della SiO2 nanometrica venduta dalla ditta SigmaAldrich è pari a 2203 kg/m3. La densità misurata su campioni prelevati da 5 flaconi fornisce un valore di <d> ± s = 2084 ± 86 kg/m3. Si può affermare con un livello di significatività dell’1% (p < 0.01) che il valore nominale non è errato in eccesso? • Ipotesi zero (H0): il valore medio vero è <d> = 2203 kg/m3. • Ipotesi alternativa (Ha): il valore medio vero è <d> < 2203 kg/m3 Calcoliamo la variabile t di Student nell’ipotesi che sia vera H0 t = (dn - <d>)/(s/N1/2) = (2203-2084)/(86/51/2) = 3.094 Considerando la Tabella di Student alla riga con n = 5−1 = 4 gradi di libertà, in corrispondenza di t0.99 otteniamo il valore 3.75, mentre otteniamo 2.78 in corrispondenza di t0.975. La probabilità di ottenere <d> = 2084, se è vera l’ipotesi zero, è maggiore dell’1% e di poco inferiore al 2.5%. L’ipotesi zero pertanto va accettata con un livello di significatività dell’1% e si può dire che la densità media dei campioni è in accordo (p <0.01) con il valore nominale. La funzione Γ (fonte: Wikipedia) La funzione Γ (Gamma), nota anche come funzione Gamma di Eulero, è una funzione continua sui numeri reali positivi, che estende il concetto di fattoriale ai numeri complessi, nel senso che per ogni numero intero non negativo n si ha Γ(n + 1) = n! dove n! è il fattoriale, cioè il prodotto dei numeri interi da 1 a n: n! = 1 × 2 × 3 × ... × n. La notazione Γ(z) è dovuta a Adrien-Marie Legendre. Se la parte reale del numero complesso z è positiva, allora l'integrale Γ( z ) = ∫0∞ t z −1 −t e dt converge. Andamento della funzione Gamma sui numeri reali Il test del χ2 Immaginiamo di misurare una variabile quantitativa su un campione di numerosità N ottenendo i valori X1, …, XN. Se la variabile è caratterizzata da una distribuzione normale con varianza σ2, sappiamo che il valor N X medio del campione < X >= ∑ i è distribuito attorno al valore medio i =1 N vero secondo una Gaussiana con varianza σ2/N. La stima della varianza operata sul campione vale N ( X − < X > )2 s = ∑ i N −1 i =1 2 potrà cadere con uguale probabilità al di sotto o al di sopra di σ2 e tenderà ad esso solo per N→∞. Anziché studiare come s2 si distribuisce attorno a σ2, conviene analizzare la distribuzione della quantità χ 2 N ( X − < X > )2 Nσ 2 ( N − 1)s 2 i N = ∑ = = 2 2 σ σ σ2 i =1 La distribuzione del χ2 ha le seguenti proprietà formali (non dimostrate): 1) 2) 3) valore atteso pari al numero dei gradi di libertà ν = N − 1; varianza pari a 2ν; densità di probabilità per χ2 ≥ 0 data da f (χ 2 ,ν ) = 1 ν ⎛ν ⎞ 2 2 Γ⎜ ⎟ ⎝2⎠ ν χ2 (χ 2 )2 −1e− 2 Questa funzione è chiamata distribuzione del χ2. Si tratta di una funzione non standardizzata, poiché media e varianza dipendono dal numero di gradi di libertà. La funzione è asimmetrica, con massimo per χ2 ≅ ν. Al crescere del valor medio la distribuzione tende alla Gaussiana: per ν ≥ 30 la distribuzione assume una forma praticamente normale. N.B. Per qualunque numero di gradi di libertà l’area della funzione da zero a infinito vale 1. La tabella 2 riporta i valori del percentile, P, espressi in %. Tale valore di norma è indicato nelle Tabelle come χ P2 , dipende dal numero di gradi di libertà, ν, ed è definito come 2 ( P = ∫0χ P dχ 2 f χ 2 ,ν ) Le Tabelle vengono utilizzate per determinare gli intervalli di confidenza e la significatività, in modo simile a quanto fatto per la distribuzione di Gauss. Esempio: Un conduttimetro industriale per la misura della conducibilità ionica dell’acqua minerale SANT’EGIDIO fornisce, in condizioni di normale funzionamento, un valore a temperatura ambiente di µ ± σ = 980 ± 31 mS/cm Un certo giorno, su 12 bottiglie esaminate, viene riscontrata una deviazione standard s di 42 mS/cm. Si può dire che la variazione di conducibilità è significativamente (p < 0.05) aumentata e quindi il conduttimetro deve essere revisionato? Utilizzando i valori di N, s e σ calcoliamo il valore di χ2 ( N − 1)s 2 χ = 2 2 σ = 11× 42 2 2 31 ≅ 20.2 dalla Tabella, in corrispondenza della riga con ν = 11 gradi di libertà, troviamo che il valore ottenuto è superiore (anche se di poco) a χ .295 = 19.7 . Possiamo quindi concludere che il comportamento del conduttimetro è anomalo. N.B. Se avessimo però richiesto un più stringente livello di significatività, ad es. p < 0.01 ⇒ χ .299 = 24.7 , avremmo dovuto accettare l’ipotesi zero che il funzionamento del conduttimetro sia normale e che la elevata deviazione standard osservata sia dovuta a fluttuazioni casuali (basso numero di eventi nella statistica).