Elementi di statistica
La stima del valore vero
La grande maggioranza delle misure chimico-analitiche (ma non
solo queste), si distribuisce secondo la distribuzione
gaussiana, detta anche distribuzione normale.
La distribuzione gaussiana è caratterizzata da una certa
larghezza, chiamata deviazione standard (s). Se s cresce,
l’altezza cala. s è un misura degli errori casuali.
distribuzione
gaussiana
con s ridotto: d(P)
metodo con
ridotti errori
casuali
distribuzione
gaussiana con
d(P)
s elevato:
metodo con
elevati errori
casuali
0.00
0.05
0.10
x
0.15
0.20
0.00
0.05
0.10
0.15
0.20
x
1
Elementi di statistica
La stima del valore vero
La larghezza della distribuzione, che è la deviazione standard s,
ed il valore centrale, che è il valore vero m,
definiscono univocamente una distribuzione gaussiana.
Cioè, conoscendo m, si conosce perfettamente come è fatta la
distribuzione. Infatti, si conoscono tutti i termini della sua formula:
d ( P) 
1
2s
2
e
1  x m 
  i

2 s 
2
Integrando la formula, per un qualsiasi intervallo di valori di x, si
ricava la probabilità di ottenere valori di x compresi nell’intervallo
dato.
conoscendo s e m, si può prevedere con quale probabilità
si otterranno certi valori sperimentali xi piuttosto che altri.
2
Elementi di statistica
La stima del valore vero
In particolare, si può dimostrare che la probabilità di ottenere dei
valori compresi tra m – s e m + s è pari al 68.3%.
Ad esempio, se m = 0.11 e s = 0.02, si ha il 68.3% di probabilità
di ottenere dei valori sperimentali compresi tra 0.09 e 0.13
d(P)
68.3%
0.00
0.05
0.10
x
0.15
0.20
3
Elementi di statistica
La stima del valore vero
La probabilità di ottenere dei valori compresi tra m – 2s e m + 2s
è pari al 95.5%.
Nell’esempio di prima (m = 0.11, s = 0.02), si ha il 95.5% di
probabilità di ottenere dei valori sperimentali compresi tra 0.07 e
0.15
d(P)
95.5%
0.00
0.05
0.10
x
0.15
0.20
4
Elementi di statistica
La stima del valore vero
Noi non conosciamo né s né m, ma si possono stimare a
partire dal set sperimentale di misure ripetute.
Per stimare m si calcola la media x dei dati sperimentali, dato
che la media è la stima migliore per il valore vero.
Per stimare s , si sfruttano le proprietà algebriche della
distribuzione gaussiana. Si può dimostrare che:
n
s, stima di s , =
2


x

x
 i
i 1
n 1
5
Elementi di statistica
La stima del valore vero
Esempio
Si eseguono 4 misure ripetute della titolazione di un acido
a concentrazione incognita Ci,A con una base. I valori di
Ci,A ottenuti sono i seguenti: 0.1104 M, 0.1154 M, 0.1199 M,
0.1091 M.
Stimare il valore vero e la deviazione standard dei dati.
Per stimare il valore vero si calcola la media:
0.1104  0.1154  0.1199  0.1091
x
= 0.1137 M
4
Per stimare la deviazione standard si utilizza la formula:
n
 x  x 
i 1
2
i
n 1

0.1104  0.1137 2  0.1154  0.1137 2  0.1199  0.1137 2  0.1091  0.1137 2
3
da cui si ottiene: s = 0.0049 M (dare sempre le unità di misura!)
s ha le stesse unità di misura degli xi
6
n
s
 x  x 
i 1
2
i
n 1
deviazione
standard
Ogni(!) calcolatrice scientifica è
in grado di eseguire
automaticamente il calcolo di s
7
Elementi di statistica
La stima del valore vero
Esercizio
Un campione a concentrazione nota di analita, pari a 0.1300
M, viene analizzato con due metodi diversi, metodo A e
metodo B. In entrambi i casi si ripete la misura tre volte, e
vengono così ottenuti i seguenti valori di concentrazione
dell'analita:
Metodo A: 0.1320, 0.1339, 0.1322 M
Metodo B: 0.1369, 0.1255, 0.1285 M
Qual è il metodo più esatto? Qual è il metodo più preciso?
Qual è il risultato più accurato?
Calcoliamo innanzitutto media e deviazione standard per
entrambe le serie di dati.
Metodo A:
x  0.1327 M
s  0.001044 M
Metodo B:
x  0.1303 M
s  0.005909 M
8
Elementi di statistica
La stima del valore vero
Metodo A:
x  0.1327 M
s  0.001044 M
Metodo B:
x  0.1303 M
s  0.005909 M
A questo punto ricordiamo il concetto di esattezza: metodo la cui
media più si avvicina al valore vero (in questo caso 0.1300 M).
Il metodo B è più esatto.
Concetto di precisione: metodo la cui deviazione standard è più
bassa.
Il metodo A è più preciso.
Concetto di accuratezza: risultato più vicino al valore vero.
Metodo A: 0.1320, 0.1339, 0.1322 M
Metodo B: 0.1369, 0.1255, 0.1285 M
0.1285 M è il risultato più accurato.
9
Elementi di statistica
La stima del valore vero
Altro esercizio
Un campione viene analizzato con due metodi diversi,
metodo A e metodo B. In entrambi i casi si ripete la misura
tre volte, e vengono così ottenuti tre valori di
concentrazione dell'analita:
Metodo A: 0.1320, 0.1339, 0.1322 M
Metodo B: 0.1369, 0.1255, 0.1285 M
Qual è il metodo più esatto? Qual è il metodo più preciso?
Qual è il risultato più accurato?
L’unica differenza rispetto all’esempio precedente è che qui non
è noto il valore vero
Quindi medie e deviazioni standard sono le stesse di prima:
Metodo A:
x  0.1327 M
s  0.001044 M
Metodo B:
x  0.1303 M
s  0.005909 M
10
Elementi di statistica
La stima del valore vero
Altro esempio
Un campione viene analizzato con due metodi diversi, metodo A
e metodo B. In entrambi i casi si ripete la misura tre volte, e
vengono così ottenuti tre valori di concentrazione dell'analita:
Metodo A: 0.1320, 0.1339, 0.1322 M
Metodo B: 0.1369, 0.1255, 0.1285 M
Metodo A:
Metodo B:
M
M
M
M
Qual è il metodo più esatto? non si può rispondere, poiché
non è noto il valore vero.
Qual è il metodo più preciso? il metodo A è più preciso poiché la
sua s è minore.
Qual è il risultato più accurato? non si può rispondere, poiché
non è noto il valore vero.
11
Elementi di statistica
La stima del valore vero
Torniamo al significato statistico del calcolo di media e
deviazione standard.
In pratica, dalle n misure ripetute abbiamo dedotto (stimato)
come è fatta la distribuzione delle probabilità per le misure
sperimentali da noi ottenute.
cioè abbiamo dedotto (stimato) l’equazione della distribuzione
delle probabilità, che come detto ci dice dettagliatamente con
quale probabilità si può ottenere un certo intervallo di dati
Ricordando i numeri elencati precedentemente (valori
compresi tra m – s e m + s col 68.3% di probabilità, ecc.), e
con riferimento all’esempio di qualche diapositiva fa in cui la
media è 0.1137 M ed s è 0.0049 M, si ha che:
12
Elementi di statistica
La stima del valore vero
media = 0.1137 M, s = 0.0049 M
i valori sperimentali che si possono ottenere sono compresi:
- tra 0.1137–0.0049 e 0.1137+0.0049 M col 68.3% di probabilità
- tra 0.1137–0.0098 e 0.1137+0.0098 M col 95.5% di probabilità
- ecc.
Questa è dunque una statistica sui valori sperimentali.
A noi però interessa una statistica sul valore vero!
Cioè a noi interessa una statistica che dica: il valore vero
(non i singoli dati sperimentali) è compreso entro un certo
intervallo D con una certa probabilità.
13
Elementi di statistica
La stima del valore vero
Per stimare la statistica sul valore vero dobbiamo
considerare che tale valore è stimato dalla media, e quindi
dobbiamo conoscere la statistica sulle medie.
Cioè, dobbiamo conoscere qual è la distribuzione delle
probabilità per tutte le possibili medie che si possono
ottenere ripetendo le misure sperimentali.
La distribuzione statistica delle medie è la distribuzione di
Student. Tale distribuzione è molto simile alla distribuzione
gaussiana (andamento a campana, distribuzione
simmetrica), con lievi differenze di forma (non è la stessa
formula della gaussiana, anzi, non esiste nemmeno una
formula, dato che la distribuzione di Student è stata ottenuta
sperimentalmente).
La distribuzione di Student, così come la gaussiana, è
caratterizzata da un valore centrale e da una larghezza.
14
Elementi di statistica
La stima del valore vero
Il valore centrale è anche in questo caso il valore vero, e può
essere stimato dalla media ottenuta dalle misure sperimentali
eseguite, x
La larghezza è la deviazione standard della media. Se s è la
stima della deviazione standard per la distribuzione dei dati,
il valore:
s
t
n
è la stima della deviazione standard per la distribuzione delle
medie degli stessi dati, con:
n = numero di misure ripetute
t = parametro di Student (valore, come vedremo, tabulato).
16
Elementi di statistica
La stima del valore vero
Quindi, tutte le medie che si possono ottenere sono comprese
s
tra x  t 
n
e
s
x t
n
con una certa probabilità
Poiché tra tutte le medie è presente il valore vero m, si può dire:
il valore vero m è compreso, con una certa probabilità,
s
tra x  t 
n
e
s
x t
n
Si può anche scrivere:
s
m  x t
n
17
Elementi di statistica
La stima del valore vero
il valore vero m è compreso, con una certa
s
probabilità, tra x  t 
n
s
e x t
n
s
m  x t
n
Per stimare tale intervallo da n misure ripetute:
1) si calcola la media x dei dati ottenuti
2) si calcola la deviazione standard s dei dati ottenuti
3) si sceglie la probabilità con cui si vuole che il valore vero sia
incluso entro l’intervallo, e sulla base della probabilità voluta si
sceglie t:
maggiore è la probabilità voluta, maggiore è t
Infatti, l’intervallo deve essere ampliato per poter essere più
sicuri che il valore vero vi sia compreso.
18
Elementi di statistica
La stima del valore vero
il valore vero m è compreso, con una certa
s
probabilità, tra x  t 
n
s
e x t
n
s
m  x t
n
Di solito si sceglie una probabilità del 95% (quindi piuttosto alta).
t dipende anche dal numero di misure ripetute n:
minore è n, maggiore è t
Infatti, se abbiamo poche misure ripetute (n piccolo), è meno
probabile che la media ottenuta sia vicina al valore vero (dato
che gli errori casuali non si annullano con poche misure
ripetute), per cui l’intervallo entro cui è compreso il valore vero si
deve un po’ allargare a parità di probabilità.
19
Elementi di statistica
La stima del valore vero
il valore vero m è compreso, con una certa
s
probabilità, tra x  t 
n
s
e x t
n
s
m  x t
n
Di solito si sceglie una probabilità del 95% (quindi piuttosto alta).
Valori di t tabulati, per una
probabilità del 95%, in
funzione del numero di
misure ripetute n
n
t
2
12.706
3
4.303
4
3.182
Valori per n > 9, o per
probabilità diverse da 95%,
sono tabulati in libri di
statistica, o anche su
internet.
5
2.776
6
2.571
7
2.447
8
2.365
9
2.306
20
Elementi di statistica
La stima del valore vero
Esercizio
Dalle 4 misure ripetute dell’esercizio della diapositiva 6
(0.1104, 0.1154, 0.1199, 0.1091 M), calcolare l’intervallo entro il
quale il valore vero è compreso con una probabilità del 95%.
Esprimere il risultato in notazione rigorosa.
Per stimare tale intervallo, come visto, si devono operare i
passaggi seguenti:
1) si calcola la media x dei dati ottenuti
x = 0.1137 M
2) si calcola la deviazione standard s dei dati ottenuti
s = 0.0049 M
3) scelta la probabilità (95%) con cui si vuole dare il valore vero,
si sceglie il valore di t corrispondente ad n = 4
21
Elementi di statistica
La stima del valore vero
Dalle 4 misure ripetute dell’esercizio della lezione precedente
(0.1104, 0.1154, 0.1199, 0.1091), calcolare l’intervallo entro il
quale il valore vero è compreso con una probabilità del 95%.
Esprimere il risultato in notazione rigorosa.
= 0.1137 M
s = 0.0049 M
Avendo n = 4, il valore che deve
essere preso è t = 3.182
s
Si calcola l’intervallo: t 
= 0.0078 M
n
Quindi, il valore vero è compreso,
con una probabilità del 95%,
tra 0.1137–0.0078 M e 0.1137+0.0078 M
Si scrive: m = (0.1137 ± 0.0078) M (95%)
n
t
2
12.706
3
4.303
4
3.182
5
2.776
6
2.571
7
2.447
8
2.365
9
2.306
22
Elementi di statistica
La stima del valore vero
L’intervallo entro il quale è compreso il valore vero con la
probabilità data è chiamato intervallo di fiducia (oppure
intervallo di confidenza).
Nell’esempio precedente, è l’intervallo compreso tra
0.1137–0.0078 e 0.1137+0.0078 M
La probabilità con la quale il valore vero è compreso
nell’intervallo di fiducia è chiamata grado di fiducia (oppure
grado di confidenza).
Nell’esempio precedente, ed in genere, il grado di fiducia è del
95%
L’intervallo di fiducia è anche chiamato incertezza, dato che è
una misura di quanto è incerto il valore ottenuto (da non
confondersi con l’incertezza strumentale).
Un risultato è tanto migliore, quanto più stretto è l’intervallo
23
di fiducia, quindi tanto minore è la sua incertezza.
Elementi di statistica
La stima del valore vero
Riassumendo:
Quando si eseguono n misure ripetute nell’analisi di un
campione, e si ottengono n valori sperimentali, la loro media
rappresenta la stima migliore del valore vero, e l’intervallo di
fiducia (o incertezza):
s
x t
n
rappresenta l’intervallo entro il quale è contenuto il valore
vero, con un certo grado di fiducia (di solito 95%).
24
Elementi di statistica
La stima del valore vero
Invece dell'incertezza (o intervallo di fiducia) in quanto tale, a
volte è utile dare l'incertezza relativa, pari al rapporto tra
l'incertezza ed il valore medio:
t
incertezza relativa % =
s
n 100
x
Nell'esempio precedente, dove la media è 0.01038 M e
l'intervallo di fiducia è 0.00037 M, l'incertezza relativa è pari al
3.6%
L'incertezza relativa % è una misura migliore della precisione di
un metodo che non l'incertezza assoluta:
ad esempio, un metodo che dà media 0.1 M e incertezza 0.01 M
(incertezza relativa = 10%) è più preciso di un metodo che dà
media 0.01 M e incertezza 0.005 M (incertezza relativa = 50%).
25
Elementi di statistica
Riprendiamo uno degli esempi della lezione scorsa, ed il
risultato finale ottenuto:
Ci,A = (0.01038 ± 0.00037) M (95%)
In realtà, il numero 0.00037, preso con tutte le cifre che dà
una calcolatrice scientifica a 10 cifre, sarebbe stato
0.00036548441
Anche la deviazione standard dei dati, s, scritta come
0.00029, sarebbe stata in realtà 0.00029439769
(ed evidentemente, essendo quasi sempre dei numeri
irrazionali, tali valori potrebbero essere dati con un numero
infinito di cifre).
Quante cifre si devono usare per s? Quante cifre si
devono usare per l’intervallo di fiducia? Quante cifre si
devono usare per la media?
26
Elementi di statistica
Le cifre significative
Intanto spieghiamo un concetto correlato, quello delle cifre
significative di un numero.
Per ricavare quante cifre significative ci sono in un numero si
scrive il numero in notazione scientifica.
Per esempio: 0.0234 = 2.34·10–2
0.2040 = 2.040·10–1
854.1 = 8.541·102
2 = 2·100
Il numero delle cifre, “depurato” dalla sua parte
esponenziale, rappresenta il numero delle cifre significative.
per esempio: 0.0234 ha 3 cifre significative
0.2040 ha 4 cifre significative
854.1 ha 4 cifre significative
2
ha 1 cifra significativa
27
Elementi di statistica
Le cifre significative
Se il numero rappresenta una grandezza sperimentale
(per es. la concentrazione di una sostanza), il numero di
cifre significative da utilizzare deve essere coerente con
l’incertezza con la quale è nota tale grandezza.
In altre parole, le cifre che usiamo per scrivere un numero
devono avere un significato (devono appunto essere
significative).
Ad esempio, se si misura la lunghezza di un oggetto con un
metro (col quale si riesce ad apprezzare al massimo la
mezza tacca, 0.5 mm), si può dare il numero fino alla prima
cifra dopo la virgola dei millimetri.
Per esempio, per un certo oggetto si può scrivere L = 45.5
mm. O per un altro oggetto si può scrivere L = 38.0 mm
28
Elementi di statistica
Le cifre significative
Se si scrivesse L = 45 mm, o L = 38 mm, si sarebbe
“sacrificata” inutilmente una parte delle conoscenze che si ha
su tale grandezza, dato che mancherebbe una cifra dopo la
virgola pur essendo nota.
D’altra parte, se si scrivesse L = 45.548 o L = 38.052 mm non
avrebbe senso, la seconda cifra dopo la virgola e quelle
successive sono inutili poiché non sono note.
Anzi, sono pure dannose, perché potrebbero fare credere a
chi legge che L è nota con un’incertezza molto migliore dei
0.5 mm
In genere, quando un numero viene dato senza la sua
incertezza, si assume che l’incertezza sia sull’ultima cifra
significativa.
29
Elementi di statistica
Le cifre significative
Tutto questo vale dal punto di vista di chi “legge” i valori
ottenuti da altri.
Dall’altro punto di vista (cioè di chi deve scrivere), quando si
deve dare un risultato sperimentale si deve usare un numero
corretto ed opportuno di cifre significative:
I valori sperimentali vanno scritti con un numero di cifre
tali che l’ultima scritta sia la prima incerta.
Ad esempio, chi ha ottenuto il valore di L e la sua incertezza,
scrive 45.5 o 38.0 mm perché la prima cifra incerta è la prima
dopo la virgola (incertezza = 0.5 mm).
30
Elementi di statistica
Le cifre significative
Tali concetti si applicano a qualunque misura sperimentale, e
dunque anche alle concentrazioni medie delle sostanze e ai
relativi intervalli di fiducia.
Iniziamo a ragionare sull’intervallo di fiducia di una media.
Per scegliere il numero di cifre da usare per scrivere il valore
dell'intervallo di fiducia, andrebbe conosciuta l’incertezza con
cui è noto tale intervallo.
è la cosiddetta “incertezza dell’incertezza” (dato che
l’intervallo di fiducia è l’incertezza del valore medio).
Non lo si dimostra, ma si verifica che “l’incertezza
dell’incertezza” relativa è dell’ordine del 10%.
31
Elementi di statistica
Le cifre significative
Se ad esempio l’intervallo di fiducia fosse ± 0.1045432,
l’incertezza con cui è noto tale numero risulterebbe (circa)
0.01, per cui l’incertezza dell’incertezza cadrebbe sulla
seconda cifra significativa:
0.1045432
0.01
Se ad esempio l’intervallo di fiducia fosse ± 0.0074390,
l’incertezza con cui è noto tale numero sarebbe (circa)
0.0007. Dunque anche qui l’incertezza dell’incertezza
cadrebbe sulla seconda cifra significativa:
0.0074390
0.0007
32
Elementi di statistica
Le cifre significative
Ne consegue che l’intervallo di fiducia (l'incertezza) di un
numero va scritta sempre con 2 cifre significative.
Nei due casi precedenti:
0.1045432 va scritto come 0.10
0.0074390 va scritto come 0.0074
Le cifre “eliminate”, dal “4” in poi nel primo caso, dal “3” in poi
nel secondo caso, sono cifre non significative.
L’eliminazione delle cifre non significative va fatta con delle
regole.
Ad esempio, se anziché 0.1045432 fosse stato 0.1065432?
0.1065432 andrebbe scritto come 0.11, perché è più vicino a
0.11 che a 0.10
33
Elementi di statistica
Le cifre significative
0.1045432 va scritto come 0.10
0.1065432 va scritto come 0.11
Quando si eliminano le cifre non significative, l’ultima
cifra non eliminata va aumentata di 1 se la prima cifra
eliminata è maggiore di 5 (6, 7, 8, 9);
l’ultima cifra non eliminata va lasciata invariata se la
prima cifra eliminata è minore di 5 (0, 1, 2, 3, 4)
Se anziché 0.1045432 fosse stato 0.1055432?
0.1055432 va scritto come 0.11 dato che è più vicino a 0.11
che a 0.10
Quando la prima cifra eliminata è uguale a 5, l’ultima cifra
non eliminata va aumentata di 1...
34
Elementi di statistica
Le cifre significative
Se anziché 0.1045432 fosse stato 0.1050000?
0.1050000 può indifferentemente essere scritto come 0.11 o
0.10, poiché è equidistante dai due.
In casi come questo (piuttosto rari), si è convenzionalmente
deciso che l’ultima cifra non eliminata sia pari (dunque 0.10 in
questo esempio).
Quando la prima cifra eliminata è uguale a 5 e quelle
successive sono nulle o assenti, si lascia invariata
l’ultima cifra non eliminata se è pari, la si aumenta di 1 se
è dispari
ad esempio: 0.145 diventa 0.14, 0.13500 diventa 0.14
(mentre 0.145001 diventa 0.15).
35
Elementi di statistica
Le cifre significative
Una volta determinato quante cifre usare per l’intervallo di
fiducia (2 significative), si può scegliere quante cifre usare per
la media.
La media va data con un numero di cifre tale per cui
l’ultima cifra scritta per la media corrisponda all’ultima
delle due cifre significative dell’intervallo di fiducia.
Ad esempio, se la media fosse 0.1033803897 e l’intervallo di
fiducia fosse 0.0003748802:
a) si scrive l’intervallo di fiducia con 2 cifre significative:
0.00037
b) Si “allineano” (corrispondenza delle cifre decimali) media
ed intervallo di fiducia:
0.1033803897
0.00037
36
Elementi di statistica
Le cifre significative
c) Si tagliano tante cifre sulla media, in modo da arrivare allo
stesso decimale dell’incertezza:
0.1033803897
0.00037
d) Infine, si scrive il risultato nella maniera seguente:
0.10338 ± 0.00037
Anche gli zeri finali vanno scritti se sono significativi.
Ad esempio, se la media fosse 0.02042983897 e l’intervallo
di fiducia fosse 0.000060499232:
a) si scrive l’intervallo di fiducia con 2 cifre significative:
0.000060
37
Elementi di statistica
Le cifre significative
a) si scrive l’intervallo di fiducia con 2 cifre significative:
0.000060
b) Si “allineano” media ed intervallo di fiducia:
0.02042983897
0.000060
c) Si tagliano tante cifre sulla media, in modo da arrivare allo
stesso decimale dell’incertezza:
0.02042983897
0.020430
0.000060
d) Infine, si scrive il risultato nella maniera seguente:
0.020430 ± 0.000060
38
Elementi di statistica
Le cifre significative
Maniera corretta e rigorosa di riportare dei risultati
sperimentali, come i risultati di un’analisi chimica:
– dare media ± intervallo di fiducia;
– usare il numero di cifre corretto;
– indicare l'unità di misura;
– esplicitare il grado di fiducia (95%).
Per esempio (risultato di un esercizio della lezione precedente):
m = (0.01038 ± 0.00037) M (95%)
Si può anche accettare che l’incertezza sia scritta con una
sola cifra significativa, e quindi la media con un’ulteriore cifra
di meno. Nell'esempio di sopra si scriverebbe: 0.0104 ±
0.0004. All'esame, però, si usino 2 cifre per l'incertezza!
39
Scarica

17_deviazione standard e student