Terza parte del corso:
ELEMENTI
DI
STATISTICA
1
Elementi di statistica
Introduzione
Cosa centra la statistica con la chimica analitica?
La risposta a questa domanda sta in una semplice
constatazione sperimentale.
Si supponga di eseguire un metodo analitico, per esempio una
titolazione (ma può essere un qualsiasi metodo), dal quale si
ricava la concentrazione iniziale (Ci,A) dell’analita A.
Si esegue una titolazione, e si ottiene per esempio: Ci,A = 0.1017 M
Si supponga, ora, di ripetere l’analisi pari pari (stesso campione,
stessa titolazione, stesso operatore).
Salvo casi estremamente rari, si otterrà un valore differente,
per esempio:
Ci,A = 0.1033 M
2
Elementi di statistica
Introduzione
Se poi si ripetesse ancora altre volte l’analisi, si otterrebbero
sempre valori differenti. Per esempio:
prima analisi: Ci,A = 0.1017 M
seconda analisi: Ci,A = 0.1033 M
terza analisi: Ci,A = 0.1022 M
quarta analisi: Ci,A = 0.1018 M
quinta analisi: Ci,A = 0.1024 M
Sorgono dunque spontanee tre domande:
1) Perché i valori che si ottengono sono sempre diversi?
2) Quale valore va tenuto, cioè, quale valore rappresenta il
valore vero?
3) Una volta scelto il valore da tenere, quanto possiamo fidarci,
cioè, quanto possiamo essere sicuri che è il valore vero?
3
Elementi di statistica
Introduzione
Risposta alla prima domanda:
1) Perché i valori che si ottengono sono sempre diversi?
Indipendentemente da cosa si analizza e dal metodo
usato, i valori che si ottengono ripetendo una stessa
analisi sono sempre diversi tra loro, a causa di errori che
inevitabilmente sono presenti durante l’esecuzione di un
qualsiasi metodo
Gli errori che si commettono nell’esecuzione di un metodo sono
di tre tipi:
1) errori grossolani
2) errori sistematici
3) errori casuali
4
Elementi di statistica
Errori dei metodi di analisi
1) errori grossolani
Gli errori grossolani sono errori dovuti ad inesperienza o a
scarsa cura da parte dell’operatore.
In una titolazione, ad es., errori grossolani possono essere:
– sbagliare un calcolo di concentrazione.
– trascrivere la massa pesata con la bilancia analitica, od il
volume erogato con la buretta, in maniera errata.
– rovesciare un po’ di campione.
Gli errori grossolani sono quindi errori evitabilissimi.
Le altre due categorie di errori, invece, non possono in genere
essere evitati:
5
Elementi di statistica
Errori dei metodi di analisi
2) errori sistematici
Gli errori sistematici sono errori che, ripetendo la misura, si
ripresentano costanti, stessa entità e stesso “segno” (cioè
sempre in eccesso o sempre in difetto).
In una titolazione, ad es., errori sistematici possono essere:
– bilancia analitica, o matraccio, o buretta, o pipetta, difettosa.
se ad esempio la bilancia analitica misura costantemente una
massa che è l’1% maggiore di quella vera, allora anche Ci,t
risulta l’1% maggiore di quella vera, e quindi anche Ci,A
subisce lo stesso errore (sistematico in eccesso).
– standard primario impuro.
Ci,t risulta minore di quella vera, e quindi anche Ci,A subisce
lo stesso errore (sistematico in difetto).
6
Elementi di statistica
Errori dei metodi di analisi
In una titolazione, ad es., errori sistematici possono essere:
– temperatura del laboratorio = 25 °C
La vetreria ha un volume che è quello dichiarato se T =
20 °C. A temperature superiori la vetreria si dilata e
quindi il volume effettivo diventa maggiore di quello
dichiarato.
Di conseguenza, diminuisce Ci,t (poiché a parità di massa
pesata di t aumenta V del matraccio), ed aumenta Vt(PE)
(poiché aumenta V della buretta).
L'effetto su Ci,A è un errore (sistematico), che può essere in
difetto o in eccesso a seconda di quale vetreria si è dilatata
di più.
– eccetera...
7
Elementi di statistica
Errori dei metodi di analisi
3) errori casuali (o accidentali)
Gli errori casuali sono errori che, ripetendo la misura, si
presentano ogni volta con entità e segno differente. Quindi,
talvolta l’errore è maggiore e talvolta minore, talvolta è in
eccesso e talvolta in difetto.
In una titolazione, ad esempio, errori casuali possono essere:
– temperatura del laboratorio variabile
Se la temperatura cambia tra una titolazione e la
successiva, ad esempio varia tra 18 °C e 22 °C, l’errore sul
volume della vetreria non è costante e non ha lo stesso
segno, bensì varia. Quindi anche l'errore su Ci,A non è
costante ma varia tra titolazioni successive.
8
Elementi di statistica
Errori dei metodi di analisi
In una titolazione, ad esempio, errori casuali possono essere:
– eccetera
Notiamo che sono gli errori casuali a dare origine alla variabilità
dei risultati illustrata nella diapositiva 3. Gli errori sistematici
fanno sbagliare il risultato finale ma non generano variabilità.
Gli errori casuali possono avere la stessa origine di quelli
sistematici. Se l’origine dell'errore è sempre costante (ad
esempio T = costante e diversa da 20 °C), l’errore è
sistematico, se invece varia (ad esempio T variabile), l’errore è
casuale.
9
Elementi di statistica
Errori dei metodi di analisi
Gli errori casuali possono però avere anche un'altra origine:
essere prodotti dall'incertezza degli strumenti utilizzati:
ogni strumento di misura possiede una propria incertezza
(o risoluzione)
Ad esempio, usando un tipico righello (scala numerata con
indicazione dei mm) non si è in grado di leggere lunghezze
minori di 1 mm, o meglio, di 0.5 mm (la "mezza tacca").
Facendo una misura con un righello, quindi, non si possono
apprezzare differenze, tra lunghezza e lunghezza, inferiori a
0.5 mm.
Ad esempio, se per un certo oggetto misuriamo una lunghezza
di 8.50 cm, in realtà potrebbe essere 8.52, 8.47, 8.49, ecc.
Si dice che il righello ha un'incertezza di 0.5 mm
10
Elementi di statistica
Errori dei metodi di analisi
Lo stesso ragionamento si può fare per gli strumenti di misura
utilizzati nelle analisi: la bilancia, la buretta, la pipetta, il matraccio
(e tutti gli strumenti usati nei metodi chimico-strumentali).
Una bilancia analitica che pesa il decimo di mg (4 cifre dopo la
virgola) ha un'incertezza di 0.0001 g
Una buretta con tacche ogni 0.1 mL ha un'incertezza di 0.05 mL
Pipette e matracci hanno un'incertezza volumetrica di circa lo
0.1% del volume misurato. Ad esempio, una pipetta da 20 mL
presenta un'incertezza di 0.02 mL (il valore esatto dipende da caso a
caso. Esiste vetreria di “classe A” e di “classe B”, la prima costa di più
ma ha un’incertezza più bassa).
Ad esempio, quindi, il volume erogato da una pipetta da 20 mL
può essere in realtà uno qualsiasi compreso tra 19.98 e 20.02
mL: in una misura il volume potrebbe essere per es. 20.01, in
11
un'altra misura 19.985, ecc.
Elementi di statistica
Errori dei metodi di analisi
Ciò significa che, ripetendo l'erogazione del volume mediante
pipetta (ed in genere, usando ogni strumento, o vetreria, o
bilancia), si fa un errore casuale, dato che l'entità ed il segno
variano in maniera non prevedibile tra una misura e la successiva.
Di fatto, ogni metodo analitico è sempre affetto da numerosi
errori sistematici e casuali (“la perfezione non è di questo
mondo”).
Per ridurre questi errori è necessario “spendere di più”!
Ad esempio, per ridurre l'errore casuale (incertezza) associato
alla bilancia analitica, si può comprare una bilancia che legge il
millesimo di mg (6 cifre dopo la virgola) al posto di quelle più
usate che leggono il decimo (o il centesimo). Però tale bilancia
costa di più.
12
Elementi di statistica
Errori dei metodi di analisi
Di norma, si spende di più per ridurre gli errori solo se la
maggior spesa è motivata.
cioè è sbagliato dire a priori: si devono ridurre gli errori a
qualsiasi costo.
Supponiamo ad esempio di dover determinare il contenuto di
paracetamolo in uno sciroppo, e di poter scegliere tra due
metodi, metodo "A" e metodo "B":
Il metodo "A" usa strumentazione "normale" e l'analisi costa 100
€; gli errori del metodo fanno sì che l'incertezza sul dato finale
sia del 4 %. Quindi, se il metodo restituisce un contenuto pari a
125 mg/5 mL, in realtà il valore vero potrebbe essere un valore
qualsiasi compreso tra 120 e 130 mg/5 mL
13
Elementi di statistica
Errori dei metodi di analisi
Il metodo "B" usa strumentazione più costosa e l'analisi costa 300
€; gli errori del metodo fanno sì che l'incertezza sul dato finale sia
dello 0.4 %. Quindi, se il metodo restituisce un contenuto pari a
125 mg/5 mL, in realtà il valore vero potrebbe essere un valore
qualsiasi compreso tra 124.5 e 125.5 mg/5 mL
Poiché il metodo "B" presenta errori 10 volte inferiori del metodo
"A", a fronte di un costo solo 3 volte superiore, si potrebbe
pensare che il metodo "B" sia preferibile.
In realtà, non è un grosso problema se si sbaglia il contenuto di
paracetamolo del 4 %: ad esempio, se 5 mL di sciroppo
contenessero 120 anziché 125 mg, l'azione farmacologica
sarebbe ugualmente garantita; se ne contenessero 130 mg, non
ci sarebbero comunque fenomeni di tossicità.
14
Elementi di statistica
Errori dei metodi di analisi
Il metodo "B", pur migliore, non è necessario per questa analisi.
Per l'uso che si deve fare del risultato ottenuto, il metodo "A" ha
errori sufficientemente contenuti, ed è preferibile rispetto al
metodo "B" poiché costa di meno.
Un eventuale metodo "C" la cui analisi costa 1 €, ma i cui errori
sono del 40 %, non sarebbe adatto. Infatti, se il metodo
restituisce un contenuto pari a 125 mg/5 mL, in realtà il valore
vero potrebbe essere un valore qualsiasi tra 75 e 175 mg/5 mL,
cioè sarebbe troppo variabile per poter garantire l'azione
farmacologica o l'assenza di effetti tossici.
In questo caso ha quindi un senso spendere di più per ridurre gli
errori.
15
Elementi di statistica
Errori dei metodi di analisi
L'entità degli errori casuali e sistematici di un certo metodo di
analisi ne definisce due caratteristiche:
Se un metodo presenta errori casuali di entità molto modesta, si
dice che è un metodo preciso. La precisione in un metodo
indica la presenza di errori casuali molto ridotti.
Viceversa, se un metodo presenta elevati errori casuali è un
metodo impreciso.
Se un metodo presenta errori sistematici di entità molto
modesta, si dice che è un metodo esatto. La esattezza in un
metodo indica la presenza di errori sistematici molto ridotti.
Viceversa, se un metodo presenta elevati errori sistematici è un
metodo inesatto.
16
Elementi di statistica
Errori dei metodi di analisi
Se un certo metodo è esatto e preciso, gli errori casuali e
sistematici sono molto ridotti, e quindi il risultato dell’analisi è un
valore molto vicino al valore vero.
Ad esempio, se l'analisi di un certo analita restituisce una
concentrazione pari a 0.04353 M, tale valore sarà molto
prossimo al valore vero se il metodo è esatto e preciso.
Un risultato molto vicino al valore vero è un risultato "accurato".
La accuratezza non è di un metodo d'analisi ma di un risultato
dell'analisi, ed indica la sua prossimità col valore vero.
In italiano, i termini "preciso", "esatto", "accurato", sono quasi dei
sinonimi. In chimica analitica hanno invece tre significati diversi.
17
Elementi di statistica
Errori dei metodi di analisi
I concetti fin qui appresi possono essere meglio compresi grazie
alla similitudine col "tiro a segno“.
Il tiro a segno può essere visto come un metodo di analisi, nel
quale ci sono degli "strumenti" (il fucile, il mirino, il bersaglio), dei
"reagenti" (i proiettili), dei risultati (i colpi che arrivano sul
bersaglio), e l'analista (il tiratore), che deve fare delle operazioni
(caricare il fucile coi proiettili, appoggiare il calcio del fucile sulla
spalla, prendere la mira al centro del bersaglio usando il mirino,
premere il grilletto).
18
Elementi di statistica
Errori dei metodi di analisi
Qui il “metodo” è affetto
da errori casuali
Possibili errori casuali:
miopia
mano tremante
folate di vento
cartucce difettose
19
Elementi di statistica
Errori dei metodi di analisi
Qui il “metodo” è affetto
da errori sistematici
Possibili errori sistematici:
mirino male allineato
errato uso del mirino
canna fucile storta
vento (sempre costante)
20
Elementi di statistica
Errori dei metodi di analisi
errori
casuali
né errori casuali
né errori sistematici
errori
sistematici
errori
sia casuali
21
che sistematici
Elementi di statistica
Errori dei metodi di analisi
metodo esatto
ma impreciso
misure accurate o
inaccurate
metodo preciso
ma inesatto
misure inaccurate
metodo esatto
e preciso
misure accurate
metodo inesatto
e impreciso
misure inaccurate
22
Elementi di statistica
Trattamento degli errori sistematici
La similitudine del tiro a segno suggerisce alcune cose che poi
possono essere applicate anche ai metodi di analisi chimica.
Innanzitutto: se vi sono errori sistematici, l’operatore se ne
potrebbe accorgere guardando il bersaglio!
errori
sistematici
Lo stesso capita nei metodi di analisi: la presenza di errori
sistematici può essere evidenziata analizzando campioni a
contenuto noto di analita.
23
Elementi di statistica
Trattamento degli errori sistematici
Per verificare che un certo metodo di analisi sia privo di errori
sistematici, si deve quindi fare l’analisi di campioni a contenuto
noto e certificato dell’analita in esame.
Una volta appurato che vi sono errori sistematici, è necessario
identificarne la causa per eliminarli.
errori
sistematici
Nel caso del tiro a segno, ciò richiede:
– l’identificazione di tutte le possibili cause (mirino male
allineato, errato uso del mirino, canna fucile storta, vento).
24
Elementi di statistica
Trattamento degli errori sistematici
– il controllo del buon funzionamento di ognuna delle parti
strumentali che possono essere coinvolte. Per esempio:
- smontare il mirino e controllarlo
- leggere sulle istruzioni se si sta usando bene il mirino
- smontare la canna del fucile e controllarla
- controllare dove soffia il vento
La stessa strategia va impostata coi metodi di analisi chimica: se
è stata appurata la presenza di errori sistematici, si devono
individuare e controllare le possibili cause.
Ad esempio, uno dei controlli che si possono fare è se burette,
pipette e matracci non sono difettosi, cioè se hanno un volume
uguale a quello dichiarato.
Tali operazioni di controllo si chiamano tarature.
E gli errori casuali?
25
Elementi di statistica
Trattamento degli errori casuali
La similitudine del tiro a segno suggerisce alcune cose che poi
possono essere applicate anche ai metodi di analisi chimica.
Se vi sono solo errori casuali e si facesse una media dei tiri (un
"baricentro"), questa tende a cadere sul centro del bersaglio.
media dei tiri
errori
casuali
Dimostriamo ora che lo stesso capita nei metodi di analisi: in
presenza di soli errori casuali, la media di misure ripetute tende
a cadere sul valore vero.
26
Elementi di statistica
Trattamento degli errori casuali
Sia m il valore vero (per es. la concentrazione iniziale di un
analita), ed xi il valore ottenuto dalla misura sperimentale i-esima.
Se vi sono solo errori casuali, per ogni misura sperimentale che
si esegue si ha:
xi = m + ei
dove ei è la sommatoria di tutti gli errori casuali commessi nella
generica misura i-esima.
Se delle n misure ottenute si fa una media x , si ricava:
x1  x2  ...  xn
x
n
m   e1  m  e 2   ...  m  e n 
x
n
27
Elementi di statistica
Trattamento degli errori casuali
nm   e 1   e 2  ...   e n
x
n
 e 1   e 2  ...   e n
xm
n
Come si è detto, ogni errore casuale ei, e quindi la loro somma
ei, ha entità e segno diversi quando le misure vengono ripetute.
Quindi, i termini della somma (  e1   e2  ...   en ) tendono ad
elidersi tra loro, cioè la somma tende a zero al crescere di n
Si può scrivere: x  m se n  
La media di n misure ripetute tende al valore vero se n → ∞ 28
Elementi di statistica
Trattamento degli errori casuali
Se il metodo è rapido ed economico (per es. le titolazioni),
conviene sempre eseguire più misure ripetute dello stesso
campione, in modo da ottenere un valore medio che è la stima
migliore del valore vero.
1 n
x   xi
n i 1
Ciò non è vero se ci sono errori sistematici:
In tal caso, infatti, il termine  e1   e2  ...   en resta costante
ripetendo la misura, per cui esso non si annulla nemmeno per
n→∞
Dunque, x  m con n   solo se non ci sono errori
sistematici, dunque solo per metodi esatti.
29
Elementi di statistica
Trattamento degli errori casuali
Per un metodo analitico:
PRIMA si annullano gli errori sistematici con le varie operazioni
di controllo viste prima.
POI si può utilizzare il metodo, eseguendo delle misure ripetute
per calcolare una media, che “annulla” gli errori casuali.
Abbiamo quindi risposto alla seconda domanda posta nella
diapositiva 3: “quale valore tenere, tra quelli ottenuti da misure
ripetute?”
si tiene la media
Adesso dobbiamo rispondere alla terza domanda posta nella
stessa diapositiva: “quanto possiamo fidarci che la media di
misure ripetute è il valore vero?”
x  m con n  
Facendo un numero finito di
misure ripetute, la loro media non
è (salvo casi fortuiti) uguale al
30
valore vero.
Elementi di statistica
La stima del valore vero
A questo punto "entra in campo" la statistica, che è in grado di
prevedere quale differenza può esserci tra valore medio e
valore vero, e con quale probabilità.
La statistica è una disciplina che permette di fare certe
affermazioni, dando la probabilità che siano verificate.
Ad esempio, tirando un dado a sei facce, la statistica dice:
- uscirà un numero maggiore o uguale a 4 con una probabilità
del 50%;
- uscirà un numero minore di 6 con una probabilità dell'83.3%;
- ecc.
Affinché la statistica possa fare delle affermazioni, è necessario
conoscere qual è la probabilità che ha un certo evento di
accadere, o meglio, è necessario conoscere qual è la
distribuzione delle probabilità degli eventi.
31
Elementi di statistica
La stima del valore vero
La distribuzione delle probabilità rappresenta il modo con cui si
distribuiscono degli eventi (dei risultati).
Ad esempio, i risultati del tiro di un dado a sei facce si
distribuiscono secondo una distribuzione delle probabilità d(P) di
tipo rettangolare
d(P)
0
1
2
3
4
5
6
7
8
evento:
risultato del
tiro del dado
32
Elementi di statistica
La stima del valore vero
d(P)
d(P)
16.7%
100%
0 1 2 3 4 5 6 7 8
tiro del dado
50%
0 1 2 3 4 5 6 7 8
L'area sottesa all'intera curva di distribuzione (in questo caso il
rettangolo) restituisce la probabilità cumulativa che avvengano
tutti gli eventi. Tale probabilità è per definizione il 100%
Invece l'area sottesa ad un sottogruppo di eventi restituisce la
probabilità che avvengano quegli eventi.
Ad esempio, tirando un dado a sei facce, uscirà un numero
maggiore o uguale a 4 con una probabilità del 50%
Uscirà il valore 2 con una probabilità del 16.7%
33
Elementi di statistica
La stima del valore vero
Qual è la distribuzione delle probabilità per le misure
sperimentali chimico-analitiche?
Nella maggior parte dei casi è una distribuzione gaussiana,
detta anche distribuzione normale, che ha il seguente aspetto
("a campana"):
x rappresenta una serie di
risultati sperimentali, per es.
concentrazioni, che in questo
caso sono centrati a 0.11 M
(ma ovviamente l'ascissa del
centro dipende da caso a
caso). Il valore centrale, se
vi sono solo errori casuali,
è il valore vero.
d(P)
0.00
0.05
0.10
x
0.15
0.20
34
Elementi di statistica
La stima del valore vero
Anche per la distribuzione gaussiana vale quanto detto per la
distribuzione rettangolare (e per tutte le distribuzioni di
probabilità): l’area sottesa all'intera curva di distribuzione
restituisce la probabilità cumulativa che avvengano tutti gli eventi
(100%).
d(P)
d(P)
100%
0.00
0.05
0.10
x
50%
0.15
0.20
0.00
0.05
0.10
0.15
0.20
x
Invece l'area sottesa ad un gruppo di eventi restituisce la
probabilità che avvengano quegli eventi.
Ad esempio, la probabilità di ottenere dei valori maggiori del
valore vero (in questo caso 0.11) è del 50%
35
Elementi di statistica
La stima del valore vero
Le caratteristiche di una
distribuzione gaussiana
sono:
d(P)
0.00
0.05
0.10
0.15
0.20
x
1) c'è un andamento a massimo, cioè i valori di xi prossimi al
valore vero (0.11 nell'esempio) possono essere ottenuti con
probabilità massima.
Invece, nella distribuzione rettangolare, non c'è un valore più
probabile di altri.
2) la distribuzione è simmetrica, cioè è equamente probabile
ottenere valori maggiori e valori minori del valore vero
Anche la distribuzione rettangolare è simmetrica
36
Elementi di statistica
La stima del valore vero
Le caratteristiche di una
distribuzione gaussiana
sono:
d(P)
0.00
0.05
0.10
0.15
0.20
x
3) la probabilità di ottenere un certo valore di xi cala
all'aumentare della distanza dal valore vero (centrale). Per
quanto piccola, però, la probabilità non scende mai a zero.
Invece, nella distribuzione rettangolare, la probabilità è costante
entro l'intervallo definito dal rettangolo, e scende a zero al di
fuori di esso.
4) la distribuzione gaussiana è caratterizzata da una certa
larghezza. Poiché l'area complessiva è sempre costante
(100%), se la distribuzione è più larga deve essere più bassa.
37
Elementi di statistica
La stima del valore vero
d(P)
0.00
d(P)
0.05
0.10
0.15
0.20
x
distribuzione gaussiana
"larga"
0.00
0.05
0.10
0.15
0.20
x
distribuzione gaussiana
"stretta"
Nella distribuzione larga, il valore vero ed i valori prossimi a
quello vero sono ottenuti con una probabilità inferiore che non
nella distribuzione stretta.
Nella distribuzione larga c'è quindi una probabilità maggiore che
si ottengano dei valori lontani rispetto al valore vero.
38
Elementi di statistica
La stima del valore vero
d(P)
0.00
d(P)
0.05
0.10
0.15
0.20
x
distribuzione gaussiana
"larga": metodo con
elevati errori casuali
0.00
0.05
0.10
0.15
0.20
x
distribuzione gaussiana
"stretta": metodo con
ridotti errori casuali
La larghezza della distribuzione gaussiana è correlata
all'entità degli errori casuali:
maggiori sono gli errori casuali, più diviene probabile ottenere
dei risultati lontani dal valore vero (valore centrale), e quindi più
è larga la distribuzione. Minori sono gli errori casuali, più è
39
stretta la distribuzione.
Elementi di statistica
La stima del valore vero
distribuzione gaussiana
"larga": metodo con
elevati errori casuali
distribuzione gaussiana
"stretta": metodo con
ridotti errori casuali
La larghezza della distribuzione gaussiana è correlata
all'entità degli errori casuali:
maggiori sono gli errori casuali, più diviene probabile ottenere
dei risultati lontani dal valore vero (valore centrale), e quindi più
è larga la distribuzione. Minori sono gli errori casuali, più è
40
stretta la distribuzione.
Elementi di statistica
La stima del valore vero
La larghezza della distribuzione gaussiana è indicata col simbolo
s, ed è chiamata deviazione standard, oppure scarto tipo.
(s misura la metà larghezza ad un’altezza circa del 60%)
s
d(P)
0.00
0.05
0.10
x
0.15
0.20
41
Scarica

16_errori