NOZIONI DI STATISTICA APPLICATE
ALLA CHIMICA ANALITICA
NOZIONI GENERALI
Il risultato di una determinazione analitica è il segnale strumentale o il valore attribuito ad un
analita, risultato di un’osservazione diretta o più spesso ottenuto come stima statistica, x̂ , a sua volta
risultato di una serie di determinazioni. La distribuzione di tali stime caratterizza il metodo di analisi,
mentre una singola stima costituisce un risultato sperimentale.
x̂ = t + e = t + D + d
dove t è il valore vero, e è l’errore complessivo dato dalla somma di due contributi, D che è detto
"bias" e d che è l’errore casuale (o accidentale).
Il limite della media, m, è il valore asintotico, o media della popolazione, della distribuzione
che caratterizza la quantità misurata, che si ottiene per un numero infinito di misure. Viene definito
anche valore atteso.
xˆ = μ
lim
n ®¥
VALORE VERO
t, valore che caratterizza una quantità perfettamente definita nelle condizioni in cui viene misurata; è
un valore ideale ottenibile solo in assenza di errori ed effettuando un numero infinito di determinazioni
BIAS
differenza tra il risultato atteso (la media) e il valore vero; può essere positivo o negativo; rappresenta
l’errore sistematico
D = m -t
ERRORE CASUALE
differenza tra il valore osservato e il limite della media:
d = x̂ - m
L’errore casuale è descritto dalla funzione di distribuzione cumulativa, a sua volta descritta da
una funzione matematica. Comunemente si assume che questa funzione sia la distribuzione normale
o Gaussiana, che ha due parametri, la media m e la deviazione standard s.
1
ACCURATEZZA
accordo tra il risultato e il valore vero; in pratica il valore vero è spesso sconosciuto o non ottenibile;
l’accuratezza dipende dalla componente dovuta agli errori casuali e dall’errore sistematico (bias).
PRECISIONE
accordo tra misure indipendenti ottenute con un procedimento in condizioni definite; viene
determinata dagli errori casuali; la precisione viene valutata con la deviazione standard.
ESATTEZZA
si riferisce al metodo: differenza tra risultato e valore vero solo a causa dell'errore sistematico (bias).
RECUPERO
Rapporto percentuale tra quantità determinata e quantità aggiunta nel caso di aggiunte tarate di
standard.
SENSIBILITA`
La sensibilità è la variazione di segnale generata da una determinata variazione di quantità di analita.
Viene definita come la pendenza della curva di calibrazione. Se la curva di calibrazione è realmente
una curva anziché una retta la sensibilità è funzione della concentrazione (o quantità) dell’analita.
RIPETIBILITA`
E` l'entità dell’accordo tra risultati ottenuti sullo stesso campione, con la stessa procedura, nello stesso
laboratorio, dallo stesso operatore, in un ristretto intervallo di tempo; la si misura con la deviazione
standard.
RIPRODUCIBILITA`
E` l'entità dell’accordo tra risultati ottenuti sullo stesso campione, con la stessa procedura, in diversi
laboratori, o da diversi operatori, o con strumenti diversi; la si misura con la deviazione standard.
n
MEDIA aritmetica:
x=
åx
i =1
n
i
miglior stima della media della popolazione m
m = lim x per n ® ¥
VARIANZA: media dei quadrati degli scarti dei singoli valori della popolazione dei dati (indica
quanto i dati differiscono tra loro). La DEVIAZIONE STANDARD è la radice quadrata della
varianza.
2
2
n
s =
2
å (x
i
2
n
- m)
s =
i =1
2
n
å (x
i
- x)
i =1
n -1
La grandezza s (o s2) è quella teorica, mentre s (o s2) ne rappresenta una stima. s si utilizza nei casi
più comuni in cui n è relativamente piccolo.
DEVIAZIONE STANDARD DELLA MEDIA
s
n
SDM =
DEVIAZIONE STANDARD RELATIVA
RSD =
s
x
nell’intervallo m ± 3s
GRADI DI LIBERTA`
n, numero di valori che può essere arbitrariamente assegnato ad un sistema. Per la semplice ripetizione
di n misure e stima di un solo parametro, ad esempio della media:
n = n -1
In generale è il numero di osservazioni meno il numero P di parametri valutati.
n =n-P
LIVELLO DI CONFIDENZA 1 - a (compreso tra 0 e 1)
Probabilità di trovare in un intervallo definito il valore atteso per un determinato parametro (di solito si
utilizza 0.95).
Il valore complementare, a, è il livello di significatività.
LIMITI DI CONFIDENZA: limiti entro i quale possiamo affermare che si trova il valore vero, per un
prefissato livello di confidenza:
CL = x ± 1.960
s
n
per un livello di confidenza del 95 % e un numero n ® ¥ di misure (1.96 è il valore corretto per un
livello di confidenza esattamente del 95 %, mentre 2 è il valore approssimato). Se s e x non sono noti
ma solo stimati dai dati, i limiti di confidenza sono dati da:
CL = x ± t
s
n
3
dove s è la deviazione standard dei dati, e t è il valore di Student tabulato per il livello di confidenza
scelto e il numero di gradi di libertà del sistema. Ad esempio, per un livello di confidenza del 95 % si
ha:
m=x±
2s
n
m=x±
ts
n
t viene tabulato per test a una o due code. Un test è a due code quando si valuta se un parametro è
diverso (maggiore o minore) rispetto ad un valore prefissato (per esempio x = m o x ¹ m ); è ad una
coda quando si valuta ad esempio se un parametro è al di sopra di un valore prefissato
(alternativamente al di sotto).
4
TEST STATISTICI (TEST DI SIGNIFICATIVITA`)
Si tratta del confronto tra risultati ottenuti da due esperimenti: questi possono essere stati
ottenuti con metodi diversi, o in giorni diversi con lo stesso metodo, ecc. Per eseguire il test si procede
come segue:
1. formulare l’ipotesi nulla, H0, per l’esperimento;
ad esempio:
H0: non c’è differenza tra i metodi A e B (H0: x A = x B )
2. formulare l’ipotesi alternativa H1, che è l’opposto dell’ipotesi nulla;
ad esempio:
H1: c’è differenza tra i metodi A e B (H1: x A ¹ x B )
3. calcolare il valore critico e confrontarlo con quello tabulato per il livello di confidenza
scelto; se il valore calcolato è maggiore di quello tabulato allora la differenza è
significativa, cioè vale H1, altrimenti se è minore la differenza non è significativa cioè vale
H0. Il calcolo del valore critico viene fatto utilizzando formule differenti a seconda del tipo
di confronto che deve essere fatto (alcuni esempi sono riportati di seguito).
4. decisione e conclusione
Test statistico di Student
Il test statistico di Student permette di confrontare un valore medio (ad esempio ottenuto da
una serie di misure su un certo campione), caratterizzato da un suo intervallo di confidenza, con un
valore di riferimento m. Nel test statistico di Student il valore da calcolare, t, è dato dalla formula:
t=
n (x - m )
s
(1)
Il valore tabulato di t (vedi tabella statistica allegata) è scelto sulla base del numero di gradi di libertà
(N-P) e del livello di confidenza scelto (di solito 95%). Ad esempio, per 4 gradi di libertà e per un
livello di confidenza del 95 %, è pari a 2.776.
Se il valore calcolato è minore del valore tabulato, l’ipotesi nulla viene accettata. In altre
parole non ci sono errori sistematici nelle misure eseguite sull'attuale campione (o, meglio ancora, gli
errori sistematici sono trascurabili rispetto a quelli casuali).
(1)
se la formula va applicata a dati di calibrazione, il termine
n va omesso
5
F-TEST
L’F-test permette di confrontare le varianze di due set di dati, s A2 e s B2 . Il valore di F viene
calcolato con la formula:
F=
s 2A
s B2
per s A2 > s B2
(2)
Esso viene confrontato col valore tabulato per n1 = n1 – P1 e n2 = n2 – P2 di norma al livello di
confidenza del 97.5 % (distribuzione non simmetrica). Se l'F calcolato è minore dell'F tabulato, la
distribuzione è la stessa, cioè, le varianze sono statisticamente equivalenti.
t-TEST DI STUDENT
Tale test permette di confrontare due set di dati, ottenuti con metodi diversi, cioè due serie di
dati ciascuna caratterizzata da una propria media ed un proprio intervallo di confidenza. In particolare,
il test può essere utilizzato per sapere se due metodi diversi, metodo A e metodo B, usati per
analizzare lo stesso campione hanno dato risultati statisticamente equivalenti.
Per condurre il test vanno innanzitutto confrontate le varianze, per verificare che i dati
provengano dalla stessa distribuzione. Ciò si fa con un F-test. Se il test ha esito positivo (F calcolato
minore dell'F tabulato, cioè se la distribuzione è la stessa) si può procedere al test vero e proprio. In
caso contrario, il test non è attendibile e non va condotto.
Il valore di t viene calcolato utilizzando la formula:
t=
x A - xB
æ 1
1
çç
+
è n A nB
(2)
ö s (n A - PA ) + s (n B - PB )
÷÷ ×
n A + n B - PA - PB
ø
2
A
2
B
e va confrontato col valore tabulato per n = nA + nB – PA – PB gradi di libertà ed un livello di
confidenza del 95 %. Se il valore calcolato è minore di quello tabulato, i due metodi non presentano
differenze significative.
SCARTO DI DATI (OUTLIER)
Si tratta di test che permettono di valutare se un dato, che in apparenza è anomalo, è da
scartare.
TEST DI DIXON
2
-
i risultati vengono tabulati in ordine crescente;
-
vengono calcolati dei rapporti opportuni;
se la formula è usata su dati di calibrazione i termini da porre a confronto sono s· n
6
-
il maggiore di questi rapporti, D, viene confrontato con il valore critico al livello di confidenza
del 95 o 99 %
Esempio:
dati
5.6
5.4
6.5
5.4
5.5
5.3
5.2
dati ordinati
5.2
5.3
5.4
5.4
5.5
5.6
6.5
Per un numero di dati inferiore o uguale a 7 si utilizzano le espressioni seguenti:
x 2 - x1
x n - x1
Dinferiore =
5.3 - 5.2
Dinferiore =
6.5 - 5.2
Dsuperiore =
= 0.0769
Dsuperiore =
x n - x n-1
x n - x1
6.5 - 5.6
6.5 - 5.2
= 0.692
il valore maggiore, D = 0.692, è maggiore del valore tabulato per un livello di confidenza del 99%
(vedi tabella in appendice), 0.680, per cui il dato 6.5 è un outlier e deve essere scartato. Prima dello
scarto andrebbero comunque ricercate delle conferme chimiche, soprattutto per un livello di
confidenza del 95 %.
Per un numero di dati maggiori di 7 si utilizzano altre espressioni riportate nella tabella in
appendice.
TEST DI GRUBBS
Si opera come per il test precedente, ordinando in ordine crescente i dati e calcolando i
parametri seguenti:
x - x1
s
x -x
G" = n 1
s
'
Ginferiore
=
1.
2.
'
Gsuperiore
=
xn - x
s
2
(n - 3) × sesclusi
i due inferiori
G
= 1(n - 1) × s 2
2
(n - 3) × s esclusi
i due superiori
"'
Gcoppia superiore = 1 (n - 1) × s 2
"'
coppia inferiore
3.
TEST DI COCHRAN
Esamina variazioni tra laboratori associati per lavori in collaborazione, confrontando la
varianza più alta ottenuta tra i laboratori con la varianza di tutti i laboratori considerati
l
Cn =
s
2
max
l
ås
i =1
2
i
con l = numero totale dei laboratori e n =
ån
i
i =1
l
7
REGRESSIONE LINEARE
Quando si misura una grandezza che dipende linearmente dalla concentrazione la si può
rappresentare in un diagramma. I punti sperimentali ottenuti sono in numero discreto, e da questi può
essere necessario ricavare l'espressione della migliore funzione che relaziona la grandezza misurata e
la concentrazione. Nei casi più semplici, tale funzione è una retta:
y = a + bx
dove y è la grandezza misurata (il segnale strumentale), x è la concentrazione di analita, a è l’intercetta
e b la pendenza. Per ricavare l'equazione della retta che meglio rappresenta i punti sperimentali si
procede all'interpolazione (fitting) dei dati stessi.
Il metodo di interpolazione più utilizzato che permette di ricavare a e b è quello dei minimi
quadrati. In questo caso la retta ottenuta è quella per la quale è minima la somma dei quadrati degli
scarti, cioè la differenza tra i valori sperimentali di y ed i valori corrispondenti sulla retta ŷ . Nella sua
formulazione più semplice, il metodo dei minimi quadrati richiede che i valori di x, variabile
indipendente, siano esattamente noti (non affetti da errore, o meglio che abbiano un errore trascurabile
rispetto all’errore su y) e quindi che solo y (segnale strumentale) sia affetto da errore. Tale requisito è
spesso verificato nelle analisi strumentali.
Si abbiano n coppie di dati sperimentali xi, yi, e sia x la media delle xi. Il valore della
deviazione standard delle xi, sx, è dato da:
n
sx =
å (x - x )
2
i
i =1
n -1
æ n ö
ç å xi ÷
n
2
xi - è i =1 ø
å
n
= i =1
n -1
2
I due tipi di scrittura di sx sono identici: il primo è più compatto, il secondo permette il calcolo più
agevole con una calcolatrice o con excel.
In maniera analoga, y è la media delle yi con deviazione standard sy:
n
sy =
å(y - y )
2
i
i =1
n -1
æ n ö
ç å yi ÷
n
2
yi - è i =1 ø
å
n
= i =1
n -1
2
gli scarti sono, per un dato xi, la differenza tra yi ed il corrispondente valore sulla retta, ŷ :
y i - yˆ
e la deviazione standard degli scarti è:
8
2
n
å (y
i =1
sy/x =
- yˆ i )
2
i
=
n-2
n
n
æ n
ö
æ
y
ç
÷
x
ç
å
i
å
i å yi
n
n
i =1
è
ø
2
i =1
i =1
ç
yi - b × å xi y i å
ç
n
n
i =1
i =1
ç
è
n-2
ö
÷
÷
÷
÷
ø
il numero di gradi di libertà, n, è n-2 perchè le grandezze stimate sono 2, a e b.
Il calcolo di a e b può essere fatto ponendo minima la somma dei quadrati degli scarti:
n
n
i =1
i =1
2
2
å ( yi - yˆ ) = å ( yi - a - bxi )
Tale funzione ha un minimo quando si annullano le derivate prime parziali:
æ n
æ n
2 ö
2
ç ¶ å ( y i - yˆ ) ÷
ç ¶ å ( y i - yˆ )
ç i =1
÷ = ç i =1
ç
÷
ç
¶a
¶b
ç
÷
ç
è
øb è
ö
÷
÷ =0
÷
÷
øa
æ n
2
ç ¶ å ( y i - yˆ )
ç i =1
ç
¶a
ç
è
ö
æ n
2 ö
÷
ç ¶ å ( y i - yˆ ) ÷
n
n
÷ = 2 ( y - yˆ )2 ç i =1
÷ = 2 ( y - a - bx ) × (- 1) = 0
å
å
i
i
i
÷
ç
÷
¶a
i =1
i =1
÷
ç
÷
øb
è
øb
æ n
2
ç ¶ å ( y i - yˆ )
ç i =1
ç
¶b
ç
è
ö
æ n
2
÷
ç ¶ å ( y i - yˆ )
n
÷ = 2 ( y - yˆ )2 ç i =1
å
i
÷
ç
¶b
i =1
÷
ç
øa
è
ö
÷
n
÷ = 2 ( y - a - bx ) × (- x ) = 0
å
i
i
i
÷
i =1
÷
øa
da cui si ottiene il sistema:
n
n
ì
na
+
b
x
=
yi
å
å
i
ï
ï
i =1
i =1
í n
n
n
ïa x + b x 2 = x y
å
å
å
i
i i
ïî i =1 i
i =1
i =1
le cui soluzioni sono:
n
b=
n
n
nå ( xi yi ) - å x i å y i
i =1
i =1
n
nå ( xi - x )
i =1
n
=
a=
n
i =1
i =1
i =1
nå
i =1
n
n
i =1
i =1
å xi2 å yi - å xi å xi yi
n
nå ( x i - x )
i =1
2
n
i =1
n
2
i =1
n
n
nå ( xi y i ) - å xi å y i
æ
ö
x - ç å xi ÷
è i =1 ø
( )
2
2
i
n
=
i =1
n
n
n
i =1
i =1
n
å xi2 å yi - å xi å xi yi
i =1
n
nå
i =1
i =1
æ
ö
xi2 - ç å xi ÷
è i =1 ø
( )
n
2
= y - bx
9
con deviazione standard:
sb =
sy / x
sy / x
=
n
2
å (xi - x )
æ n ö
ç å xi ÷
n
2
x i - è i =1 ø
å
n
i =1
i =1
2
n
sa = s y / x ×
n
å xi2
i =1
n
nå ( xi - x )
= sy / x ×
2
åx
i =1
2
i
æ n ö
nå x - ç å xi ÷
i =1
è i =1 ø
n
2
2
i
i =1
La deviazione standard sulla retta (delle y dalla retta) è:
s retta = s y / x
1
+
n
( x 0 - x )2
n
å (x
i =1
i
- x)
= sy / x
2
1
+
n
( x 0 - x )2
æ n ö
ç å xi ÷
n
2
xi - è i =1 ø
å
n
i =1
2
dove x0 è un punto qualsiasi. Questa grandezza permette di tracciare le fasce di confidenza della retta
per un livello di confidenza scelto (ad es. del 95 %). Le fasce di confidenza sono pari a y ± t × s retta
per un intervallo di confidenza scelto, ad esempio del 95 % come in figura 1.
Va notato che la regressione col metodo dei minimi quadrati può essere applicata utilizzando
qualunque funzione, non necessariamente una retta. Ovviamente le formule che ne conseguono (per il
calcolo dei parametri migliori, delle loro deviazioni standard, e delle fasce di confidenza) sono
diverse, e generalmente più complicate di quelle della retta. Per alcuni tipi di funzioni tali formule non
possono essere teoricamente ricavate, ed in tali casi il calcolo dei parametri migliori deve procedere
con un metodo iterativo (cosiddetta "regressione non lineare"). I moderni programmi di calcolo o per
la costruzione di diagrammi, permettono di eseguire la regressione lineare e non, di solito usando il
metodo dei minimi quadrati, con qualunque tipo di funzione.
Di seguito è riportato un esempio di foglio Excel che, in mancanza di un programma di
elaborazione statistica dei dati, può comunque permettere facilmente il calcolo di tutte le grandezze
richieste per il calcolo di a, b, delle loro deviazioni standard e delle fasce di confidenza della retta di
calibrazione.
10
0.9
0.8
0.7
y0
0.6
y
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
x0
6
7
8
x
Figura 1. Interpolazione dei punti con il metodo dei minimi quadrati, con evidenziate le fasce di confidenza della
retta per un livello di confidenza del 95 %.
SOMME
xi
xi2
yi
yˆ i = b0 + b1 xi
y i - yˆ i
( yi - yˆ i )2
0.0
0
2.1
1.52
0.58
0.3364
2.0
4
5.0
5.38
0.38
0.1444
4.0
16
9.0
9.24
0.24
0.0576
6.0
36
12.6
13.10
0.50
0.2500
8.0
64
17.3
16.96
0.34
0.1156
10.0
100
21.0
20.82
0.18
0.0324
12.0
144
24.7
24.68
0.02
0.0004
42.0
364
91.7
91.7
2.24
0.9368
sx
sxx
sy
sy/x
11
CALIBRAZIONE E MISURA
CON METODI STRUMENTALI
Il segnale ottenuto applicando un metodo analitico strumentale (un'area in un picco
cromatografico, un'assorbanza in una misura spettroscopica, una f.e.m. in una misura potenziometrica,
ecc.) non è direttamente correlabile alla concentrazione o alla quantità di analita presente nel
campione. Tale correlazione può essere ricavata solo mediante una calibrazione. La calibrazione
consiste nella misura del segnale strumentale di soluzioni a titolo noto (o di soluzioni a cui sono state
aggiunte quantità note) di analita. Di solito è sufficiente misurare il segnale strumentale in
corrispondenza a 4-5 valori di concentrazione. A partire da questi punti sperimentali si ricava (di
norma col metodo dei minimi quadrati) l'espressione della funzione algebrica che meglio correla
segnale e concentrazione. Nei casi di interesse analitico più semplici e comuni tale funzione è una retta
(y = a + bx), mentre in casi meno frequenti può essere più opportuno utilizzare una parabola (y = a +
bx + cx2). Dall’interpolazione si ottengono i valori migliori di a e b (eventualmente anche c), le loro
deviazioni standard, e le fasce di confidenza. Esistono due tipi di calibrazione: la calibrazione
esterna, ed il metodo delle aggiunte standard.
CALIBRAZIONE ESTERNA
La calibrazione esterna (anche chiamata semplicemente "calibrazione") consiste nella misura
del segnale strumentale di soluzioni a titolo noto di analita. L'aggettivo "esterna" si riferisce al fatto
che le soluzioni di calibrazione sono diverse dalla soluzione incognita, in quanto contengono solo
l’analita. Una volta ottenuta la retta (o in generale la funzione) di calibrazione, si procede a misurare il
segnale strumentale y0 della soluzione incognita. E' necessario che tale segnale cada all'interno
dell'intervallo indagato in fase di calibrazione, poiché la funzione di calibrazione è valida solo entro
tale intervallo. Se, invece, y0 cade al di fuori, il campione incognito va opportunamente
diluito/concentrato, oppure è necessario ottenere altri punti in fase di calibrazione.
In linea di principio, la calibrazione può essere eseguita una sola volta, e la funzione così
ottenuta può essere considerata valida per un numero indefinito di analisi di campioni diversi. In
pratica, la calibrazione va eseguita periodicamente (di norma una o più volte alla settimana), poiché la
lenta deriva delle proprietà strumentali (per esempio, il degrado della colonna in cromatografia, della
sorgente in spettroscopia, dell'elettrodo in potenziometria, ecc.) comporta una lenta variazione dei
parametri di calibrazione nel tempo.
Solitamente si eseguono misure ripetute di y0, in modo da ottenere un valore medio y0 :
m
y0 =
åy
i =1
0 ,i
m
12
dove m è il numero di ripetute misure di y0.
La concentrazione x̂ della soluzione incognita può quindi essere ricavata a partire
dall'equazione della retta di calibrazione, ed è pari a:
xˆ =
( y0 - a )
b
Si può dimostrare, ma lo omettiamo, che la deviazione standard su x̂ è:
s ( xˆ ) =
sy/x
b
×
1 1
+ +
m n
( y 0 - y )2
n
b 2 × å ( xi - x )
2
=
sy / x
b
×
1 1
+ +
m n
i =1
( y 0 - y )2
2
n
æ
æ
ö
ç
ç xi ÷
ç n 2 èå
2
b × ç å xi - i =1 ø
n
ç i =1
ç
è
ö
÷
÷
÷
÷
÷
ø
METODO DELLE AGGIUNTE STANDARD
In alcuni casi, soprattutto utilizzando determinate tecniche strumentali (come ad esempio
l’assorbimento atomico), l’effetto matrice, cioè la composizione del campione, può condizionare i
valori ottenuti falsando i risultati della calibrazione esterna. In particolare, la pendenza b della retta di
calibrazione esterna può non essere valida per il campione incognito, e causare quindi un errore
sistematico nell'analisi.
Per risolvere il problema dell'effetto matrice si può utilizzare il metodo delle aggiunte
standard (figura 2) al posto della calibrazione esterna. Opportune quantità note di analita vengono
aggiunte direttamente al campione contenente la quantità incognita di analita, che viene determinata
per estrapolazione come intercetta sull’asse x.
xextr =
a
b
Si può dimostrare che la deviazione standard sul valore estrapolato è pari a:
y2
sy / x
1
s ( x extr ) =
×
+
b
n
n
b 2 × å ( xi - x )
2
i =1
Si noti che tale formula è quasi identica a quella analoga che dà la deviazione standard sul valore
interpolato dalla calibrazione esterna. L'unica differenza è che qui il termine
1
m
è zero perché y vale
zero per definizione in corrispondenza di xextr, e quindi è come se fosse esattamente noto, con m = ¥.
13
0.9
0.8
0.7
0.6
y
0.5
0.4
0.3
0.2
0.1
0.0
xextr
-0.1
-2
-1
0
1
2
3
4
5
6
7
x
Figura 2. Metodo delle aggiunte standard
L'unico ma importante svantaggio del metodo delle aggiunte standard rispetto a quello della
calibrazione esterna è di richiedere l'esecuzione delle aggiunte standard per ogni campione da
analizzare.
COME RIPORTARE I DATI DI UNA MISURA STRUMENTALE
Devono essere riportati i valori a e b dei parametri di calibrazione (esterna o aggiunte
standard) con il rispettivo intervallo di confidenza, le fasce di confidenza della retta di calibrazione, ed
il valore della concentrazione incognita con il suo intervallo di confidenza, tenendo conto di eventuali
diluizioni. Riassumendo::
b ± t × sb
a ± t × sa
y ± t × s retta
xˆ ± t × s( xˆ )
14
Tali dati devono essere riportati per ogni misura strumentale.
TEST STATISTICI DA DATI OTTENUTI MEDIANTE RETTA DI CALIBRAZIONE
I valori di x̂ , ma anche quelli di a e b, possono essere sottoposti a confronto statistico con
valori di riferimento, oppure con valori ottenuti con altri metodi. Analogamente, i valori di sa, sb e
s( x̂ ) possono essere confrontati con quelli ottenuti in altre condizioni. Le formule che si utilizzano per
eseguire i testi statistici sono le medesime viste in precedenza, tenendo presente che il numero di dati
(n, nelle formule dei test) è dato dal numero dei punti utilizzati per la calibrazione (ugualmente
definito come n), non da quelli utilizzati per mediare il segnale strumentale durante la misura
dell'incognito (m). Ciò in quanto è la qualità della calibrazione che influisce sull'incertezza
sperimentale di x̂ .
COEFFICIENTE DI CORRELAZIONE
Il coefficiente di correlazione R misura il grado di correlazione tra le variabili x e y, nel senso
che una variazione di x produce una variazione prevedibile di y. R varia tra ± 1. Quanto più R si
avvicina ad 1 in valore assoluto tanto maggiore è la correlazione tra i punti sperimentali ottenuta con
la funzione scelta (retta, parabola, ecc.), mentre quanto più R si avvicina a 0 tanto minore (e al limite
nulla) è la correlazione.
n
R=
n
n
i =1
i =1
n × å x i y i - å xi × å y i
i =1
æ n 2 æ n ö
çn
xi - ç å xi ÷
ç å
i =1
è i =1 ø
è
( )
2
ö æ n 2 æ n ö2 ö
÷ ×çn
yi - ç å yi ÷ ÷
÷ ç å
è i =1 ø ÷ø
ø è i =1
( )
R2 viene invece definito come coefficiente di determinazione.
R (oppure R2) viene comunemente utilizzato in chimica analitica per valutare la bontà di
un’interpolazione, di solito rettilinea, e per giustificare la scelta della retta come funzione interpolante.
Tuttavia tale pratica può portare a conclusioni errate. Infatti, non necessariamente un valore di R
vicino a ± 1 indica che i punti sperimentali siano rappresentati in maniera ottimale da una retta. Ad
esempio, il valore di R ottenuto con interpolazione rettilinea dei dati di figura 3 è prossimo ad 1, ma è
visivamente evidente che i punti sperimentali sarebbero meglio interpolati da una parabola, data la
"curvatura" dell’andamento dei punti sperimentali. La valutazione della bontà di un’interpolazione
rettilinea, e l'eventuale scelta di un'altra funzione, non possono prescindere da un'analisi "visiva" dei
punti sperimentali.
15
Figura 3. Esempio di interpolazione di punti sperimentali con una retta, e valore di R ottenuto.
Bibliografia
J.C. Miller, J. Miller, Statistics for Analytical Chemists, Ellis Horwood ed., 3a ed.,1993
L.R. Anderson, Practical Statistics for Analytical Chemists, van Nostrand ed., 1987
P.C. Meier, R.E. Zund, Statistical Methods in Analytical Chemistry, Wiley ed., 1993
T. Farrant, Practical Statistics for the Analytical Scientits. A Bench Guide, Royal Soc. Chem. ed.,
1997
L.A. Currie, G. Svehla, Nomenclature for the Presentation of Results of Chemical Analysis, Pure and
Appl. Chem., 66 (1994) 595
L.A. Currie, Nomenclature in evaluation of Analytical Methods Including Detection and
Quantification Capabilities (IUPAC Recommendations 1995), Anal. Chim. Acta, 391 (1999) 105
Analytical Methods Commettee, Uses (Proper and Improper) of Correlation Coefficient, Analyst, 113
(1988) 1469
A Hubaux, G. Vos, Decision and Detection Limits for Linear Calibration Curves, Anal. Chem., 42
(1970) 849
J.N. Miller, Basic Statistical Methods for Analytical Chemistry. Part 2. Calibration and Regression
Methods. A Review, Analyst, 116 (1991) 3
J.C. Miller, J.N. Miller, Basic Statistical Methods for Analytical Chemistry. Part 1. Statistics of
Repeated Measurements. A Review, Analyst, 113 (1988) 1351
L.E. Vanatta, D.E. Coleman, Calculation of Detection Limits for a Single-Laboratory Ion
Chromatographic Method to Determine Parts-per-trillion Ions in Ultrapure Water, J. Chrom. A, 770
(1997) 105
W. Funk, V. Damman, G. Donnevert, Quality Assurance in Analytical Chemistry, 2nd ed. WileyVCH, 2007
16
Scarica

NOZIONI DI STATISTICA APPLICATE ALLA CHIMICA ANALITICA