NOZIONI DI STATISTICA APPLICATE ALLA CHIMICA ANALITICA NOZIONI GENERALI Il risultato di una determinazione analitica è il segnale strumentale o il valore attribuito ad un analita, risultato di un’osservazione diretta o più spesso ottenuto come stima statistica, x̂ , a sua volta risultato di una serie di determinazioni. La distribuzione di tali stime caratterizza il metodo di analisi, mentre una singola stima costituisce un risultato sperimentale. x̂ = t + e = t + D + d dove t è il valore vero, e è l’errore complessivo dato dalla somma di due contributi, D che è detto "bias" e d che è l’errore casuale (o accidentale). Il limite della media, m, è il valore asintotico, o media della popolazione, della distribuzione che caratterizza la quantità misurata, che si ottiene per un numero infinito di misure. Viene definito anche valore atteso. xˆ = μ lim n ®¥ VALORE VERO t, valore che caratterizza una quantità perfettamente definita nelle condizioni in cui viene misurata; è un valore ideale ottenibile solo in assenza di errori ed effettuando un numero infinito di determinazioni BIAS differenza tra il risultato atteso (la media) e il valore vero; può essere positivo o negativo; rappresenta l’errore sistematico D = m -t ERRORE CASUALE differenza tra il valore osservato e il limite della media: d = x̂ - m L’errore casuale è descritto dalla funzione di distribuzione cumulativa, a sua volta descritta da una funzione matematica. Comunemente si assume che questa funzione sia la distribuzione normale o Gaussiana, che ha due parametri, la media m e la deviazione standard s. 1 ACCURATEZZA accordo tra il risultato e il valore vero; in pratica il valore vero è spesso sconosciuto o non ottenibile; l’accuratezza dipende dalla componente dovuta agli errori casuali e dall’errore sistematico (bias). PRECISIONE accordo tra misure indipendenti ottenute con un procedimento in condizioni definite; viene determinata dagli errori casuali; la precisione viene valutata con la deviazione standard. ESATTEZZA si riferisce al metodo: differenza tra risultato e valore vero solo a causa dell'errore sistematico (bias). RECUPERO Rapporto percentuale tra quantità determinata e quantità aggiunta nel caso di aggiunte tarate di standard. SENSIBILITA` La sensibilità è la variazione di segnale generata da una determinata variazione di quantità di analita. Viene definita come la pendenza della curva di calibrazione. Se la curva di calibrazione è realmente una curva anziché una retta la sensibilità è funzione della concentrazione (o quantità) dell’analita. RIPETIBILITA` E` l'entità dell’accordo tra risultati ottenuti sullo stesso campione, con la stessa procedura, nello stesso laboratorio, dallo stesso operatore, in un ristretto intervallo di tempo; la si misura con la deviazione standard. RIPRODUCIBILITA` E` l'entità dell’accordo tra risultati ottenuti sullo stesso campione, con la stessa procedura, in diversi laboratori, o da diversi operatori, o con strumenti diversi; la si misura con la deviazione standard. n MEDIA aritmetica: x= åx i =1 n i miglior stima della media della popolazione m m = lim x per n ® ¥ VARIANZA: media dei quadrati degli scarti dei singoli valori della popolazione dei dati (indica quanto i dati differiscono tra loro). La DEVIAZIONE STANDARD è la radice quadrata della varianza. 2 2 n s = 2 å (x i 2 n - m) s = i =1 2 n å (x i - x) i =1 n -1 La grandezza s (o s2) è quella teorica, mentre s (o s2) ne rappresenta una stima. s si utilizza nei casi più comuni in cui n è relativamente piccolo. DEVIAZIONE STANDARD DELLA MEDIA s n SDM = DEVIAZIONE STANDARD RELATIVA RSD = s x nell’intervallo m ± 3s GRADI DI LIBERTA` n, numero di valori che può essere arbitrariamente assegnato ad un sistema. Per la semplice ripetizione di n misure e stima di un solo parametro, ad esempio della media: n = n -1 In generale è il numero di osservazioni meno il numero P di parametri valutati. n =n-P LIVELLO DI CONFIDENZA 1 - a (compreso tra 0 e 1) Probabilità di trovare in un intervallo definito il valore atteso per un determinato parametro (di solito si utilizza 0.95). Il valore complementare, a, è il livello di significatività. LIMITI DI CONFIDENZA: limiti entro i quale possiamo affermare che si trova il valore vero, per un prefissato livello di confidenza: CL = x ± 1.960 s n per un livello di confidenza del 95 % e un numero n ® ¥ di misure (1.96 è il valore corretto per un livello di confidenza esattamente del 95 %, mentre 2 è il valore approssimato). Se s e x non sono noti ma solo stimati dai dati, i limiti di confidenza sono dati da: CL = x ± t s n 3 dove s è la deviazione standard dei dati, e t è il valore di Student tabulato per il livello di confidenza scelto e il numero di gradi di libertà del sistema. Ad esempio, per un livello di confidenza del 95 % si ha: m=x± 2s n m=x± ts n t viene tabulato per test a una o due code. Un test è a due code quando si valuta se un parametro è diverso (maggiore o minore) rispetto ad un valore prefissato (per esempio x = m o x ¹ m ); è ad una coda quando si valuta ad esempio se un parametro è al di sopra di un valore prefissato (alternativamente al di sotto). 4 TEST STATISTICI (TEST DI SIGNIFICATIVITA`) Si tratta del confronto tra risultati ottenuti da due esperimenti: questi possono essere stati ottenuti con metodi diversi, o in giorni diversi con lo stesso metodo, ecc. Per eseguire il test si procede come segue: 1. formulare l’ipotesi nulla, H0, per l’esperimento; ad esempio: H0: non c’è differenza tra i metodi A e B (H0: x A = x B ) 2. formulare l’ipotesi alternativa H1, che è l’opposto dell’ipotesi nulla; ad esempio: H1: c’è differenza tra i metodi A e B (H1: x A ¹ x B ) 3. calcolare il valore critico e confrontarlo con quello tabulato per il livello di confidenza scelto; se il valore calcolato è maggiore di quello tabulato allora la differenza è significativa, cioè vale H1, altrimenti se è minore la differenza non è significativa cioè vale H0. Il calcolo del valore critico viene fatto utilizzando formule differenti a seconda del tipo di confronto che deve essere fatto (alcuni esempi sono riportati di seguito). 4. decisione e conclusione Test statistico di Student Il test statistico di Student permette di confrontare un valore medio (ad esempio ottenuto da una serie di misure su un certo campione), caratterizzato da un suo intervallo di confidenza, con un valore di riferimento m. Nel test statistico di Student il valore da calcolare, t, è dato dalla formula: t= n (x - m ) s (1) Il valore tabulato di t (vedi tabella statistica allegata) è scelto sulla base del numero di gradi di libertà (N-P) e del livello di confidenza scelto (di solito 95%). Ad esempio, per 4 gradi di libertà e per un livello di confidenza del 95 %, è pari a 2.776. Se il valore calcolato è minore del valore tabulato, l’ipotesi nulla viene accettata. In altre parole non ci sono errori sistematici nelle misure eseguite sull'attuale campione (o, meglio ancora, gli errori sistematici sono trascurabili rispetto a quelli casuali). (1) se la formula va applicata a dati di calibrazione, il termine n va omesso 5 F-TEST L’F-test permette di confrontare le varianze di due set di dati, s A2 e s B2 . Il valore di F viene calcolato con la formula: F= s 2A s B2 per s A2 > s B2 (2) Esso viene confrontato col valore tabulato per n1 = n1 – P1 e n2 = n2 – P2 di norma al livello di confidenza del 97.5 % (distribuzione non simmetrica). Se l'F calcolato è minore dell'F tabulato, la distribuzione è la stessa, cioè, le varianze sono statisticamente equivalenti. t-TEST DI STUDENT Tale test permette di confrontare due set di dati, ottenuti con metodi diversi, cioè due serie di dati ciascuna caratterizzata da una propria media ed un proprio intervallo di confidenza. In particolare, il test può essere utilizzato per sapere se due metodi diversi, metodo A e metodo B, usati per analizzare lo stesso campione hanno dato risultati statisticamente equivalenti. Per condurre il test vanno innanzitutto confrontate le varianze, per verificare che i dati provengano dalla stessa distribuzione. Ciò si fa con un F-test. Se il test ha esito positivo (F calcolato minore dell'F tabulato, cioè se la distribuzione è la stessa) si può procedere al test vero e proprio. In caso contrario, il test non è attendibile e non va condotto. Il valore di t viene calcolato utilizzando la formula: t= x A - xB æ 1 1 çç + è n A nB (2) ö s (n A - PA ) + s (n B - PB ) ÷÷ × n A + n B - PA - PB ø 2 A 2 B e va confrontato col valore tabulato per n = nA + nB – PA – PB gradi di libertà ed un livello di confidenza del 95 %. Se il valore calcolato è minore di quello tabulato, i due metodi non presentano differenze significative. SCARTO DI DATI (OUTLIER) Si tratta di test che permettono di valutare se un dato, che in apparenza è anomalo, è da scartare. TEST DI DIXON 2 - i risultati vengono tabulati in ordine crescente; - vengono calcolati dei rapporti opportuni; se la formula è usata su dati di calibrazione i termini da porre a confronto sono s· n 6 - il maggiore di questi rapporti, D, viene confrontato con il valore critico al livello di confidenza del 95 o 99 % Esempio: dati 5.6 5.4 6.5 5.4 5.5 5.3 5.2 dati ordinati 5.2 5.3 5.4 5.4 5.5 5.6 6.5 Per un numero di dati inferiore o uguale a 7 si utilizzano le espressioni seguenti: x 2 - x1 x n - x1 Dinferiore = 5.3 - 5.2 Dinferiore = 6.5 - 5.2 Dsuperiore = = 0.0769 Dsuperiore = x n - x n-1 x n - x1 6.5 - 5.6 6.5 - 5.2 = 0.692 il valore maggiore, D = 0.692, è maggiore del valore tabulato per un livello di confidenza del 99% (vedi tabella in appendice), 0.680, per cui il dato 6.5 è un outlier e deve essere scartato. Prima dello scarto andrebbero comunque ricercate delle conferme chimiche, soprattutto per un livello di confidenza del 95 %. Per un numero di dati maggiori di 7 si utilizzano altre espressioni riportate nella tabella in appendice. TEST DI GRUBBS Si opera come per il test precedente, ordinando in ordine crescente i dati e calcolando i parametri seguenti: x - x1 s x -x G" = n 1 s ' Ginferiore = 1. 2. ' Gsuperiore = xn - x s 2 (n - 3) × sesclusi i due inferiori G = 1(n - 1) × s 2 2 (n - 3) × s esclusi i due superiori "' Gcoppia superiore = 1 (n - 1) × s 2 "' coppia inferiore 3. TEST DI COCHRAN Esamina variazioni tra laboratori associati per lavori in collaborazione, confrontando la varianza più alta ottenuta tra i laboratori con la varianza di tutti i laboratori considerati l Cn = s 2 max l ås i =1 2 i con l = numero totale dei laboratori e n = ån i i =1 l 7 REGRESSIONE LINEARE Quando si misura una grandezza che dipende linearmente dalla concentrazione la si può rappresentare in un diagramma. I punti sperimentali ottenuti sono in numero discreto, e da questi può essere necessario ricavare l'espressione della migliore funzione che relaziona la grandezza misurata e la concentrazione. Nei casi più semplici, tale funzione è una retta: y = a + bx dove y è la grandezza misurata (il segnale strumentale), x è la concentrazione di analita, a è l’intercetta e b la pendenza. Per ricavare l'equazione della retta che meglio rappresenta i punti sperimentali si procede all'interpolazione (fitting) dei dati stessi. Il metodo di interpolazione più utilizzato che permette di ricavare a e b è quello dei minimi quadrati. In questo caso la retta ottenuta è quella per la quale è minima la somma dei quadrati degli scarti, cioè la differenza tra i valori sperimentali di y ed i valori corrispondenti sulla retta ŷ . Nella sua formulazione più semplice, il metodo dei minimi quadrati richiede che i valori di x, variabile indipendente, siano esattamente noti (non affetti da errore, o meglio che abbiano un errore trascurabile rispetto all’errore su y) e quindi che solo y (segnale strumentale) sia affetto da errore. Tale requisito è spesso verificato nelle analisi strumentali. Si abbiano n coppie di dati sperimentali xi, yi, e sia x la media delle xi. Il valore della deviazione standard delle xi, sx, è dato da: n sx = å (x - x ) 2 i i =1 n -1 æ n ö ç å xi ÷ n 2 xi - è i =1 ø å n = i =1 n -1 2 I due tipi di scrittura di sx sono identici: il primo è più compatto, il secondo permette il calcolo più agevole con una calcolatrice o con excel. In maniera analoga, y è la media delle yi con deviazione standard sy: n sy = å(y - y ) 2 i i =1 n -1 æ n ö ç å yi ÷ n 2 yi - è i =1 ø å n = i =1 n -1 2 gli scarti sono, per un dato xi, la differenza tra yi ed il corrispondente valore sulla retta, ŷ : y i - yˆ e la deviazione standard degli scarti è: 8 2 n å (y i =1 sy/x = - yˆ i ) 2 i = n-2 n n æ n ö æ y ç ÷ x ç å i å i å yi n n i =1 è ø 2 i =1 i =1 ç yi - b × å xi y i å ç n n i =1 i =1 ç è n-2 ö ÷ ÷ ÷ ÷ ø il numero di gradi di libertà, n, è n-2 perchè le grandezze stimate sono 2, a e b. Il calcolo di a e b può essere fatto ponendo minima la somma dei quadrati degli scarti: n n i =1 i =1 2 2 å ( yi - yˆ ) = å ( yi - a - bxi ) Tale funzione ha un minimo quando si annullano le derivate prime parziali: æ n æ n 2 ö 2 ç ¶ å ( y i - yˆ ) ÷ ç ¶ å ( y i - yˆ ) ç i =1 ÷ = ç i =1 ç ÷ ç ¶a ¶b ç ÷ ç è øb è ö ÷ ÷ =0 ÷ ÷ øa æ n 2 ç ¶ å ( y i - yˆ ) ç i =1 ç ¶a ç è ö æ n 2 ö ÷ ç ¶ å ( y i - yˆ ) ÷ n n ÷ = 2 ( y - yˆ )2 ç i =1 ÷ = 2 ( y - a - bx ) × (- 1) = 0 å å i i i ÷ ç ÷ ¶a i =1 i =1 ÷ ç ÷ øb è øb æ n 2 ç ¶ å ( y i - yˆ ) ç i =1 ç ¶b ç è ö æ n 2 ÷ ç ¶ å ( y i - yˆ ) n ÷ = 2 ( y - yˆ )2 ç i =1 å i ÷ ç ¶b i =1 ÷ ç øa è ö ÷ n ÷ = 2 ( y - a - bx ) × (- x ) = 0 å i i i ÷ i =1 ÷ øa da cui si ottiene il sistema: n n ì na + b x = yi å å i ï ï i =1 i =1 í n n n ïa x + b x 2 = x y å å å i i i ïî i =1 i i =1 i =1 le cui soluzioni sono: n b= n n nå ( xi yi ) - å x i å y i i =1 i =1 n nå ( xi - x ) i =1 n = a= n i =1 i =1 i =1 nå i =1 n n i =1 i =1 å xi2 å yi - å xi å xi yi n nå ( x i - x ) i =1 2 n i =1 n 2 i =1 n n nå ( xi y i ) - å xi å y i æ ö x - ç å xi ÷ è i =1 ø ( ) 2 2 i n = i =1 n n n i =1 i =1 n å xi2 å yi - å xi å xi yi i =1 n nå i =1 i =1 æ ö xi2 - ç å xi ÷ è i =1 ø ( ) n 2 = y - bx 9 con deviazione standard: sb = sy / x sy / x = n 2 å (xi - x ) æ n ö ç å xi ÷ n 2 x i - è i =1 ø å n i =1 i =1 2 n sa = s y / x × n å xi2 i =1 n nå ( xi - x ) = sy / x × 2 åx i =1 2 i æ n ö nå x - ç å xi ÷ i =1 è i =1 ø n 2 2 i i =1 La deviazione standard sulla retta (delle y dalla retta) è: s retta = s y / x 1 + n ( x 0 - x )2 n å (x i =1 i - x) = sy / x 2 1 + n ( x 0 - x )2 æ n ö ç å xi ÷ n 2 xi - è i =1 ø å n i =1 2 dove x0 è un punto qualsiasi. Questa grandezza permette di tracciare le fasce di confidenza della retta per un livello di confidenza scelto (ad es. del 95 %). Le fasce di confidenza sono pari a y ± t × s retta per un intervallo di confidenza scelto, ad esempio del 95 % come in figura 1. Va notato che la regressione col metodo dei minimi quadrati può essere applicata utilizzando qualunque funzione, non necessariamente una retta. Ovviamente le formule che ne conseguono (per il calcolo dei parametri migliori, delle loro deviazioni standard, e delle fasce di confidenza) sono diverse, e generalmente più complicate di quelle della retta. Per alcuni tipi di funzioni tali formule non possono essere teoricamente ricavate, ed in tali casi il calcolo dei parametri migliori deve procedere con un metodo iterativo (cosiddetta "regressione non lineare"). I moderni programmi di calcolo o per la costruzione di diagrammi, permettono di eseguire la regressione lineare e non, di solito usando il metodo dei minimi quadrati, con qualunque tipo di funzione. Di seguito è riportato un esempio di foglio Excel che, in mancanza di un programma di elaborazione statistica dei dati, può comunque permettere facilmente il calcolo di tutte le grandezze richieste per il calcolo di a, b, delle loro deviazioni standard e delle fasce di confidenza della retta di calibrazione. 10 0.9 0.8 0.7 y0 0.6 y 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 x0 6 7 8 x Figura 1. Interpolazione dei punti con il metodo dei minimi quadrati, con evidenziate le fasce di confidenza della retta per un livello di confidenza del 95 %. SOMME xi xi2 yi yˆ i = b0 + b1 xi y i - yˆ i ( yi - yˆ i )2 0.0 0 2.1 1.52 0.58 0.3364 2.0 4 5.0 5.38 0.38 0.1444 4.0 16 9.0 9.24 0.24 0.0576 6.0 36 12.6 13.10 0.50 0.2500 8.0 64 17.3 16.96 0.34 0.1156 10.0 100 21.0 20.82 0.18 0.0324 12.0 144 24.7 24.68 0.02 0.0004 42.0 364 91.7 91.7 2.24 0.9368 sx sxx sy sy/x 11 CALIBRAZIONE E MISURA CON METODI STRUMENTALI Il segnale ottenuto applicando un metodo analitico strumentale (un'area in un picco cromatografico, un'assorbanza in una misura spettroscopica, una f.e.m. in una misura potenziometrica, ecc.) non è direttamente correlabile alla concentrazione o alla quantità di analita presente nel campione. Tale correlazione può essere ricavata solo mediante una calibrazione. La calibrazione consiste nella misura del segnale strumentale di soluzioni a titolo noto (o di soluzioni a cui sono state aggiunte quantità note) di analita. Di solito è sufficiente misurare il segnale strumentale in corrispondenza a 4-5 valori di concentrazione. A partire da questi punti sperimentali si ricava (di norma col metodo dei minimi quadrati) l'espressione della funzione algebrica che meglio correla segnale e concentrazione. Nei casi di interesse analitico più semplici e comuni tale funzione è una retta (y = a + bx), mentre in casi meno frequenti può essere più opportuno utilizzare una parabola (y = a + bx + cx2). Dall’interpolazione si ottengono i valori migliori di a e b (eventualmente anche c), le loro deviazioni standard, e le fasce di confidenza. Esistono due tipi di calibrazione: la calibrazione esterna, ed il metodo delle aggiunte standard. CALIBRAZIONE ESTERNA La calibrazione esterna (anche chiamata semplicemente "calibrazione") consiste nella misura del segnale strumentale di soluzioni a titolo noto di analita. L'aggettivo "esterna" si riferisce al fatto che le soluzioni di calibrazione sono diverse dalla soluzione incognita, in quanto contengono solo l’analita. Una volta ottenuta la retta (o in generale la funzione) di calibrazione, si procede a misurare il segnale strumentale y0 della soluzione incognita. E' necessario che tale segnale cada all'interno dell'intervallo indagato in fase di calibrazione, poiché la funzione di calibrazione è valida solo entro tale intervallo. Se, invece, y0 cade al di fuori, il campione incognito va opportunamente diluito/concentrato, oppure è necessario ottenere altri punti in fase di calibrazione. In linea di principio, la calibrazione può essere eseguita una sola volta, e la funzione così ottenuta può essere considerata valida per un numero indefinito di analisi di campioni diversi. In pratica, la calibrazione va eseguita periodicamente (di norma una o più volte alla settimana), poiché la lenta deriva delle proprietà strumentali (per esempio, il degrado della colonna in cromatografia, della sorgente in spettroscopia, dell'elettrodo in potenziometria, ecc.) comporta una lenta variazione dei parametri di calibrazione nel tempo. Solitamente si eseguono misure ripetute di y0, in modo da ottenere un valore medio y0 : m y0 = åy i =1 0 ,i m 12 dove m è il numero di ripetute misure di y0. La concentrazione x̂ della soluzione incognita può quindi essere ricavata a partire dall'equazione della retta di calibrazione, ed è pari a: xˆ = ( y0 - a ) b Si può dimostrare, ma lo omettiamo, che la deviazione standard su x̂ è: s ( xˆ ) = sy/x b × 1 1 + + m n ( y 0 - y )2 n b 2 × å ( xi - x ) 2 = sy / x b × 1 1 + + m n i =1 ( y 0 - y )2 2 n æ æ ö ç ç xi ÷ ç n 2 èå 2 b × ç å xi - i =1 ø n ç i =1 ç è ö ÷ ÷ ÷ ÷ ÷ ø METODO DELLE AGGIUNTE STANDARD In alcuni casi, soprattutto utilizzando determinate tecniche strumentali (come ad esempio l’assorbimento atomico), l’effetto matrice, cioè la composizione del campione, può condizionare i valori ottenuti falsando i risultati della calibrazione esterna. In particolare, la pendenza b della retta di calibrazione esterna può non essere valida per il campione incognito, e causare quindi un errore sistematico nell'analisi. Per risolvere il problema dell'effetto matrice si può utilizzare il metodo delle aggiunte standard (figura 2) al posto della calibrazione esterna. Opportune quantità note di analita vengono aggiunte direttamente al campione contenente la quantità incognita di analita, che viene determinata per estrapolazione come intercetta sull’asse x. xextr = a b Si può dimostrare che la deviazione standard sul valore estrapolato è pari a: y2 sy / x 1 s ( x extr ) = × + b n n b 2 × å ( xi - x ) 2 i =1 Si noti che tale formula è quasi identica a quella analoga che dà la deviazione standard sul valore interpolato dalla calibrazione esterna. L'unica differenza è che qui il termine 1 m è zero perché y vale zero per definizione in corrispondenza di xextr, e quindi è come se fosse esattamente noto, con m = ¥. 13 0.9 0.8 0.7 0.6 y 0.5 0.4 0.3 0.2 0.1 0.0 xextr -0.1 -2 -1 0 1 2 3 4 5 6 7 x Figura 2. Metodo delle aggiunte standard L'unico ma importante svantaggio del metodo delle aggiunte standard rispetto a quello della calibrazione esterna è di richiedere l'esecuzione delle aggiunte standard per ogni campione da analizzare. COME RIPORTARE I DATI DI UNA MISURA STRUMENTALE Devono essere riportati i valori a e b dei parametri di calibrazione (esterna o aggiunte standard) con il rispettivo intervallo di confidenza, le fasce di confidenza della retta di calibrazione, ed il valore della concentrazione incognita con il suo intervallo di confidenza, tenendo conto di eventuali diluizioni. Riassumendo:: b ± t × sb a ± t × sa y ± t × s retta xˆ ± t × s( xˆ ) 14 Tali dati devono essere riportati per ogni misura strumentale. TEST STATISTICI DA DATI OTTENUTI MEDIANTE RETTA DI CALIBRAZIONE I valori di x̂ , ma anche quelli di a e b, possono essere sottoposti a confronto statistico con valori di riferimento, oppure con valori ottenuti con altri metodi. Analogamente, i valori di sa, sb e s( x̂ ) possono essere confrontati con quelli ottenuti in altre condizioni. Le formule che si utilizzano per eseguire i testi statistici sono le medesime viste in precedenza, tenendo presente che il numero di dati (n, nelle formule dei test) è dato dal numero dei punti utilizzati per la calibrazione (ugualmente definito come n), non da quelli utilizzati per mediare il segnale strumentale durante la misura dell'incognito (m). Ciò in quanto è la qualità della calibrazione che influisce sull'incertezza sperimentale di x̂ . COEFFICIENTE DI CORRELAZIONE Il coefficiente di correlazione R misura il grado di correlazione tra le variabili x e y, nel senso che una variazione di x produce una variazione prevedibile di y. R varia tra ± 1. Quanto più R si avvicina ad 1 in valore assoluto tanto maggiore è la correlazione tra i punti sperimentali ottenuta con la funzione scelta (retta, parabola, ecc.), mentre quanto più R si avvicina a 0 tanto minore (e al limite nulla) è la correlazione. n R= n n i =1 i =1 n × å x i y i - å xi × å y i i =1 æ n 2 æ n ö çn xi - ç å xi ÷ ç å i =1 è i =1 ø è ( ) 2 ö æ n 2 æ n ö2 ö ÷ ×çn yi - ç å yi ÷ ÷ ÷ ç å è i =1 ø ÷ø ø è i =1 ( ) R2 viene invece definito come coefficiente di determinazione. R (oppure R2) viene comunemente utilizzato in chimica analitica per valutare la bontà di un’interpolazione, di solito rettilinea, e per giustificare la scelta della retta come funzione interpolante. Tuttavia tale pratica può portare a conclusioni errate. Infatti, non necessariamente un valore di R vicino a ± 1 indica che i punti sperimentali siano rappresentati in maniera ottimale da una retta. Ad esempio, il valore di R ottenuto con interpolazione rettilinea dei dati di figura 3 è prossimo ad 1, ma è visivamente evidente che i punti sperimentali sarebbero meglio interpolati da una parabola, data la "curvatura" dell’andamento dei punti sperimentali. La valutazione della bontà di un’interpolazione rettilinea, e l'eventuale scelta di un'altra funzione, non possono prescindere da un'analisi "visiva" dei punti sperimentali. 15 Figura 3. Esempio di interpolazione di punti sperimentali con una retta, e valore di R ottenuto. Bibliografia J.C. Miller, J. Miller, Statistics for Analytical Chemists, Ellis Horwood ed., 3a ed.,1993 L.R. Anderson, Practical Statistics for Analytical Chemists, van Nostrand ed., 1987 P.C. Meier, R.E. Zund, Statistical Methods in Analytical Chemistry, Wiley ed., 1993 T. Farrant, Practical Statistics for the Analytical Scientits. A Bench Guide, Royal Soc. Chem. ed., 1997 L.A. Currie, G. Svehla, Nomenclature for the Presentation of Results of Chemical Analysis, Pure and Appl. Chem., 66 (1994) 595 L.A. Currie, Nomenclature in evaluation of Analytical Methods Including Detection and Quantification Capabilities (IUPAC Recommendations 1995), Anal. Chim. Acta, 391 (1999) 105 Analytical Methods Commettee, Uses (Proper and Improper) of Correlation Coefficient, Analyst, 113 (1988) 1469 A Hubaux, G. Vos, Decision and Detection Limits for Linear Calibration Curves, Anal. Chem., 42 (1970) 849 J.N. Miller, Basic Statistical Methods for Analytical Chemistry. Part 2. Calibration and Regression Methods. A Review, Analyst, 116 (1991) 3 J.C. Miller, J.N. Miller, Basic Statistical Methods for Analytical Chemistry. Part 1. Statistics of Repeated Measurements. A Review, Analyst, 113 (1988) 1351 L.E. Vanatta, D.E. Coleman, Calculation of Detection Limits for a Single-Laboratory Ion Chromatographic Method to Determine Parts-per-trillion Ions in Ultrapure Water, J. Chrom. A, 770 (1997) 105 W. Funk, V. Damman, G. Donnevert, Quality Assurance in Analytical Chemistry, 2nd ed. WileyVCH, 2007 16