Terza parte del corso: ELEMENTI DI STATISTICA 1 Elementi di statistica Introduzione Cosa centra la statistica con la chimica analitica? La risposta a questa domanda sta in una semplice constatazione sperimentale. Si supponga di eseguire un metodo analitico, per esempio una titolazione (ma può essere un qualsiasi metodo), dal quale si ricava la concentrazione iniziale (Ci,A) dell’analita A. Si esegue una titolazione, e si ottiene per esempio: Ci,A = 0.1017 M Si supponga, ora, di ripetere l’analisi pari pari (stesso campione, stessa titolazione, stesso operatore). Salvo casi estremamente rari, si otterrà un valore differente, per esempio: Ci,A = 0.1033 M 2 Elementi di statistica Introduzione Se poi si ripetesse ancora altre volte l’analisi, si otterrebbero sempre valori differenti. Per esempio: prima analisi: Ci,A = 0.1017 M seconda analisi: Ci,A = 0.1033 M terza analisi: Ci,A = 0.1022 M quarta analisi: Ci,A = 0.1018 M quinta analisi: Ci,A = 0.1024 M Sorgono dunque spontanee tre domande: 1) Perché i valori che si ottengono sono sempre diversi? 2) Quale valore va tenuto, cioè, quale valore rappresenta il valore vero? 3) Una volta scelto il valore da tenere, quanto possiamo fidarci, cioè, quanto possiamo essere sicuri che è il valore vero? 3 Elementi di statistica Introduzione Risposta alla prima domanda: 1) Perché i valori che si ottengono sono sempre diversi? Indipendentemente da cosa si analizza e dal metodo usato, i valori che si ottengono ripetendo una stessa analisi sono sempre diversi tra loro, a causa di errori che inevitabilmente sono presenti durante l’esecuzione di un qualsiasi metodo Gli errori che si commettono nell’esecuzione di un metodo sono di tre tipi: 1) errori grossolani 2) errori sistematici 3) errori casuali 4 Elementi di statistica Errori dei metodi di analisi 1) errori grossolani Gli errori grossolani sono errori dovuti ad inesperienza o a scarsa cura da parte dell’operatore. In una titolazione, ad es., errori grossolani possono essere: – sbagliare un calcolo di concentrazione. – trascrivere la massa pesata con la bilancia analitica, od il volume erogato con la buretta, in maniera errata. – rovesciare un po’ di campione. Gli errori grossolani sono quindi errori evitabilissimi. Le altre due categorie di errori, invece, non possono in genere essere evitati: 5 Elementi di statistica Errori dei metodi di analisi 2) errori sistematici Gli errori sistematici sono errori che, ripetendo la misura, si ripresentano costanti, stessa entità e stesso “segno” (cioè sempre in eccesso o sempre in difetto). In una titolazione, ad es., errori sistematici possono essere: – bilancia analitica, o matraccio, o buretta, o pipetta, difettosa. se ad esempio la bilancia analitica misura costantemente una massa che è l’1% maggiore di quella vera, allora anche Ci,t risulta l’1% maggiore di quella vera, e quindi anche Ci,A subisce lo stesso errore (sistematico in eccesso). – standard primario impuro. Ci,t risulta minore di quella vera, e quindi anche Ci,A subisce lo stesso errore (sistematico in difetto). 6 Elementi di statistica Errori dei metodi di analisi In una titolazione, ad es., errori sistematici possono essere: – temperatura del laboratorio = 25 °C La vetreria ha un volume che è quello dichiarato se T = 20 °C. A temperature superiori la vetreria si dilata e quindi il volume effettivo diventa maggiore di quello dichiarato. Di conseguenza, diminuisce Ci,t (poiché a parità di massa pesata di t aumenta V del matraccio), ed aumenta Vt(PE) (poiché aumenta V della buretta). L'effetto su Ci,A è un errore (sistematico), che può essere in difetto o in eccesso a seconda di quale vetreria si è dilatata di più. – eccetera... 7 Elementi di statistica Errori dei metodi di analisi 3) errori casuali (o accidentali) Gli errori casuali sono errori che, ripetendo la misura, si presentano ogni volta con entità e segno differente. Quindi, talvolta l’errore è maggiore e talvolta minore, talvolta è in eccesso e talvolta in difetto. In una titolazione, ad esempio, errori casuali possono essere: – temperatura del laboratorio variabile Se la temperatura cambia tra una titolazione e la successiva, ad esempio varia tra 18 °C e 22 °C, l’errore sul volume della vetreria non è costante e non ha lo stesso segno, bensì varia. Quindi anche l'errore su Ci,A non è costante ma varia tra titolazioni successive. 8 Elementi di statistica Errori dei metodi di analisi In una titolazione, ad esempio, errori casuali possono essere: – eccetera Notiamo che sono gli errori casuali a dare origine alla variabilità dei risultati illustrata nella diapositiva 3. Gli errori sistematici fanno sbagliare il risultato finale ma non generano variabilità. Gli errori casuali possono avere la stessa origine di quelli sistematici. Se l’origine dell'errore è sempre costante (ad esempio T = costante e diversa da 20 °C), l’errore è sistematico, se invece varia (ad esempio T variabile), l’errore è casuale. 9 Elementi di statistica Errori dei metodi di analisi Gli errori casuali possono però avere anche un'altra origine: essere prodotti dall'incertezza degli strumenti utilizzati: ogni strumento di misura possiede una propria incertezza (o risoluzione) Ad esempio, usando un tipico righello (scala numerata con indicazione dei mm) non si è in grado di leggere lunghezze minori di 1 mm, o meglio, di 0.5 mm (la "mezza tacca"). Facendo una misura con un righello, quindi, non si possono apprezzare differenze, tra lunghezza e lunghezza, inferiori a 0.5 mm. Ad esempio, se per un certo oggetto misuriamo una lunghezza di 8.50 cm, in realtà potrebbe essere 8.52, 8.47, 8.49, ecc. Si dice che il righello ha un'incertezza di 0.5 mm 10 Elementi di statistica Errori dei metodi di analisi Lo stesso ragionamento si può fare per gli strumenti di misura utilizzati nelle analisi: la bilancia, la buretta, la pipetta, il matraccio (e tutti gli strumenti usati nei metodi chimico-strumentali). Una bilancia analitica che pesa il decimo di mg (4 cifre dopo la virgola) ha un'incertezza di 0.0001 g Una buretta con tacche ogni 0.1 mL ha un'incertezza di 0.05 mL Pipette e matracci hanno un'incertezza volumetrica di circa lo 0.1% del volume misurato. Ad esempio, una pipetta da 20 mL presenta un'incertezza di 0.02 mL (il valore esatto dipende da caso a caso. Esiste vetreria di “classe A” e di “classe B”, la prima costa di più ma ha un’incertezza più bassa). Ad esempio, quindi, il volume erogato da una pipetta da 20 mL può essere in realtà uno qualsiasi compreso tra 19.98 e 20.02 mL: in una misura il volume potrebbe essere per es. 20.01, in 11 un'altra misura 19.985, ecc. Elementi di statistica Errori dei metodi di analisi Ciò significa che, ripetendo l'erogazione del volume mediante pipetta (ed in genere, usando ogni strumento, o vetreria, o bilancia), si fa un errore casuale, dato che l'entità ed il segno variano in maniera non prevedibile tra una misura e la successiva. Di fatto, ogni metodo analitico è sempre affetto da numerosi errori sistematici e casuali (“la perfezione non è di questo mondo”). Per ridurre questi errori è necessario “spendere di più”! Ad esempio, per ridurre l'errore casuale (incertezza) associato alla bilancia analitica, si può comprare una bilancia che legge il millesimo di mg (6 cifre dopo la virgola) al posto di quelle più usate che leggono il decimo (o il centesimo). Però tale bilancia costa di più. 12 Elementi di statistica Errori dei metodi di analisi Di norma, si spende di più per ridurre gli errori solo se la maggior spesa è motivata. cioè è sbagliato dire a priori: si devono ridurre gli errori a qualsiasi costo. Supponiamo ad esempio di dover determinare il contenuto di paracetamolo in uno sciroppo, e di poter scegliere tra due metodi, metodo "A" e metodo "B": Il metodo "A" usa strumentazione "normale" e l'analisi costa 100 €; gli errori del metodo fanno sì che l'incertezza sul dato finale sia del 4 %. Quindi, se il metodo restituisce un contenuto pari a 125 mg/5 mL, in realtà il valore vero potrebbe essere un valore qualsiasi compreso tra 120 e 130 mg/5 mL 13 Elementi di statistica Errori dei metodi di analisi Il metodo "B" usa strumentazione più costosa e l'analisi costa 300 €; gli errori del metodo fanno sì che l'incertezza sul dato finale sia dello 0.4 %. Quindi, se il metodo restituisce un contenuto pari a 125 mg/5 mL, in realtà il valore vero potrebbe essere un valore qualsiasi compreso tra 124.5 e 125.5 mg/5 mL Poiché il metodo "B" presenta errori 10 volte inferiori del metodo "A", a fronte di un costo solo 3 volte superiore, si potrebbe pensare che il metodo "B" sia preferibile. In realtà, non è un grosso problema se si sbaglia il contenuto di paracetamolo del 4 %: ad esempio, se 5 mL di sciroppo contenessero 120 anziché 125 mg, l'azione farmacologica sarebbe ugualmente garantita; se ne contenessero 130 mg, non ci sarebbero comunque fenomeni di tossicità. 14 Elementi di statistica Errori dei metodi di analisi Il metodo "B", pur migliore, non è necessario per questa analisi. Per l'uso che si deve fare del risultato ottenuto, il metodo "A" ha errori sufficientemente contenuti, ed è preferibile rispetto al metodo "B" poiché costa di meno. Un eventuale metodo "C" la cui analisi costa 1 €, ma i cui errori sono del 40 %, non sarebbe adatto. Infatti, se il metodo restituisce un contenuto pari a 125 mg/5 mL, in realtà il valore vero potrebbe essere un valore qualsiasi tra 75 e 175 mg/5 mL, cioè sarebbe troppo variabile per poter garantire l'azione farmacologica o l'assenza di effetti tossici. In questo caso ha quindi un senso spendere di più per ridurre gli errori. 15 Elementi di statistica Errori dei metodi di analisi L'entità degli errori casuali e sistematici di un certo metodo di analisi ne definisce due caratteristiche: Se un metodo presenta errori casuali di entità molto modesta, si dice che è un metodo preciso. La precisione in un metodo indica la presenza di errori casuali molto ridotti. Viceversa, se un metodo presenta elevati errori casuali è un metodo impreciso. Se un metodo presenta errori sistematici di entità molto modesta, si dice che è un metodo esatto. La esattezza in un metodo indica la presenza di errori sistematici molto ridotti. Viceversa, se un metodo presenta elevati errori sistematici è un metodo inesatto. 16 Elementi di statistica Errori dei metodi di analisi Se un certo metodo è esatto e preciso, gli errori casuali e sistematici sono molto ridotti, e quindi il risultato dell’analisi è un valore molto vicino al valore vero. Ad esempio, se l'analisi di un certo analita restituisce una concentrazione pari a 0.04353 M, tale valore sarà molto prossimo al valore vero se il metodo è esatto e preciso. Un risultato molto vicino al valore vero è un risultato "accurato". La accuratezza non è di un metodo d'analisi ma di un risultato dell'analisi, ed indica la sua prossimità col valore vero. In italiano, i termini "preciso", "esatto", "accurato", sono quasi dei sinonimi. In chimica analitica hanno invece tre significati diversi. 17 Elementi di statistica Errori dei metodi di analisi I concetti fin qui appresi possono essere meglio compresi grazie alla similitudine col "tiro a segno“. Il tiro a segno può essere visto come un metodo di analisi, nel quale ci sono degli "strumenti" (il fucile, il mirino, il bersaglio), dei "reagenti" (i proiettili), dei risultati (i colpi che arrivano sul bersaglio), e l'analista (il tiratore), che deve fare delle operazioni (caricare il fucile coi proiettili, appoggiare il calcio del fucile sulla spalla, prendere la mira al centro del bersaglio usando il mirino, premere il grilletto). 18 Elementi di statistica Errori dei metodi di analisi Qui il “metodo” è affetto da errori casuali Possibili errori casuali: miopia mano tremante folate di vento cartucce difettose 19 Elementi di statistica Errori dei metodi di analisi Qui il “metodo” è affetto da errori sistematici Possibili errori sistematici: mirino male allineato errato uso del mirino canna fucile storta vento (sempre costante) 20 Elementi di statistica Errori dei metodi di analisi errori casuali né errori casuali né errori sistematici errori sistematici errori sia casuali 21 che sistematici Elementi di statistica Errori dei metodi di analisi metodo esatto ma impreciso misure accurate o inaccurate metodo preciso ma inesatto misure inaccurate metodo esatto e preciso misure accurate metodo inesatto e impreciso misure inaccurate 22 Elementi di statistica Trattamento degli errori sistematici La similitudine del tiro a segno suggerisce alcune cose che poi possono essere applicate anche ai metodi di analisi chimica. Innanzitutto: se vi sono errori sistematici, l’operatore se ne potrebbe accorgere guardando il bersaglio! errori sistematici Lo stesso capita nei metodi di analisi: la presenza di errori sistematici può essere evidenziata analizzando campioni a contenuto noto di analita. 23 Elementi di statistica Trattamento degli errori sistematici Per verificare che un certo metodo di analisi sia privo di errori sistematici, si deve quindi fare l’analisi di campioni a contenuto noto e certificato dell’analita in esame. Una volta appurato che vi sono errori sistematici, è necessario identificarne la causa per eliminarli. errori sistematici Nel caso del tiro a segno, ciò richiede: – l’identificazione di tutte le possibili cause (mirino male allineato, errato uso del mirino, canna fucile storta, vento). 24 Elementi di statistica Trattamento degli errori sistematici – il controllo del buon funzionamento di ognuna delle parti strumentali che possono essere coinvolte. Per esempio: - smontare il mirino e controllarlo - leggere sulle istruzioni se si sta usando bene il mirino - smontare la canna del fucile e controllarla - controllare dove soffia il vento La stessa strategia va impostata coi metodi di analisi chimica: se è stata appurata la presenza di errori sistematici, si devono individuare e controllare le possibili cause. Ad esempio, uno dei controlli che si possono fare è se burette, pipette e matracci non sono difettosi, cioè se hanno un volume uguale a quello dichiarato. Tali operazioni di controllo si chiamano tarature. E gli errori casuali? 25 Elementi di statistica Trattamento degli errori casuali La similitudine del tiro a segno suggerisce alcune cose che poi possono essere applicate anche ai metodi di analisi chimica. Se vi sono solo errori casuali e si facesse una media dei tiri (un "baricentro"), questa tende a cadere sul centro del bersaglio. media dei tiri errori casuali Dimostriamo ora che lo stesso capita nei metodi di analisi: in presenza di soli errori casuali, la media di misure ripetute tende a cadere sul valore vero. 26 Elementi di statistica Trattamento degli errori casuali Sia m il valore vero (per es. la concentrazione iniziale di un analita), ed xi il valore ottenuto dalla misura sperimentale i-esima. Se vi sono solo errori casuali, per ogni misura sperimentale che si esegue si ha: xi = m + ei dove ei è la sommatoria di tutti gli errori casuali commessi nella generica misura i-esima. Se delle n misure ottenute si fa una media x , si ricava: x1 x2 ... xn x n m e1 m e 2 ... m e n x n 27 Elementi di statistica Trattamento degli errori casuali nm e 1 e 2 ... e n x n e 1 e 2 ... e n xm n Come si è detto, ogni errore casuale ei, e quindi la loro somma ei, ha entità e segno diversi quando le misure vengono ripetute. Quindi, i termini della somma ( e1 e2 ... en ) tendono ad elidersi tra loro, cioè la somma tende a zero al crescere di n Si può scrivere: x m se n La media di n misure ripetute tende al valore vero se n → ∞ 28 Elementi di statistica Trattamento degli errori casuali Se il metodo è rapido ed economico (per es. le titolazioni), conviene sempre eseguire più misure ripetute dello stesso campione, in modo da ottenere un valore medio che è la stima migliore del valore vero. 1 n x xi n i 1 Ciò non è vero se ci sono errori sistematici: In tal caso, infatti, il termine e1 e2 ... en resta costante ripetendo la misura, per cui esso non si annulla nemmeno per n→∞ Dunque, x m con n solo se non ci sono errori sistematici, dunque solo per metodi esatti. 29 Elementi di statistica Trattamento degli errori casuali Per un metodo analitico: PRIMA si annullano gli errori sistematici con le varie operazioni di controllo viste prima. POI si può utilizzare il metodo, eseguendo delle misure ripetute per calcolare una media, che “annulla” gli errori casuali. Abbiamo quindi risposto alla seconda domanda posta nella diapositiva 3: “quale valore tenere, tra quelli ottenuti da misure ripetute?” si tiene la media Adesso dobbiamo rispondere alla terza domanda posta nella stessa diapositiva: “quanto possiamo fidarci che la media di misure ripetute è il valore vero?” x m con n Facendo un numero finito di misure ripetute, la loro media non è (salvo casi fortuiti) uguale al 30 valore vero. Elementi di statistica La stima del valore vero A questo punto "entra in campo" la statistica, che è in grado di prevedere quale differenza può esserci tra valore medio e valore vero, e con quale probabilità. La statistica è una disciplina che permette di fare certe affermazioni, dando la probabilità che siano verificate. Ad esempio, tirando un dado a sei facce, la statistica dice: - uscirà un numero maggiore o uguale a 4 con una probabilità del 50%; - uscirà un numero minore di 6 con una probabilità dell'83.3%; - ecc. Affinché la statistica possa fare delle affermazioni, è necessario conoscere qual è la probabilità che ha un certo evento di accadere, o meglio, è necessario conoscere qual è la distribuzione delle probabilità degli eventi. 31 Elementi di statistica La stima del valore vero La distribuzione delle probabilità rappresenta il modo con cui si distribuiscono degli eventi (dei risultati). Ad esempio, i risultati del tiro di un dado a sei facce si distribuiscono secondo una distribuzione delle probabilità d(P) di tipo rettangolare d(P) 0 1 2 3 4 5 6 7 8 evento: risultato del tiro del dado 32 Elementi di statistica La stima del valore vero d(P) d(P) 16.7% 100% 0 1 2 3 4 5 6 7 8 tiro del dado 50% 0 1 2 3 4 5 6 7 8 L'area sottesa all'intera curva di distribuzione (in questo caso il rettangolo) restituisce la probabilità cumulativa che avvengano tutti gli eventi. Tale probabilità è per definizione il 100% Invece l'area sottesa ad un sottogruppo di eventi restituisce la probabilità che avvengano quegli eventi. Ad esempio, tirando un dado a sei facce, uscirà un numero maggiore o uguale a 4 con una probabilità del 50% Uscirà il valore 2 con una probabilità del 16.7% 33 Elementi di statistica La stima del valore vero Qual è la distribuzione delle probabilità per le misure sperimentali chimico-analitiche? Nella maggior parte dei casi è una distribuzione gaussiana, detta anche distribuzione normale, che ha il seguente aspetto ("a campana"): x rappresenta una serie di risultati sperimentali, per es. concentrazioni, che in questo caso sono centrati a 0.11 M (ma ovviamente l'ascissa del centro dipende da caso a caso). Il valore centrale, se vi sono solo errori casuali, è il valore vero. d(P) 0.00 0.05 0.10 x 0.15 0.20 34 Elementi di statistica La stima del valore vero Anche per la distribuzione gaussiana vale quanto detto per la distribuzione rettangolare (e per tutte le distribuzioni di probabilità): l’area sottesa all'intera curva di distribuzione restituisce la probabilità cumulativa che avvengano tutti gli eventi (100%). d(P) d(P) 100% 0.00 0.05 0.10 x 50% 0.15 0.20 0.00 0.05 0.10 0.15 0.20 x Invece l'area sottesa ad un gruppo di eventi restituisce la probabilità che avvengano quegli eventi. Ad esempio, la probabilità di ottenere dei valori maggiori del valore vero (in questo caso 0.11) è del 50% 35 Elementi di statistica La stima del valore vero Le caratteristiche di una distribuzione gaussiana sono: d(P) 0.00 0.05 0.10 0.15 0.20 x 1) c'è un andamento a massimo, cioè i valori di xi prossimi al valore vero (0.11 nell'esempio) possono essere ottenuti con probabilità massima. Invece, nella distribuzione rettangolare, non c'è un valore più probabile di altri. 2) la distribuzione è simmetrica, cioè è equamente probabile ottenere valori maggiori e valori minori del valore vero Anche la distribuzione rettangolare è simmetrica 36 Elementi di statistica La stima del valore vero Le caratteristiche di una distribuzione gaussiana sono: d(P) 0.00 0.05 0.10 0.15 0.20 x 3) la probabilità di ottenere un certo valore di xi cala all'aumentare della distanza dal valore vero (centrale). Per quanto piccola, però, la probabilità non scende mai a zero. Invece, nella distribuzione rettangolare, la probabilità è costante entro l'intervallo definito dal rettangolo, e scende a zero al di fuori di esso. 4) la distribuzione gaussiana è caratterizzata da una certa larghezza. Poiché l'area complessiva è sempre costante (100%), se la distribuzione è più larga deve essere più bassa. 37 Elementi di statistica La stima del valore vero d(P) 0.00 d(P) 0.05 0.10 0.15 0.20 x distribuzione gaussiana "larga" 0.00 0.05 0.10 0.15 0.20 x distribuzione gaussiana "stretta" Nella distribuzione larga, il valore vero ed i valori prossimi a quello vero sono ottenuti con una probabilità inferiore che non nella distribuzione stretta. Nella distribuzione larga c'è quindi una probabilità maggiore che si ottengano dei valori lontani rispetto al valore vero. 38 Elementi di statistica La stima del valore vero d(P) 0.00 d(P) 0.05 0.10 0.15 0.20 x distribuzione gaussiana "larga": metodo con elevati errori casuali 0.00 0.05 0.10 0.15 0.20 x distribuzione gaussiana "stretta": metodo con ridotti errori casuali La larghezza della distribuzione gaussiana è correlata all'entità degli errori casuali: maggiori sono gli errori casuali, più diviene probabile ottenere dei risultati lontani dal valore vero (valore centrale), e quindi più è larga la distribuzione. Minori sono gli errori casuali, più è 39 stretta la distribuzione. Elementi di statistica La stima del valore vero distribuzione gaussiana "larga": metodo con elevati errori casuali distribuzione gaussiana "stretta": metodo con ridotti errori casuali La larghezza della distribuzione gaussiana è correlata all'entità degli errori casuali: maggiori sono gli errori casuali, più diviene probabile ottenere dei risultati lontani dal valore vero (valore centrale), e quindi più è larga la distribuzione. Minori sono gli errori casuali, più è 40 stretta la distribuzione. Elementi di statistica La stima del valore vero La larghezza della distribuzione gaussiana è indicata col simbolo s, ed è chiamata deviazione standard, oppure scarto tipo. (s misura la metà larghezza ad un’altezza circa del 60%) s d(P) 0.00 0.05 0.10 x 0.15 0.20 41