Breve compendio sul trattamento dei dati sperimentali Prof. Ardizzone, Dr. Cappelletti, Dr. Ceotto Laboratorio di Chimica Fisica I 1 Introduzione Uno degli sbagli più comuni che si incontrano correggendo le relazioni di Laboratorio di Chimica Fisica I riguarda il numero di cifre signicative con cui sono riportati dati sperimentali e risultati. Una concentrazione del tipo 1, 705863457 × 10−3 M (1) indica una mancanza di conoscenza della precisione degli strumenti utilizzati. Infatti se la calcolatrice è dotata di dieci cifre signicative, gli strumenti del laboratorio non lo sono. Poiché i risultati riportati devono essere consistenti con la precisione degli strumenti usati, quello dell'Eq.(1) è un risultato scorretto! Infatti non è nelle possibilità dello studente poter aermare che la concentrazione deve avere come nona cifra dopo la virgola il 7 e non un altro numero. Al ne di evitare tali imprecisioni e di sensibilizzare lo studente riguardo questo tema vengono scritti questi appunti in cui si vogliono richiamare i concetti fondamentali e orire una guida al trattamento dei dati prodotti durante l'attività di laboratorio. Le cifre signicative La consistenza del trattamento di una serie di misure e di calcoli fatti su queste misure viene data in termini di cifre signicative. Se uno strumento può orire 4 cifre signicative, l'elaborazione dei dati ottenuti non può portare ad un risultato che abbia più cifre signicative. Perciò, è necessario innanzitutto che lo studente sia familiare con la valutazione delle cifre signicative e con un eventuale arrotondamento. Ad esempio, il numero 13349, 000 primi a 3 ha 8 13349 ha 5 cifre signicative, mentre il numero cifre signicative perchè sono stato in grado di aermare che i decimali dopo la virgola sono zero. Se volessi arrotondare questo numero 2 cifre signicative, allora avrei 13000. In questo caso gli zeri non rappresentano delle cifre signicative. Se invece avessi scritto eettivamente le cifre dopo il 3 13000, sono degli zeri. Infatti tive. Quante sono le cifre signicative del numero 1, 23 × 10−3 allora avrei aermato che 13000, 0.00123? è chiaro che le cifre signicative sono 3. ha 5 cifre signica- Se lo scriviamo come Infatti non si considerano cifre signicative gli zeri che precedono il primo digit non uguale a zero. In questo 2 ultimo esempio la cifra più signicativa è 1, mentre la meno signicativa è 3 e il numero totale di cifre signicative si denisce come quello compreso tra la più e la meno signicativa entrambi incluse. Una volta determinato il numero di cifre signicative da considerare durante l'esperimento, è necessario saper arrotondare le cifre fornite dalla calcolatrice. La regola è che i numeri 0, 1, 2, 3, 4 fanno arro- tondare la cifre che li precede per difetto, gli altri numeri (5, 6, 7, 8, 9) per eccesso. In questo modo se volessimo arrotondare 13, 35 13, 349 a 4 cifre signicative, avremmo (analogamente otterremmo 13,35 anche a partire da volessimo 3 cifre signicative allora così come 13, 3500 diventerebbero 13, 349 diventerebbe 13, 35001). 13, 3, Mentre se mentre 13, 35001 13, 4. L'imprescindibilità degli errori e la stima di condenza Come introduzione al calcolo dell'errore su una misura, adottiamo un approccio intuitivo. Fermo restando l'assioma del chimico sperimentale secondo il quale dietro una misura c'è sempre un errore si tratta di saper valutare l'entità di questi errori. In ambito scientico per errore, non si intende sbaglio o svista dello sperimentatore. Questo tipo di errore (sistematico) molto spesso pregiudica l'esperimento stesso. Per errore (statistico) si intende invece la mancanza di una precisione assoluta, ovvero l'impossibilità di riottenere lo stesso risultato se vengono eettuate più misure della stessa quantità. Questo è dovuto alle ut- tuazioni statistiche del mondo che ci circonda e dello sperimentatore stesso e sono quindi imprescindibili. Da qui l'assioma di cui sopra. Tuttavia mediante una trattazione statistica è possibile conoscere il range di validità dei propri risultati, ovvero ssare una barra di errore. Ad esempio, si ottengono un gruppo di valori dopo una serie di misure x1 , x2 , ..., xN . Quale valore devo prendere? In altre parole, quale potrebbe essere il valore più ricorrente e quindi più rappresentativo? Immaginiamo che questo valore sia vogliamo trovare una formula di valore y y in funzione dei dati x1 , x2 , ..., xN . y e Il migliore è quello che minimizza la somma degli scarti, dove per scarto si intende il quadrato della dierenza tra y e le singole misure. Quindi scarti = N X i=1 (xi − y)2 y è tale che la somma (2) 3 b) a) X vero X vero d) c) X vero X vero Figure 1: Accuratezza e precisione; a) denota una serie di misure precise ed accurate; b) precise ma non accurate; c) accurate ma non precise; d) ne accurate ne precise. è minima, ovvero tale che N N N X X X d(scarto) = −2 (xi − y) = −2 xi + 2y =0 dy i=1 i=1 i=1 Da questa relazione si ricava la media aritmetica 1 y= N N X xi ≡ x (3) i=1 Una volta trovato il valore più rappresentativo delle mie misure, per poter arginare l'assioma che condanna questa stima ad avere un errore statistico, si cerca di stimare un intervallo di condenza. In g. 1 sono riportate quattro misure della stessa quantità (il cui valore esatto è Xvero ) eettuate da 4 strumenti diversi. La frequenza con cui si misura un dato valore è rappresentata simbolicamente dal numero di palline in colonna. Uno strumento è preciso se la serie di misure hanno valori pressoché identici ed è accurato se questi valori sono vicini al valore vero. Alla luce di queste denizioni, lo strumento a) è il migliore perchè preciso ed accurato allo stesso tempo. Invece, lo strumento b) risulta essere preciso ma non accurato. Viceversa, lo strumento c) è accurato ma non preciso mentre lo strumento d) è pessimo, perchè non è nè accurato nè preciso. Queste denizioni e le distribuzioni di varie misure rappresentate in g. 1 servono per poter giudicare criticamente la bontà delle misure eettuate in laboratorio. Tuttavia queste considerazioni sono ancora di tipo qualitativo. La grandezza sica che denota quantitativamente la precisione (non l'accuratezza) delle misure eet- 4 tuate è la deviazione standard. Naturalmente questa grandezza deve in qualche modo tenere in conto del contributo di ogni scarto e stimare lo scarto che mi aspetterei sul valor medio. Essa è denita nel seguente modo σ= v u u u t 1 N N X (xi − x)2 (4) i=1 e si vede che altro non è che la radice dello scarto medio. In realtà nell' Eq.(4), si dovrebbe dividere per N −1 perchè un vincolo è già stato imposto nel calcolo del valor medio. Si può dire che quando le misure sono numerose le due formule sono equivalenti. Sostituendo l'espressione del valor medio di Eq.(3), si trova che la deviazione standard può essere anche scritta direttamente in termini dei valori misurati 1 σ= N v u u N X u tN x2i − i=1 N X 2 xi (5) i=1 Poiché le uttuazioni statistiche che aigono le misure in questione sono di origine casuale (ovvero descritte da una distribuzione gaussiana) la probabilità che la misura N+1-esima cada nell'intervallo delimitato dai valori 68,27%. Se l'intervallo di condenza è invece di sale al 95,45%, mentre tra x + 3σ e x − 3σ x + 2σ e x+σ x − 2σ , è del 99.73%. e x−σ è del la probabilità E' prassi sperimen- tale considerare la prima opzione. Quindi alla ne di queste misure il valore da riportare nella relazione è x±σ (6) con la condenza probabilistica riportata sopra. Esempio di propagazione dell'errore Al ne di rendere la teoria della propagazione dell'errore statistico più intuitiva, pensiamo di inserire un errore ad una misura ed estrapolare algebricamente un'espressione per l'errore della grandezza calcolata. Ad esempio, nel calcolo della concentrazione di una miscela C= sono necessarie il numero di moli n n V e la misura del volume (7) V. Il numero di moli si ottiene, ad esempio, pesando un campione in polvere e dividendo per il 5 peso molecolare. Quest'ultimo e' dato con un numero di cifre signicative ben superiori a quelle della bilancia e quindi si può tranquillamente considerare non aetto da errore. Poiché ogni bilancia ha un'incertezza associata (vedi il libretto delle istruzioni), il numero di moli avrà anch'esso una incertezza, che chiamiamo ∆n. Questa incertezza si ripercuoterà anche sulla concentrazione e quindi l'Eq.(7) diventerà C ± ∆C = n ± ∆n V (8) e di conseguenza si può facilmente desumere l'errore associato alla concentrazione causato da quello delle moli ∆C = ∆n . V (9) Sicuramente ci sarà anche un errore sulla misurazione del volume ∆V , che viene eettuato ad occhio osservando la tacca di un matraccio. Questo errore è indicato nel matraccio stesso. In questo caso l'Eq.(8 ) diventa C ± ∆C = n V ± ∆V che è di più dicile interpretazione. Chiaramente (10) ∆C non è uguale a n/∆V . E' necessario fare qualche passaggio e considerazione per estrapolare il contributo dell'errore proveniente dall'incertezza sul volume. Raccogliendo al denominatore il volume C ± ∆C = e considerando che se x 1, n V 1± ∆V V (11) 1 ≈1−x 1+x allora l' Eq.(11) diventa n ∆V C ± ∆C = 1∓ V V poichè sappiamo che ∆V V del volume del matraccio). ! (12) (l'incertezza sulla tacca è di gran lunga minore In conclusione l'errore sulla concentrazione dovuta all'incertezza sul volume è ∆C = n∆V V2 (13) Nella pratica questi errori si possono sommare così come compensare (nei casi più 6 C C+∆C C n n+∆n n Figure 2: Approssimazione del valore di una funzione C(n) per espansione di Taylor al primo ordine applicato ad un punto di valore noto. fortunati). Tuttavia, il chimico sperimentale considera sempre la situazione più pessimistica e quindi il valore del'errore complessivo si ottiene sommando il valore assoluto di ciascuna fonte di errore ∆C = ∆n V + n∆V V2 (14) Formula generale per la propagazione dell'errore Quando si opera una misura aetta da errore, si ottiene una grandezza più o meno vicino a quella vera. concentrazione vera è C (n), Ad esempio in g. assumiamo che quello misurato sia concentrazione di conseguenza ottenuta sia Assumendo che il set di misure sia preciso, ovvero che usando n n + ∆n e la C (n) ∆n e C (n + ∆n). sia piccolo, allora si C (n + ∆n) nei pressi di un valore noto C (n) come punto di applicazione di un'espansione in serie di Taylor C (n + ∆n) ≈ C (n) + dC (n + ∆n − n) + ... dn dove i puntini denotano termini di ordine più piccolo in tità e correzioni più piccole rispetto a quella riportata. tra e la C (n + ∆n). Il problema è quello di saper stimare l'errore che c'è tra può valutare il valore della funzione n (2) il valore vero è C (n + ∆n) e C (n), che abbiamo chiamato ∆C , ∆C = C (n + ∆n) − C (n) = ∆n, (15) e quindi quan- Quindi la deviazione è dC ∆n dn e sapendo che la derivata della concentrazione rispetto il numero di moli è (16) 1/V , 7 y y=mx+q yi q scarto m 0 xi x Figure 3: Regressione lineare di due set distinti di punti. Il quadrato della distanza di ciascun punto dalla retta stimata è lo scarto di quel punto. allora riotteniamo l'Eq.(9). Lo stesso vale per il caso del volume, dove la derivata della concentrazione rispetto al volume è n dC =− 2 dV V (17) e considerando il valore assoluto (gli errori si sommano sempre!) e moltiplicandolo per ∆V si riottiene l'Eq.(13). Con questa procedura è possibile calcolare la propagazione dell'errore di una certa misura su un'altra grandezza che dipende da questa misura. Nel caso in cui la dipendenza sia tale che la derivata prima è nulla, si va ad ordini di derivazione successivi. Il metodo dei minimi quadrati per la regressione lineare In quasi tutte le esperienze che saranno arontate, esistono delle dipendenze lineari da estrapolare. Si misurano due set di punti mostrati come cerchietti e quadratini in g.(3). Si vuole conoscere quale dipendenza lineare ci sia tra questi punti, ovvero i coecienti m, q della retta y = mx + q più rappresentativa di uno di questi set di valori. Più rappresentativa vuol dire quella retta i cui valori di e di q m sono tali da minimizzare la somma degli scarti di ciascun punto. Questa somma è scarti = N X [yi − (mxi + q)]2 (18) i=1 e si vede come in questa denizione ciascuna misura abbia lo stesso peso statistico. In g.(3) è rappresentato il segmento il cui quadrato è lo scarto per la coppia 8 (xi , yi ). Ora la somma degli scarti di Eq.(18) è una funzione di meq e i valori di questi due parametri che minimizzano suddetta somma sono quelli per cui le rispettive derivate sono nulle. Basterà quindi porre ∂scarti = 0 ∂m ∂scarti = 0 ∂q per avere due equazioni a due variabili m (19) (20) q. e Risolvendo rispetto a m e a q, le Eq.ni (19 e 20) diventano m = q = P P P i xi i yi − N i xi yi P P ( i xi )2 − N i x2i P P P 2P i xi i xi yi − i xi i yi P P 2 2 ( i xi ) − N i xi (21) (22) che sono la soluzione della regressione lineare in funzione del set di punti dati. Durante le vostre esperienze sarà il computer a calcolare sia questi valori che il coeciente (adimensionale) di correlazione R tra le misure eettuate e la retta estrapolata. Questo coeciente è compreso tra -1 e +1. E' positivo se entrambe le variabili crescono (pendenza positiva), mentre negativo nell'altro caso. Quanto più è vicino a 1, tanto più accurata è la regressione lineare. In sostanza, esso indica la bontà della distribuzione dei punti rispetto alla retta estrapolata. Più precisamente, il quadrato di questo coeciente, percentuale quanto esempio R = 0.9 y R2 (il dipenda linearmente da signica che all'81% y coeciente di Pearson), indica in x per i coecienti estrapolati. Ad dipende linearmente da x. Inne si ri- corda che il software a disposizione permetto di calcolare l'errore sulla pendenza e sull'intercetta che possono essere usati per la propria relazioni. Questi errori sono in realtà combinazioni delle deviazioni standard sulle xi e sulla yi .