Breve compendio sul trattamento dei dati sperimentali
Prof. Ardizzone, Dr. Cappelletti, Dr. Ceotto
Laboratorio di Chimica Fisica I
1
Introduzione
Uno degli sbagli più comuni che si incontrano correggendo le relazioni di Laboratorio di Chimica Fisica I riguarda il numero di cifre signicative con cui sono
riportati dati sperimentali e risultati. Una concentrazione del tipo
1, 705863457 × 10−3
M
(1)
indica una mancanza di conoscenza della precisione degli strumenti utilizzati.
Infatti se la calcolatrice è dotata di dieci cifre signicative, gli strumenti del laboratorio non lo sono. Poiché i risultati riportati devono essere consistenti con la
precisione degli strumenti usati, quello dell'Eq.(1) è un risultato scorretto! Infatti
non è nelle possibilità dello studente poter aermare che la concentrazione deve
avere come nona cifra dopo la virgola il
7
e non un altro numero.
Al ne di evitare tali imprecisioni e di sensibilizzare lo studente riguardo questo
tema vengono scritti questi appunti in cui si vogliono richiamare i concetti fondamentali e orire una guida al trattamento dei dati prodotti durante l'attività di
laboratorio.
Le cifre signicative
La consistenza del trattamento di una serie di misure e di calcoli fatti su queste
misure viene data in termini di cifre signicative. Se uno strumento può orire
4
cifre signicative, l'elaborazione dei dati ottenuti non può portare ad un risultato
che abbia più cifre signicative. Perciò, è necessario innanzitutto che lo studente
sia familiare con la valutazione delle cifre signicative e con un eventuale arrotondamento. Ad esempio, il numero
13349, 000
primi
a
3
ha
8
13349
ha
5
cifre signicative, mentre il numero
cifre signicative perchè sono stato in grado di aermare che i
decimali dopo la virgola sono zero. Se volessi arrotondare questo numero
2 cifre signicative, allora avrei 13000.
In questo caso gli zeri non rappresentano
delle cifre signicative. Se invece avessi scritto
eettivamente le cifre dopo il
3
13000,
sono degli zeri. Infatti
tive. Quante sono le cifre signicative del numero
1, 23 × 10−3
allora avrei aermato che
13000,
0.00123?
è chiaro che le cifre signicative sono
3.
ha
5
cifre signica-
Se lo scriviamo come
Infatti non si considerano
cifre signicative gli zeri che precedono il primo digit non uguale a zero. In questo
2
ultimo esempio la cifra più signicativa è
1,
mentre la meno signicativa è
3
e il
numero totale di cifre signicative si denisce come quello compreso tra la più e
la meno signicativa entrambi incluse. Una volta determinato il numero di cifre
signicative da considerare durante l'esperimento, è necessario saper arrotondare
le cifre fornite dalla calcolatrice. La regola è che i numeri
0, 1, 2, 3, 4
fanno arro-
tondare la cifre che li precede per difetto, gli altri numeri (5, 6, 7, 8, 9) per eccesso.
In questo modo se volessimo arrotondare
13, 35
13, 349
a
4
cifre signicative, avremmo
(analogamente otterremmo 13,35 anche a partire da
volessimo 3 cifre signicative allora
così come
13, 3500
diventerebbero
13, 349
diventerebbe
13, 35001).
13, 3,
Mentre se
mentre
13, 35001
13, 4.
L'imprescindibilità degli errori e la stima di condenza
Come introduzione al calcolo dell'errore su una misura, adottiamo un approccio intuitivo. Fermo restando l'assioma del chimico sperimentale secondo il quale
dietro una misura c'è sempre un errore si tratta di saper valutare l'entità di
questi errori.
In ambito scientico per errore, non si intende sbaglio o svista
dello sperimentatore. Questo tipo di errore (sistematico) molto spesso pregiudica
l'esperimento stesso.
Per errore (statistico) si intende invece la mancanza di
una precisione assoluta, ovvero l'impossibilità di riottenere lo stesso risultato se
vengono eettuate più misure della stessa quantità.
Questo è dovuto alle ut-
tuazioni statistiche del mondo che ci circonda e dello sperimentatore stesso e sono
quindi imprescindibili.
Da qui l'assioma di cui sopra.
Tuttavia mediante una
trattazione statistica è possibile conoscere il range di validità dei propri risultati,
ovvero ssare una barra di errore.
Ad esempio, si ottengono un gruppo di valori dopo una serie di misure
x1 , x2 , ..., xN .
Quale valore devo prendere? In altre parole, quale potrebbe essere il valore più
ricorrente e quindi più rappresentativo? Immaginiamo che questo valore sia
vogliamo trovare una formula di
valore
y
y
in funzione dei dati
x1 , x2 , ..., xN .
y
e
Il migliore
è quello che minimizza la somma degli scarti, dove per scarto si intende il
quadrato della dierenza tra
y
e le singole misure. Quindi
scarti =
N
X
i=1
(xi − y)2
y
è tale che la somma
(2)
3
b)
a)
X vero
X vero
d)
c)
X vero
X vero
Figure 1: Accuratezza e precisione; a) denota una serie di misure precise ed accurate; b) precise ma non accurate;
c) accurate ma non precise; d) ne accurate ne precise.
è minima, ovvero tale che
N
N
N
X
X
X
d(scarto)
= −2 (xi − y) = −2 xi + 2y
=0
dy
i=1
i=1
i=1
Da questa relazione si ricava la media aritmetica
1
y=
N
N
X
xi ≡ x
(3)
i=1
Una volta trovato il valore più rappresentativo delle mie misure, per poter
arginare l'assioma che condanna questa stima ad avere un errore statistico, si
cerca di stimare un intervallo di condenza. In g. 1 sono riportate quattro misure della stessa quantità (il cui valore esatto è
Xvero )
eettuate da 4 strumenti
diversi. La frequenza con cui si misura un dato valore è rappresentata simbolicamente dal numero di palline in colonna. Uno strumento è preciso se la serie di
misure hanno valori pressoché identici ed è accurato se questi valori sono vicini
al valore vero. Alla luce di queste denizioni, lo strumento a) è il migliore perchè preciso ed accurato allo stesso tempo. Invece, lo strumento b) risulta essere
preciso ma non accurato. Viceversa, lo strumento c) è accurato ma non preciso
mentre lo strumento d) è pessimo, perchè non è nè accurato nè preciso.
Queste
denizioni e le distribuzioni di varie misure rappresentate in g. 1 servono per
poter giudicare criticamente la bontà delle misure eettuate in laboratorio. Tuttavia queste considerazioni sono ancora di tipo qualitativo. La grandezza sica
che denota quantitativamente la precisione (non l'accuratezza) delle misure eet-
4
tuate è la deviazione standard. Naturalmente questa grandezza deve in qualche
modo tenere in conto del contributo di ogni scarto e stimare lo scarto che mi
aspetterei sul valor medio. Essa è denita nel seguente modo
σ=
v
u
u
u
t
1
N
N
X
(xi − x)2
(4)
i=1
e si vede che altro non è che la radice dello scarto medio. In realtà nell' Eq.(4),
si dovrebbe dividere per
N −1
perchè un vincolo è già stato imposto nel calcolo
del valor medio. Si può dire che quando le misure sono numerose le due formule
sono equivalenti. Sostituendo l'espressione del valor medio di Eq.(3), si trova che
la deviazione standard può essere anche scritta direttamente in termini dei valori
misurati
1
σ=
N
v
u
u
N
X
u
tN

x2i − 
i=1
N
X
2
xi 
(5)
i=1
Poiché le uttuazioni statistiche che aigono le misure in questione sono di origine casuale (ovvero descritte da una distribuzione gaussiana) la probabilità che la
misura N+1-esima cada nell'intervallo delimitato dai valori
68,27%. Se l'intervallo di condenza è invece di
sale al 95,45%, mentre tra
x + 3σ
e
x − 3σ
x + 2σ
e
x+σ
x − 2σ ,
è del 99.73%.
e
x−σ
è del
la probabilità
E' prassi sperimen-
tale considerare la prima opzione. Quindi alla ne di queste misure il valore da
riportare nella relazione è
x±σ
(6)
con la condenza probabilistica riportata sopra.
Esempio di propagazione dell'errore
Al ne di rendere la teoria della propagazione dell'errore statistico più intuitiva, pensiamo di inserire un errore ad una misura ed estrapolare algebricamente
un'espressione per l'errore della grandezza calcolata. Ad esempio, nel calcolo della
concentrazione di una miscela
C=
sono necessarie il numero di moli
n
n
V
e la misura del volume
(7)
V.
Il numero di
moli si ottiene, ad esempio, pesando un campione in polvere e dividendo per il
5
peso molecolare.
Quest'ultimo e' dato con un numero di cifre signicative ben
superiori a quelle della bilancia e quindi si può tranquillamente considerare non
aetto da errore. Poiché ogni bilancia ha un'incertezza associata (vedi il libretto
delle istruzioni), il numero di moli avrà anch'esso una incertezza, che chiamiamo
∆n.
Questa incertezza si ripercuoterà anche sulla concentrazione e quindi l'Eq.(7)
diventerà
C ± ∆C =
n ± ∆n
V
(8)
e di conseguenza si può facilmente desumere l'errore associato alla concentrazione
causato da quello delle moli
∆C =
∆n
.
V
(9)
Sicuramente ci sarà anche un errore sulla misurazione del volume
∆V ,
che viene
eettuato ad occhio osservando la tacca di un matraccio. Questo errore è indicato
nel matraccio stesso. In questo caso l'Eq.(8 ) diventa
C ± ∆C =
n
V ± ∆V
che è di più dicile interpretazione. Chiaramente
(10)
∆C
non è uguale a
n/∆V .
E'
necessario fare qualche passaggio e considerazione per estrapolare il contributo
dell'errore proveniente dall'incertezza sul volume. Raccogliendo al denominatore
il volume
C ± ∆C =
e considerando che
se
x 1,
n
V 1±
∆V
V
(11)
1
≈1−x
1+x
allora l' Eq.(11) diventa
n
∆V
C ± ∆C =
1∓
V
V
poichè sappiamo che
∆V V
del volume del matraccio).
!
(12)
(l'incertezza sulla tacca è di gran lunga minore
In conclusione l'errore sulla concentrazione dovuta
all'incertezza sul volume è
∆C =
n∆V
V2
(13)
Nella pratica questi errori si possono sommare così come compensare (nei casi più
6
C
C+∆C
C
n
n+∆n
n
Figure 2: Approssimazione del valore di una funzione C(n) per espansione di Taylor al primo ordine applicato
ad un punto di valore noto.
fortunati). Tuttavia, il chimico sperimentale considera sempre la situazione più
pessimistica e quindi il valore del'errore complessivo si ottiene sommando il valore
assoluto di ciascuna fonte di errore
∆C =
∆n V +
n∆V
V2
(14)
Formula generale per la propagazione dell'errore
Quando si opera una misura aetta da errore, si ottiene una grandezza più
o meno vicino a quella vera.
concentrazione vera è
C (n),
Ad esempio in g.
assumiamo che quello misurato sia
concentrazione di conseguenza ottenuta sia
Assumendo che il set di misure sia preciso, ovvero che
usando
n
n + ∆n
e la
C (n)
∆n
e
C (n + ∆n).
sia piccolo, allora si
C (n + ∆n) nei pressi di un valore noto C (n)
come punto di applicazione di un'espansione in serie di Taylor
C (n + ∆n) ≈ C (n) +
dC
(n + ∆n − n) + ...
dn
dove i puntini denotano termini di ordine più piccolo in
tità e correzioni più piccole rispetto a quella riportata.
tra
e la
C (n + ∆n).
Il problema è quello di saper stimare l'errore che c'è tra
può valutare il valore della funzione
n
(2) il valore vero è
C (n + ∆n)
e
C (n),
che abbiamo chiamato
∆C ,
∆C = C (n + ∆n) − C (n) =
∆n,
(15)
e quindi quan-
Quindi la deviazione
è
dC
∆n
dn
e sapendo che la derivata della concentrazione rispetto il numero di moli è
(16)
1/V ,
7
y
y=mx+q
yi
q
scarto
m
0
xi
x
Figure 3: Regressione lineare di due set distinti di punti. Il quadrato della distanza di ciascun punto dalla retta
stimata è lo scarto di quel punto.
allora riotteniamo l'Eq.(9). Lo stesso vale per il caso del volume, dove la derivata
della concentrazione rispetto al volume è
n
dC
=− 2
dV
V
(17)
e considerando il valore assoluto (gli errori si sommano sempre!) e moltiplicandolo per
∆V
si riottiene l'Eq.(13). Con questa procedura è possibile calcolare la
propagazione dell'errore di una certa misura su un'altra grandezza che dipende
da questa misura. Nel caso in cui la dipendenza sia tale che la derivata prima è
nulla, si va ad ordini di derivazione successivi.
Il metodo dei minimi quadrati per la regressione lineare
In quasi tutte le esperienze che saranno arontate, esistono delle dipendenze
lineari da estrapolare.
Si misurano due set di punti mostrati come cerchietti e
quadratini in g.(3). Si vuole conoscere quale dipendenza lineare ci sia tra questi
punti, ovvero i coecienti
m, q
della retta
y = mx + q
più rappresentativa di uno
di questi set di valori. Più rappresentativa vuol dire quella retta i cui valori di
e di
q
m
sono tali da minimizzare la somma degli scarti di ciascun punto. Questa
somma è
scarti =
N
X
[yi − (mxi + q)]2
(18)
i=1
e si vede come in questa denizione ciascuna misura abbia lo stesso peso statistico.
In g.(3) è rappresentato il segmento il cui quadrato è lo scarto per la coppia
8
(xi , yi ).
Ora la somma degli scarti di Eq.(18) è una funzione di
meq
e i valori di questi
due parametri che minimizzano suddetta somma sono quelli per cui le rispettive
derivate sono nulle. Basterà quindi porre
∂scarti
= 0
∂m
∂scarti
= 0
∂q
per avere due equazioni a due variabili
m
(19)
(20)
q.
e
Risolvendo rispetto a
m
e a
q,
le Eq.ni (19 e 20) diventano
m =
q =
P
P
P
i xi i yi − N i xi yi
P
P
( i xi )2 − N i x2i
P
P
P 2P
i xi i xi yi − i xi
i yi
P
P 2
2
( i xi ) − N i xi
(21)
(22)
che sono la soluzione della regressione lineare in funzione del set di punti dati.
Durante le vostre esperienze sarà il computer a calcolare sia questi valori che il
coeciente (adimensionale) di correlazione R tra le misure eettuate e la retta
estrapolata. Questo coeciente è compreso tra -1 e +1. E' positivo se entrambe
le variabili crescono (pendenza positiva), mentre negativo nell'altro caso. Quanto
più è vicino a 1, tanto più accurata è la regressione lineare. In sostanza, esso indica
la bontà della distribuzione dei punti rispetto alla retta estrapolata. Più precisamente, il quadrato di questo coeciente,
percentuale quanto
esempio
R = 0.9
y
R2 (il
dipenda linearmente da
signica che all'81%
y
coeciente di Pearson), indica in
x
per i coecienti estrapolati. Ad
dipende linearmente da
x.
Inne si ri-
corda che il software a disposizione permetto di calcolare l'errore sulla pendenza e
sull'intercetta che possono essere usati per la propria relazioni. Questi errori sono
in realtà combinazioni delle deviazioni standard sulle
xi
e sulla
yi .
Scarica

Breve compendio sul trattamento dei dati sperimentali