Grafico di una serie di dati sperimentali in EXCEL 1. Inseriamo sulla prima riga il titolo che definisce il contenuto del foglio. Poi inseriamo su un’altra riga i valori sperimentali della x e su quella successiva i valori della y. OSSERVAZIONE Vedremo più avanti come inserire dei dati memorizzati precedentemente in un file. 2. Nel caso in cui i dati della x e della y siano stati immessi su due righe consecutive, il grafico può essere ottenuto semplicemente selezionando dapprima i dati con il mouse (oppure facendo clic sui numeri che contraddistinguono le due righe) e facendo poi clic sull’icona GRAFICO presente sotto il menù principale. Icona GRAFICO Grafico di una serie di dati sperimentali in EXCEL (segue) 3. Comparirà la seguente finestra che ci permetterà di scegliere il tipo di grafico . Selezioniamo Dispersione (XY) , poi scegliamo di rappresentare i dati con dei simboli ed infine facciamo clic su AVANTI.. Tipo di grafico Diversi modi con cui unire i punti N.B. Nel caso di dati sperimentali affetti da errore i dati non vanno mai uniti con delle linee bensì solo rappresentati con dei simboli Grafico di una serie di dati sperimentali in EXCEL (segue) 4. Comparirà una nuova finestra che ci darà un’anteprima del grafico. Se tutto è OK continuiamo a fare clic su AVANTI. Grafico in Excel (segue) 5. Comparirà la seguente finestra che ci permetterà di inserire le informazioni relative a: titolo del grafico, etichetta asse X ed etichetta asse Y. Inoltre possiamo intervenire su diversi parametri (es. intervallo asse X o asse Y), selezionando una delle opzioni presenti in alto. Per proseguire facciamo clic su AVANTI. Grafico di una serie di dati sperimentali in EXCEL (segue) 6. Comparirà un’ultima finestra che ci permetterà di decidere se inserire il grafico in un nuovo foglio a parte oppure all’interno dello stesso foglio di lavoro contenente i dati. Siamo finalmente arrivati in fondo ! Grafico di più serie di dati Supponiamo di voler rappresentare contemporaneamente in un grafico più serie di dati, tutte legate alla stessa variabile indipendente X. Ad esempio, il seguente foglio contiene i dati relativi alle curve di distribuzione di H3PO4 ovvero come variano le concentrazioni delle varie specie presenti in soluzione in funzione del pH: Grafico di più serie di dati (segue) Per ottenere il grafico riportato nella seguente figura, sarà sufficiente selezionare col mouse la zona rettangolare contenente tutti i dati e procedere in maniera analoga a quanto visto precedentemente. Curve di distribuzione H3PO4 1.2 1 [H3PO4] [H2PO4-] [HPO4--] [PO43-] pH 0.8 0.6 0.4 0.2 0 0 5 10 15 concentrazioni 20 25 Grafico di dati disposti su righe non contigue Può accadere che, in seguito a dei calcoli eseguiti sui dati sperimentali i valori della x e della y non siano su righe contigue. In tal caso bisogna procedere in modo diverso. Supponiamo, ad esempio che tra le x e le y ci siano delle righe vuote come mostrato nella seguente figura . In tal caso è necessario eseguire la seguente procedura: 1. Selezioniamo la prima riga (o colonna) contenente i dati, poi la seconda , tenendo contemporaneamente premuto il tasto CTRL; successivamente facciamo clic sull’icona GRAFICO presente sotto il menù principale oppure selezioniamo la voce GRAFICO presente all’interno del menù INSERISCI. Comparirà la seguente finestra che ci permetterà di scegliere il tipo di grafico. Grafico di dati disposti su righe non contigue (segue) 2. Dopo aver selezionato il tipo di grafico (a dispersione) facciamo di nuovo clic su AVANTI . Comparirà la seguente finestra che ci darà un’anteprima del grafico. Grafico di dati disposti su righe non contigue (segue) 3. Nel caso in cui le due righe (o colonne) selezionate al punto 1) contengano, nell’ordine, prima i valori della X e poi quelli della Y, allora vi sarà una corrispondenza tra i dati relativi a X e l’asse X e i dati relativi a Y e l’asse delle Y , per cui il grafico rappresenterà correttamente i valori e potremo proseguire in maniera analoga a quanto visto precedentemente facendo clic su AVANTI. 4. Qualora l’ordine sia invertito, è necessario cliccare sulla linguetta in alto denominata SERIE. Comparirà la seguente finestra di dialogo. Grafico di dati disposti su righe non contigue (segue) 5. Le caselle denominate VALORI X e VALORI Y permettono di definire le righe (o le colonne) del foglio in cui sono stati inseriti i dati relativi alle X e alle Y. E’ sufficiente fare clic sull’icona presente a destra di ciascuna casella e selezionare i dati col mouse all’interno del foglio di lavoro. Possiamo poi proseguire in maniera analoga a quanto visto precedentemente, facendo clic su AVANTI. Come aggiungere una serie di dati a un grafico Molto spesso, quando si elaborano dei dati sperimentali con EXCEL, la procedura da seguire può essere riassunta così: •Si inseriscono i dati sperimentali •Si rappresentano graficamente i dati •Si elaborano i dati sperimentali (es. con una regressione lineare) •Si rappresentano sullo stesso grafico sia i dati sperimentali che quelli ottenuti col calcolo, in modo da valutare graficamente la bontà del calcolo. E’ possibile semplificare tutta la procedura creando dapprima il grafico contenente i dati sperimentali e poi aggiungendo direttamente ad esso la serie di dati ottenuta col calcolo. A tale scopo eseguiamo i seguenti passi: 1. Rappresentiamo in un grafico i dati sperimentali. Ad esempio, i seguenti dati e il relativo grafico mostrano come varia la tensione di vapore di un liquido puro al variare di T. Come aggiungere una serie di dati a un grafico (segue) lnP Misura tensione di vapore di un liquido 6.8 6.6 6.4 6.2 6 5.8 5.6 5.4 5.2 5 0.003 Serie1 0.0031 0.0032 0.0033 1/T (K) 0.0034 0.0035 Come aggiungere una serie di dati a un grafico (segue) 2. Supponiamo di aver elaborato i dati. La seguente figura mostra un foglio in cui i dati calcolati si trovano su una riga in basso . Selezioniamo il grafico facendo clic all’interno di esso, poi scegliamo l’opzione DATI DI ORIGINE del menù GRAFICO. Comparirà la seguente finestra di dialogo. Come aggiungere una serie di dati a un grafico (segue) 3. Facciamo clic su AGGIUNGI e, tramite le caselle VALORI X e VALORI Y, definiamo l’intervallo di celle in cui si trovano le X e le Y. Inseriamo qui il nome da dare alla nuova serie di dati Facendo clic qui definiamo il range di celle in cui si trovano le x Facendo clic qui definiamo il range di celle in cui si trovano le y lnP Misura tensione di vapore di un liquido Una volta che abbiamo terminato di inserire le informazioni in questa finestra, facciamo clic su AVANTI e, proseguendo in modo analogo a quanto visto precedentemente negli altri casi, otterremo il grafico riportato di lato. 6.8 6.6 6.4 6.2 6 5.8 5.6 5.4 5.2 5 0.003 Serie1 calc 0.0031 0.0032 0.0033 1/T (K) 0.0034 0.0035 Come aggiungere le barre di errore a un grafico Il modo migliore per visualizzare in un grafico le incertezze associate ai dati sperimentali è quello di aggiungere le barre di errore . La seguente figura riporta un foglio contenente i dati relativi alla misura della tensione di vapore visti precedentemente. Sperimentalmente si osserva che i valori delle pressioni hanno un’incertezza pari a 10 mmHg, mentre l’errore associato alla lettura della temperatura è trascurabile. Applicando la teoria della propagazione degli errori si ottengono le incertezze riportate nella colonna E, relative a slnP, che risultano essere diverse, dato per dato, a causa della propagazione degli errori. Come aggiungere le barre di errore a un grafico (segue) Eseguiamo ora la seguente procedura per visualizzare le barre di errore associate con le incertezze sperimentali ( slnP) legate ai valori della Y (lnP). 1. Dopo aver creato il grafico, facciamo dapprima clic sulla serie dei dati all’interno del grafico, poi, tenendo premuto il pulsante destro del mouse e senza spostarlo in modo da lasciare evidenziati i dati, scegliamo l’opzione FORMATO SERIE DATI. Comparirà la seguente finestra di dialogo. Come aggiungere le barre di errore a un grafico (segue) 2. Facendo clic sulla linguetta in alto denominata BARRE DI ERRORE Y, verrà visualizzata la seguente finestra di dialogo, con cui possiamo definire sia l’aspetto grafico con cui verranno visualizzate le barre, sia l’entità dell’errore. Se i dati hanno tutti lo stesso errore, l’entità di quest’ultimo può essere immessa in uno dei seguenti modi: valore fisso, in percentuale oppure come deviazione standard. Se invece i dati hanno incertezze diverse (come nel nostro caso), allora è possibile utilizzare l’opzione PERSONALIZZA per definire l’intervallo di celle contenenti i valori degli errori. Tale opzione permette di impostare sia l’errore positivo che quello negativo. Qualora fossero uguali, sarà sufficiente impostare lo stesso intervallo di celle nelle due caselle + e - . Misura tensione di vapore di un liquido 6.8 6.6 6.4 lnP 6.2 6 Serie1 5.8 5.6 5.4 Fai clic qui per definire le celle che contengono gli errori 5.2 5 0.003 0.0031 0.0032 0.0033 1/T (K) 0.0034 0.0035 Inserimento di un file di dati in EXCEL Molto spesso capita di dover rappresentare ed elaborare dei dati raccolti automaticamente da uno strumento di laboratorio (es. dati spettroscopici, dati potenziometrici, ecc.). In tal caso, invece di immettere a mano i dati in EXCEL, è possibile inserire velocemente i dati sperimentali seguendo la seguente procedura: 1. Supponiamo che i dati siano stati memorizzati in un file dati e in formato solo testo (o ASCII); inoltre supponiamo che sulla prima riga vi sia la x , in cui i singoli valori sono separati con dei spazi (o da un TAB) e sulla riga successiva la y, ancora con valori separati da spazi. La seguente figura mostra il contenuto del file dati all’interno di WORDPAD. N.B. Il separatore dei decimali può essere una virgola oppure un punto a seconda delle impostazioni internazionali con cui è settato il computer tramite il pannello di controllo. Inserimento di un file di dati in EXCEL (segue) 2. Dopo aver caricato EXCEL si fa clic su APRI del menù FILE e si seleziona il nome del file dati precedentemente memorizzato, dopo aver scelto come tipo di file, File di testo. Inserimento di un file di dati(segue) 2: Al comparire della seguente finestra di dialogo selezioniamo l’opzione Delimitati e proseguiamo facendo clic su AVANTI. Inserimento di un file di dati(segue) 3. Comparirà una nuova finestra che ci permetterà di modificare il tipo di delimitatore. In basso vi è un’anteprima di come verranno inseriti i dati all’interno del foglio di EXCEL. Se è tutto Ok, facciamo ancora clic su AVANTI, quindi , al comparire di un’ennesima finestra su FINE. ANALISI DI REGRESSIONE La tecnica di REGRESSIONE ci permette di ricavare la miglior curva passante attraverso i punti sperimentali. Un esempio tipico è la ricerca di una funzione partendo da dati sperimentali affetti da errore e si vuole ricavare la funzione che meglio approssima l’andamento generale dei dati (es. dati provenienti dallo studio cinetico di una reazione chimica, oppure da misure di tensione di vapore di una sostanza in funzione della temperatura, oppure da dati di calibrazione di uno strumento: es. spettrofotometro UV-Vis, rifrattometro di Abbe, trasduttore di temperatura, ecc.). Un metodo per ricavare la migliore curva che approssimi l’andamento dei dati è quello di applicare il metodo dei minimi quadrati . Questa tecnica si basa sul principio che la miglior curva-modello che interpola dei dati sperimentali, sia quella per la quale valga la relazione : ^ 2 w ( y y ) i1 i i i min imo n ANALISI DI REGRESSIONE(segue) dove wi sono detti pesi dei dati sperimentali (tengono conto della maggiore o minore incertezza con la quale i dati sperimentali stessi sono noti), e ^ yi y i ^ è la differenza tra i valori sperimentali yi e quelli calcolati yi REGRESSIONE LINEARE (SEMPLICE) L’esempio più semplice di applicazione dei minimi quadrati è l’adattamento di una linea retta a un insieme di punti definiti da coppie di dati (x1 , y1) , (x2 , y2) , ecc. Per semplificare la nostra discussione supporremo che, sebbene le nostre misure di y siano soggette a qualche incertezza, l’incertezza nelle nostre misure di x è trascurabile. Questa è spesso un’ipotesi ragionevole, poiché le incertezze in una variabile sono spesso molto più grandi di quelle nell’altra, che noi possiamo con sicurezza ignorare. (Tuttavia in laboratorio può capitare che anche le x siano affette da errore.) Assumeremo inoltre che le incertezze in y abbiano tutte lo stesso valore e siano dovute a errori casuali , che possono essere descritti da una distribuzione gaussiana. Anche questa è un’ipotesi ragionevole in molti esperimenti, ma se le incertezze sono diverse, allora la nostra analisi può essere generalizzata “pesando” le misure appropriatamente, utilizzando , come vedremo più avanti, i cosiddetti minimi quadrati pesati. REGRESSIONE LINEARE (SEMPLICE)(segue) L’espressione matematica che ci serve è la seguente: y a bx dove a e b sono i coefficienti che rappresentano , rispettivamente, l’intercetta e la pendenza della retta e è l’errore, o residuo, tra il modello e il dato osservato . Riordinando i termini, l’errore può essere rappresentato come y a bx Quindi l’errore, o residuo, è la differenza tra il vero valore di y corrispondente a un dato x e l’approssimazione a + bx dato dall’equazione lineare. La strategia adottata applicando il metodo dei minimi quadrati per determinare la retta che meglio approssima l’andamento dei dati, consiste nel minimizzare la somma dei quadrati degli errori Sr, data da Sr i2 ( yi a b xi )2 i i REGRESSIONE LINEARE (semplice)(segue) in cui wi è stato posto uguale a 1 per tutti i valori di yi. Ciò è una conseguenza del fatto che abbiamo assunto l’ipotesi che le yi abbiano tutte la stessa incertezza. Questo criterio comporta una serie di vantaggi, ma la sua caratteristica più importante è che consente di determinare una sola linea per ogni insieme di dati: in altre parole, porta a un risultato univoco. Vediamo ora come sia possibile col suddetto metodo determinare i valori di a e b che corrispondono al minimo di Sr. Volendo determinare i valori di a e b, deriviamo l’equazione di Sr, rispetto a ciascuno dei coefficienti: Sr 2 ( yi a b xi ) a i Sr 2 [( yi a b xi ) xi ] b i I simboli di sommatoria sono stati semplificati; se non viene specificato diversamente, si assume che tutte le sommatorie vengano eseguite per i che va da 1 a n, dove n è il n. totale di coppie di dati. REGRESSIONE LINEARE (semplice)(segue) Uguagliando a zero queste derivate, troviamo quei valori che rendono minima Sr: le equazioni vengono allora espresse come 0 yi a b xi 0 yi xi a xi b xi2 Ora , tenendo conto che (1) a n a dove n è il n. totale di coppie di dati, possiamo esprimere le equazioni come sistema di due equazioni lineari nelle due incognite a e b: n a xi b yi x a x i 2 i b xi yi Queste equazioni vengono dette EQUAZIONI NORMALI. REGRESSIONE LINEARE (semplice)(segue) Risolvendo le equazioni rispetto a b, otteniamo b n xi yi xi yi n xi2 ( xi )2 Questo risultato, utilizzato insieme alla (1), dà a y b x dove y e x (2) sono, rispettivamente, i valori medi di y e di x. _ _ L’equazione (2) ci dice che la retta migliore passa per il punto ( x, y ) detto centroide o centro di gravità (valor medio dei valori di xi e yi). REGRESSIONE LINEARE :stima delle incertezze sui parametri a e b Abbiamo visto come sia possibile ricavare la miglior retta passante per dei punti sperimentali adottando il metodo dei minimi quadrati ovvero rendendo minima la somma dei quadrati degli errori Sr. Qualsiasi altra retta calcolata non applicando la suddetta relazione, senz’altro avrebbe dato luogo a un Sr maggiore. Quello che vogliamo vedere è di quantificare come gli errori casuali presenti prevalentemente sui valori sperimentali di yi influenzino l’incertezza dei valori calcolati di y e dei parametri a e b. La deviazione standard relativa alla regressione, s , (o deviazione standard residua della stima di y su x, detto anche errore standard in EXCEL) coincide con la deviazione standard della somma dei quadrati dei residui . Il suo valore ha le setesse dimensioni della variabile dipendente y e viene ricavato tramite l’equazione : s 1 ( yi a b xi )2 n2 Più è piccolo il suo valore è più vicina è la retta calcolata ai dati sperimentali. REGRESSIONE LINEARE :stima delle incertezze sui parametri a e b (segue) Le incertezze sui parametri a e b sono ricavabili mediante le seguenti equazioni ottenute applicando le regole per la propagazione degli errori (e supponendo sempre che le incertezze su yi abbiano lo stesso valore): sa s xi2 i 1 2 1 2 2 2 n x x i i i i sb s n 1 2 2 n xi xi i i 1 2 2 REGRESSIONE LINEARE :stima intervallo di fiducia sui parametri a e b La miglior stima dei valori di a e b, relativamente ad un certo livello di fiducia (es. 95%), può essere ottenuta ricavando l’intervallo di fiducia per ognuno di essi mediante le seguenti relazioni: b b t X %,n s b a a t X %,n s a dove tX%,n è il parametro di Student corrispondente a un determinato livello di fiducia X% e a un certo numero di gradi di libertà , nn-2. REGRESSIONE LINEARE :stima di x0 per un dato y0 Una volta ricavati i parametri a e b è possibile determinare il valore incognito di x, indicato con x0 , corrispondente a un determinato valore misurato di y, indicato con y0. Supponiamo, ad esempio, di voler determinare la composizione di una soluzione a concentrazione incognita, costituita da due liquidi organici (es. toluene – acetato etile), esprimendola in funzione della frazione molare del toluene. A tale scopo, dopo aver eseguito delle misure rifrattometriche con degli standard, abbiamo calcolato la miglior retta passante per i dati sperimentali, supponendo che le incertezze associate alla misura dell’indice di rifrazione siano: •affette prevalentemente da errori casuali e abbiano tutte lo stesso valore •L’incertezza associata con la preparazione delle soluzioni standard a concentrazione nota è trascurabile rispetto a quella dell’indice di rifrazione. Il valore della concentrazione della soluzione incognita,x0, per un dato valore dell’indice di rifrazione, y0, sarà dato da x0 y0 a b REGRESSIONE LINEARE :stima di x0 per un dato y0 (segue) Le incertezze ottenute sui parametri a e b faranno sì che vi sia anche un’incertezza sul valore calcolato di x0, indicata con s x0 Applicando la teoria di propagazione degli errori, tenendo presente che le incertezze associate con i parametri a e b non sono tra loro indipendenti, si può dimostrare che l’incertezza associata col valore calcolato di x0, è data da 2 _ y0 y s 1 1 s x0 _ 2 b m n 2 b xi x i (3) in cui y0 è il valore sperimentale di y da cui si vuole determinare x0, s è la deviazione standard residua, n è il n. totale di dati con cui si_ è _costruita la retta, m è il n. di misure replicate di y0 (m=1 per una singola misura) e x e y sono i valori medi di x e di y. REGRESSIONE LINEARE :stima di x0 per un dato y0 (segue) La miglior stima di x0 , relativamente ad un certo livello di fiducia (es. 95%), può essere ottenuta ricavando l’intervallo di fiducia tramite la seguente relazione: x0 x0 t X %,n s x0 (4) dove tX%,n è il parametro di Student corrispondente a un determinato livello di fiducia X% e a un certo numero di gradi di libertà , n=n-2. REGRESSIONE LINEARE :stima di y0 per un dato x0 Una volta noti i coefficienti a e b della retta, è possibile predire il valore di y0 per un dato valore sperimentale della variabile indipendente x ovvero x0, tramite l’equazione y0 a b x0 Applicando la teoria di propagazione degli errori, tenendo presente che le incertezze associate con i parametri a e b non sono tra loro indipendenti, si può dimostrare che l’incertezza associata col valore calcolato di y0, è data da sy 0 _ 2 n x0 x 1 s 2 n n x 2 x i i i i La miglior stima di y0 sarà data da y0 y0 t X %,n s y0 (5) (6) Regressione lineare semplice in EXCEL: un esempio di elaborazione di dati sperimentali Consideriamo le seguenti 3 serie di dati sperimentali e , prima di applicare il metodo dei minimi quadrati, proviamo a rappresentare i dati graficamente. 8 13 9 11 14 6 4 12 7 5 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68 8 13 9 11 14 6 4 12 7 5 8,14 8,74 8,77 9,26 8,1 6,13 3,1 9,13 7,26 4,74 Serie N.1 12 10 8 8 13 9 11 14 6 4 12 7 5 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73 y Serie N.1 12 10 8 6 4 2 0 y 0 5 10 I dati relativi alla serie N.1 possono essere rappresentati da una retta 15 x y Serie N.2 10 9 8 7 6 5 4 3 2 1 0 y 0 2 4 6 8 10 12 14 I dati relativi alla serie N.2 possono essere rappresentati da una curva 16 x Serie N.3 14 12 10 8 y y 6 4 2 0 0 5 10 x 15 A parte il penultimo dato, anche la serie N. 3 può essere rappresentata da una retta Regressione in EXCEL (segue) Se applichiamo i minimi quadrati alle 3 serie di dati non tenendo conto dei grafici visti ed imponendo che tutte le serie di dati siano rappresentate da una retta, otterremo i seguenti dati statistici: serie 1 a0 a1 sigmay sigma0 sigma1 3 0,5 1,237 1,125 0,118 serie 2 3 0,5 1,237 1,125 0,118 serie 3 3 0,5 1,236 1,124 0,119 In altri termini, basandosi soltanto su questi dati, possiamo affermare tranquillamente che tutte le 3 serie di dati possono essere rappresentate da una retta di equazione y=a + bx. Tuttavia se oltre ai dati statistici osserviamo i grafici dei residui, possiamo dedurre quanto segue: residui 2,500000 2,000000 1,500000 1,000000 0,500000 0,000000 -0,500000 0 -1,000000 -1,500000 -2,000000 -2,500000 I dati sono sparpagliati attorno all’asse X serie n. 1 residui 5 10 15 residui 1,500000 1,000000 0,500000 0,000000 -0,500000 0 5 10 15 serie n. 1 residui -1,000000 I dati non sono sparpagliati lungo l’asse delle X bensì assumono un andamento particolare (parabolico) -1,500000 -2,000000 -2,500000 residui 3,500000 3,000000 2,500000 2,000000 1,500000 1,000000 0,500000 0,000000 -0,500000 0 -1,000000 -1,500000 serie n. 1 residui 5 10 15 A parte il penultimo dato che si trova sopra l’asse delle X, gli altri dati non sono distribuiti casualmente attorno l’asse X ma si trovano tutti sotto tale asse. (Il che fa pensare che sia presente un errore sistematico nei dati.) Minimi quadrati in EXCEL: metodi disponibili EXCEL ci mette a disposizione 3 diversi modi di applicazione del metodo dei minimi quadrati a dei dati sperimentali: 1) Operando direttamente sul grafico ed utilizzando il comando AGGIUNGI LINEA DI TENDENZA. E’ sufficiente selezionare i dati sul grafico e , dopo aver premuto il pulsante destro, scegliere l’opzione Aggiungi linea di tendenza. Infine si seleziona il tipo di regressione. Minimi quadrati : Aggiungi linea di tendenza • Sul grafico viene tracciata automaticamente la miglior retta passante per i dati • E’ possibile visualizzare l’equazione della retta • Come dato statistico si ha solo a disposizione il coefficiente di correlazione R N.B. Per modificare il n. di cifre decimali con cui vengono visualizzati i parametri all’interno dell’equazione è sufficiente fare dapprima clic col pulsante sinistro sulla formula all’interno del grafico e poi , dopo aver premuto il pulsante destro, selezionare la voce FORMATO ETICHETTE DATI. Minimi quadrati : Funzione REGR.LIN La funzione REGR.LIN è disponibile tramite la voce FUNZIONE del menù INSERISCI. A differenza di AGGIUNGI LINEA DI TENDENZA, tale funzione restituisce alcuni parametri statistici. UTILIZZAZIONE 1. Inseriamo sul foglio i dati sperimentali 2. Selezioniamo un blocco di celle vuote costituito da 5 righe e due colonne Funzione REGR.LIN (segue) 3. Facciamo clic su Funzione del menù INSERISCI e quindi selezioniamo la funzione REGR.LIN appartenente alla categoria statistiche. Comparirà la seguente finestra che ci chiederà di definire alcuni parametri. • Y_nota : intervallo di celle contenenti la y sperimentale • x_nota : intervallo di celle contenenti la x sperimentale • Cost : fa riferimento all’intercetta a0 ovvero se la retta deve passare o meno per l’origine . Immettere VERO se non passa per l’origine e FALSO se passa per l’origine • Stat : con VERO la funzione , oltre ai coefficienti della retta, restituisce alcuni dati statistici; con FALSO restituisce solo i coefficienti della retta Funzione REGR.LIN (segue) 4. Invece di fare clic su OK o di premere INVIO, si deve premere INVIO tenendo contemporaneamente premuti i tasti CTRL e SHIFT. Solo così verranno riportati, sul blocco di celle selezionate precedentemente , i risultati del calcolo ovvero i seguenti dati relativi alla retta di equazione y= a + b x b sb R2 Statistica F La somma della regressione dei quadrati 0,500091 0,117906 0,666542 17,98994 27,51 a 3,000091 1,124747 1,236603 9 13,76269 sa s Gradi di libertà La somma residua dei quadrati Funzione REGR.LIN: grafico dei residui 5. Con i dati statistici ottenuti con la funzione REGR.LIN possiamo ora tracciare il grafico dei residui utilizzando la seguente procedura: • Inserimento di due righe contenenti le seguenti informazioni: - yi,calc =a + bxi,sper - yi,sper. - yi,calc • Inserimento nel foglio del grafico dei residui (x=xsper. Y=yi,sper. - yi,calc) Minimi quadrati con lo strumento REGRESSIONE Lo strumento REGRESSIONE è disponibile tramite STRUMENTI -> ANALISI DATI > REGRESSIONE. A differenza di AGGIUNGI LINEA DI TENDENZA, tale funzione restituisce diversi parametri statistici. Inoltre permette anche di eseguire i minimi quadrati su una funzione Y che dipende da più variabili indipendenti x (y=a0 + a1 x1 + a2 x2+ ……. come pure su una funzione polinomiale di grado superiore a 1) UTILIZZAZIONE 1. Inseriamo sul foglio i dati sperimentali 2. Selezioniamo la voce Analisi Dati del menù STRUMENTI. Se la voce non dovesse essere presente nel menù, significa che il pacchetto Analisi Dati non è stato ancora installato. Strumento REGRESSIONE (segue) 3. Comparirà la seguente finestra che ci mette a disposizione numerosi strumenti di analisi. Scegliamo l’opzione REGRESSIONE. Strumento REGRESSIONE (segue) 4. Comparirà la seguente finestra che ci chiederà di definire alcuni parametri. Impostiamo solo i seguenti parametri di input e di output: PARAMETRI DI INPUT • Intervallo di input Y : intervallo di celle contenenti la y sperimentale • Intervallo di input X : intervallo di celle contenenti la x sperimentale •Livello di confidenza: livello di fiducia con cui vogliamo vengano espressi i valori dei coefficienti a e b •Passa per l’origine: ovvero se vogliamo imporre nel calcolo che la retta passi per l’origine Strumento REGRESSIONE (segue) PARAMETRI DI OUTPUT • Intervallo di output : Intervallo di celle in cui verranno mostrati i dati calcolati dallo strumento REGRESSIONE. Conviene scegliere, come riferimento, un nuovo foglio di lavoro •Residui e Tracciati dei residui: contrassegnare tali opzioni in modo da visualizzare anche il grafico dei residui. Strumento REGRESSIONE (segue) Esempio di dati ottenuti operando con lo strumento REGRESSIONE sulla prima serie di dati Strumento REGRESSIONE (segue) Per comprendere meglio il significato e l’uso dei dati statistici riportati nella diapositiva precedente proviamo a considerare i seguenti esercizi. ESERCIZIO 1 Una serie di soluzioni standard di fluoresceina sono state esaminate con uno spettrofotometro di fluorescenza, ottenendo i dati riportati nella seguente tabella: Intensità 2.1 (u.a.) 5.0 9.0 12.6 17.3 21.0 24.7 Concen- 0 trazione (pg/ml) 2 4 6 8 10 12 a) Ricavare la miglior retta di taratura, supponendo che le incertezze su y siano di tipo casuale e tutte uguali, mentre quelle su x siano trascurabili. b) Esprimere i coefficienti a e b con un livello di fiducia del 95% c) Riportare in un grafico l’intervallo di fiducia associato a ciascuna y d) Calcolare la miglior stima della concentrazione corrispondente alle seguenti intensità misurate : 2.9 ; 5.6 ; 9.5 ; 13.5 e 23.0 . Strumento REGRESSIONE (segue) RISULTATI OTTENUTI Strumento REGRESSIONE (segue) Analizzando i dati riportati nel foglio di lavoro restituito da EXCEL, possiamo affermare quanto segue: a) I valori dei coefficienti a (Intercetta) e b(variabile X1) sono, rispettivamente 1.517857 (cella B17) e 1.930357 (cella B18). Pertanto la miglior retta di taratura è: y= 1.52 + 1.93 x b) L’errore standard s è uguale a 0.4328 (cella B7), mentre gli errori standard di a e b sono, rispettivamente, 0.294936 (cella C17) e 0.04090 (cella C18). Sul foglio viene inoltre riportata la miglior stima di a e b, relativamente al livello di fiducia prescelto (95%) sotto forma di estremi di intervallo (inferiore 95%, superiore 95% ). Per esprimere i valori dei parametri con associata l’incertezza espressa come ±, basta sottrarre al valore corrispondente all’estremo superiore, quello del coefficiente, ottenendo: a = 1.52 ± 0.76 b=1.93 ± 0.11 N.B. Si poteva ottenere lo stesso risultato, applicando le formule Strumento REGRESSIONE (segue) N.B. Si poteva ottenere lo stesso risultato, applicando le formule a a t95%,5 s a b b t95%,5 s b ricavando il parametro t95%,5 tramite le relative tabelle della distribuzione di Student, oppure utilizzando la funzione di EXCEL INV.T(probabilità;gradi di libertà) dove probabilità=(100-X%)/100; =0.05 per un livello di fiducia X%=95%. c) Per riportare in un grafico l’intervallo di fiducia associato a ciascun valore calcolato di y0 partendo dai dati sperimentali di x0 , è stato dapprima ricavato il valore di y0 utilizzando la retta ottenuta in a) ; successivamente, è stata utilizzata l’equazione (6) per ricavare l’incertezza associata a ciascun valore di y0. Infine è stata espressa ciascuna incertezza con un livello di fiducia del 95%, utilizzando l’equazione y0 y0 t X %,n s y0 La seguente figura riporta il grafico ottenuto. Strumento REGRESSIONE (segue) Strumento REGRESSIONE (segue) d) La miglior stima della concentrazione corrispondente alle intensità misurate di 2.9 ; 5.6 ; 9.5 ; 13.5 e 23.0, è stata ricavata dapprima calcolando l’incertezza sx0 tramite l’equazione 3) vista precedentemente e successivamente applicando la formula x0 x0 t X %,n s x0 La seguente figura riassume i risultati dei calcoli relativi all’esercizio. Strumento REGRESSIONE (segue) ELABORAZIONE DATI Strumento REGRESSIONE (segue) La seguente figura riporta, infine le bande di fiducia per i vari valori di x. Strumento REGRESSIONE (segue) ESERCIZIO 2 Uno spettrofotometro di assorbimento UV-VIS viene utilizzato per determinare la concentrazione dell’arsenico in una soluzione. La seguente tabella riporta i dati ottenuti con delle soluzioni di arsenico a concentrazione nota. C(ppm) 2.151 9.561 16.878 23.476 30.337 A 0.0660 0.2108 0.3917 0.5441 0.6795 a) Calcolare la miglior retta con lo strumento REGRESSIONE. b) Utilizzare la retta di calibrazione per stimare un valore di C (x0) corrispondente a una assorbanza di y0=0.3520 , ottenuta replicando la misura 3 volte e facendone una media. Strumento REGRESSIONE (segue) a) La relazione che lega l’assorbanza di un picco, misurata a una certa l e avente un coefficiente di estinzione molare , l, alla concentrazione della specie responsabile dell’assorbimento, è la Legge di Lambert Beer Al l t cl dove t è lo spessore della celletta contenente la soluzione da misurare. Ponendo y=Al , b=lt e x=cl, abbiamo che l’equazione, che potrebbe correlare i dati riportati in tabella , è del tipo y=bx Tuttavia, osservando soltanto i dati riportati in tabella, non possiamo affermare con certezza che, a concentrazione 0, l’assorbanza sia nulla. Potrebbe non esserlo a causa di qualche influenza da parte della matrice ovvero della soluzione contenente l’arsenico, oppure a un offset sistematico dovuto a una non perfetta calibrazione dello strumento. A tale scopo conviene dapprima supporre che la curva che rappresenta meglio i dati sia una retta che non passi per l’origine, ovvero y=a+bx Strumento REGRESSIONE (segue) E poi discutere se è significativo affermare che il valore dell’intercetta ottenuto con il calcolo sia nullo. Se sì, allora è giusto supporre che l’equazione che meglio riproduce i dati è y=b x, per cui possiamo ripetere il calcolo imponendo che la retta passi per l’origine. La seguente figura mostra i risultati ottenuti con lo strumento REGRESSIONE supponendo che la retta non passi per l’origine e che il livello di fiducia con cui vogliamo avere la migliore stima dei coefficienti a e b sia del 95%. Osservando i dati possiamo dedurre quanto segue: 1) errore standard regressione s=0.01153 gradi di libertà = n. dati (o osservazioni) - 2 = 3 Intercetta a=0.0125787 errore standard sa=0.009983 Variabile X1 (o pendenza) b=0.0221983 errore standard sb=0.0005187 Strumento REGRESSIONE (segue) Strumento REGRESSIONE (segue) 2)Il valore di a ottenuto è molto piccolo. E’ possibile che l’incertezza associata col dato (sa) e dovuta alla presenza di soli errori casuali , sia l’unica responsabile del fatto che a non è esattamente uguale a 0. In effetti, osservando i valori INFERIORE 95% e SUPERIORE 95%, sembra proprio che il valore di a oscilli attorno allo 0. Tuttavia, per essere ragionevolmente sicuri di affermare che a possa essere posto uguale a 0, è necessario eseguire il cosiddetto test statistico di significatività, che va a vedere se una data ipotesi (il porre a uguale a 0) sia significativamente probabile. Quando in un processo di misurazione sono presenti solo degli errori casuali e la misura viene replicata un numero limitato di volte per ottenere la migliore stima di una grandezza relativamente a un certo livello di fiducia pari a X% (es. 95%), la dispersione dei valori misurati attorno al valore medio può essere rappresentata mediante la curva di distribuzione di Student , dove x rappresenta la migliore stima del valore vero m, ottenuta facendo la media dei valori e la coppia (inf, sup) rappresenta l’intervallo di fiducia entro cui si ha una probabilità di X% che i valori misurati cadano dentro questo intervallo. I valori di inf e sup vengono ricavati mediante le seguenti relazioni, dove tX%,n è il parametro di Student per un certo livello di fiducia X% e per numero di gradi di libertà n _ _ inf x t X %,n s _ x _ sup x t X %,n s _ x Strumento REGRESSIONE (segue) Curva di distribuzione di Student La seguente figura mostra la corrispondente curva di distribuzione normale di Student _ in funzione del parametro t x m s n Dove s è la deviazione standard e n è il n. di repliche. Strumento REGRESSIONE (segue) Il valore di t delimita l’area della curva entro cui vi è una probabilità di X% che il valore misurato cada entro questo intervallo. L’area in chiaro è pari a X%/100. D esempio, nel caso in cui X% sia uguale a 95%, l’area è uguale a 0.95. Se indichiamo con a/2 ciascuna delle due aree esterne all’intervallo (-t, t ) (si suppone che la curva che rappresenti il campione di dati sperimentali sia simmetrica) e tenendo presente che l’area totale è 1, avremo che 2 a 2 X% 1 100 Ad esempio, se X%=95% a+0.95=1 e a=0.05 Se esprimiamo la probabilità che un risultato cada all’interno di un certo intervallo, oppure al di fuori, con il parametro a, denominato anche livello di significatività, possiamo dedurre quanto segue: se la misura viene replicata più volte, la probabilità che essa cada all’interno dell’intervallo corrispondente al livello di fiducia pari a 95%, deve essere maggiore di 0.05, mentre cadrà al di fuori di esso se minore di tale valore. Strumento REGRESSIONE (segue) Oltre che per stabilire se la media di n misure cada all’interno di un certo intervallo, il parametro a può anche essere utilizzato per controllare se l’intercetta a, ottenuta col calcolo dei minimi quadrati , sia significativamente uguale a 0. La procedura per eseguire il test può essere riassunta nel seguente modo: •Stabiliamo l’ipotesi che vogliamo verificare: è a uguale a 0 ? Indichiamo questa ipotesi con la simbologia : H0: a=0 •Stabiliamo l’ipotesi alternativa : H0 : a #0 •Definiamo il livello di significatività corrispondente ad un dato livello di fiducia X% Quando le 2 ipotesi alternative corrispondono ad andare a vedere quanto è l’area all’interno o al di fuori di un certo intervallo, si parla di test a 2 code e il valore di significatività sarà uguale a x% a 1 100 Se invece le 2 ipotesi consistono nel discutere se un certo risultato possa essere < o > di un certo valore, allora dobbiamo considerare solo una delle 2 aree esterne, per cui si parla di test a una coda e 1 x% a 1 2 100 Strumento REGRESSIONE (segue) Nel nostro caso il test è a 2 code per cui a=0.05. • Ricaviamo il valore di t corrispondente al valore ottenuto oggetto del test. Nel caso di una retta, abbiamo a t sa dove sa è l’errore standard su a ottenuta col calcolo, supponendo che la retta non passi per l’origine. Nel nostro esempio si trova che t=1.26 . • Dalle tabelle che riportano i valori critici di t andiamo a vedere quale è il livello di significatività, tenendo presente se il test è a 1 coda oppure a 2 code e che n=n-2 . Nel nostro caso n=3 e il valore di a corrispondente a t=1.26 è compreso tra 0.1 e 0.32 . Essendo tale valore maggiore di 0.05, significa che l’ipotesi di considerare l’intercetta a uguale a 0 è significativa e va quindi accettata. OSSERVAZIONE Per avere un valore più preciso basta usare la funzione di EXCEL DISTRIB.T(x;gradi_libertà ;coda) in cui x è il valore di t ottenuto uguale a 1.26 , gradi di libertà=3 e coda=2 . Strumento REGRESSIONE (segue) Si poteva giungere allo stesso risultato andando a confrontare il valore di t ottenuto con quello critico riportato in tabella, corrispondente a un dato X% e n. Avremmo avuto 2 possibilità: - t tcritico Dalla figura vista precedentemente, che riporta la curva di distribuzione di Student in funzione di t, ciò significa che siamo dentro l’area, per cui vi è una probabilità di X% che il risultato ovvero che a sia uguale a 0 - t tcritico Siamo al di fuori dell’area, per cui vi è una probabilità di 100-X% (5% se X%=95) che a sia diversa da 0. Strumento REGRESSIONE (segue) Si poteva giungere allo stesso risultato senza fare alcun calcolo, esaminando semplicemente i valori restituiti da EXCEL mediante lo strumento REGRESSIONE, riportati precedentemente. Infatti, nelle colonne denominate Stat t e valore di significatività, relativamente alla riga intercetta, vengono già riportati i valori di t e di a. Ripetendo il calcolo con EXCEL, dopo aver imposto che la retta passi per l’origine, otteniamo i risultati riportati nella seguente figura, da cui possiamo dedurre quanto segue: - Errore standard regressione : 0.012349 - Gradi di libertà : 3 - a= 0 - b = 0.022758 sb=0.000287 La migliore stima di b, con un livello di fiducia del 95% è b=0.022758 ± 0.0007965 = (2.28 ± 0.08) x 10-2 Strumento REGRESSIONE (segue) REGRESSIONE POLINOMIALE Nell’elaborare i dati sperimentali, vi sono delle situazioni in cui essi sono meglio rappresentati da una curva piuttosto che da una retta. Ad esempio, la dipendenza di alcune grandezze fisiche da T (es. calori molari (intervallo di T ristretto), resistenza di una lega , tensione di una termocoppia, ecc.) può essere rappresentata meglio da una equazione polinomiale di 2° o 3° grado piuttosto che da una retta. La tecnica dei minimi quadrati, vista precedentemente per ricavare la migliore stima dei coefficienti a e b di una retta, può essere utilizzata anche per ricavare i coefficienti di una equazione polinomiale ovvero rendendo minima la relazione n ^ wi ( yi yi ) 2 min imo i 1 ^ in cui yi ^ è uguale a y i a bxi cx i2 dxi3 .... mxim dove m è il grado del polinomio. REGRESSIONE POLINOMIALE(segue) Uguagliando a 0 le equazioni e riordinando, otteniamo il seguente sistema di equazioni: a n b xi c xi2 yi a xi b xi2 c xi3 xi yi a xi2 b xi3 c xi4 xi2 yi dove tutte le sommatorie vengono eseguite per i che va da 1 al n. totale di dati n . Excel permette di ricavare la miglior stima dei parametri a,b e c in modo semplice utilizzando gli strumenti visti precedentemente per la retta , purchè le nostre misure soddisfino le seguenti condizioni: - Le incertezze su y siano tutte uguali - le incertezze su y siano normalmente distribuite - le incertezze sulle x siano trascurabili - gli errori sistematici su x e y siano trascurabili REGRESSIONE POLINOMIALE 2° grado in Excel Supponiamo, ad esempio, di voler applicare lo strumento REGRESSIONE di ANALISI DATI di Excel ai seguenti dati, che riportano i valori sperimentali della resistenza di un trasduttore di temperatura RTD in funzione della temperatura: REGRESSIONE POLINOMIALE 2° grado in Excel Proviamo ad inserire i dati in un foglio di lavoro di Excel, secondo quanto mostrato nella seguente figura, in cui ai dati originali è stata aggiunta una nuova colonna contenente la variabile indipendente x (ovvero T) elevata al quadrato. REGRESSIONE POLINOMIALE 2° grado in Excel Scegliamo l’opzione REGRESSIONE dello strumento ANALISI DATI. Comparirà la seguente finestra di dialogo già discussa precedentemente nel caso della retta, in cui il parametro Intervallo di input X questa volta dovrà fare riferimento alle celle contenenti i valori di x e di x 2. OSSERVAZIONE. Il parametro intervallo di input X dipende pertanto dal grado del polinomiale utilizzato per elaborare i dati e lo strumento REGRESSIONE può essere usato per un polinomiale di qualsiasi ordine. Basta inserire nel foglio le relative colonne.( x 2, x3, ecc.). REGRESSIONE POLINOMIALE 2° grado in Excel Esempio di dati ottenuti eseguendo una regressione polinomiale di 2° grado sui dati REGRESSIONE LINEARE PESATA Abbiamo visto come , nel caso della regressione lineare semplice, le incertezze associate alle yi abbiano tutte lo stesso valore. Tuttavia possono verificarsi delle situazioni in cui, pur essendo l’errore su y predominante su quello presente su x, l’incertezza su ciascun valore di y è diversa. Ciò può, ad esempio, verificarsi quando: -Le misure vengono ripetute ad un particolare valore di x, riducendo così l’incertezza del corrispondente valore di y. -I dati vengono trasformati in modo da avere una relazione lineare. Ad es. , nel caso di misure di tensione di vapore, la pressione parziale p del liquido dipende da T secondo ln p a H vap R T Ponendo y=lnP , x=1/T e b=-Hvap/R, l’equazione della retta che meglio soddisfa i dati è y=a + b x. REGRESSIONE LINEARE PESATA (segue) I valori della pressione di vapore p misurati avranno tutti la stessa incertezza, se la misurazione viene condotta sempre nello stesso modo. Tuttavia, quando si fa la trasformazione logaritmica, le incertezza su y non sono più tutte uguali. Infatti, applicando la teoria della propagazione degli errori avremo y 1 s y s p s p p p i Mentre le sp hanno tutte lo stesso valore, le incertezze syi diminuiranno all’aumentare di p. In questi casi il calcolo della regressione lineare deve essere fatta introducendo dei fattori peso che tengono conto del fatto che si ottiene la miglior retta se diamo più peso ai dati meno affetti da errore. Si introduce pertanto un fattore peso wi inversamente proporzionale al quadrato delle incertezze syi wi 1 sy 2 i REGRESSIONE LINEARE PESATA (segue) Nel caso della tensione di vapore avremo che p2 wi s p2 dopodichè si deve minimizzare l’equazione Sr i2 i i 1 sy 2 ( y a b x ) i i 2 i Qualora le incertezze sui valori misurati di y (es. sp), sono note, è possibile ricavare il valore esatto dei pesi wi. Altrimenti il problema è ancora risolvibile, in quanto noi siamo interessati, più che al valore assoluto di wi, ad avere un valore relativo che ci permetta di stimare il diverso peso da dare a ciascun dato, ma che non altera il rapporto tra i pesi dei dati. Ad esempio, ponendo sp=1, avremo che i pesi wi saranno scalati tutti della stessa quantità, per cui il rapporto tra i pesi relativi tra i vari dati non cambia. REGRESSIONE LINEARE PESATA (segue) Applicando una procedura simile a quella vista nel caso della regressione lineare semplice, si ottengono le seguenti relazioni che ci permettono di ricavare la miglior stima dei coefficienti a e b. a w x w y w x w x y i i 2 i i i i i i D i i i i i b w w x y w x w y i i i i i i i D wi wi xi2 wi xi i i i i D 2 i i i i REGRESSIONE LINEARE PESATA (segue) Qualora non siano noti i singoli valori di syi , per cui i pesi wi sono stati scalati tutti di una stessa quantità, l’errore standard sui parametri a e b mediante le seguenti relazioni: wi wi xi2 i sa sw i nD , può essere ricavato sb s w wi i nD dove n wi wi xi yi wi xi wi yi 2 n2 i i i sw wi wi yi2 wi yi i w D i i i i 1 2 D wi wi xi2 wi xi i i i 2 2 1 2 Minimi quadrati lineari pesati Applicazione della macro Minimi qudrati pesati per il calcolo della miglior retta, attribuendo a ciascun dato un peso statistico diverso. Esempio di funzione Y studiata : L’introduzione dei pesi w 1 s2 y y0e kt comporta una SRR (somma dei quadrati dei residui) inferiore e anche una incertezza minore sui coefficienti. Di fatto la funzione studiata è : ln y ln y0 kt Per calcolare i pesi usiamo quindi l’espressione w 1 dY dy Essendo Y=ln y, sy =d(lnY)/dy = 1/y e quindi w=y2. 2 Minimi quadrati lineari pesati Utilizzazione della MACRO Minimi quadrati pesati La macro Minimi quadrati pesati permette di eseguire i minimi quadrati lineari pesati su una funzione polinomiale sia a una sola variabile indipendente y=a0 + a1x + a2x2 + …., che a più variabili indipendenti ( y = a0 + a1 x1 + a2 x2+ …). Per poterla utilizzare è necessario eseguire le seguenti operazioni: • Caricare in memoria il foglio di lavoro allegato minimipesati.xls Tale foglio riporta i dati sperimentali relativi a una cinetica che segue la funzione y y0e kt Minimi quadrati lineari pesati Uso della MACRO Minimi quadrati pesati y ln y w =y 2 x 0,892061 -0,11422 0,795772 1 0,821173 -0,19702 0,674326 2 0,753583 -0,28292 0,567887 3 0,682304 -0,38228 0,465538 4 0,623862 -0,47183 0,389204 5 0,526976 -0,6406 0,277703 6 0,494243 -0,70473 0,244277 7 0,460279 -0,77592 0,211857 8 0,395703 -0,92709 0,156581 9 0,360977 -1,01894 0,130305 10 0,315967 -1,15212 0,099835 11 0,282725 -1,26328 0,079933 12 0,262755 -1,33653 0,06904 13 0,238862 -1,43187 0,057055 14 0,201951 -1,59973 0,040784 15 0,196217 -1,62853 0,038501 16 0,178643 -1,72237 0,031913 17 0,166647 -1,79187 0,027771 18 0,145914 -1,92474 0,021291 19 0,132065 -2,02446 0,017441 20 y ln y w =y 2 x 0,118754 -2,1307 0,014103 21 0,12423 -2,08562 0,015433 22 0,099406 -2,30854 0,009882 23 0,088856 -2,42073 0,007895 24 0,076953 -2,56456 0,005922 25 0,093996 -2,36451 0,008835 26 0,075862 -2,57884 0,005755 27 0,084567 -2,47022 0,007152 28 0,048474 -3,02672 0,00235 29 0,066402 -2,71203 0,004409 30 0,028925 -3,54304 0,000837 31 0,046152 -3,07582 0,00213 32 0,045905 -3,08118 0,002107 33 0,052562 -2,94575 0,002763 34 0,029352 -3,52839 0,000862 35 0,022086 -3,81282 0,000488 36 0,031475 -3,45856 0,000991 37 0,018558 -3,98688 0,000344 38 0,027818 -3,58207 0,000774 39 0,003874 -5,55353 1,5E-05 40 0,0081 -4,81585 6,56E-05 41 0,00994 -4,61121 9,88E-05 43 0,011953 -4,42681 0,000143 44 0,01139 -4,475 0,00013 45 0,006825 -4,98721 4,66E-05 46 0,03104 -3,47247 0,000963 47 Uso della MACRO Minimi quadrati pesati (continua) • Selezionare il comando Minimi quadrati pesati presente all’interno del menù STRUMENTI. Tale comando viene aggiunto automaticamente al menù quando viene caricato un foglio che contiene al suo interno la macro. Comparirà una finestra di dialogo che ci chiede di inserire le seguenti informazioni: – L’intervallo di celle che contengono i valori della X. – L’intervallo di celle che contengono i valori della Y – L’intervallo di celle che contengono i valori calcolati dei pesi W – In che modo sono disposti i dati (tutti su righe oppure tutti su colonne) – Se la curva deve passare per l’origine oppure no Dopo aver inserito le informazioni e aver fatto clic su IMMETTI, comparirà in basso sotto i dati, il risultato del calcolo ovvero i valori ottimizzati dei parametri inclusa la relativa deviazione standard ed inoltre la deviazione standard su Y , sy OSSERVAZIONE E’ possibile utilizzare la MACRO per eseguire i calcoli su altri dati, semplicente cancellando il contenuto del foglio ed immettendo i nuovi dati da elaborare. La voce Minimi quadrati pesati scomparirà automaticamente dal menù STRUMENTI, una volta che abbiamo chiuso il foglio di lavoro minimipesati.xls. Minimi quadrati pesati: Elaborazione dati tensione di vapore La seguente figura mostra il foglio di lavoro relativo all’elaborazione dei dati con i minimi quadrati lineari pesati. I pesi sono stati ricavati in maniera analoga al caso precedente. Elaborazione dati tensione di vapore (segue) Misura tensione di vapore di un liquido Residui 6.6 0.02 6.4 0.015 6.2 0.01 6 0.005 sper calc 5.8 5.6 residui lnP 6.8 0 -0.0050.003 Serie1 0.0031 0.0032 0.0033 -0.01 5.4 -0.015 5.2 -0.02 5 0.003 1/T 0.0031 0.0032 0.0033 0.0034 0.0035 1/T (K) Grafico ottenuto aggiungendo la linea ottenuta col calcolo. Tale linea cade dentro l’area delimitata dalle barre di errore ottenute tramite sy 0.0034 0.0035 Utilizzazione dello strumento RISOLUTORE (solver) per l’applicazione del metodo dei minimi quadrati a funzioni diverse da quelle polinomiali • • Negli esempi visti precedentemente, la funzione che rispondeva meglio ai dati sperimentali era lineare sia nei coefficienti che nella variabile indipendente X, ovvero la funzione veniva espressa come una somma di termini ciascuno moltiplicato solo per un coefficiente Esempi: - y=a0+a1x y è lineare nei coefficienti a0 e a1 - y=a0+a1x+a2x2 y è lineare nei coefficienti a0 , a1 e a2 - y= a0 + a1x1 + a2x2 + a3x3 y è lineare nei coefficienti a0 , a1 e a2 - Y=ln y = log a + (log b) x Y è lineare nei coeff. log a e log b L’applicazione del metodo dei minimi quadrati a tali funzioni consisteva semplicemente nel risolvere un sistema di equazioni lineari. Tale sistema veniva risolto automaticamente con gli strumenti visti precedentemente : REGR.LIN, AGGIUNGI LINEA DI TENDENZA e REGRESSIONE. Strumento Risolutore (segue) • • • • Tuttavia esistono diverse situazioni in cui la y può: – Non essere più lineare nella variabile X, bensì solo nei coefficienti (es. Eq. Van Deemter : y= Ax+B/x+c) – Non essere più lineare nei coefficienti (tutti o in parte) (es. - y = a1 sen( a2x) la y è lineare in a1 ma non in a2 - y = a1 e – k1 t + a2 e–k2 t la y è lineare in a1 e a2 ma non in k1 e k2 - y = a1 e -0.5((x-a2)/a3)^2) + a4 + a5x + a6 x2 Nel caso in cui la funzione sia lineare nei coefficienti ma non nella variabile X, l’applicazione dei minimi quadrati che rende minima la somma dei quadrati dei residui SRR = c2 = S ( wi (yi – yicalc))2 si riduce ancora nella risoluzione di un sistema di equazioni lineari, i cui termini però sono diversi da quelli che si ottengono nel caso di funzioni polinomiali. Pertanto la relativa applicazione può essere fatta , in EXCEL, soltanto utilizzando le matrici. Nel caso in cui la funzione non sia più lineare nei coefficienti, la minimizzazione di SRR rispetto ai coefficienti non può più essere risolta con un sistema di equazioni lineari, bensì con dei metodi matematici iterativi. Lo strumento RISOLUTORE di Excel ci permette , con semplicità, di ricavare i migliori coefficienti di una funzione che non è risolvibile con i metodi standard visti precedentemente. Strumento Risolutore (segue) • La funzione c2 dipende dai coefficienti a1 , a2 , a3, ecc. Nel caso di due coefficienti, la rappresentazione grafica della dipendenza di c2 da a1 e a2 , può essere descritta da una superficie a 3 dimensioni, come mostra la seguente figura: • Le coordinate del punto di minimo di tale superficie corrispondono ai valori dei coefficienti che rendono minima c2 , ovvero quelli che permettono di rappresentare , al meglio, i dati sperimentali. Strumento Risolutore (segue) • In pratica, gli algoritmi usati per risolvere il metodo dei minimi quadrati applicato a funzioni non lineari, consiste nell’eseguire i seguenti passaggi: – Si parte con una stima iniziale dei coefficienti e si calcola c2 . – Si variano i coefficienti sino a che c2 è minimo. OSSERVAZIONI Nell’applicare i suddetti passaggi può verificarsi che il minimo trovato sia un minimo relativo e non assoluto. (La superficie multidimensionale riportata nella precedente figura può avere diversi minimi relativi, di cui solo uno è quello assoluto.) Per essere sicuri di non arrivare a un minimo locale, una volta raggiunto il primo valore più basso di c2 , conviene modificare di poco i valori di uno dei coefficienti e provare a vedere se c2 diventa ancora più piccolo. In altri casi conviene dapprima ottimizzare c2 intervenendo solo su alcuni parametri mentre si mantengono fissi gli altri ; dopodichè si ottimizza rispetto a tutti i parametri . L’individuazione del minimo assoluto può richiedere più o meno tempo, a seconda della stima iniziale dei parametri. Strumento Risolutore (segue) • • Esistono diversi algoritmi matematici più o meno complessi che permettono di applicare i minimi quadrati a funzioni non lineari. Tali algoritmi sono formati da una serie di istruzioni che devono essere eseguite in modo iterativo, per cui sono di difficile applicazione all’interno di un foglietto elettronico, a meno che non vengano sviluppate sotto forma di MACRO. Lo strumento RISOLUTORE di Excel implementa uno dei suddetti algoritmi matematici e permette di applicare il metodo dei minimi quadrati, in modo estremamente semplice. Ottimizzazione dei parametri dell’equazione di Van Deemter con lo strumento RISOLUTORE • L’equazione di Van Deemter permette di correlare l’altezza di un piatto teorico di una colonna gascromatografica (e quindi l’efficienza nella risoluzione dei picchi) con la velocità di flusso della fase mobile gassosa : B y A x C x dove y è l’altezza del piatto teorico in mm X è la velocità di flusso della fase gassosa in ml/min A, B, C sono costanti da ottimizzare col calcolo. Eq. Van Deemter (segue) La seguente tabella riporta i dati sperimentali relativi a un campione di 2-butanone, usando l’elio come fase gassosa: Velocità (ml/min) Altezza piatto (mm) 3,4000 9,59 7,1 5,29 16,1 3,63 20 3,42 23,1 3,46 34,4 3,06 40 3,25 44,7 3,31 65,9 3,5 78,9 3,86 96,8 4,24 115,4 4,62 120 4,67 Eq. Van Deemter in EXCEL (segue) Eq. Van Deemter in EXCEL (segue) Per poter utilizzare lo strumento RISOLUTORE, sono necessarie le seguenti operazioni: • Porre in una o più celle la stima iniziale dei parametri • Inserire accanto alle colonne contenenti i valori sperimentali di x e di y due nuove colonne di cui una contenente la y calcolata e l’altra il quadrato dei residui • Porre in una cella il risultato della somma dei quadrati dei residui • Invocare lo strumento RISOLUTORE (STRUMENTI -> RISOLUTORE) Comparirà la seguente finestra di dialogo: Eq. Van Deemter in EXCEL (segue) • Nella casella Imposta cella ci va messo il riferimento alla cella contenente la somma dei quadrati dei residui •Visto che vogliamo rendere minima tale somma, scegliamo l’opzione Uguale a Min •La minimizzazione va fatta rispetto ai parametri (A, B , C) contenuti nelle relative celle. Pertanto nel campo Cambiando le celle ci va un riferimento alle celle contenenti i parametri suddetti. •In altri termini abbiamo indicato al programma di rendere minima la somma dei quadrati dei residui variando i valori dei parametri A ,B e C. E’ sufficiente fare clic su RISOLVI per ottenere i valori ottimali dei parametri. Eq. Van Deemter in EXCEL (segue) • • Una volta eseguito il calcolo, conviene visualizzare anche il grafico dei residui e quello contenente sia i dati sperimentali che quelli calcolati. Se vogliamo avere anche una stima delle incertezze sui parametri, possiamo usare la MACRO Solver Aid disponibile tramite l’esempio allegato solveraid.xls . Una volta caricato il foglio solveraid.xls, selezioniamo la voce Solver Aid presente all’interno del menù STRUMENTI e immettiamo le informazioni che ci vengono richieste dal programma. Alla fine sul foglio di lavoro, accanto ai parametri verranno aggiunte le deviazioni standard associate a ciascun parametro; inoltre verrà visualizzata la deviazione standard sy . accanto alla cella SSR (somma dei quadrati dei residui). APPLICAZIONE DELLO STRUMENTO RISOLUTORE PER IL CALCOLO DEI MINIMI QUADRATI DI UNA FUNZIONE NON LINEARE SIA NEI COEFFICIENTI CHE NELLA VARIABILE X Vogliamo ora applicare lo strumento RISOLUTORE per trovare la miglior stima dei parametri relativamente alla seguente funzione : y a1e k1t a2e k2t Tale funzione può, ad esempio, rappresentare il decadimento radioattivo contemporaneo di due sostanze, di cui una ha un tempo di dimezzamento molto più piccolo rispetto a quello dell’altra sostanza (k2 << k1). Decadimento radioattivo di due sostanze (segue) La colonna yspe è stata ricavata utilizzando per i coefficienti a1 , k1, a2 e k2 i valori riportati nella colonna coeff. Esatti. La colonna coeff. iniziali contiene invece una stima iniziale dei parametri. Prima di applicare lo strumento RISOLUTORE, aggiungiamo anche le colonne relative ai valori calcolati di y (yfit) e ai quadrati dei residui ed infine la cella contenente la somma dei quadrati dei residui. Decadimento radioattivo di due sostanze (segue) • Dopo aver attribuito ai coefficienti dei valori pari a 0, applichiamo lo strumento RISOLUTORE. Al termine del calcolo comparirà la seguente finestra che ci indica che è stata trovata una prima soluzione. • Se facciamo un grafico contenente contemporaneamente sia i dati sperimentali di y che quelli calcolati (yfit) in funzione di x, ovvero del tempo t, osserviamo che il fit è buono solo nel primo tratto del grafico. N.B. Abbiamo assunto per l’asse delle y una scala logaritmica Decadimento radioattivo di due sostanze (segue) • • La prima parte del grafico è relativa al tempo di decadimento della prima sostanza, mentre il secondo tratto a quello della seconda sostanza. Essendo k 2 minore di k1 , il contributo alla somma dei quadrati dei residui del primo tratto è maggiore di quello relativo al secondo tratto, per cui il programma tende a fittare meglio la prima parte del grafico. In questi casi conviene eseguire il fitting ottimizzando dapprima solo rispetto ai parametri relativi al secondo tratto, poi ai parametri relativi al primo tratto ed infine rispetto a tutti e 4 i parametri. Naturalmente nella somma dei quadrati dei residui vanno conteggiati solo i dati relativi ai tratti considerati. 10 stadio : E’ stato eseguito il fitting soltanto rispetto alla seconda parte del grafico, ricavando dei valori solo per a2 e k2 e lasciando nulli a1 e k1. Decadimento radioattivo di due sostanze (segue) 20 stadio : E’ stato eseguito il fitting soltanto rispetto alla prima parte del grafico, ricavando dei valori solo per a1 e k1 e lasciando invariati i valori ricavati precedentemente di a1 e k1. 30 stadio : E’ stato eseguito il fitting rispetto a tutti e quattro i parametri, i cui valori sono stati ricavati precedentemente. Decadimento radioattivo di due sostanze (segue) • La seguente tabella riporta i valori dei coefficienti ottenuti dopo il terzo stadio con la relativa incertezza, ricavata mediante la MACRO Solver Aid. I risultati ottenuti sono ottimi. coeff. Esatti coeff iniziali incertezze a1 9 8,999943784 5,845E-06 k1 2 2,000011418 1,57037E-06 a2 0,02 0,020054365 6,15801E-06 k2 0,5 0,500834105 9,47348E-05 Determinazione delle costanti di acidità mediante titolazione per via potenziometrica Un altro esempio di applicazione del metodo RISOLUTORE consiste nel ricavare le costanti di acidità di un acido poliprotico (es. H3PO4) , elaborando con i minimi quadrati non lineari i dati ottenuti sperimentalmente titolando l’acido con una base forte (es. NaOH). Indichiamo con Ca , Va la concentrazione dell’acido e il relativo volume, mentre indichiamo con Cb e Vb la concentrazione della base e il volume aggiunto durante la titolazione. L’espressione che mostra come varia Vb in funzione del pH è la seguente (vedi libro De Levie , Excel in Analytical Chemistry p.152): Ca (a2 2a1 3a0 ) Vb Va Cb Determinazione delle costanti di acidità mediante titolazione per via potenziometrica (segue) dove [ H ] ] [OH ] e [ H ]2 ka1 a2 D [ H ] k a1 k a 2 a1 D k k k a 0 a1 a 2 a 3 D e D [ H ]3 [ H ]2 ka1 [ H ] ka1 ka 2 ka1 ka 2 ka 3 Determinazione delle costanti di acidità mediante titolazione per via potenziometrica (segue) La seguente figura mostra i dati ottenuti sperimentalmente in laboratorio titolando 50 ml di H3PO4 0.1M con NaOH 0.1M e il relativo grafico. Titolazione di H3PO4 con NaOH 14 12 pH 10 8 spe 6 4 2 0 0 50 100 150 Vb (ml) 200 250 300 Determinazione delle costanti di acidità mediante titolazione per via potenziometrica (segue) Prepariamo ora il seguente foglio per applicare lo strumento RISOLUTORE ai dati, in modo da determinare ka1, ka2 e ka3 . Inoltre rappresentiamo sullo stesso grafico sia i valori sperimentali di Vb, che quelli calcolati attribuendo una stima iniziale ai parametri ka1, ka2 e ka3 . Naturalmente le due curve non saranno sovrapposte. Titolazione di H3PO4 con NaOH 14 12 pH 10 8 spe calc 6 4 2 0 0 50 100 150 Vb (ml) 200 250 300 Determinazione delle costanti di acidità mediante titolazione per via potenziometrica (segue) Proviamo ora ad applicare lo strumento risolutore cercando di minimizzare SSR, variando i parametri ka1, ka2 e ka3 . Otterremo la seguente situazione. Titolazione di H3PO4 con NaOH 14 12 10 pH k1= 0.1 k2=0.001 k3=5.74e-13 8 spe calc 6 4 SSR=46173.47 2 0 0 50 100 150 200 250 300 Vb (ml) Purtroppo il programma non riesce ad ottimizzare i dati. Il motivo di tutto ciò dipende dal fatto che i parametri da ottimizzare hanno ordini di grandezza molto diversi e l’algoritmo usato incrementa i parametri basandosi sul coefficiente che ha il valore più grande, per cui non riesce a trovare il minimo , in quanto sovrastima l’incremento da dare ai parametri. Determinazione delle costanti di acidità mediante titolazione per via potenziometrica (segue) E’ possibile aggirare l’ostacolo se, come parametri da ottimizzare, utilizziamo pka1, pka2 e pka3 invece di ka1, ka2 e ka3; infatti tali parametri assumono, in questo modo lo stesso ordine di grandezza e lo strumento risolutore riesce ad ottimizzare il fit in maniera egregia, come mostrano le seguenti figure, in cui abbiamo usato la macro “Solver Aid” per ricavare le incertezze sui parametri ska1, ska2 ,ska3 e la deviazione standard sy Titolazione di H3PO4 con NaOH 14 12 10 8 pH spe calc 6 4 2 0 0 50 100 150 Vb (ml) 200 250 300 Determinazione della curva di calibrazione di uno spettrometro atomico a fiamma e calcolo della concentrazione di un campione incognito mediante lo strumento RICERCA OBIETTIVO • La seguente tabella riporta i dati sperimentali ottenuti utilizzando uno spettrometro atomico a fiamma ed eseguendo delle misure su dei campioni di Na a concentrazione nota I (intensità relativa) conc.(p.p.m.) 0 0 62 5 115 10 160 15 200 20 233 25 Ricerca Obiettivo (segue) • L’equazione che permette di ottenere una curva di calibrazione ottimale è la seguente: I = a + b * conc + c * conc2 + d * conc3 • Per ricavare i coefficienti a , b, c e d possiamo utilizzare lo strumento REGRESSIONE di EXCEL, dopo aver preparato un foglio di lavoro simile a quello mostrato nella seguente figura. Ricerca Obiettivo (segue) Ricerca Obiettivo (segue) • • Una volta ricavata la curva di calibrazione è possibile eseguire delle misure spettrofotometriche su campioni a concentrazione incognita e ricavare la relativa concentrazione utilizzando la suddetta curva di taratura. Se, ad esempio, l’intensità relativa sperimentale è I=80, dovrà essere che a + b * conc + c * conc2 + d * conc3 – 80 =0 (1) In altri termini dobbiamo ricavare quel valore di conc. che annulla la suddetta equazione. A tale scopo ci viene in aiuto lo strumento di Excel RICERCA OBIETTIVO del menù STRUMENTI, che permette di variare il valore contenuto in una cella sino a che il risultato di una formula contenuta in un’altra cella, si avvicini il più possibile a un valore prestabilito. Se il valore contenuto in una cella corrisponde a una stima iniziale della concentrazione incognita e una seconda cella contiene la formula a + b * conc + c * conc2 + d * conc3 – 80 , allora l’applicazione dello strumento RICERCA OBIETTIVO ci permette di ricavare la concentrazione ottimale , variando il valore iniziale sino a soddisfare l’equazione (1). Nel foglio di lavoro mostrato nella precedente figura , la cella B15 contiene il valore sperimentale di I, mentre la cella B16 contiene , all’inizio , la stima iniziale di conc. La cella B17 contiene la formula sopra menzionata. Una volta immessi tali dati sarà sufficiente invocare lo strumento RICERCA OBIETTIVO. Comparirà la finestra di dialogo mostrata nella seguente figura: Ricerca Obiettivo (segue) •Il parametro imposta cella dovrà fare riferimento alla cella contenente la formula •Il parametro al valore dovrà contenere il valore che dovrà assumere la formula al termine del calcolo •Il parametro cambiando la cella dovrà fare riferimento alla cella contenente la stima iniziale della variabile X (o conc.). Dopo aver fatto clic su OK , otterremo una nuova finestra di dialogo, che ci indicherà il valore trovato per la formula, che, nel nostro caso, dovrà essere il più possibile, vicino a 0. La cella B16, che conteneva la stima iniziale della concentrazione, ora riporta il valore ottimale della concentrazione incognita del campione. Se il valore ricavato per la formula non dovesse essere uguale al valore prestabilito (nel nostro caso 0), allora si può istruire Excel ad eseguire più iterazioni di calcolo, precisando anche quale deve essere lo scarto massimo consentito tra il valore calcolato della formula e quello ricercato. A tale scopo è sufficiente selezionare la voce OPZIONI del menù STRUMENTI e intervenire sui parametri N. MASSIMO ITERAZIONI e SCARTO CONSENTITO dell’opzione CALCOLO.