INTERPOLAZIONE STATISTICA Un insieme di N coppie di valori sperimentali {( x 1 , y 1) , (x 2 , y 2) , ...... ( x N , y N )} può venire rappresentato in un sistema di assi cartesiani da un diagramma a dispersione costituito da una nube di punti le cui coordinate sono date dai numeri di ciascuna delle N coppie di dati (fig. 1) . L'interpolazione matematica consiste nel determinare una funzione y(x), ad esempio un polinomio, il cui grafico passi esattamente per gli N punti sperimentali: nel caso di due soli N=2 punti sia ha una retta mentre nel caso di N=3 punti una parabola e, all'aumentare del numero N si hanno polinomi di grado N via via più complessi da calcolare. Nel caso della retta interpolatrice (fig. 2) di due punti noti {( x 1 , y 1) , ( x 2 , y 2)} il parametro che la determina è il suo coefficiente angolare m che si ricava dall'equazione della retta passante per due punti : y 2 − y 1 = m ( x 2−x 1) . Y fig. 2 Y fig. 1 y2 y1 X X x2 x1 Quando il numero N dei dati diventa grande, come nel caso di studi statistici e sperimentali, la ricerca di una funzione che collega le due variabili x e y si basa sulla interpolazione statistica per la quale il grafico della funzione interpolante deve accostarsi il più vicino possibile agli N punti del diagramma di dispersione secondo il metodo dei minimi quadrati: nel caso che per la funzione interpolante sia scelta una retta di equazione y(x) =a x + b , la condizione di accostamento del suo grafico agli N punti consiste nel trovare i due valori a e b che rendono minima la somma S(a,b) dei quadrati degli scarti tra i valori teorici y(xi) ed i valori sperimentali yi in modo che i quadrati eliminano la possibilità che gli scarti di segno opposto si eliminino impedendo così di indicare il grado di accostamento. La scelta della retta deve essere quindi fatta solo in base alle distanze assolute rispetto alle ordinate yi degli N punti sperimentali e i suoi coefficienti a e b sono quelli che rendono minima la somma : N (1) S (a , b)=∑ ( y ( x i )− y i )2=(a x 1+b− y 1 )2+(a x 2+b− y 2 )2+.........+(a x N +b− y N )2 i=1 Si può dimostrare che i coefficienti sono dati dalle seguenti equazioni: N (2) a= N N N⋅∑ x i⋅y i −∑ x i⋅∑ y i i=1 i=1 N 2 i=1 i=1 2 (∑ ) N⋅∑ x i − Prof. I. Savoia N N i=1 2 i N N N ∑ x ⋅ ∑ y i−∑ x i⋅∑ x i⋅y i , b= i =1 xi Interpolazione statistica i =1 N i=1 i=1 i=1 2 (∑ ) N⋅∑ x2i − N i=1 xi p.1\17 Si considerino i dati riportati nel diagramma di figura 1 la cui tabella è la seguente: x 2 3 4 5 6 7 y 2 4 5 4 6 8 Per determinare la retta dei minimi quadrati utilizzando le precedenti formule (2) occorre costruire una nuova tabella, basata sugli N=7 dati sopra scritti, in cui compaiono i valori delle somme richieste per il calcolo nelle due formule: x y x2 xy 2 2 4 4 3 4 9 12 4 5 16 20 5 4 25 20 6 6 36 36 7 8 49 56 ∑ x =27 ∑ y=29 ∑ x 2=139 ∑ x y=148 Siamo ora in grado di calcolare i coefficienti della retta interpolante con le formule (2): a= 6⋅148 − 27⋅29 105 = =1 , 105 6⋅139 − 272 b= 139⋅29 − 27⋅148 35 1 = = = ≈0.33 2 105 3 6⋅139 − 29 Pertanto la retta dei minimi quadrati (fig. 3) è data dall'equazione Y fig. 3 (3) Prof. I. Savoia a) E S= √ N ∑ (a i=1 y = x + 0.33 Come si nota dalla figura la retta "passa attraverso" i punti sperimentali ma non passa esattamente per nessuno di essi. Per valutare il grado di accostamento fra la retta interpolante ed i punti sperimentali si possono calcolare gli indici di accostamento assoluto e relativo. Il primo prende il nome di errore standard Es ed il secondo, preferibile al primo sia per l'assenza di unità di misura che per la limitatezza dei valori numerici, è detto indice quadratico relativo si scostamento IS X e sono definiti dalle seguenti formule: x i +b− y i )2 , I S= b) N Interpolazione statistica Es N ∑a i=1 x i +b N p.2\17 Quindi l'indice di scostamento quadratico relativo è il rapporto fra l'errore standard ed N il valore medio ̄y = ∑a x i +b i=1 che viene calcolato in base ai coefficienti della retta. N Volendo ad esempio determinare gli indici di scostamento con i dati precdenti occorre ampliare la tabella con il calcolo dei valori teorici della retta di interpolazione: x y x2 xy valori teorici y= a x +b : y=x+1/3 Scarti 2 (a x +b – y) 2 2 2 4 4 2.333... (2.333..-2)2=0.111... 3 4 9 12 3.333... (3.333..-4)2=0.444... 4 5 16 20 4.333... (4.333..-5)2=0.444... 5 4 25 20 5.333... (5.333..-5)2=0.111... 6 6 36 36 6.333... (6.333..-6)2=0.111... 7 8 49 56 7.333... (7.333..-8)2=0.444... ∑ x =27∑ y=29 ∑ x 2=139 ∑ x y=148 ∑ a x + b =29 2 (∑ a x+b – y) ≈1.67 In base a questi valori calcoliamo infine gli indici di scostamento: Errore standard E S= √ 1.667 ≈0.53 6 Indice quadratico relativo di scostamento I S= E S 0.53 ≈ ≈0.018 29 ̄y L'indice percentuale si ottiene moltiplicando per 100 il valore precedente: I S %=I S⋅100≈0.018⋅100=1.8 % Diciamo quindi che la retta presenta uno scostamento relativo di circa l'1.8 % dai dati. Notiamo infine che la somma dei valori y sperimentali è uguale alla somma degli y teorici e questo non è casuale ma riguarda una proprietà generale. x , ̄y ) La retta interpolante passa per il baricentro del diagramma di dispersione P ( ̄ le cui coordinate sono date dalle medie dei valori di x e y dei punti sperimentali e, sulla base di questa proprietà, è basato il metodo del baricentro con il quale si determinano i coefficienti della retta partendo dalla sua equazione: (4 ) Prof. I. Savoia y − ̄y = a ( x − x̄ ) . Interpolazione statistica p.3\17 Metodo del baricentro Il metodo del baricentro per determinare la retta di interpolazione dei minimi quadrati si basa sulla proprietà per cui tale retta, i cui coefficienti sono dati dalle equazioni (2), passa per il baricentro del diagramma di dispersione che è il punto dato dalle coordinate medie di tutti i punti sperimentali: per il baricentro P ( ̄ x , ̄y ) passa la retta interpolante la cui equazione x ) e le coordindate medie sono è y − ̄y = a ( x − ̄ N (5) ̄x = N ∑ xi i=1 ∑ xi i=1 ̄y = N , N Inoltre, e questo è fondamentale per il calcolo, si può dimostrare che la prima delle equazioni (2) per determinare il coefficiente angolare della retta di interpolazipone equivale alla seguente equazione, di più semplice impiego pratico: N ∑ ( x i − x̄ )⋅( y i − ̄y ) a= (6) i =1 N ∑ ( x i − x̄ )2 i =1 Al numeratore del secondo membro della (6) compare la somma dei prodotti degli scarti delle due variabili mentre al denominatore vi è la somma dei quadrati degli scarti della variabile x per cui, tale formula si può riscrivere anche nella seguente notazione: N ∑ Δ x i⋅Δ y i (6') a= i =1 N ∑ Δ x 2i i =1 Per utilizzare ora la formula (6) possiamo applicarla agli stessi dati dell'esempio precedente avendo però la necessità di ampliare la tabella dei dati con le colonne corrispondenti alle tre sommatorie di scarti che compaiono (scarti approssimati a 2 decimali): x y Δx Δy Δx Δy Δx2 2 2 2-4.5=-2.5 2-4.83=-2.83 2.35 6.25 3 4 3-4.5=-1.5 4-4.83=-0.83 1.245 2.25 4 5 4-4.5=-0.5 5-4.83=0.17 0.085 0.25 5 4 5-4.5=+0.5 4-4.83=-0.83 -0.415 0.25 6 6 6-4.5=+0.5 6-4.83=1.17 0.585 0.25 7 8 7-4.5=+2.5 8-4.83=3.17 7.925 6.25 ∑ x =27 ∑ y=29 16.33 15.5 x =27/6=4.5 ̄ ̄y =29/ 6≈4.83 ∑ Δ x⋅Δ y ∑ Δ x2 Prof. I. Savoia Interpolazione statistica p.4\17 Si ha che il coefficiente angolare calcolato con la formula (6) vale quindi: a=16.33/15.5=1.05 circa . Questo valore è più grande del valore ottenuto utilizzando la formula (2) poichè i risultati intermedi sono stati approssimati a soli due decimali. Per ottenere il terimine noto b della retta si deve ricorrere alla proprietà di passaggio della y − ̄y = a ( x − ̄x ) . retta per il baricentro del diagramma considerata dall'equazione (4) Con i dati dell'esempio calcoliamo b sostituendo nell'equazione (4) il valore del coefficiente a e le coordinate del baricentro precedentemente calcolate: y − 4.83 = 1.05 ( x − 4.5) → y=1.05 x − 4.725+4.83 → y=1.05 x + 0.105 In questo caso è il valore del coefficiente b=0.105 che è più piccolo del valore originale di 0.33 sempre in ragione degli arrotondamenti effettuati nei calcoli. Questo esempio è dunque anche una dimostrazione di quanto l'arrotondamento dei valori nei calcoli intermedi influisca sensibilmente sui risultati finali. Approfondimenti e considerazioni ulteriori 1) I due modi diversi per determinare la retta di interpolazione ai minimi quadrati forniscono, naturalmente, gli stessi risultati numerici ma, essendo basati su formule diverse richiedono tabelle e calcoli diversi: gli arrotondamenti dei risultati hanno in genere un effetto tanto più marcato quante meno sono le cifre mantenute nei calcoli intermedi. Inoltre, il primo modo seppure richieda l'implementazione di sole due colonne aggiuntive rispetto alle due colonne dei valori x e y dei dati sperimentali, presenta una complessità formale maggiore del secondo modo che usa la proprietà del baricentro essendo la formula con cui si determina il coefficiente angolare della retta forse di più facile memorizzazione rispetto a quella del primo modo anche se, è bene sottolineare, che dalla prima si ricava la seconda e viceversa. In tutti i casi, sia nelle tabelle che nelle formule, avvertiamo che la funzione retta può venire scritta sia come y=a x +b oppure come y=f(x), indifferentemente . La retta interpolante, inoltre, si può tracciare , fra due qualsiasi valori teorici calcolati. 2) La proprietà del baricentro implica che, in tutti i casi, la somma di valori y N sperimentali è uguale alla somma dei valori teorici: N ∑ y i =∑ a x +b i=1 come si nota i =1 dai totali della seconda e quinta colonne della prima tabella di esempio. Come conseguenza anche i valori medi sono uguali : N N 1 1 ⋅∑ y = ⋅∑ a x+b → ̄y =a ̄x +b ; questo comporta: N i =1 i N i =1 a) Per il calcolo del secondo coefficiente, ovvero il termine noto b , si può utilizzare un passaggio ancora più semplice di quello che richiede la scrittura della formula della retta: b= y ̄ − a x̄ . E b) la formula 3b) per il calcolo del indice relativo di accostamento diventa I S = S ̄y 3) Gli scarti dei valori y, che servono a calcolare gli indici di scostamento ES e IS ovvero le differenze fra i valori teorici e quelli sperimentali nel metodo del baricentro, possono essere calcolati con entrambi i segni poichè questi scarti entrano nella formula sotto forma di quadrati e, di conseguenza, assumono sempre segno positivo. Quindi è indifferente calcolare gli scarti come "(ax+b)-y" oppure "y-(ax+b)". Prof. I. Savoia Interpolazione statistica p.5\17 Ricerca del trend di una serie storica Serie storica di un dato fenomeno è una serie di valori di ottenuti da rilevazioni eseguite in tempi successivi: per esempio temperature ambientali rilevate alle stesse ore dei singoli giorni in un certo periodo, PIL di un dato paese, fatturato di una azienda, numerosità di una popolazione umana rilevata ad intervalli regolari ( come nel caso dei censimenti), ecc... Quando il fenomeno presenta un certa regolarità, osservabile anche visivamente disponendo i dati sperimentali nel diagramma a dispersione (ad esempio la tendenza dei punti di disporsi attorno ad una retta), l'interpolazione statistica assume un notevole valore di utilità per fare delle previsioni ragionevoli per il futuro: potendo supporre che le condizioni attuali che hanno determinato la rilevazione dei dati si mantengono costanti per un periodo futuro la funzione interpolante permette di descrivere il comportamento tendenziale o trend della variabile y(x) dove x è il tempo. Per ottenere il trend di una serie storica distribuita (più o meno) lungo una retta, si sostituiscono valori di tempo successivi a quelli con cui i coefficienti della retta interpolante sono stati ottenuti ottenendo appunto i valori tendenziali. Quando le rilevazioni avvengono ad intervalli regolari (giorni, anni, ecc.. ) la variabile x rappresenta il tempo espresso dai numeri naturali 1, 2, 3 , ... Il procedimento di con cui si ottengono dei dati al di fuori di quelli dell'intervallo delle osservazioni si chiama extrapolazione. I dati ottenuti con l'extrapolazione sono tanto più attendibili quanto più i dati sperimentali della serie storica si distribuiscono con regolarità attorno al grafico della funzione di interpolazione dei minimi quadrati, ad esempio disponendosi intorno ad una retta e, inoltre, quanto più vicini ai dati della serie sono i valori futuri: una previsione di lungo periodo è, in generale, meno attendibile di una a breve. Esempio. Utili aziendali in un periodo di 6 anni (migliaia di euro) Anno 2006 2007 2008 2009 2010 2011 Utile netto 10 21 12 53 86 128 Determinare con il metodo del baricentro: a) la retta dei minimi quadrati ed il trend per l'anno 2012 ; b) gli indici di scostamento. Disponiamo i dati in un digramma di punti dove ogni anno è rappresentato da una unità X: Utili Come si nota, seppure con una irregolarità nel secondo valore, esiste una tendenza di fondo di tutta la serie a disporsi attorno ad ad una linea retta per cui possiamo determinare i coefficienti della retta dei minimi quadrati predisponendo una tabella. Y 130 120 110 100 90 80 70 60 50 40 30 20 10 Anni X 1 Prof. I. Savoia 2 3 4 5 6 7 Una volta nota la funzione y=a x+b dove x rappresenta il tempo in anni (in numeri naturali) si sostituisce il valore x=7 (2012) nella formula e si ottiene il dato di trend. 8 Interpolazione statistica p.6\17 a) tabella con gli scarti X anni Y utili Δx Δy Δx Δy Δx2 1 10 -2.5 -41.667 104.168 6.25 2 21 -1.5 -30.667 46.001 2.25 3 12 -0.5 -39.667 19.834 0.25 4 53 +0.5 +1.333 0.667 0.25 5 86 +1.5 +34.333 51.500 2.25 6 128 +2.5 +76.333 190.833 6.25 ∑ Δ x⋅Δ y = ∑ Δ x2 = 413 17.5 ∑ x =21 ∑ y=310 ̄x = 21 310 =3.5 ; ̄y = ≈51.667 6 6 N ∑ Δ x i⋅Δ y i Con la f ormula del coefficente a = i =1 N otteniamo a = ∑ Δ x 2i 413 =23.6 ; 17.5 i =1 Calcoliamo il termine noto con la formula b= ̄y − a ̄x : b=51.667 − 23.6⋅3.5=−30.93 La retta di interpolazione (grafico in basso) ha equazione y = 23.6 x − 30.93 da cui, sostituendo il valore x=7 relativo all'anno futuro 2012 otteniamo il dato di trend (box grafico): y (2012) = 23.6⋅7 − 30.93≈134 migliaia di euro Utili Y Trend 2012 130 120 110 100 90 80 70 60 50 40 30 20 10 Anni X 1 2 3 4 5 6 7 8 Dobbiamo qui sottolineare che il dato esprime approssimativamente una tendenza di fondo e che, se dovessero mutare alcune condizioni, come ad esempio per una crisi dei mercati o altri fattori influenti non possiamo più calcolare delle stime ragionevoli ma, per poterle di nuovo ottenere, dovremmo continuare le rilevazioni fino a quando i dati della serie siano disposti regolarmente nel diagramma di dispersione. Prof. I. Savoia Interpolazione statistica p.7\17 b) Tabella degli indici di scostamento X Anni Y Utili valori teorici f(x)=23.6 x – 30.93 Scarti 2 (f(x) – y) 2= 1 10 f(1)=23.6 *1 -30.93=-7.33 (-7.33 – 10) 2= 300.329 2 21 f(2)=23.6 *2 -30.93=16.27 3 12 f(3)=23.6 *3-30.93=39.87 (39.87 – 12) 2= 776.737 4 53 f(4)=23.6 *4-30.93=63.47 (63.47 – 53) 2= 109.621 5 86 f(5)=23.6 *5-30.93=87.07 6 128 f(6)=23.6 *5-30.93=110.67 (16.27 – 21) 2= (87.07 – 86) 2= 1.1449 (110.67 – 128) =300.329 2 ∑ f ( x)=310 ∑ x =21 ∑ y=310 22.3729 ∑ ( f (x )− y )2=1510.53 Usando le formule (3) degli indici di scostamento in cui f(x)=a x+b , (3') dove N=6 e ̄x = a) E S= √ N ∑ ( f (x )− y i )2 i =1 √ b) I S= N 21 310 =3.5 ; ̄y = ≈51.667 6 6 Errore standard E S = , Es ̄y , forniscono i valori degli indici richiesti: 1510.53 ≈15.9 ; Indice di scostamento relativo 6 IS ≈ 15.9 ≈0.3 . 51.7 ESERCITAZIONE SULLA INTERPOLAZIONE AI MINIMI QUADRATI. 1) Domanda di un bene in funzione del prezzo. Determinare quanto sotto richiesto. Prezzo [€] 10 12 15 20 24 Domanda 400 360 300 290 260 a) rappresentazione grafica ; b) retta interpolante con i due metodi (Ris. f(x)=-9.2x+471) ; c) indici di scostamento . 2) Serie storica delle produzioni mensili di un prodotto. Si chiede quanto specificato. Anno Luglio Agosto Settembre Ottobre Novembre Dicembre Quantità [T] 1.7 2.2 3.2 3.2 3.8 5.4 a)Rappresentazione grafica; b) retta interpolante con il metodo del baricentro (Ris.f(x)=0.67x+0.92) ed il valore di trend estrapolato per il mese di gennaio; c) indici di scostamento Prof. I. Savoia Interpolazione statistica p.8\17 Svolgimento 1) Domanda di un bene in funzione del prezzo. Determinare quanto sotto richiesto. Prezzo [€] 10 12 15 20 24 Domanda 400 360 300 290 260 a) rappresentazione grafica : In figura: il diagramma a dispersione con i 5 punti sperimentali e la retta di interpolazione ottenuta tracciando una linea passante per due punti teorici. Ad esempio si può scegliere il primo punto quello sull'asse verticale in A che rappresenta la massima domanda quando il prezzo del bene si annulla ed il secondo punto B lungo l'asse orizzontale rappresenta il prezzo in euro a cui la domanda è nulla. Domanda 500 A 400 300 200 100 B 30 20 10 x Prezzo 50 40 7 8 b) Coefficienti della retta di interpolazione 1.1: metodo 1: tabella 1.1 x y x2 51.2 y(x) 471 0 y(x)=471 – 9.2 x xy 10 400 100 4000 12 360 144 4320 15 300 225 4500 20 290 400 5800 24 260 576 6240 ∑ x =81 ∑ y=1610 ∑ x 2=1445 x̄ =81/5=16.2 ; 0 ∑x y=24860 ̄y =1610/5=322 Per calcolare il coefficente angolare utilizziamo la formula (2) del primo metodo con N=5: N N N N⋅∑ x i⋅y i −∑ x i⋅∑ y i a= i =1 i =1 N i =1 i =1 2 (∑ ) N⋅∑ x 2i − N i =1 xi → a= 5⋅24860−81⋅1610 −1610 = ≈−9.2 ; 664 5⋅1445−812 per il calcolo di b possiamo usare la formula b= ̄y −a x → b=322−(−9.2)⋅16.2≈471 Prof. I. Savoia Interpolazione statistica p.9\17 1.2 metodo 2 del baricentro: tabella 1.2 x y Δx= x− x̄ Δy = y− ̄y Δx Δy Δx2 10 400 -6.2 78 -483.6 38.44 12 360 -4.2 38 -159.6 17.64 15 300 +1.2 -22 -26.4 1.44 20 290 +3.8 -32 -121.6 14.44 24 260 +7.8 -62 -483.6 60.84 ∑ x =81 ∑ y=1610 -1274.8 132.8 ̄x =81/5=16.2 ; ̄y =1610/5=322 Per calcolare il coefficente angolare a utilizziamo la formula (6'): N ∑ Δ x i⋅Δ y i a= i =1 → a= N ∑ Δ x 2i −2078.8 =−9.6 ; b= ̄y −a x=322−(−9.6)⋅16.2≈477.5 1445 i =1 c) Calcolo degli indici di scostamento: tabella 2 Per il calcolo dei valori teorici possiamo usare una delle due funzioni ricavate con i due metodi ad esempio il primo. X prezzi Y Domande valori teorici f(x)=-9.2 x+471 Scarti 2 (f(x) – y) 2= 10 400 f(10)=-9.2 *10 +471=379 (379 – 400) 2= 441 12 360 f(12)=-9.2 *12 +471=360.6 15 300 f(15)=-9.2 *15+471=333 20 290 f(20)=-9.2 *20+471=287 24 260 f(24)=-9.2 *24+471=250.2 ∑ x =81 ∑ y=1610 Errore standard : E S= √ ∑ f ( x)≈1610 0.36 (333-300) 2= 1089 (287-290) 2= (250.2-260) 2= 9 96.04 ∑ ( f (x )− y )2=1635.4 N ∑ ( f ( x )− y i )2 i =1 N = √ 1635.4 ≈18.1 ; 5 Indice quadratico relativo di scostamento: I S = Prof. I. Savoia (360.6-360) 2= E s 18.1 ≈ ≈0.056 . y 322 ̄ Interpolazione statistica p.10\17 2) Serie storica delle produzioni mensili di un prodotto. Si chiede quanto specificato. Anno Luglio Agosto Settembre Ottobre Novembre Dicembre Quantità [T] 1.7 2.2 3.2 3.2 3.8 5.4 a) Rappresentazione grafica: i mesi della serie storica vengono rappresentati dalla variabile x che assume i valori interi da x=1 di Luglio fino a x=6 di Dicembre. 5 La retta di interpolazione può essere tracciata disegnando una linea che passa per due punti qualsiasi (crocette) calcolati con la funzione di interpolazione ottenta al punto b), ad esempio per i valori di x=0 e di x=6. Produzioni 4 3 x 0 6 7 f(x) ≈ 0.9 ≈ 4.9 ≈ 5.6 y(x)=0.67 x + 0.9 2 1 Mesi 1 2 3 4 5 6 7 In alto a destra il punto del del trend di gennaio con x=7. b) Tabella con gli scarti per il calcolo del coefficente angolare della retta X anni Y Produzioni Δx Δy Δx Δy Δx2 1 1.7 -2.5 -1.55 3.875 6.25 2 2.2 -1.5 -1.05 1.575 2.25 3 3.2 -0.5 -0.05 0.025 0.25 4 3.2 +0.5 -0.05 -0.025 0.25 5 3.8 +1.5 +0.55 0.825 2.25 6 5.4 +2.5 +2.15 5.375 6.25 ∑ x =21 ∑ y=19.5 x̄ = ∑ Δ x⋅Δ y = 21 19.5 =3.5 ; ̄y = =3.25 6 6 11.65 ∑Δx 2 = 17.5 Per calcolare il coefficente angolare a utilizziamo la formula (6'): N ∑ Δ x i⋅Δ y i a= i =1 N ∑ Δ x 2i → a= 11.65 ≈0.67 ; b= ̄y −a x=3.25−0.67⋅3.5≈0.9 17.5 i =1 Prof. I. Savoia Interpolazione statistica p.11\17 b) Tabella 2 degli indici di scostamento X Mesi Y Produzioni Valori teorici f(x)=0.67 x +0.9 Scarti 2 (f(x) – y) 2= 1 1.7 f(1)=0.67 *1 +0.9=1.57 (1.57 – 1.7) 2= 0.0169 2 2.2 f(2)=0.67 *2 +0.9=2.24 (2.24 – 2.2) 2= 0.0016 3 3.2 f(3)=0.67 *3+0.9=2.91 ( 2.91-3.2) 2= 4 3.2 f(4)=0.67 *4+0.9=3.58 (3.58-3.2) 2= 0.1444 5 3.8 f(5)=0.67 *5+0.9=4.25 (4.25-3.8) 2= 0.2025 6 5.4 f(6)=0.67 *6+0.9=4.92 (4.92-5.4) 2= 0.2304 ∑ x =21 ∑ y=19.5 ̄x = ∑ f ( x)≈19.5 0.0841 ∑ ( f (x )− y )2≈0.68 21 19.5 =3.5 ; ̄y = =3.25 6 6 Si noti come i totali delle colonne seconda e terza siano uguali entro l'approssimazione di una cifra decimale dei risultati e come ciò confermi la correttezza di calcolo e di procedimento. Errore standard : E S= √ N ∑ ( f (x )− y i )2 i =1 N = Indice quadratico relativo di scostamento: Prof. I. Savoia √ 0.68 ≈0.34 ; 6 I S= E s 0.34 ≈ ≈0.10 ovvero il 10% circa. ̄y 3.25 Interpolazione statistica p.12\17 Complementi A- Significato dell'equazione (2) del coefficente angolare della retta interpolante. Consideriamo nuovamente l'equazione (2) di pagina 1: N a= N N N⋅∑ x i⋅y i −∑ x i⋅∑ y i i=1 i=1 N 2 ( ) N⋅∑ x i − i=1 i=1 2 N ∑ xi i=1 Dividendo il numeratore ed il denominatore della frazione per N2 si ottiene: N N N N N N⋅∑ x i⋅y i −∑ x i⋅∑ y i a= i =1 i =1 N 2 i = (∑ ) N⋅∑ x − i =1 i =1 2 N i =1 N N 1 1 ⋅N⋅∑ x i⋅y i− 2⋅∑ x i⋅∑ y i 2 N N i=1 i=1 i =1 2 ( ) N N 1 1 ⋅N⋅∑ x 2i − 2⋅ ∑ x i 2 N N i =1 i =1 xi N ∑ x i⋅y i i =1 = N N ∑x i =1 N N ∑ x i⋅ ∑ yi − i=1 ⋅ i=1 N N 2 i 2 ( ) N ∑x − i =1 2 i N L'ultima espressione a destra assume un senso molto più evidente di quanto non sembri alla prima impressione: – al numeratore vi è la differenza fra il valore medio dei prodotti misti x y e il prodotto dei due valori medi di x e di y ; – al denominatore riconosciamo la differenza fra il quadrato della media quadratica e il quadrato della media e, in base alla nota proprietà, vale il quadrato dello scarto quadratico medio ovvero la varianza. N Pertanto, essendo 2 Q= ∑ x 2i i =1 N N e ∑ xi M= ̄x = i =1 N , e considerata la nota proprietà dello scarto quadratico medio σ2=Q 2−M 2 possiamo riscrivere la formula nel seguente modo più sintetico: N (2') Prof. I. Savoia ∑ ( x− ̄x )2 a= x⋅y − x̄⋅ȳ ; essendo σ2= i =1 2 N σ Interpolazione statistica p.13\17 Esempio applicativo della formula sintetica (2') In una fabbrica di macchine sono stati rilevati i seguenti costi di produzione al variare del numero di pezzi prodotti: X produzioni 1 3 5 7 9 Y costi 1400 3000 3500 5400 5800 Si determini a) la retta di interpolazione ai minimi quadrati con il primo metodo e si stimi quanto costerebbe produrre 11 macchine, b) rappresentare il tutto in un diagramma, c) calcolare gli indici di scostamento assoluto e relativo. a) per determinare il primo coefficiente della retta usiamo la formula sintetica (2') del primo metodo per cui costruiamo una tabella che, oltre ai dati originali e gli scarti, riporta una colonna con i prodotti misti (x y) : x y 1 1400 Δx2 xy (1-5) =16 1400 2 3 3000 (3-5) =4 9000 5 3500 (5-5) =0 17500 7 5400 (7-5)2=4 37800 9 5800 (9-5)2=16 52200 ∑ x =25 19100 ∑ Δ x 2=40 ∑ x⋅y=117900 ̄x = 25 =5 ; 5 a= ̄y = 2 2 19100 =3820 ; 5 σ2= 40 =8 ; 5 x⋅y= 117900 =23580 . 5 x⋅y − ̄x⋅̄y 23580−5⋅3820 = =560 ; b= ̄y −a ̄x =3820−560⋅5=1020 8 σ2 La stima del trend di costo per produrre 11 macchine è: f(11)=560*11+1020=7180. b) Rappresentazione grafica 8 Costi [Mig. €] B 7 6 5 4 La retta di interpolazione può essere tracciata per mezzo di una linea passante per due qualunque punti calcolati con la funzione, ad esempio in A(0, 1020) che rappresenta il costo fisso di produzione e in B(11, 7180) che rappresenta il costo tendenziale quando la produzione sale a 11 pezzi. 3 x 2 Produzioni 2 Prof. I. Savoia 3 4 5 6 7 8 9 10 11 f(x) 1020 7180 f(x)=560 x + 1020 A 1 1 0 11 Interpolazione statistica p.14\17 c) Calcolo degli indici di scostamento. X Produzioni Y Costi [€] Valori teorici f(x)=560 x + 1020 Scarti 2 (f(x) – y) 2= 1 1400 f(1)=560 *1 + 1020=1580 (1580-1400) 2= 32400 3 3000 f(2)=560 *3 + 1020=2700 (2700-3000) 2= 90000 5 3500 f(3)=560 *5+ 1020=3820 ( 3820-3500) 2= 102400 7 5400 f(4)=560 *7 + 1020=4940 (4940-5400) 2= 211600 9 5800 f(5)=560 *9+ 1020=6060 (6060-5800) 2= ∑ x =21 x̄ = ∑ y=19100 25 =5 ; 5 Errore standard : ̄y = ∑ f ( x)=19100 67600 ∑ ( f (x )− y )2=504000 19100 =3820 . 5 E S= √ N ∑ ( f (x )− y i )2 i =1 = N Indice quadratico relativo di scostamento: √ 504000 =317.49 ; 5 IS= E s 317.49 = ≈0.083 ovvero il 8.3 %. 3820 ̄y Esercizi: 1) Con i dati dell'esempio precedente calcolare i coefficienti della retta di regressione usando il metodo 2 del baricentro, quindi rappresentare il tutto in un diagramma. 2) Con entrambi i metodi visti determinare la rette dei minimi quadrati in una scala opportuna insieme ai dati sperimentali poi calcolare gli indici di scostamento. x 1 2 3 4 5 y 37 62.9 96.2 118.4 148 Risposte: f(x) = 27.75 x+9.25 ; I=0.0219 3) Con entrambi i metodi visti determinare la rette dei minimi quadrati e calcolare il trend nei due anni successivi. In una scala opportuna insieme ai dati sperimentali tracciare la retta quindi calcolare gli indici di scostamento. Redditi annuali di una famiglia in migliaia di euro. Stimare i redditi negli anni futuri 2012 e 2013 Prof. I. Savoia x 2007 2008 2009 2010 2011 y 50.24 60.79 73.89 85.78 101.15 Risposte: f(x) = 12.68 x + 36.33 ; 112.4 ; 125.1 Interpolazione statistica p.15\17 B- Dimostrazione della formula del coefficiente angolare N ∑ ( x i − x̄ )⋅( y i − ̄y ) Dimostriamoo la formula (6') a = i =1 N 2 ∑ ( x i − ̄x ) N ∑ Δ x i⋅Δ y i = i=1N . 2 ∑ (Δ x i ) i =1 i=1 Partiamo da due ipotesi fondamentali che sono alla base del metodo dei minimi quadrati: 1- La somma algebrica degli scarti tra i dati calcolati (valori teorici) quelli osservati è nulla: N ∑ ( a x i + b − y i )=0 i=1 N N Sviluppando l'espressione al primo membro otteniamo a⋅∑ x +N⋅b − ∑ y i =0 da cui i =1 i=1 a⋅N⋅x̄ + N⋅ b − N⋅̄y =0 e quindi, dividendo l'equazione per N si ottiene la relazione che dimostra come la retta passi per il baricentro P( ̄x , ̄y ) della distribuzione dei punti: ȳ = a x̄ + b 2- La somma dei quadrati degli scarti è minima, per particolari valori dei cofficienti della retta: N S (a , b)=∑ ( a x i + b − y i )2 i=1 Sostiuendo nella somma la relazione, ricavabile dallla prima ipotesi, b = ̄y − a x̄ , si ha una espressione che dipende unicamente dal valore di a: N N N i =1 i =1 i=1 S (a )=∑ ( a x i + ̄y − a ̄x − y i )2 = ∑ [a ( x i − x̄ )−( y i − ȳ )]2=∑ (a Δ x i −Δ y i )2 Dopo avere sviluppato i quadrati entro il simbolo di sommatoria si ottiene: N N i=1 i =1 S (a ) = ∑ (a Δ x i −Δ y i )2 = ∑ [a 2( Δ x i )2−2 a Δ x i Δ y i+(Δ y i )2 ] Da qui, dopo avere raccolto i termini comuni nella lettera a e scindendo la sommatoria, si ottiene un trinomio di secondo grado nella variabile a dal quale si calcola il punto di minimo: N N i=1 i =1 S (a ) =[ ∑ (Δ x i )2] a 2−2( ∑ Δ x i⋅Δ y i ) a + (Δ y i )2 N ∑ Δ x i⋅Δ y i Il valore di minimo del trinomio è quindi dato dalla formula (6') : a= i=1 N c.d.d. 2 ∑ (Δ x i ) i=1 Prof. I. Savoia Interpolazione statistica p.16\17 C- Scarti ed indici di accostamento Gli scarti della variabile dipendente y, ovvero le differenze tra i valori teorici di interpolazione e quelli sperimentali rilevati, dati da espressioni del tipo s i= f (x i )− y i , possono essere sia positivi oppure negativi a seconda, rispettivamente, se l'altezza della retta in corrispondenza ai valori delle ascisse x è superiore o inferiore all'altezza dei punti sperimentali . I valori assoluti degli scarti sono invece l'elemento di computo che permette di definire il grado di accostamento tra la retta e l'insieme dei punti stessi essendo il loro valore uguale alle misure dei segmenti verticali che separano i punti sperimentali dalla retta. Nella figura sotto sono mostrati i segmenti orientati verso l'alto e verso il basso a rappresentare gli scarti tra 5 punti teorici della retta di interpolazione ai minimi quadrati e i rispettivi punti sperimentali. Y s4 s5 P y s2 s3 s1 Es = N 2 ∑ si i=1 N X sperimentali punti: x teorici Essendo l'errore standard definito come la media quadratica degli scarti, rappresenta pertanto anche il valore quadratico medio delle misure dei segmenti verticali: tanto più alto è il suo valore e tanto biù basso è il grado di accostamento della retta all'insieme di tutti i punti. L'indice quadratico relativo è invece dato dal rapporto fra l'errore standard e la quota verticale del baricentro dei dati. Tanto più sono piccoli gli indici e tanto meglio la retta interpola i dati. E S= √ N ∑ ( f (x )− y i )2 i =1 N = √ N ∑ s 2i i =1 N ; I S= ES ̄y Naturalmente è possibile definire altri indici di accostamento, ad esempio considerando invece della media quadratica degli scarti, la media aritmetica dei loro valori assoluti ma, in tutti i modi, l'indice dell'accostamento è un valore medio delle misure dei segmenti che separano la retta dai punti del diagramma di dispersione. Gli indici relativi, essendo dati da rapporti tra grandezze dimensionalmente omogenee e limitati numericamente in un modo che non dipende dagli specifici tipi di dati che si studiano , si interpretano più facilmente e permettono il confronto fra distribuzioni diverse. Prof. I. Savoia Interpolazione statistica p.17\17