INTERPOLAZIONE STATISTICA
Un insieme di N coppie di valori sperimentali {( x 1 , y 1) , (x 2 , y 2) , ...... ( x N , y N )} può venire
rappresentato in un sistema di assi cartesiani da un diagramma a dispersione costituito da
una nube di punti le cui coordinate sono date dai numeri di ciascuna delle N coppie di dati
(fig. 1) . L'interpolazione matematica consiste nel determinare una funzione y(x), ad
esempio un polinomio, il cui grafico passi esattamente per gli N punti sperimentali: nel caso
di due soli N=2 punti sia ha una retta mentre nel caso di N=3 punti una parabola e,
all'aumentare del numero N si hanno polinomi di grado N via via più complessi da calcolare.
Nel caso della retta interpolatrice (fig. 2) di due punti noti
{( x 1 , y 1) , ( x 2 , y 2)} il parametro che la determina è il suo coefficiente angolare m che si
ricava dall'equazione della retta passante per due punti : y 2 − y 1 = m ( x 2−x 1) .
Y
fig. 2
Y
fig. 1
y2
y1
X
X
x2
x1
Quando il numero N dei dati diventa grande, come nel caso di studi statistici e sperimentali, la
ricerca di una funzione che collega le due variabili x e y si basa sulla interpolazione statistica
per la quale il grafico della funzione interpolante deve accostarsi il più vicino possibile agli N
punti del diagramma di dispersione secondo il metodo dei minimi quadrati: nel caso che per
la funzione interpolante sia scelta una retta di equazione y(x) =a x + b , la condizione di
accostamento del suo grafico agli N punti consiste nel trovare i due valori a e b che rendono
minima la somma S(a,b) dei quadrati degli scarti tra i valori teorici y(xi) ed i valori
sperimentali yi in modo che i quadrati eliminano la possibilità che gli scarti di segno opposto
si eliminino impedendo così di indicare il grado di accostamento. La scelta della retta deve
essere quindi fatta solo in base alle distanze assolute rispetto alle ordinate yi degli N punti
sperimentali e i suoi coefficienti a e b sono quelli che rendono minima la somma :
N
(1)
S (a , b)=∑ ( y ( x i )− y i )2=(a x 1+b− y 1 )2+(a x 2+b− y 2 )2+.........+(a x N +b− y N )2
i=1
Si può dimostrare che i coefficienti sono dati dalle seguenti equazioni:
N
(2)
a=
N
N
N⋅∑ x i⋅y i −∑ x i⋅∑ y i
i=1
i=1
N
2
i=1
i=1
2
(∑ )
N⋅∑ x i −
Prof. I. Savoia
N
N
i=1
2
i
N
N
N
∑ x ⋅ ∑ y i−∑ x i⋅∑ x i⋅y i
,
b= i =1
xi
Interpolazione statistica
i =1
N
i=1
i=1
i=1
2
(∑ )
N⋅∑ x2i −
N
i=1
xi
p.1\17
Si considerino i dati riportati nel diagramma di figura 1 la cui tabella è la seguente:
x
2
3
4
5
6
7
y
2
4
5
4
6
8
Per determinare la retta dei minimi quadrati utilizzando le precedenti formule (2) occorre
costruire una nuova tabella, basata sugli N=7 dati sopra scritti, in cui compaiono i valori delle
somme richieste per il calcolo nelle due formule:
x
y
x2
xy
2
2
4
4
3
4
9
12
4
5
16
20
5
4
25
20
6
6
36
36
7
8
49
56
∑ x =27
∑ y=29
∑ x 2=139 ∑ x
y=148
Siamo ora in grado di calcolare i coefficienti della retta interpolante con le formule (2):
a=
6⋅148 − 27⋅29 105
=
=1 ,
105
6⋅139 − 272
b=
139⋅29 − 27⋅148
35
1
=
= = ≈0.33
2
105 3
6⋅139 − 29
Pertanto la retta dei minimi quadrati (fig. 3) è data dall'equazione
Y
fig. 3
(3)
Prof. I. Savoia
a)
E S=
√
N
∑ (a
i=1
y = x + 0.33
Come si nota dalla figura la retta "passa
attraverso" i punti sperimentali ma non passa
esattamente per nessuno di essi.
Per valutare il grado di accostamento fra la
retta interpolante ed i punti sperimentali si
possono calcolare gli indici di accostamento
assoluto e relativo. Il primo prende il nome di
errore standard Es ed il secondo, preferibile al
primo sia per l'assenza di unità di misura che
per la limitatezza dei valori numerici, è detto
indice quadratico relativo si scostamento IS
X
e sono definiti dalle seguenti formule:
x i +b− y i )2 ,
I S=
b)
N
Interpolazione statistica
Es
N
∑a
i=1
x i +b
N
p.2\17
Quindi l'indice di scostamento quadratico relativo è il rapporto fra l'errore standard ed
N
il valore medio
̄y =
∑a
x i +b
i=1
che viene calcolato in base ai coefficienti della retta.
N
Volendo ad esempio determinare gli indici di scostamento con i dati precdenti occorre
ampliare la tabella con il calcolo dei valori teorici della retta di interpolazione:
x
y
x2
xy
valori teorici
y= a x +b :
y=x+1/3
Scarti 2
(a x +b – y) 2
2
2
4
4
2.333...
(2.333..-2)2=0.111...
3
4
9
12
3.333...
(3.333..-4)2=0.444...
4
5
16
20
4.333...
(4.333..-5)2=0.444...
5
4
25
20
5.333...
(5.333..-5)2=0.111...
6
6
36
36
6.333...
(6.333..-6)2=0.111...
7
8
49
56
7.333...
(7.333..-8)2=0.444...
∑ x =27∑ y=29 ∑ x 2=139 ∑ x
y=148
∑ a x + b =29
2
(∑ a x+b – y) ≈1.67
In base a questi valori calcoliamo infine gli indici di scostamento:
Errore standard
E S=
√
1.667
≈0.53
6
Indice quadratico relativo di scostamento
I S=
E S 0.53
≈
≈0.018
29
̄y
L'indice percentuale si ottiene moltiplicando per 100 il valore precedente:
I S %=I S⋅100≈0.018⋅100=1.8 %
Diciamo quindi che la retta presenta uno scostamento relativo di circa l'1.8 % dai dati.
Notiamo infine che la somma dei valori y sperimentali è uguale alla somma degli y teorici e
questo non è casuale ma riguarda una proprietà generale.
x , ̄y )
La retta interpolante passa per il baricentro del diagramma di dispersione P ( ̄
le cui coordinate sono date dalle medie dei valori di x e y dei punti sperimentali e, sulla base di
questa proprietà, è basato il metodo del baricentro con il quale si determinano i coefficienti
della retta partendo dalla sua equazione:
(4 )
Prof. I. Savoia
y − ̄y = a ( x − x̄ ) .
Interpolazione statistica
p.3\17
Metodo del baricentro
Il metodo del baricentro per determinare la retta di interpolazione dei minimi quadrati si basa
sulla proprietà per cui tale retta, i cui coefficienti sono dati dalle equazioni (2), passa per il
baricentro del diagramma di dispersione che è il punto dato dalle coordinate medie di tutti i
punti sperimentali: per il baricentro P ( ̄
x , ̄y ) passa la retta interpolante la cui equazione
x ) e le coordindate medie sono
è y − ̄y = a ( x − ̄
N
(5)
̄x =
N
∑ xi
i=1
∑ xi
i=1
̄y =
N
,
N
Inoltre, e questo è fondamentale per il calcolo, si può dimostrare che la prima delle equazioni
(2) per determinare il coefficiente angolare della retta di interpolazipone equivale alla
seguente equazione, di più semplice impiego pratico:
N
∑ ( x i − x̄ )⋅( y i − ̄y )
a=
(6)
i =1
N
∑ ( x i − x̄ )2
i =1
Al numeratore del secondo membro della (6) compare la somma dei prodotti degli scarti delle
due variabili mentre al denominatore vi è la somma dei quadrati degli scarti della variabile x
per cui, tale formula si può riscrivere anche nella seguente notazione:
N
∑ Δ x i⋅Δ y i
(6')
a=
i =1
N
∑ Δ x 2i
i =1
Per utilizzare ora la formula (6) possiamo applicarla agli stessi dati dell'esempio precedente
avendo però la necessità di ampliare la tabella dei dati con le colonne corrispondenti alle tre
sommatorie di scarti che compaiono (scarti approssimati a 2 decimali):
x
y
Δx
Δy
Δx Δy
Δx2
2
2
2-4.5=-2.5
2-4.83=-2.83
2.35
6.25
3
4
3-4.5=-1.5
4-4.83=-0.83
1.245
2.25
4
5
4-4.5=-0.5
5-4.83=0.17
0.085
0.25
5
4
5-4.5=+0.5
4-4.83=-0.83
-0.415
0.25
6
6
6-4.5=+0.5
6-4.83=1.17
0.585
0.25
7
8
7-4.5=+2.5
8-4.83=3.17
7.925
6.25
∑ x =27
∑ y=29
16.33
15.5
x =27/6=4.5
̄
̄y =29/ 6≈4.83
∑ Δ x⋅Δ y
∑ Δ x2
Prof. I. Savoia
Interpolazione statistica
p.4\17
Si ha che il coefficiente angolare calcolato con la formula (6) vale quindi:
a=16.33/15.5=1.05 circa . Questo valore è più grande del valore ottenuto utilizzando la
formula (2) poichè i risultati intermedi sono stati approssimati a soli due decimali.
Per ottenere il terimine noto b della retta si deve ricorrere alla proprietà di passaggio della
y − ̄y = a ( x − ̄x ) .
retta per il baricentro del diagramma considerata dall'equazione (4)
Con i dati dell'esempio calcoliamo b sostituendo nell'equazione (4) il valore del coefficiente a
e le coordinate del baricentro precedentemente calcolate:
y − 4.83 = 1.05 ( x − 4.5) → y=1.05 x − 4.725+4.83 → y=1.05 x + 0.105
In questo caso è il valore del coefficiente b=0.105 che è più piccolo del valore originale di 0.33
sempre in ragione degli arrotondamenti effettuati nei calcoli. Questo esempio è dunque anche
una dimostrazione di quanto l'arrotondamento dei valori nei calcoli intermedi influisca
sensibilmente sui risultati finali.
Approfondimenti e considerazioni ulteriori
1) I due modi diversi per determinare la retta di interpolazione ai minimi quadrati
forniscono, naturalmente, gli stessi risultati numerici ma, essendo basati su formule
diverse richiedono tabelle e calcoli diversi: gli arrotondamenti dei risultati hanno in
genere un effetto tanto più marcato quante meno sono le cifre mantenute nei calcoli
intermedi. Inoltre, il primo modo seppure richieda l'implementazione di sole due
colonne aggiuntive rispetto alle due colonne dei valori x e y dei dati sperimentali,
presenta una complessità formale maggiore del secondo modo che usa la proprietà
del baricentro essendo la formula con cui si determina il coefficiente angolare della
retta forse di più facile memorizzazione rispetto a quella del primo modo anche se, è
bene sottolineare, che dalla prima si ricava la seconda e viceversa.
In tutti i casi, sia nelle tabelle che nelle formule, avvertiamo che la funzione retta può
venire scritta sia come y=a x +b oppure come y=f(x), indifferentemente .
La retta interpolante, inoltre, si può tracciare , fra due qualsiasi valori teorici calcolati.
2) La proprietà del baricentro implica che, in tutti i casi, la somma di valori y
N
sperimentali è uguale alla somma dei valori teorici:
N
∑ y i =∑ a x +b
i=1
come si nota
i =1
dai totali della seconda e quinta colonne della prima tabella di esempio.
Come conseguenza anche i valori medi sono uguali :
N
N
1
1
⋅∑ y = ⋅∑ a x+b → ̄y =a ̄x +b ; questo comporta:
N i =1 i N i =1
a) Per il calcolo del secondo coefficiente, ovvero il termine noto b , si può
utilizzare un passaggio ancora più semplice di quello che richiede la scrittura della
formula della retta: b= y
̄ − a x̄ .
E
b) la formula 3b) per il calcolo del indice relativo di accostamento diventa I S = S
̄y
3) Gli scarti dei valori y, che servono a calcolare gli indici di scostamento ES e IS ovvero
le differenze fra i valori teorici e quelli sperimentali nel metodo del baricentro, possono
essere calcolati con entrambi i segni poichè questi scarti entrano nella formula sotto
forma di quadrati e, di conseguenza, assumono sempre segno positivo. Quindi è
indifferente calcolare gli scarti come "(ax+b)-y" oppure "y-(ax+b)".
Prof. I. Savoia
Interpolazione statistica
p.5\17
Ricerca del trend di una serie storica
Serie storica di un dato fenomeno è una serie di valori di ottenuti da rilevazioni eseguite in
tempi successivi: per esempio temperature ambientali rilevate alle stesse ore dei singoli giorni
in un certo periodo, PIL di un dato paese, fatturato di una azienda, numerosità di una
popolazione umana rilevata ad intervalli regolari ( come nel caso dei censimenti), ecc...
Quando il fenomeno presenta un certa regolarità, osservabile anche visivamente disponendo i
dati sperimentali nel diagramma a dispersione (ad esempio la tendenza dei punti di disporsi
attorno ad una retta), l'interpolazione statistica assume un notevole valore di utilità per fare
delle previsioni ragionevoli per il futuro: potendo supporre che le condizioni attuali che
hanno determinato la rilevazione dei dati si mantengono costanti per un periodo futuro la
funzione interpolante permette di descrivere il comportamento tendenziale o trend della
variabile y(x) dove x è il tempo. Per ottenere il trend di una serie storica distribuita (più o
meno) lungo una retta, si sostituiscono valori di tempo successivi a quelli con cui i coefficienti
della retta interpolante sono stati ottenuti ottenendo appunto i valori tendenziali. Quando le
rilevazioni avvengono ad intervalli regolari (giorni, anni, ecc.. ) la variabile x rappresenta il
tempo espresso dai numeri naturali 1, 2, 3 , ... Il procedimento di con cui si ottengono dei dati
al di fuori di quelli dell'intervallo delle osservazioni si chiama extrapolazione.
I dati ottenuti con l'extrapolazione sono tanto più attendibili quanto più i dati sperimentali
della serie storica si distribuiscono con regolarità attorno al grafico della funzione di
interpolazione dei minimi quadrati, ad esempio disponendosi intorno ad una retta e, inoltre,
quanto più vicini ai dati della serie sono i valori futuri: una previsione di lungo periodo è, in
generale, meno attendibile di una a breve.
Esempio. Utili aziendali in un periodo di 6 anni (migliaia di euro)
Anno
2006
2007
2008
2009
2010
2011
Utile netto
10
21
12
53
86
128
Determinare con il metodo del baricentro:
a) la retta dei minimi quadrati ed il trend per l'anno 2012 ; b) gli indici di scostamento.
Disponiamo i dati in un digramma di punti dove ogni anno è rappresentato da una unità X:
Utili
Come si nota, seppure con una irregolarità
nel secondo valore, esiste una tendenza di
fondo di tutta la serie a disporsi attorno ad
ad una linea retta per cui possiamo
determinare i coefficienti della retta dei
minimi quadrati predisponendo una tabella.
Y
130
120
110
100
90
80
70
60
50
40
30
20
10
Anni X
1
Prof. I. Savoia
2
3
4
5
6
7
Una volta nota la funzione y=a x+b dove x
rappresenta il tempo in anni (in numeri
naturali) si sostituisce il valore x=7 (2012)
nella formula e si ottiene il dato di trend.
8
Interpolazione statistica
p.6\17
a) tabella con gli scarti
X anni
Y utili
Δx
Δy
Δx Δy
Δx2
1
10
-2.5
-41.667
104.168
6.25
2
21
-1.5
-30.667
46.001
2.25
3
12
-0.5
-39.667
19.834
0.25
4
53
+0.5
+1.333
0.667
0.25
5
86
+1.5
+34.333
51.500
2.25
6
128
+2.5
+76.333
190.833
6.25
∑ Δ x⋅Δ y =
∑ Δ x2 =
413
17.5
∑ x =21 ∑ y=310
̄x =
21
310
=3.5 ; ̄y =
≈51.667
6
6
N
∑ Δ x i⋅Δ y i
Con la f ormula del coefficente a =
i =1
N
otteniamo a =
∑ Δ x 2i
413
=23.6 ;
17.5
i =1
Calcoliamo il termine noto con la formula b= ̄y − a ̄x : b=51.667 − 23.6⋅3.5=−30.93
La retta di interpolazione (grafico in basso) ha equazione y = 23.6 x − 30.93 da cui,
sostituendo il valore x=7 relativo all'anno futuro 2012 otteniamo il dato di trend (box grafico):
y (2012) = 23.6⋅7 − 30.93≈134 migliaia di euro
Utili
Y
Trend 2012
130
120
110
100
90
80
70
60
50
40
30
20
10
Anni X
1
2
3
4
5
6
7
8
Dobbiamo qui sottolineare che il dato esprime approssimativamente una tendenza di fondo
e che, se dovessero mutare alcune condizioni, come ad esempio per una crisi dei mercati o
altri fattori influenti non possiamo più calcolare delle stime ragionevoli ma, per poterle di
nuovo ottenere, dovremmo continuare le rilevazioni fino a quando i dati della serie siano
disposti regolarmente nel diagramma di dispersione.
Prof. I. Savoia
Interpolazione statistica
p.7\17
b) Tabella degli indici di scostamento
X Anni
Y Utili
valori teorici
f(x)=23.6 x – 30.93
Scarti 2
(f(x) – y) 2=
1
10
f(1)=23.6 *1 -30.93=-7.33
(-7.33 – 10) 2= 300.329
2
21
f(2)=23.6 *2 -30.93=16.27
3
12
f(3)=23.6 *3-30.93=39.87
(39.87 – 12) 2= 776.737
4
53
f(4)=23.6 *4-30.93=63.47
(63.47 – 53) 2= 109.621
5
86
f(5)=23.6 *5-30.93=87.07
6
128
f(6)=23.6 *5-30.93=110.67
(16.27 – 21) 2=
(87.07 – 86) 2=
1.1449
(110.67 – 128) =300.329
2
∑ f ( x)=310
∑ x =21 ∑ y=310
22.3729
∑ ( f (x )− y )2=1510.53
Usando le formule (3) degli indici di scostamento in cui f(x)=a x+b ,
(3')
dove N=6 e
̄x =
a)
E S=
√
N
∑ ( f (x )− y i )2
i =1
√
b)
I S=
N
21
310
=3.5 ; ̄y =
≈51.667
6
6
Errore standard E S =
,
Es
̄y
, forniscono i valori degli indici richiesti:
1510.53
≈15.9 ; Indice di scostamento relativo
6
IS ≈
15.9
≈0.3 .
51.7
ESERCITAZIONE SULLA INTERPOLAZIONE AI MINIMI QUADRATI.
1) Domanda di un bene in funzione del prezzo. Determinare quanto sotto richiesto.
Prezzo [€]
10
12
15
20
24
Domanda
400
360
300
290
260
a) rappresentazione grafica ; b) retta interpolante con i due metodi (Ris. f(x)=-9.2x+471) ; c)
indici di scostamento .
2) Serie storica delle produzioni mensili di un prodotto. Si chiede quanto specificato.
Anno
Luglio
Agosto
Settembre
Ottobre
Novembre
Dicembre
Quantità [T]
1.7
2.2
3.2
3.2
3.8
5.4
a)Rappresentazione grafica; b) retta interpolante con il metodo del baricentro (Ris.f(x)=0.67x+0.92)
ed il valore di trend estrapolato per il mese di gennaio; c) indici di scostamento
Prof. I. Savoia
Interpolazione statistica
p.8\17
Svolgimento
1) Domanda di un bene in funzione del prezzo. Determinare quanto sotto richiesto.
Prezzo [€]
10
12
15
20
24
Domanda
400
360
300
290
260
a) rappresentazione grafica :
In figura: il diagramma a dispersione con
i 5 punti sperimentali e la retta di
interpolazione ottenuta tracciando una
linea passante per due punti teorici.
Ad esempio si può scegliere il
primo punto quello sull'asse
verticale in A che rappresenta la
massima domanda quando il prezzo del
bene si annulla ed il secondo punto B
lungo l'asse orizzontale rappresenta il
prezzo in euro a cui la domanda è nulla.
Domanda
500
A
400
300
200
100
B
30
20
10
x
Prezzo
50
40
7
8
b) Coefficienti della retta di interpolazione
1.1: metodo 1: tabella 1.1
x
y
x2
51.2
y(x)
471
0
y(x)=471 – 9.2 x
xy
10
400
100
4000
12
360
144
4320
15
300
225
4500
20
290
400
5800
24
260
576
6240
∑ x =81
∑ y=1610
∑ x 2=1445
x̄ =81/5=16.2 ;
0
∑x
y=24860
̄y =1610/5=322
Per calcolare il coefficente angolare utilizziamo la formula (2) del primo metodo con N=5:
N
N
N
N⋅∑ x i⋅y i −∑ x i⋅∑ y i
a=
i =1
i =1
N
i =1
i =1
2
(∑ )
N⋅∑ x 2i −
N
i =1
xi
→ a=
5⋅24860−81⋅1610 −1610
=
≈−9.2 ;
664
5⋅1445−812
per il calcolo di b possiamo usare la formula b= ̄y −a x → b=322−(−9.2)⋅16.2≈471
Prof. I. Savoia
Interpolazione statistica
p.9\17
1.2 metodo 2 del baricentro: tabella 1.2
x
y
Δx= x− x̄
Δy = y− ̄y
Δx Δy
Δx2
10
400
-6.2
78
-483.6
38.44
12
360
-4.2
38
-159.6
17.64
15
300
+1.2
-22
-26.4
1.44
20
290
+3.8
-32
-121.6
14.44
24
260
+7.8
-62
-483.6
60.84
∑ x =81
∑ y=1610
-1274.8
132.8
̄x =81/5=16.2 ; ̄y =1610/5=322
Per calcolare il coefficente angolare a utilizziamo la formula (6'):
N
∑ Δ x i⋅Δ y i
a=
i =1
→ a=
N
∑ Δ x 2i
−2078.8
=−9.6 ; b= ̄y −a x=322−(−9.6)⋅16.2≈477.5
1445
i =1
c) Calcolo degli indici di scostamento: tabella 2
Per il calcolo dei valori teorici possiamo usare una delle due funzioni ricavate con i due metodi
ad esempio il primo.
X prezzi
Y Domande
valori teorici
f(x)=-9.2 x+471
Scarti 2
(f(x) – y) 2=
10
400
f(10)=-9.2 *10 +471=379
(379 – 400) 2= 441
12
360
f(12)=-9.2 *12 +471=360.6
15
300
f(15)=-9.2 *15+471=333
20
290
f(20)=-9.2 *20+471=287
24
260
f(24)=-9.2 *24+471=250.2
∑ x =81
∑ y=1610
Errore standard :
E S=
√
∑ f ( x)≈1610
0.36
(333-300) 2= 1089
(287-290) 2=
(250.2-260) 2=
9
96.04
∑ ( f (x )− y )2=1635.4
N
∑ ( f ( x )− y i )2
i =1
N
=
√
1635.4
≈18.1 ;
5
Indice quadratico relativo di scostamento: I S =
Prof. I. Savoia
(360.6-360) 2=
E s 18.1
≈
≈0.056 .
y 322
̄
Interpolazione statistica
p.10\17
2) Serie storica delle produzioni mensili di un prodotto. Si chiede quanto specificato.
Anno
Luglio
Agosto
Settembre
Ottobre
Novembre
Dicembre
Quantità [T]
1.7
2.2
3.2
3.2
3.8
5.4
a) Rappresentazione grafica:
i mesi della serie storica vengono rappresentati dalla variabile x che assume i valori interi da
x=1 di Luglio fino a x=6 di Dicembre.
5
La retta di interpolazione può essere tracciata
disegnando una linea che passa per due punti
qualsiasi (crocette) calcolati con la funzione
di interpolazione ottenta al punto b), ad
esempio per i valori di x=0 e di x=6.
Produzioni
4
3
x
0
6
7
f(x) ≈ 0.9 ≈ 4.9 ≈ 5.6
y(x)=0.67 x + 0.9
2
1
Mesi
1
2
3
4
5
6
7
In alto a destra il punto del del trend di
gennaio con x=7.
b) Tabella con gli scarti per il calcolo del coefficente angolare della retta
X anni
Y Produzioni
Δx
Δy
Δx Δy
Δx2
1
1.7
-2.5
-1.55
3.875
6.25
2
2.2
-1.5
-1.05
1.575
2.25
3
3.2
-0.5
-0.05
0.025
0.25
4
3.2
+0.5
-0.05
-0.025
0.25
5
3.8
+1.5
+0.55
0.825
2.25
6
5.4
+2.5
+2.15
5.375
6.25
∑ x =21
∑ y=19.5
x̄ =
∑ Δ x⋅Δ y =
21
19.5
=3.5 ; ̄y =
=3.25
6
6
11.65
∑Δx
2
=
17.5
Per calcolare il coefficente angolare a utilizziamo la formula (6'):
N
∑ Δ x i⋅Δ y i
a=
i =1
N
∑ Δ x 2i
→ a=
11.65
≈0.67 ; b= ̄y −a x=3.25−0.67⋅3.5≈0.9
17.5
i =1
Prof. I. Savoia
Interpolazione statistica
p.11\17
b) Tabella 2 degli indici di scostamento
X
Mesi
Y
Produzioni
Valori teorici
f(x)=0.67 x +0.9
Scarti 2
(f(x) – y) 2=
1
1.7
f(1)=0.67 *1 +0.9=1.57
(1.57 – 1.7) 2= 0.0169
2
2.2
f(2)=0.67 *2 +0.9=2.24
(2.24 – 2.2) 2= 0.0016
3
3.2
f(3)=0.67 *3+0.9=2.91
( 2.91-3.2) 2=
4
3.2
f(4)=0.67 *4+0.9=3.58
(3.58-3.2) 2= 0.1444
5
3.8
f(5)=0.67 *5+0.9=4.25
(4.25-3.8) 2=
0.2025
6
5.4
f(6)=0.67 *6+0.9=4.92
(4.92-5.4) 2=
0.2304
∑ x =21 ∑ y=19.5
̄x =
∑ f ( x)≈19.5
0.0841
∑ ( f (x )− y )2≈0.68
21
19.5
=3.5 ; ̄y =
=3.25
6
6
Si noti come i totali delle colonne seconda e terza siano uguali entro l'approssimazione di una
cifra decimale dei risultati e come ciò confermi la correttezza di calcolo e di procedimento.
Errore standard :
E S=
√
N
∑ ( f (x )− y i )2
i =1
N
=
Indice quadratico relativo di scostamento:
Prof. I. Savoia
√
0.68
≈0.34 ;
6
I S=
E s 0.34
≈
≈0.10 ovvero il 10% circa.
̄y 3.25
Interpolazione statistica
p.12\17
Complementi
A- Significato dell'equazione (2) del coefficente angolare della retta interpolante.
Consideriamo nuovamente l'equazione (2) di pagina 1:
N
a=
N
N
N⋅∑ x i⋅y i −∑ x i⋅∑ y i
i=1
i=1
N
2
( )
N⋅∑ x i −
i=1
i=1
2
N
∑ xi
i=1
Dividendo il numeratore ed il denominatore della frazione per N2 si ottiene:
N
N
N
N
N
N⋅∑ x i⋅y i −∑ x i⋅∑ y i
a=
i =1
i =1
N
2
i
=
(∑ )
N⋅∑ x −
i =1
i =1
2
N
i =1
N
N
1
1
⋅N⋅∑ x i⋅y i− 2⋅∑ x i⋅∑ y i
2
N
N i=1 i=1
i =1
2
( )
N
N
1
1
⋅N⋅∑ x 2i − 2⋅ ∑ x i
2
N
N i =1
i =1
xi
N
∑ x i⋅y i
i =1
=
N
N
∑x
i =1
N
N
∑ x i⋅ ∑ yi
− i=1
⋅ i=1
N
N
2
i
2
( )
N
∑x
−
i =1
2
i
N
L'ultima espressione a destra assume un senso molto più evidente di quanto non
sembri alla prima impressione:
–
al numeratore vi è la differenza fra il valore medio dei prodotti misti x y e il
prodotto dei due valori medi di x e di y ;
–
al denominatore riconosciamo la differenza fra il quadrato della media
quadratica e il quadrato della media e, in base alla nota proprietà, vale il
quadrato dello scarto quadratico medio ovvero la varianza.
N
Pertanto, essendo
2
Q=
∑ x 2i
i =1
N
N
e
∑ xi
M= ̄x = i =1
N
, e considerata la nota proprietà dello
scarto quadratico medio σ2=Q 2−M 2 possiamo riscrivere la formula nel seguente
modo più sintetico:
N
(2')
Prof. I. Savoia
∑ ( x− ̄x )2
a=
x⋅y − x̄⋅ȳ
; essendo σ2= i =1
2
N
σ
Interpolazione statistica
p.13\17
Esempio applicativo della formula sintetica (2')
In una fabbrica di macchine sono stati rilevati i seguenti costi di produzione al variare del
numero di pezzi prodotti:
X produzioni
1
3
5
7
9
Y costi
1400
3000
3500
5400
5800
Si determini a) la retta di interpolazione ai minimi quadrati con il primo metodo e si stimi
quanto costerebbe produrre 11 macchine, b) rappresentare il tutto in un diagramma, c)
calcolare gli indici di scostamento assoluto e relativo.
a) per determinare il primo coefficiente della retta usiamo la formula sintetica (2') del primo
metodo per cui costruiamo una tabella che, oltre ai dati originali e gli scarti, riporta una
colonna con i prodotti misti (x y) :
x
y
1
1400
Δx2
xy
(1-5) =16
1400
2
3
3000
(3-5) =4
9000
5
3500
(5-5) =0
17500
7
5400
(7-5)2=4
37800
9
5800
(9-5)2=16
52200
∑ x =25
19100
∑ Δ x 2=40
∑ x⋅y=117900
̄x =
25
=5 ;
5
a=
̄y =
2
2
19100
=3820 ;
5
σ2=
40
=8 ;
5
x⋅y=
117900
=23580 .
5
x⋅y − ̄x⋅̄y 23580−5⋅3820
=
=560 ; b= ̄y −a ̄x =3820−560⋅5=1020
8
σ2
La stima del trend di costo per produrre 11 macchine è: f(11)=560*11+1020=7180.
b) Rappresentazione grafica
8
Costi [Mig. €]
B
7
6
5
4
La retta di interpolazione può essere
tracciata per mezzo di una linea passante per
due qualunque punti calcolati con la funzione,
ad esempio in A(0, 1020) che rappresenta il
costo fisso di produzione e in B(11, 7180) che
rappresenta il costo tendenziale quando la
produzione sale a 11 pezzi.
3
x
2
Produzioni
2
Prof. I. Savoia
3
4
5
6
7
8
9
10
11
f(x) 1020
7180
f(x)=560 x + 1020
A
1
1
0
11
Interpolazione statistica
p.14\17
c) Calcolo degli indici di scostamento.
X
Produzioni
Y
Costi [€]
Valori teorici
f(x)=560 x + 1020
Scarti 2
(f(x) – y) 2=
1
1400
f(1)=560 *1 + 1020=1580
(1580-1400) 2= 32400
3
3000
f(2)=560 *3 + 1020=2700
(2700-3000) 2= 90000
5
3500
f(3)=560 *5+ 1020=3820
( 3820-3500) 2= 102400
7
5400
f(4)=560 *7 + 1020=4940
(4940-5400) 2= 211600
9
5800
f(5)=560 *9+ 1020=6060
(6060-5800) 2=
∑ x =21
x̄ =
∑ y=19100
25
=5 ;
5
Errore standard :
̄y =
∑ f ( x)=19100
67600
∑ ( f (x )− y )2=504000
19100
=3820 .
5
E S=
√
N
∑ ( f (x )− y i )2
i =1
=
N
Indice quadratico relativo di scostamento:
√
504000
=317.49 ;
5
IS=
E s 317.49
=
≈0.083 ovvero il 8.3 %.
3820
̄y
Esercizi:
1) Con i dati dell'esempio precedente calcolare i coefficienti della retta di regressione
usando il metodo 2 del baricentro, quindi rappresentare il tutto in un diagramma.
2) Con entrambi i metodi visti determinare la rette dei minimi quadrati in una scala
opportuna insieme ai dati sperimentali poi calcolare gli indici di scostamento.
x
1
2
3
4
5
y
37 62.9 96.2 118.4 148
Risposte: f(x) = 27.75 x+9.25 ; I=0.0219
3) Con entrambi i metodi visti determinare la rette dei minimi quadrati e calcolare il
trend nei due anni successivi. In una scala opportuna insieme ai dati sperimentali
tracciare la retta quindi calcolare gli indici di scostamento.
Redditi annuali di una
famiglia in migliaia di euro.
Stimare i redditi negli anni
futuri 2012 e 2013
Prof. I. Savoia
x
2007
2008
2009
2010
2011
y
50.24
60.79
73.89
85.78 101.15
Risposte: f(x) = 12.68 x + 36.33 ; 112.4 ; 125.1
Interpolazione statistica
p.15\17
B- Dimostrazione della formula del coefficiente angolare
N
∑ ( x i − x̄ )⋅( y i − ̄y )
Dimostriamoo la formula (6') a =
i =1
N
2
∑ ( x i − ̄x )
N
∑ Δ x i⋅Δ y i
= i=1N
.
2
∑ (Δ x i )
i =1
i=1
Partiamo da due ipotesi fondamentali che sono alla base del metodo dei minimi quadrati:
1- La somma algebrica degli scarti tra i dati calcolati (valori teorici) quelli osservati è nulla:
N
∑ ( a x i + b − y i )=0
i=1
N
N
Sviluppando l'espressione al primo membro otteniamo a⋅∑ x +N⋅b − ∑ y i =0 da cui
i =1
i=1
a⋅N⋅x̄ + N⋅ b − N⋅̄y =0 e quindi, dividendo l'equazione per N si ottiene la relazione che
dimostra come la retta passi per il baricentro P( ̄x , ̄y ) della distribuzione dei punti:
ȳ = a x̄ + b
2- La somma dei quadrati degli scarti è minima, per particolari valori dei cofficienti della retta:
N
S (a , b)=∑ ( a x i + b − y i )2
i=1
Sostiuendo nella somma la relazione, ricavabile dallla prima ipotesi, b = ̄y − a x̄ , si ha una
espressione che dipende unicamente dal valore di a:
N
N
N
i =1
i =1
i=1
S (a )=∑ ( a x i + ̄y − a ̄x − y i )2 = ∑ [a ( x i − x̄ )−( y i − ȳ )]2=∑ (a Δ x i −Δ y i )2
Dopo avere sviluppato i quadrati entro il simbolo di sommatoria si ottiene:
N
N
i=1
i =1
S (a ) = ∑ (a Δ x i −Δ y i )2 = ∑ [a 2( Δ x i )2−2 a Δ x i Δ y i+(Δ y i )2 ]
Da qui, dopo avere raccolto i termini comuni nella lettera a e scindendo la sommatoria, si
ottiene un trinomio di secondo grado nella variabile a dal quale si calcola il punto di minimo:
N
N
i=1
i =1
S (a ) =[ ∑ (Δ x i )2] a 2−2( ∑ Δ x i⋅Δ y i ) a + (Δ y i )2
N
∑ Δ x i⋅Δ y i
Il valore di minimo del trinomio è quindi dato dalla formula (6') :
a=
i=1
N
c.d.d.
2
∑ (Δ x i )
i=1
Prof. I. Savoia
Interpolazione statistica
p.16\17
C- Scarti ed indici di accostamento
Gli scarti della variabile dipendente y, ovvero le differenze tra i valori teorici di interpolazione
e quelli sperimentali rilevati, dati da espressioni del tipo s i= f (x i )− y i , possono essere sia
positivi oppure negativi a seconda, rispettivamente, se l'altezza della retta in corrispondenza
ai valori delle ascisse x è superiore o inferiore all'altezza dei punti sperimentali .
I valori assoluti degli scarti sono invece l'elemento di computo che permette di definire il
grado di accostamento tra la retta e l'insieme dei punti stessi essendo il loro valore uguale alle
misure dei segmenti verticali che separano i punti sperimentali dalla retta.
Nella figura sotto sono mostrati i segmenti orientati verso l'alto e verso il basso a
rappresentare gli scarti tra 5 punti teorici della retta di interpolazione ai minimi quadrati e i
rispettivi punti sperimentali.
Y
s4
s5
P
y
s2
s3
s1
Es =
N 2
∑ si
i=1
N
X
sperimentali
punti:
x
teorici
Essendo l'errore standard definito come la media quadratica degli scarti, rappresenta
pertanto anche il valore quadratico medio delle misure dei segmenti verticali: tanto più alto è
il suo valore e tanto biù basso è il grado di accostamento della retta all'insieme di tutti i punti.
L'indice quadratico relativo è invece dato dal rapporto fra l'errore standard e la quota verticale
del baricentro dei dati. Tanto più sono piccoli gli indici e tanto meglio la retta interpola i dati.
E S=
√
N
∑ ( f (x )− y i )2
i =1
N
=
√
N
∑ s 2i
i =1
N
; I S=
ES
̄y
Naturalmente è possibile definire altri indici di accostamento, ad esempio considerando
invece della media quadratica degli scarti, la media aritmetica dei loro valori assoluti ma, in
tutti i modi, l'indice dell'accostamento è un valore medio delle misure dei segmenti che
separano la retta dai punti del diagramma di dispersione.
Gli indici relativi, essendo dati da rapporti tra grandezze dimensionalmente omogenee e
limitati numericamente in un modo che non dipende dagli specifici tipi di dati che si studiano ,
si interpretano più facilmente e permettono il confronto fra distribuzioni diverse.
Prof. I. Savoia
Interpolazione statistica
p.17\17
Scarica

mathmix