POLITECNICO DI TORINO
ESERCITAZIONI DI LOGISTICA
Laurea in Ingegneria Logistica e della Produzione
Corso di Logistica e di Distribuzione 1
Docente: Prof. Ing. Giulio Zotteri
Tutore: Ing. Giuliano Scapaccino
A.A. 2007/2008
VERSIONE 3
METODI EXPLANATORY
NOTA:
MATERIALE PROPEDEUTICO AL CORSO
NON SOSTITUISCE IL TESTO DI RIFERIMENTO
REGRESSIONE LINEARE SEMPLICE
POLITECNICO DI TORINO - ESERCITAZIONI LOGISTICA DI DISTRIBUZIONE 1 – AUTORE: G.
SCAPACCINO - VERSIONE 3.0 – FONTE: DALLA RETE
2
- a è l'intercetta della retta di regressione,
- b è il coefficiente angolare; esso indica la quantità unitaria di cui varia Y al variare di una unità di
X.
La rappresentazione grafica evidenzia che il termine costante a , chiamato intercetta, fissa la
posizione della retta rispetto all’asse delle ordinate:
- a è il valore di Y, quando X è uguale a 0.
Due rette che differiscano solo per il valore di a , quindi con b uguale, sono tra loro parallele.
Come evidenzia il diagramma cartesiano precedente, ogni punto sperimentale ha una componente di
errore ei , che rappresenta lo scarto verticale del valore osservato dalla retta (quindi tra la Y osservata
e quella proiettata perpendicolarmente sulla retta). Poiché la retta di regressione serve per predire Y
sulla base di X, l’errore commesso è quanto la Y predetta ( Yˆi ) si avvicina alla Y osservata ( Yi ).
Utilizzare un qualsiasi punto sperimentale per stimare a porterebbe ad avere tante stime diverse
quanti sono i punti sperimentali, tutti affetti appunto da un errore diverso. Di conseguenza, come punto
di riferimento
-
per stimare a e costruire la retta,
-
viene utilizzato il punto identificato dai valori medi di Y e di X (Y e X ),
-
che rappresenta il baricentro della distribuzione, attraverso il quale la retta passerà sempre per
costruzione.
13
Nel calcolo della retta di regressione, l'intercetta a è stimata a partire da b e dalle medie delle
variabili X e Y sulla base della relazione
a = Y − bX
Di conseguenza, l'unica reale incognita è il valore del coefficiente angolare b .
Per calcolare la retta che meglio approssima la distribuzione dei punti, è utile partire dall'osservazione
che ogni punto osservato Yi si discosta dalla retta di una certa quantità ei detta errore o residuo
Yi = a + bX i + ei
Ognuno di questi valori ei può essere positivo oppure negativo:
-
è positivo quando il punto Yi sperimentale è sopra la retta (come nella figura precedente),
-
è negativo quando il punto Yi sperimentale è sotto la retta.
Per costruire la retta che descrive la distribuzione dei punti, i principi ai quali riferirsi possono essere
differenti e da essi derivano metodi diversi.
Gli statistici hanno scelto il metodo dei minimi quadrati. La retta scelta è quella che riduce al
minimo la somma dei quadrati degli scarti di ogni punto dalla sua proiezione verticale (parallelo
all’asse delle Y). E’ un valore del tutto identico alla devianza e permette analisi simili a quelle
dell'ANOVA, che verranno successivamente spiegate.
In modo più formale, indicando con
- Yi il valore osservato od empirico e con
- Y$ i il corrispondente valore sulla retta,
si stima come migliore interpolante, quella che minimizza la sommatoria del quadrato degli scarti
dei valori osservati ( Yi ) rispetto a quelli stimati sulla retta (Y$ i )
n
∑ (Y − Y$ )
i =1
i
2
i
= minimo
Poiché
e i = Yi − (a + bX i )
è possibile scrivere
∑e
2
i
= ∑ (Yi − (a + bX i )) 2 = minimo
e da essa
∑e
2
i
= ∑ (Yi − (a + bX i )) 2 = minimo
14
Eguagliando a zero le derivate parziali, si trova il valore di b che minimizza tale sommatoria
∑( X − X )
2

⋅ b −

∑( X − X ) ⋅ ( Y − Y )  + ( Y − Y )
∑
∑( X − X ) 
2
2
2
[ ∑( X − X ) ⋅ ( Y − Y )]
−
∑( X − X )
2
2
Dopo semplificazione, il valore di b risulta uguale al
rapporto della codevianza di X e Y con la devianza di X,
che è più facile ricordare come
b=
Cod XY
Dev X
La codevianza è un concetto non ancora incontrato nel corso di statistica, poiché serve nello studio di
due variabili: stima come X e Y variano congiuntamente, rispetto al loro valore medio. E' definita
come la sommatoria degli n prodotti degli scarti di X rispetto alla sua media e di Y rispetto alla
sua media:
n
Cod XY = ∑ (X i − X ) ⋅ (Yi − Y )
i =1
Come la devianza, anche la codevianza ha una formula empirica od abbreviata che permette un calcolo
più rapido
Cod XY = ∑ ( X ⋅ Y ) −
∑ X ⋅ ∑Y
n
e preciso a partire dai dati campionari.
Infatti evita l’uso delle medie, che sono quasi sempre valori approssimati e impongono di trascinare
nei vari calcoli alcuni decimali.
In conclusione, il coefficiente angolare b è calcolato dalle coppie dei dati sperimentali X e Y come
b=
∑ ( X − X ) ⋅(Y − Y )
∑( X − X )
2
che ne definisce il significato,
oppure dalla equivalente formula rapida od empirica
15
∑ X ⋅Y
∑(X ⋅Y ) − n
b=
(∑ X )
∑X − n
2
2
Dopo aver calcolato b , si stima a :
a = Y − bX
Noti i valori dell'intercetta a e del coefficiente angolare b , è possibile procedere alla
rappresentazione grafica della retta.
Anche a questo scopo, è importante ricordare che la retta passa sempre dal baricentro del
diagramma di dispersione, individuato dal punto d'incontro delle due medie X e Y .
Di conseguenza, è sufficiente calcolare il valore di Yˆi corrispondente ad un solo qualsiasi valore di
X i (ovviamente diverso dalla media), per tracciare la retta che passa per questo punto calcolato e per
il punto d'incontro tra le due medie.
Se non sono stati commessi errori di calcolo, qualsiasi altro punto Yˆi stimato nella
rappresentazione grafica deve risultare collocato esattamente sulla retta tracciata. E’ un
principio elementare che può servire come un procedimento semplice ed emprico, allo scopo di
verificare la correttezza di tutti i calcoli effettuati fino a quel punto
ESEMPIO. Per sette giovani donne, indicate con un numero progressivo, è stato misurato il peso in
Kg e l'altezza in cm.
16
Individui
1
2
3
4
5
6
7
Peso (Y) in Kg.
52
68
75
71
63
59
57
Altezza (X) in cm.
160
178
183
180
166
175
162
Calcolare la retta di regressione che evidenzi la relazione tra peso ed altezza.
Risposta. Come primo problema è necessario individuare quale è la variabile indipendente, che deve
essere indicata con X, e quale la variabile dipendente, indicata con Y. Se non esiste tale relazione
unidirezionale di causa - effetto, da motivare con conoscenze della disciplina che esulano dalla
statistica, è più corretto utilizzare la correlazione lineare semplice.
Tra le due serie di misure dell’esempio, la variabile indipendente è l'altezza e la variabile dipendente è
il peso. Infatti ha significato stimare quanto dovrebbe pesare un individuo in rapporto alla sua altezza,
ma non viceversa.
Successivamente, dalle 7 coppie di dati si devono calcolare le quantità
∑ ( X ⋅ Y ) = 76945; ∑ X = 1204; ∑ Y = 445; ∑ X
2
= 207598; n = 7
che sono necessarie per
-
la stima del coefficiente angolare b
b=
∑(X ⋅Y ) −
∑X
2
−
∑ X ⋅ ∑Y
n
(∑ X ) 2
n
1204 ⋅ 445
7
=
= 0,796
1204 2
207598 −
7
76945 −
che risulta uguale a 0,796
-
la stima dell’intercetta a
a = Y − bX = 63,571 − 0,796 ⋅ 172 = −73,354
che risulta uguale a -73,354.
Si è ricavata la retta di regressione
17
Y$ i = -73,354 + 0,796 ⋅ Xi
con la quale è possibile stimare i punti sulla retta, corrispondenti a quelli sperimentalmente rilevati.
Per tracciare la retta è sufficiente calcolare un solo altro punto, oltre quello noto individuato
dall’incrocio delle due medie, che identifica il baricentro della distribuzione; di norma, ma non
necessariamente, è scelto entro il campo di variazione delle Xi empiriche. Successivamente, si deve
prolungare il segmento che per estremi ha il punto stimato ed il baricentro della distribuzione, come
nella figura di seguito riportata.
80
75
70
65
Y
PESO
60
55
50
155
X
165
175
185
ALTEZZA
Qualsiasi altro valore di Y$ i , stimato a partire da un generico Xi , sarà collocato su questa retta, se non
sono stati commessi errori di calcolo in una fase qualsiasi del procedimento.
E’ quindi utile, a dimostrazione empirica della correttezza di calcoli effettuati a mano, verificare
effettivamente tale proprietà per un altro valore della variabile X.
Nel sua interpretazione biologica, il valore calcolato di b indica che in media gli individui che
formano il campione aumentano di 0,796 Kg. al crescere di 1 cm. in altezza.
E’ quindi ovvio che, se l’altezza delle 7 giovani fosse stata misurata in metri (1,60; 1,78; ...), il
coefficiente angolare b sarebbe risultato uguale a 79,6 (cento volte il valore precedentemente
stimato), indicando l’incremento di 79,6 kg. per l’aumento di 1 metro in altezza.
18
Nello stesso modo e simmetricamente, se il peso fosse stato stimato in ettogrammi (520, 680, ...) e
l’altezza sempre in centimetri, il coefficiente angolare b sarebbe risultato uguale a 7,96 indicando un
aumento medio del peso di hg. 7,96 per un aumento di 1 cm in altezza.
Sono concetti utili, quando si devono confrontare due o più coefficienti angolari di rette di regressione
e fornire interpretazioni a carattere biologico o ambientale.
Il valore di a molto spesso non è importante. Serve solamente per calcolare i valori sulla retta; ha
uno scopo strumentale e nessun significato biologico. In questo esempio, nella realtà a non esiste,
poiché è fuori dal campo di variazione della X e soprattutto non esiste alcuna persona con l’altezza 0
(zero).
L’intercetta ha significato solo in pochi casi; ad esempio quando si confrontano due metodi per
stimare la stessa quantità, che potrebbe essere 0.
Se per X = 0, il valore di Y è differente si ha a ≠ 0 : significa che i due strumenti hanno una taratura
differente, la cui quantità è indicata dal valore di a .
Sono concetti che saranno ripresi nel paragrafo dedicato alla significatività e all’intervallo di
confidenza dell’intercetta a .
15.5. VALORE PREDITTIVO DELLA REGRESSIONE
La retta di regressione è sovente usata a scopi predittivi, per stimare una variabile conoscendo il
valore dell’altra. Ma è necessario procedere con cautela: in questa operazione spesso viene
dimenticato che,
-
sotto l’aspetto statistico, qualsiasi previsione o stima di Y è valida solamente entro il campo
di variazione sperimentale della variabile indipendente X.
Questo campo di variazione comprende solo i valori osservati della X, usati per la stima della
regressione. Per valori minori o maggiori, non è assolutamente dimostrato che la relazione trovata tra
le due variabili persista e sia dello stesso tipo.
L'ipotesi che la relazione stimata si mantenga costante anche per valori esterni al campo
d’osservazione è totalmente arbitraria; estrapolare i dati all’esterno del reale campo d’osservazione
è un errore di tecnica statistica, accettabile solamente nel contesto specifico della disciplina studiata,
a condizione che sia motivato da una maggiore conoscenza del fenomeno. In alcuni casi, questo
metodo è utilizzato appunto per dimostrare come la legge lineare trovata non possa essere valida per
valori inferiori o superiori, stante l’assurdità della risposta.
19
Nell'esempio del paragrafo precedente, la relazione trovata tra Y e X con la retta di regressione è
valida solamente entro un'altezza compresa tra 160 e 183 centimetri. E' da ritenere statisticamente
errato usare la retta stimata per predire valori di Y in funzione di valori di X che siano minori di 160 o
maggiori di 183 centimetri.
Come dimostrazione semplice di tale principio, nei vari testi di statistica sono riportati esempi anche
divertenti, ma è possibile usare la retta calcolata.
Una bambina alla nascita di norma ha un'altezza (lunghezza) di circa 50 centimetri.
Che peso dovrebbe avere, se la relazione precedente fosse applicabile anche al suo caso?
La prosecuzione della retta stimata
Yˆi = -73,354 + 0,796⋅ Xi
per una lunghezza (Xi) uguale a 50 cm.
-73,354 + 0,796⋅50 = -33,554
fornisce un peso medio (Yi) uguale a Kg. -33,554.
E’ una risposta chiaramente assurda, evidenziata nella figura, poiché la relazione lineare calcolata
per giovani da 160 a 183 cm. di altezza non può essere estesa a dimensioni diverse. E’ intuitivo
che gli effetti saranno tanto più distorti, quanto maggiore è la distanza dai limiti sperimentali utilizzati
per il calcolo della regressione.
PESO
80
75
70
65
60
55
50
45
40
35
30
25
20
15
10
5
0
-5
-10
-15
-20
-25
-30
-35
-40
-45
-50
-55
-60
-65
-70
-75
-80
0
20
40
60
80
100
ALTEZZA
20
120
140
160
180
200
Nella ricerca applicata l’evoluzione temporale e la diffusione spaziale di un fenomeno sono casi
ricorrenti di uso della regressione lineare a fini predittivi. I dati,
-
se ordinati secondo il periodo, sono chiamati serie temporali o storiche,
-
mentre sono chiamate serie territoriali quando ordinate sulla base della distanze dal luogo di
rilevazione.
Sono analisi particolarmente importanti per verificare l’aumento (o della diminuzione) dei tassi di
inquinamento ad iniziare da un certo momento oppure per analizzare la diffusione geografica di un
inquinante a partire da una fonte.
Una serie temporale può essere scomposta in 4 componenti:
- la componente di fondo, detta trend, che ne rappresenta l’evoluzione più importante, a lungo
termine;
- le oscillazioni periodiche, stagionali, o cicliche che si ripetono con regolarità ad intervalli costanti;
- le variazioni casuali, non riconducibili a nessuna causa costante;
- gli eventi eccezionali, che sono in grado di modificare le tendenze di medio o di lungo periodo.
Per esse e per le serie territoriali, tra i metodi specifici è utilizzata la regressione, in particolare per
predire la tendenza di fondo.
Per approfondimenti sull’argomento delle serie storiche o territoriali, si rinvia a trattazioni specifiche.
15.6. SIGNIFICATIVITÀ' DEI PARAMETRI β E α DELLA RETTA DI REGRESSIONE
Con le formule presentate, è sempre possibile ottenere la retta che meglio si adatta ai dati rilevati, con
qualunque forma di dispersione dei punti.
Tuttavia, allo statistico il semplice calcolo della retta non è sufficiente. Essa potrebbe indicare
-
una relazione reale tra le due variabili, se la dispersione dei punti intorno alla retta è ridotta,
-
una relazione casuale o non significativa, quando la dispersione dei punti intorno alla retta è
approssimativamente uguale a quella intorno alla media.
Le tre figure successive (A, B, C), rappresentando in modo schematico situazioni sperimentali
notevolmente differenti, possono illustrare questi concetti con semplicità e chiarezza.
21
o
o
o
o
Y
o
o
o
o
o
o
o
o
o
o
Y
o
o
Y
o
o
o
o
o
o
Y
o
o
X
X
X
A)
X
B)
o
o
o
o
o
Y
o
Y
o
o
o
o
o
o
X
X
C)
La figura A riporta una retta che, visivamente, esprime la relazione tra le due variabili: i punti hanno
distanze dalla retta di regressione sensibilmente minori di quelle dalla media ( Y ). Conoscendo X, il
valore stimato di Y può avvicinarsi molto a quello reale, rappresentato dal punto.
All’opposto, la figura C evidenzia una situazione in cui la retta calcolata non è un miglioramento
effettivo della distribuzione dei punti rispetto alla media. In questo caso, la retta calcolata può essere
interpretata come una variazione casuale della media: con questi dati, la retta ha una pendenza
22
positiva; ma con un altro campione estratto dalla stessa popolazione o con l’aggiunta di un solo dato
della stessa popolazione si potrebbe stimare un coefficiente angolare (b) negativo.
Il caso B raffigura una situazione di maggiore incertezza sulla significatività della retta calcolata; la
semplice rappresentazione grafica risulta insufficiente per decidere se all’aumento di X i valori
di Y tendano realmente a crescere.
E’ sempre necessario ricorrere a metodi che, a partire dagli stessi dati, conducano tutti alle stesse
conclusioni. Sono i test di inferenza. Per rispondere alle domande poste, occorre valutare la
significatività della retta, cioè se il coefficiente angolare b si discosta da zero in modo significativo.
Il coefficiente angolare b è relativo al campione.
La sua generalizzazione nella popolazione è indicata con β (beta) e la sua significatività è saggiata
mediante la verifica dell'ipotesi nulla H 0
H0 : β = 0
Rifiutando l'ipotesi nulla e senza altre indicazioni, si accetta l'ipotesi alternativa a due code H1
H1 : β ≠ 0
Affermare che β è uguale a zero, nella regressione lineare significa che
-
al variare di X,
-
Y resta costante, uguale al valore dell'intercetta a .
Di conseguenza, non esiste alcun legame di regressione o predittivo tra X e Y, poiché la prima
cambia mentre la seconda, che dovrebbe essere da essa determinata, resta costante.
Rifiutando l'ipotesi nulla, implicitamente si accetta l'ipotesi alternativa H1 che β sia diverso da zero: al
variare di X si ha una corrispondente variazione sistematica di Y. Di conseguenza, si afferma che la
regressione esiste, perché conoscendo X si ha informazione non nulla sul valore di Y.
Per la verifica della significatività della retta calcolata, un metodo semplice e didatticamente utile alla
comprensione del significato statistico della regressione è il test F, fondato sulla scomposizione delle
devianze e dei relativi gdl.
Nelle figure sottostanti A e B, indicando con
-
Yi il punto sperimentale,
-
con Y$ i la sua proiezione (parallela all’asse delle ordinate) sulla retta,
-
con Y la media,
23
$ e Y ) si definiscono tre
a partire dalla somma dei quadrati delle distanze tra i tre punti ( Y, Y
devianze, come nell’analisi della varianza ad un criterio:
-
la devianza totale, con gdl n-1,
-
la devianza della regressione o devianza dovuta alla regressione, con gdl 1,
-
la devianza d'errore o devianza dalla regressione o residuo, con gdl n-2.
secondo le formule di seguito riportate con i relativi gdl:
- Devianza totale
∑ (Y − Y)
- Devianza della regressione
∑ (Ŷ − Y)
- Devianza d’errore
∑ (Y − Yˆ )
2
i
con gdl n-1
2
con gdl
1
(Fig. B, parte inferiore)
2
con gdl n-2
(Fig. B, parte superiore)
i
i
(Fig. A)
i
Queste formule definiscono il significato delle 3 devianze. Potrebbero essere usate per stimare i
valori, ma richiedono calcoli lunghi e forniscono risultati approssimati, poiché fondati sulle medie e
sui valori della retta, che non sono quasi mai valori esatti e impongono l’uso di decimali.
Per effettuare in modo più rapido e preciso i calcoli, si utilizzano le formule abbreviate:
- Devianza totale
∑Y 2 −
(∑ Y ) 2
n
con gdl n-1
24
- Devianza della regressione
2
Cod XY
Dev X
con gdl
1
ricordando che, sempre con le formule abbreviate,
Cod XY = ∑ ( X ⋅ Y ) −
∑ X ⋅ ∑Y
n
e
Dev X = ∑ X 2 −
(∑ X ) 2
n
Successivamente, per differenza, si calcola la devianza d'errore:
- Devianza d’errore = (Devianza totale – Devianza della regressione )
con gdl n-2
Dal rapporto
-
della devianza della regressione con i suoi gdl si stima la varianza della regressione;
-
della devianza d'errore con i suoi gdl si ottiene la varianza d'errore.
Se l’ipotesi nulla è vera, la varianza d’errore e la varianza della regressione stimano le stesse
grandezze e quindi dovrebbero essere simili.
Se invece esiste regressione (H0 falsa), la varianza della regressione è maggiore di quella
d’errore.
Il rapporto tra queste due varianze determina il valore del test F con gdl 1 e n-2
F (1, n-2) =
Varianza della regressione
Varianza d ' errore
Teoricamente, quando l’ipotesi nulla è falsa, si ottengono valori significativamente maggiori di 1.
In pratica, se il valore di F calcolato è inferiore al valore tabulato, relativo alla probabilità prefissata e
ai gdl corrispondenti, si accetta l'ipotesi nulla: non si ha una regressione lineare statisticamente
significativa.
Al contrario, se il valore calcolato di F supera il valore tabulato, si rifiuta l'ipotesi nulla e pertanto si
accetta l'ipotesi alternativa: la regressione lineare tra le due variabili è significativa.
Gli stessi concetti possono essere espressi con termini più tecnici.
25
-
Se β = 0, la varianza dovuta alla regressione e quella d'errore sono stime indipendenti e non
viziate della variabilità dei dati.
-
Se β ≠ 0, la varianza d'errore è una stima non viziata della variabilità dei dati, mentre la
varianza dovuta alla regressione è stima di una grandezza maggiore.
-
Di conseguenza, il rapporto tra le varianze (varianza d'errore/varianza della regressione)
con d.f. rispettivamente 1 e n-2 è da ritenersi utile alla verifica dell'ipotesi β = 0.
Il test applicato è detto anche test di linearità. Infatti, rifiutare l'ipotesi nulla non significa affermare
che tra X e Y non esista alcuna relazione, ma solamente che non esiste una relazione di tipo lineare
tra le due variabili. Potrebbe esistere una relazione di tipo differente, come quella curvilinea, di
secondo grado o di grado superiore.
ESEMPIO. Con le misure di peso ed altezza rilevati su 7 giovani donne
Individui
1
2
3
4
5
6
7
Peso (Y) in Kg.
52
68
75
71
63
59
57
Altezza (X) in cm.
160
178
183
180
166
175
162
è stata calcolata la retta di regressione
Y$ = −73,354 + 0,796 X
Valutare la sua significatività mediante il test F.
Risposta. Valutare se esiste regressione tra le due variabili con il test F equivale a verificare l’ipotesi
H0: β = 0
contro l’ipotesi alternativa
H1: β ≠ 0
Dopo i calcoli preliminari dei valori richiesti dalle formule abbreviate
∑ ( X ⋅ Y ) = 76945 ∑ X = 1204 ∑ X
2
= 207598
precedentemente riportate, si ottengono le tre devianze:
26
∑ Y = 445 ∑ Y
2
= 28693 n = 7
-
SQ totale = 28693 −
4452
= 28693 − 28289,285 = 403,715
7
1204 ⋅ 445 2
)
(76945 − 76540) 2 164025
7
=
=
= 321,618
207598 − 207088
510
1204 2
207598 −
7
(76945 −
- SQ della regressione =
-
SQ d’errore = 403,715 − 321,618 = 82,097
Per presentare in modo chiaro i risultati, è sempre utile riportare sia le tre devianze e i df relativi, sia le
varianze rispettive, in una tabella riassuntiva,
Devianza
DF
Varianza
F
Totale
403,715
6
----
---
Regressione
321,618
1
321,62
19,59
Errore
82,097
5
16,42
---
P
<0.01
che fornisce tutti gli elementi utili al calcolo e all’interpretazione di F.
Con i dati dell'esempio, il valore di F
F(1, 5) =
321, 62
= 19 , 59
16 , 42
risulta uguale a 19,59 con df 1 e 5.
I valori critici riportati nelle tavole sinottiche di F per df 1 e 5 sono
-
6,61 alla probabilità α = 0.05
-
16,26 alla probabilità α = 0.01.
Il valore calcolato è superiore a quello tabulato alla probabilità α = 0.01. Pertanto, con probabilità P
inferiore a 0.01 (di commettere un errore di I tipo, cioè di rifiutare l’ipotesi nulla quando in realtà è
vera), si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: nella popolazione dalla quale è stato
estratto il campione di 7 giovani donne, esiste un relazione lineare tra le variazioni in altezza e quelle
in peso.
27
La verifica della significatività della retta o verifica dell'esistenza di una relazione lineare tra le
due variabili può essere attuata anche mediante il test t di Student, con risultati perfettamente
equivalenti al test F. Come già dimostrato per il confronto tra le medie di due campioni dipendenti od
indipendenti, anche
nel test di linearità il valore di t con df n-2 è uguale alla radice quadrata di F con df 1 e n-2
t( n-2 ) = F(1,n-2 )
oppure
t(2n −2 ) = F(1,n −2 )
Il test t è fondato su calcoli che sono didatticamente meno chiari di quelli del test F, per la
comprensione dei parametri riportati nelle formule; ma per l’inferenza offre due vantaggi
-
può essere più facilmente applicato anche a test unilaterali,
H1: β < 0
oppure
H1: β > 0
- permettere il confronto con qualsiasi valore (β0), (non solo 0 come con il test F) quindi verificare
l’ipotesi nulla
H0: β = β0
ovviamente sempre con ipotesi alternative H1 bilaterali oppure unilaterali.
I test unilaterali
-
non solo sono più potenti di quelli bilaterali,
-
ma spesso sono anche logicamente più adeguati e corretti ai fini della ricerca.
Ad esempio, sulla relazione lineare tra altezza e peso fino ad ora utilizzato,
-
è più logico un test unilaterale (all’aumentare dell’altezza il peso aumenta)
-
che non un test bilaterale (all’aumentare dell’altezza il peso varia),
potendo a priori escludere come accettabile il risultato che all’aumentare dell’altezza il peso medio
possa diminuire.
28
Il test t è fondato sul rapporto tra il valore del coefficiente angolare b ed il suo errore standard S b .
La formula generale può essere scritta come
t ( n -2 ) =
b − β0
Sb
dove
- β 0 è il valore atteso,
-
S b è determinato dalla radice quadrata del rapporto tra la dispersione dei dati sperimentali (Y)
intorno alla retta di regressione (Y$ ) e la devianza totale di X.
Sb =
Varianza ⋅ d ' errore ⋅ della ⋅ retta
=
Devianza ⋅ totale ⋅ della ⋅ X
S e2
∑ (X
− X)
2
i
Nella verifica della significatività della regressione β è uguale a 0; ma essa può assumere qualsiasi
valore di confronto o ipotizzato (β0); di conseguenza, la formula può essere utilizzata per
verificare la significatività dello scostamento da qualunque valore atteso.
Un caso relativamente frequente nella ricerca applicata consiste nel verificare se il coefficiente
angolare campionario b può essere in disaccordo con la teoria che Y aumenti di una unità
all’aumentare di una di X, cioè se β = 1. Si ricorre a questo confronto, ad esempio, quando si
raffrontano i risultati di due metodi di valutazione che dovrebbero dare gli stessi valori.
E' importante osservare che
-
l'errore standard di b ( S b ) diminuisce, quindi il valore di t diventa più significativo,
-
all'aumentare della devianza di X.
L’osservazione ha applicazioni importanti nella programmazione degli esperimenti, per la scelta dei
valori campionari di X.
Si supponga di dover valutare la regressione tra peso ed altezza. Si pone un problema di scegliere gli
individui, ai fini di trovare una regressione significativa. Molti sono incerti se sia preferibile
-
scegliere individui di altezza media, con la motivazione che rappresentano il caso “tipico”,
-
scegliere individui che coprano tutto il campo di variazione dell’altezza.
Per ottenere più facilmente la significatività della pendenza della retta,
è sempre vantaggioso utilizzare per la variabile X un campo di variazione molto ampio,
con più misure collocate ai valori estremi.
29
Infatti
-
se la devianza di X è grande, il valore di S b è piccolo;
-
di conseguenza il valore di t è grande e più facilmente significativo.
La varianza d'errore della retta S e2 con df n-2 è chiamata anche errore standard della stima;
è data da
S e2 =
∑ (Y
i
− Yˆi ) 2
n−2
E’ fondata sui valori attesi e quindi il suo calcolo richiede vari passaggi. Può essere stimata con le
formule presentate nel test F, dove la devianza d'errore è ottenuta in modo rapido per differenza tra la
devianza totale e quella dovuta alla regressione.
Quando è nota la retta, è possibile calcolare la devianza dovuta alla regressione direttamente dai valori
sperimentali di X e Y mediante
Devianza della regressione =
ESEMPIO 1.
∑Y
i
2
− a ⋅ ∑ Yi - b ⋅ ∑ ( X i ⋅ Yi )
Con le stesse 7 misure di peso ed altezza degli esercizi precedenti, stimare la
significatività della regressione mediante il test t di Student.
Risposta. E’ vantaggioso e più logico ricorrere ad un test unilaterale, quindi verificare se il peso
aumenta in modo significativo al crescere dell'altezza. Tuttavia, in questo caso e solo con lo scopo di
confrontare il risultato del test t con quello del precedente test F, è stato preferito un test bilaterale.
Ricordando dai calcoli precedenti che
b = 0 , 796
se2 = 16,42
∑ (X
n
n=7
i =1
− X ) = 510
2
i
S2b =
16 , 42
510
S b = 0,1794
il valore di t 5
t5 =
0,796
= 4,437
0,1794
risulta uguale a 4,437.
Come già messo in evidenza in varie altre occasioni, il test F ed il test t danno il medesimo risultato.
Infatti,
F1, 5 = 19 , 59
corrisponde a
30
t 5 = 19 , 59 = 4, 426
(La piccola differenza tra 4,437 e 4,426 dipende dai vari arrotondamenti usati nelle due differenti serie
di calcoli.)
ESEMPIO 2. Con una ricerca bibliografica, è stato trovato che il coefficiente angolare β0 della retta di
regressione tra altezza (X) e peso (Y) in una popolazione è risultato uguale a 0,950.
Il valore di 0,796 calcolato sulle 7 giovani se ne discosta in modo significativo?
Risposta. E’ un test bilaterale, in quanto chiede semplicemente se il valore calcolato b si discosta in
modo significativo da un valore atteso, dove
H0: β = 0,950
e
H1: β ≠ 0,950
Applicando la formula
t( n -2 ) =
b−β
Sb
si trova
t(5) =
0,796 − 0,950
−0,154
=
= - 0,858
0,1794
0,1794
un valore di t uguale a -0.858 con 5 df.
E’ un rapporto inferiore all’unità, quindi senza dubbio non significativo. Di conseguenza, si deve
concludere che non è dimostrata l’esistenza di una differenza tra il coefficiente angolare riportato sulla
pubblicazione e quello sperimentalmente calcolato con i 7 dati.
Quando non è possibile rifiutare l'ipotesi nulla in merito al coefficiente angolare b (pertanto la retta
campionaria non può essere assunta come significativa di una relazione lineare tra le due variabili), la
risposta ai diversi valori di X è fornita dalla media di Y, della quale può essere utile la conoscenza
della varianza e della deviazione standard.
Con la simbologia ormai consueta, la varianza ( SY2 ) e la deviazione standard ( SY ) della media Y ,
sono rispettivamente
SY2 =
S e2
n
e
SY =
Se
n
Nella ricerca ambientale, oltre alla significatività del coefficiente angolare b spesso è importante
verificare anche
-
la significatività dell'intercetta a (rispetto a zero)
31
-
la significatività della sua differenza da un valore atteso o prefissato.
Il concetto è identico al confronto tra una media campionaria X e la media reale µ o della
popolazione.
Il confronto è verificato ricorrendo ancora alla distribuzione t, con una formula analoga a quella per la
media X e per il coefficiente angolare b .
Un caso frequente è quando l’origine della retta dovrebbe coincidere con l’origine degli assi; quindi
con X = 0 si dovrebbe Y = 0, cioè una risposta media di a che non si discosta significativamente da
0.
Il test può comunque essere applicato al confronto con qualsiasi valore atteso dell’intercetta e l’ipotesi
alternativa H1 può essere sia unilaterale che bilaterale.
Per la significatività dell’intercetta a , si verifica l’ipotesi nulla
H0: α = 0
mentre per il confronto dell’intercetta a con un generico valore atteso α0 si verifica l’ipotesi nulla
H0: α = α0
dove
-
α è il valore della popolazione dalla quale è stato estratto il campione che ha permesso il calcolo
di a.
Il test è effettuato con il calcolo di un valore di t, con gdl n-2 in quanto fondato sulla varianza d’errore
della retta; è dato da
t( n −2 ) =
a −α
Sa
dove
- Sa
è l'errore standard dell'intercetta
ed è stimato come
1
Sa = S ⋅ ( +
n
2
e
X2
)
∑ ( X i − X )2
con S e2 che indica la varianza d’errore della retta
(già utilizzata per stimare la significatività del coefficiente angolare b ).
ESEMPIO. Utilizzando gli stessi 7 dati della relazione peso - altezza, in cui
a = −73,357
S e2 = 16,101
n
n=7
∑ (X
i =1
32
− X ) = 510
2
i
X = 172
stimare se l'intercetta a si discosta in modo significativo da zero.
Risposta. Per verificare l’ipotesi nulla
H0: α = 0
con ipotesi alternativa
H1: α ≠ 0
poiché l’errore standard di a
 1 172 2 
 = 30,599
S a = 16,101 ⋅  +
 7 510 
è uguale a 30,599
si ottiene un valore del t di Student
t5 =
− 73,357
= −2,397
30,599
uguale a -2,397 con 5 df.
Per un test bilaterale, il valore critico di t con 5 df alla probabilità α = 0.05 è uguale a 2,571.
Di conseguenza, l'intercetta calcolata non risulta significativamente diversa da zero.
In realtà il valore è così vicino alla significatività che, con un numero maggiore di dati, il test sarebbe
risultato significativo.
Per una interpretazione più attenta e meno affrettata del risultato, si pone il problema di stimare
la potenza del test effettuato, prima di affermare con sufficiente sicurezza che il coefficiente
angolare b oppure, come in questo caso, l’incetta a non sono significativamente differenti da
zero oppure da un qualunque valore atteso.
15.7. CONFRONTO TRA LA SIGNIFICATIVITA’ E LA POTENZA DEL TEST DELLA
REGRESSIONE CON QUELLE DELLA CORRELAZIONE
Come risulterà evidente alla fine della esposizione degli argomenti che riguardano la correlazione, la
regressione lineare semplice e la correlazione lineare semplice hanno
- finalità differenti,
- condizioni di validità differenti,
- nei test di significatività rispondono a domande differenti.
Nella verifica della significatività,
- con la retta di regressione, l’ipotesi nulla verte sul valore del coefficiente angolare b :
H0: β = 0
33
- nella correlazione, l’ipotesi nulla verte sul valore del coefficiente r:
H0: ρ = 0
Come sarà illustrato nei paragrafi successivi, quando si effettua il confronto con un qualsiasi valore
teorico,
- con il coefficiente angolare b, si verifica l’ipotesi nulla
H0: β = β0
- con il coefficiente di correlazione r si verifica l’ipotesi nulla
H0: ρ = ρ0
Tuttavia, la regressione e la correlazione possono essere calcolate sulle stesse coppie di dati.
Per ambedue,
- la significatività può essere stimata sia con il test F sia con il test t,
- i test hanno gli stessi gradi di libertà,
- le ipotesi alternative possono essere ugualmente bilaterali oppure unilaterali.,
- i risultati della significatività sono identici: il test t e il test F per la significatività di b forniscono
lo stesso valore di quello applicato su r .
Sulla base di queste affinità sono uguali anche
-
la potenza a priori, cioè il numero di dati (n) che servono affinché il coefficiente angolare b o il
coefficiente di correlazione r risultino significativamente differenti da zero o da un valore
prefissato,
-
la potenza a posteriori, cioè la probabilità (1-β) di rifiutare correttamente l’ipotesi nulla, in un
test sulla significatività di un coefficiente angolare b oppure un coefficiente di correlazione r .
Di conseguenza, per il calcolo della potenza della regressione si può utilizzare la procedura per la
correlazione, dopo aver ricavato r dai dati della regressione o da suoi indici.
Questo valore r può essere ricavato a partire
- dal coefficiente di determinazione R2 (spiegato in un paragrafo successivo) con
r = R2
- dal coefficiente angolare b e dalle due devianze con
34
r = b⋅
∑ (X
∑ (Y
− X)
2
i
i
−Y )
2
Nei paragrafi successivi di questo capitolo, saranno presentati anche i metodi per confrontare due
coefficienti angolari b1 e b2, allo scopo di verificare se appartengono alla stessa popolazione con
coefficiente angolare β.
Anche per la correlazione, nel capitolo successivo saranno presentati i metodi per confrontare due
coefficienti di correlazione r1 e r2, per verificare se appartengono alla stessa popolazione con
coefficiente di correlazione ρ.
In modo analogo al caso precedente, anche per questo test di confronto tra i coefficienti di due
campioni indipendenti è possibile stimare
-
la potenza a priori, cioè il numero di dati (n) che servono affinché i coefficienti angolari b1 e b2
oppure i coefficienti di correlazione r1 e r2 risultino significativamente differenti tra loro,
-
la potenza a posteriori (1-β) di un test di confronto tra due coefficienti angolari oppure tra due
coefficienti di correlazione.
Anche per il calcolo della potenza di un test sul confronto tra due coefficienti di regressione, si
utilizza la procedura della correlazione (spiegata nel capitolo sulla correlazione).
Per quanto riguarda gli aspetti concettuali dell’uso del coefficiente di correlazione r , allo scopo di
valutare la significatività del coefficiente angolare b , si rinvia al paragrafo specifico nel capitolo sulla
correlazione.
15.8. INTERVALLI DI CONFIDENZA DEI PARAMETRI β E α
L’uso della retta di regressione a fini predittivi richiede che possa essere stimato l’errore di
previsione
- del coefficiente angolare β
- dell’intercetta α.
I limiti di confidenza sono utili anche per eventuali confronti con un parametro prefissato, quindi ai
fini dell’inferenza, come già fatto per la media campionaria X .
Infatti un qualsiasi valore
campionario b0 oppure un valore β0 di una popolazione, se non è compreso entro i limiti di limiti di
confidenza di un altro coefficiente angolare b, è significativamente differente da esso. Questa
analisi coincide con i risultati di un test t bilaterale, alla stessa probabilità P.
35
Come per la media,
- conoscendo β e la sua deviazione standard σ β
- è possibile determinare l’intervallo di confidenza dei valori campionari b alla probabilità P,
attraverso la distribuzione normale ridotta Z.
b = β ± Zα / 2 ⋅ σ β
In realtà, nella ricerca quasi sempre il procedimento logico ha la direzione opposta: si cerca di
stimare il parametro della popolazione (β oppure α) che di solito è ignoto, a partire dalle statistiche ( b
oppure a ) calcolate su n dati campionari.
Calcolato un valore b , il coefficiente angolare della popolazione (β) con probabilità P si trova
entro i limiti dell’intervallo di confidenza L1 e L2
L1 = b − t ( n − 2 , α 2 ) ⋅ S b
L2 = b + t ( n − 2 , α 2 ) ⋅ S b
spesso scritto più rapidamente come
β = b ± t ( n −2 , α 2 ) ⋅ S b
dove
- S b è l’errore standard di b
Sb =
S e2
∑ (X
− X)
2
i
Per l'intercetta campionaria ( a ), il valore reale o della popolazione (α)
si trova entro l’intervallo
α = a ± t( n −2, α
2)
⋅ Sa
dove
- S a è l'errore standard di a
1
S a = S e2 ⋅ ( +
n
X2
)
∑ ( X i − X )2
con
- S e2 che in entrambi i casi indica la varianza d’errore, stimata con il test F
36
ESEMPIO. Ricorrendo agli stessi dati su altezza e peso, con i quali sono stati calcolati la retta e la sua
significatività, si è ottenuto
b = 0,796
S b = 0,1794
t(5,0.025) = 2,571
t(5, 0.005) = 4,032
a = -73,357
S a = 30,599
Stimare alla probabilità α = 0.05 e a quella α = 0.01
a) l’intervallo di confidenza del coefficiente angolare β
b) l’intervallo di confidenza dell’intercetta α.
Risposta.
A) L'intervallo di confidenza del coefficiente angolare β alla probabilità del 95% è
0 , 796 − 2 , 571 ⋅ 0 , 1794 ≤ β ≤ 0 , 796 + 2 , 571 ⋅ 0 , 1794
cioè
0 , 335 ≤ β ≤ 1, 257
- L1 è uguale a 0,335
- L2 e uguale a 1,257.
Si può anche scrivere che il valore della popolazione con probabilità del 95% è compreso tra il limite
di confidenza inferiore L1 = 0,335 e il limite di confidenza superiore L2 = 1,257.
Alla probabilità del 99% è
0 , 796 − 4 , 032 ⋅ 0 , 1794 ≤ β ≤ 0 , 796 + 4 , 032 ⋅ 0 , 1794
cioè
0,073 ≤ β ≤ 1,519
il valore reale β è compreso tra L1 = 0,073 e L2 = 1,519.
B) L'intervallo di confidenza per l'intercetta α alla probabilità del 95% è
−73 , 357 − 2 , 571 ⋅ 30 , 599 ≤ α ≤ −73 , 357 + 2 , 571 ⋅ 30 , 599
−152 , 027 ≤ α ≤ 5 , 313
compreso tra L1 = –152,027 e L2 = 5,313.
Alla probabilità del 99% è
−73 , 357 − 4 , 032 ⋅ 30 , 599 ≤ α ≤ −73 , 357 + 4 , 032 ⋅ 30 , 599
−196 , 732 ≤ α ≤ 50 , 018
compreso tra L1 = –196,732 e L2 = 50,018.
37
Anche in queste applicazioni, come già evidenziato per la media della popolazione (µ) rispetto alla
media campionaria ( X ), l’intervallo di confidenza costruito attorno al valore campionario cresce,
quando si aumenta la probabilità che esso comprenda il valore reale.
Per semplicità didattica e come aiuto alla esecuzione di tutti i calcoli richiesti dalle formule, è stato
utilizzato un numero di dati molto limitato, nettamente inferiore a quello che si usa nella ricerca. Di
conseguenza, i parametri della retta hanno intervalli molto ampi; tale risultato è particolarmente
evidente per l’intercetta a .
15.9. INTERVALLI DI CONFIDENZA DELLA RETTA O INTERVALLI DI PREVISIONE
PER I VALORI MEDI DI Yˆk STIMATI
Nella ricerca applicata all’analisi e alla gestione dell’ambiente, si rilevano utili tre diversi casi di stima
dell’intervallo di confidenza:
- del coefficiente angolare, come nel paragrafo precedente;
- del valore medio di Y stimato ( Yˆk ), corrispondente ad un dato valore k di X; è il caso in cui si
somministra una sostanza tossica ad un gruppo di cavie e si vuole prevedere quale sarà l’effetto
medio sulla loro crescita, supposto che esista la relazione lineare già stimata tra dose e accrescimento;
è chiamato anche intervallo di confidenza della retta, essendo infatti la stima di ogni punto sulla
retta;
- di un singolo valore di Y stimato, sempre corrispondente ad un dato valore di X; è il caso in cui si
voglia predire la risposta di un singolo soggetto, come succede al medico che per un paziente voglia
stimare la risposta individuale possibile alla somministrazione di una dose X di un farmaco.
Il valore medio di Yˆk , collocato sulla retta e corrispondente ad un dato valore X k può essere stimato
attraverso la funzione
Yˆk = a + b ⋅ X k
Ma spesso l’incetta a è fuori dal campo di rappresentazione del grafico, centrato sul baricentro o
incontro dei valori medi X e Y .
E’ quindi possibile utilizzare la formula equivalente
Yˆk = Y + b ⋅ ( X k − X )
ESEMPIO. Calcolare il valore medio Yˆk previsto per X k = 180, con i dati sull’altezza delle 7 ragazze.
38
Risposta. Con
a = -73,35
b = 0,796
Y = 63,57
X = 172,0
per X k = 180
con la prima formula si ricava
Yˆk = −73,35 + b ⋅ 180 = −73,35 + 143,28 = 69,93
e con la seconda
Yˆk = 63,57 + 0,796 ⋅ (180 − 172,0 ) = 63,57 + 6,36 = 69,93
L’intervallo di confidenza di questo valore medio di Yˆk o valore atteso di Yˆk corrispondente ad
un singolo valore k di X i come può essere l’intervallo di confidenza del peso medio di giovani
donne alte 180 cm.,
è stimato mediante la formula



2 
1
(X − X ) 
Yˆk ± t( n −2, α 2 ) ⋅ S e2 ⋅  + n k
n
(X i − X )2 
∑

i =1


dove
- Yˆk è il valore previsto o medio di Y per un dato valore k della variabile X,
- S e2 è la varianza d’errore della regressione (16,62),
- n è la dimensione del campione,
- X k è il valore di X del quale si prevede la risposta media Yˆk ,
∑ (X
n
-
i =1
− X ) è la devianza di X.
2
i
Questa formula elenca i fattori che sono utilizzati nella stima e spiega come essi che influiscono
sull'ampiezza dell'intervallo di confidenza della retta
39
80
70
PESO
60
50
40
160
170
180
190
ALTEZZA
Intervalli di confidenza per valori medi di Yˆi al 5% (linee a punti)
e all'1% (linee tratteggiate)
Per una data probabilità P,
- aumenta al crescere della varianza d'errore,
- diminuisce all'aumentare del numero n di osservazioni, per l'effetto congiunto del valore di
t n −2 , α 2 e del rapporto 1/n,
- diminuisce al crescere della devianza di X,
- varia in funzione dei valori di X, con valori minimi quando X k è vicino alla sua media e valori
massimi quando X k ha distanza massima dalla media.
E’ importante evidenziare questa ultima caratteristica.
Il valore
( X k − X )2
n
∑ (X
i =1
− X)
2
i
è detto valore di leva (leverage) dell’osservazione k sul valore della retta .
40
A differenza di quanto succede per l’intervallo del coefficiente angolare, l'intervallo di confidenza
della retta o valore medio atteso Yˆk non è costante, ma varia con una funzione iperbolica in
rapporto alla vicinanza di X k alla sua media. I valori di Yˆk corrispondenti a valori di X k più
distanti dalla media loro media X hanno una influenza maggiore nella determinazione dei parametri
della retta.
Considerando i 7 dati dell'esempio ricorrente sulla relazione tra peso e altezza, è stato calcolato
l’intervallo di confidenza degli Yk stimati per ogni valore X rilevato; è possibile anche il confronto con
il valore Y campionario.
Valori attesi di Yk con il loro intervallo di confidenza
Altezza
Peso
X
Y
160
178
183
180
166
175
162
52
68
75
71
63
59
57
α = 0. 05
α = 0. 01
L2
L1
L2
Yˆk
Yˆk
47 , 291 ≤ 54 , 018 ≤ 60 , 495 43 , 468 ≤ 54 , 018 ≤ 64 , 568
63 , 582 ≤ 68 , 348 ≤ 73 , 114 60 , 873 ≤ 68 , 348 ≤ 75 , 823
65 , 968 ≤ 72 , 328 ≤ 78 , 688 62 , 353 ≤ 72 , 328 ≤ 82 , 303
64 , 596 ≤ 69 , 940 ≤ 75 , 284 61, 560 ≤ 69 , 940 ≤ 78 , 321
54 , 029 ≤ 58 , 795 ≤ 63 , 561 51, 320 ≤ 58 , 795 ≤ 66 , 270
61, 827 ≤ 65 , 960 ≤ 70 , 093 59 , 478 ≤ 65 , 960 ≤ 72 , 442
49 , 605 ≤ 55 , 611 ≤ 61, 617 46 , 192 ≤ 55 , 611 ≤ 65 , 030
L1
Nella tabella sono riportati
- i valori medi di Yˆk (al centro)
- i relativi intervalli di confidenza (L1, valore medio, L2)
alla probabilità α = 0.05 e α = 0.01, per alcuni valori di X k elencati in ordine casuale:
I valori di L1 e L2 , insieme con la figura, evidenziano
- la minore dispersione del valore medio di Yk stimato ( Yˆk ) quando il valore di Xk è prossimo alla
media delle X,
- la maggiore dispersione delle stime alla probabilità α = 0.01 rispetto a quelle della probabilità α =
0.05.
La stima dell’errore standard di ogni valore medio permette anche il confronto tra un valore medio
calcolato per una specifica quantità X k ed un valore medio ipotizzato o atteso, (ad esempio,
perché trovato su una pubblicazione)
41
- attraverso il test t con df n-2 ed ipotesi H1 sia bilaterali che unilaterali
t( n −2 ) =
Yˆcalcolato − Yipotizzato


2 1
+
Se ⋅
n





2 


(X − X )
∑ (X − X )
2
k
n
i
i =1
Nel calcolo di singoli valori medi, l’errore standard di a ( S a ) è uguale a quello di b. E’ infatti
semplice osservare che per X k = 0 si ottiene Yˆk = a.
1
Sa = Se ⋅
+
n
(X − X )
∑ (X − X )
2
k
n
I =1
2
i
scritto spesso come


X2
2 1
Sa = Se ⋅ + n
n
(X i − X )2

∑
i =1







in quanto X k = 0
Tuttavia l’intervallo di confidenza di α è quasi sempre molto grande: la sua distanza dal valore medio
è massima, quindi ( X k − X )2 oppure X 2 sono valori molto grandi.
Ponendo l’attenzione sul valore medio di Yk stimato ( Yˆk ) per una specifica quantità Xk, in varie
occasioni il ricercatore può essere interessato a conoscere la medie di m osservazioni.
L’errore standard per quel valore di Yk stimato ( Yˆk ) cioè SYk diventa
S Yk


X2
1
2  1
= Se ⋅
+ + n
m n
(X i − X )2

∑
i =1

dove
42






- m è il numero di osservazioni di cui si cerca la risposta media Yˆk per lo specifico valore XK
15.10. INTERVALLI DI CONFIDENZA O INTERVALLI DI PREVISIONE PER SINGOLI
VALORI DI Yˆk STIMATI
Un'altra esigenza frequente nella ricerca è la previsione dell'intervallo di previsione (detto anche
intervallo di confidenza, seppure in modo meno corretto) per una singola risposta di Yk; in altri
termini, quale è la dispersione dei singoli valori di Y, per un dato valore Xk.
Anche in questo caso, il valore medio collocato sulla retta può essere stimato con
Yˆk = a + b ⋅ X k
oppure con la formula equivalente
Yˆk = Y + b ⋅ ( X k − X )
come illustrato nel paragrafo precedente
L'intervallo di previsione di un singolo valore Y per un valore Xk può essere stimato a partire dal
valore sulla retta Yˆk
mediante



2 
1
(X − X ) 
Yk = Yˆk ± t( n −2, α 2 ) ⋅ S e2 ⋅ 1 + + n k
 n
(X i − X )2 
∑

i =1


con la consueta simbologia,
usata anche per i valori medi di Yk nel paragrafo precedente.
La figura successiva è costruita con i dati della tabella, per gli stessi valori Xk già utilizzati per il
calcolo dell’intervallo di confidenza dei valori medi Yˆk riportati nel paragrafo precedente.
43
90
80
PESO
70
60
50
40
30
160
165
170
175
180
185
ALTEZZA
Intervalli di confidenza per singoli valori di Yˆi al 5% (linee a punti)
e all'1% (linee tratteggiate)
Valori attesi di Yk con il loro intervallo di confidenza
Altezza
Peso
X
Y
160
178
183
180
166
175
162
52
68
75
71
63
59
57
α = 0. 05
α = 0. 01
Yˆk
L1
L2
41, 702 ≤ 54 , 018 ≤ 66 , 334
56 , 984 ≤ 68 , 348 ≤ 79 , 712
60 , 208 ≤ 72 , 328 ≤ 84 , 447
58 , 322 ≤ 69 , 940 ≤ 81, 558
47 , 431 ≤ 58 , 795 ≤ 70 , 159
54 , 846 ≤ 65 , 960 ≤ 77 , 074
43 , 674 ≤ 55 , 611 ≤ 67 , 548
Anche in questo caso è presente il valore
( X k − X )2
n
∑ (X
i =1
− X)
2
i
44
L1
Yˆk
L2
34 , 703 ≤ 54 , 018 ≤ 73 , 332
50 , 526 ≤ 68 , 348 ≤ 86 , 170
53 , 321 ≤ 72 , 328 ≤ 91, 335
51, 719 ≤ 69 , 940 ≤ 88 , 161
40 , 973 ≤ 58 , 795 ≤ 73 , 617
48 , 531 ≤ 65 , 960 ≤ 83 , 389
36 , 890 ≤ 55 , 611 ≤ 74 , 332
Scarica

Esercitazioni in aula parte 5