POLITECNICO DI TORINO ESERCITAZIONI DI LOGISTICA Laurea in Ingegneria Logistica e della Produzione Corso di Logistica e di Distribuzione 1 Docente: Prof. Ing. Giulio Zotteri Tutore: Ing. Giuliano Scapaccino A.A. 2007/2008 VERSIONE 3 METODI EXPLANATORY NOTA: MATERIALE PROPEDEUTICO AL CORSO NON SOSTITUISCE IL TESTO DI RIFERIMENTO REGRESSIONE LINEARE SEMPLICE POLITECNICO DI TORINO - ESERCITAZIONI LOGISTICA DI DISTRIBUZIONE 1 – AUTORE: G. SCAPACCINO - VERSIONE 3.0 – FONTE: DALLA RETE 2 - a è l'intercetta della retta di regressione, - b è il coefficiente angolare; esso indica la quantità unitaria di cui varia Y al variare di una unità di X. La rappresentazione grafica evidenzia che il termine costante a , chiamato intercetta, fissa la posizione della retta rispetto all’asse delle ordinate: - a è il valore di Y, quando X è uguale a 0. Due rette che differiscano solo per il valore di a , quindi con b uguale, sono tra loro parallele. Come evidenzia il diagramma cartesiano precedente, ogni punto sperimentale ha una componente di errore ei , che rappresenta lo scarto verticale del valore osservato dalla retta (quindi tra la Y osservata e quella proiettata perpendicolarmente sulla retta). Poiché la retta di regressione serve per predire Y sulla base di X, l’errore commesso è quanto la Y predetta ( Yˆi ) si avvicina alla Y osservata ( Yi ). Utilizzare un qualsiasi punto sperimentale per stimare a porterebbe ad avere tante stime diverse quanti sono i punti sperimentali, tutti affetti appunto da un errore diverso. Di conseguenza, come punto di riferimento - per stimare a e costruire la retta, - viene utilizzato il punto identificato dai valori medi di Y e di X (Y e X ), - che rappresenta il baricentro della distribuzione, attraverso il quale la retta passerà sempre per costruzione. 13 Nel calcolo della retta di regressione, l'intercetta a è stimata a partire da b e dalle medie delle variabili X e Y sulla base della relazione a = Y − bX Di conseguenza, l'unica reale incognita è il valore del coefficiente angolare b . Per calcolare la retta che meglio approssima la distribuzione dei punti, è utile partire dall'osservazione che ogni punto osservato Yi si discosta dalla retta di una certa quantità ei detta errore o residuo Yi = a + bX i + ei Ognuno di questi valori ei può essere positivo oppure negativo: - è positivo quando il punto Yi sperimentale è sopra la retta (come nella figura precedente), - è negativo quando il punto Yi sperimentale è sotto la retta. Per costruire la retta che descrive la distribuzione dei punti, i principi ai quali riferirsi possono essere differenti e da essi derivano metodi diversi. Gli statistici hanno scelto il metodo dei minimi quadrati. La retta scelta è quella che riduce al minimo la somma dei quadrati degli scarti di ogni punto dalla sua proiezione verticale (parallelo all’asse delle Y). E’ un valore del tutto identico alla devianza e permette analisi simili a quelle dell'ANOVA, che verranno successivamente spiegate. In modo più formale, indicando con - Yi il valore osservato od empirico e con - Y$ i il corrispondente valore sulla retta, si stima come migliore interpolante, quella che minimizza la sommatoria del quadrato degli scarti dei valori osservati ( Yi ) rispetto a quelli stimati sulla retta (Y$ i ) n ∑ (Y − Y$ ) i =1 i 2 i = minimo Poiché e i = Yi − (a + bX i ) è possibile scrivere ∑e 2 i = ∑ (Yi − (a + bX i )) 2 = minimo e da essa ∑e 2 i = ∑ (Yi − (a + bX i )) 2 = minimo 14 Eguagliando a zero le derivate parziali, si trova il valore di b che minimizza tale sommatoria ∑( X − X ) 2 ⋅ b − ∑( X − X ) ⋅ ( Y − Y ) + ( Y − Y ) ∑ ∑( X − X ) 2 2 2 [ ∑( X − X ) ⋅ ( Y − Y )] − ∑( X − X ) 2 2 Dopo semplificazione, il valore di b risulta uguale al rapporto della codevianza di X e Y con la devianza di X, che è più facile ricordare come b= Cod XY Dev X La codevianza è un concetto non ancora incontrato nel corso di statistica, poiché serve nello studio di due variabili: stima come X e Y variano congiuntamente, rispetto al loro valore medio. E' definita come la sommatoria degli n prodotti degli scarti di X rispetto alla sua media e di Y rispetto alla sua media: n Cod XY = ∑ (X i − X ) ⋅ (Yi − Y ) i =1 Come la devianza, anche la codevianza ha una formula empirica od abbreviata che permette un calcolo più rapido Cod XY = ∑ ( X ⋅ Y ) − ∑ X ⋅ ∑Y n e preciso a partire dai dati campionari. Infatti evita l’uso delle medie, che sono quasi sempre valori approssimati e impongono di trascinare nei vari calcoli alcuni decimali. In conclusione, il coefficiente angolare b è calcolato dalle coppie dei dati sperimentali X e Y come b= ∑ ( X − X ) ⋅(Y − Y ) ∑( X − X ) 2 che ne definisce il significato, oppure dalla equivalente formula rapida od empirica 15 ∑ X ⋅Y ∑(X ⋅Y ) − n b= (∑ X ) ∑X − n 2 2 Dopo aver calcolato b , si stima a : a = Y − bX Noti i valori dell'intercetta a e del coefficiente angolare b , è possibile procedere alla rappresentazione grafica della retta. Anche a questo scopo, è importante ricordare che la retta passa sempre dal baricentro del diagramma di dispersione, individuato dal punto d'incontro delle due medie X e Y . Di conseguenza, è sufficiente calcolare il valore di Yˆi corrispondente ad un solo qualsiasi valore di X i (ovviamente diverso dalla media), per tracciare la retta che passa per questo punto calcolato e per il punto d'incontro tra le due medie. Se non sono stati commessi errori di calcolo, qualsiasi altro punto Yˆi stimato nella rappresentazione grafica deve risultare collocato esattamente sulla retta tracciata. E’ un principio elementare che può servire come un procedimento semplice ed emprico, allo scopo di verificare la correttezza di tutti i calcoli effettuati fino a quel punto ESEMPIO. Per sette giovani donne, indicate con un numero progressivo, è stato misurato il peso in Kg e l'altezza in cm. 16 Individui 1 2 3 4 5 6 7 Peso (Y) in Kg. 52 68 75 71 63 59 57 Altezza (X) in cm. 160 178 183 180 166 175 162 Calcolare la retta di regressione che evidenzi la relazione tra peso ed altezza. Risposta. Come primo problema è necessario individuare quale è la variabile indipendente, che deve essere indicata con X, e quale la variabile dipendente, indicata con Y. Se non esiste tale relazione unidirezionale di causa - effetto, da motivare con conoscenze della disciplina che esulano dalla statistica, è più corretto utilizzare la correlazione lineare semplice. Tra le due serie di misure dell’esempio, la variabile indipendente è l'altezza e la variabile dipendente è il peso. Infatti ha significato stimare quanto dovrebbe pesare un individuo in rapporto alla sua altezza, ma non viceversa. Successivamente, dalle 7 coppie di dati si devono calcolare le quantità ∑ ( X ⋅ Y ) = 76945; ∑ X = 1204; ∑ Y = 445; ∑ X 2 = 207598; n = 7 che sono necessarie per - la stima del coefficiente angolare b b= ∑(X ⋅Y ) − ∑X 2 − ∑ X ⋅ ∑Y n (∑ X ) 2 n 1204 ⋅ 445 7 = = 0,796 1204 2 207598 − 7 76945 − che risulta uguale a 0,796 - la stima dell’intercetta a a = Y − bX = 63,571 − 0,796 ⋅ 172 = −73,354 che risulta uguale a -73,354. Si è ricavata la retta di regressione 17 Y$ i = -73,354 + 0,796 ⋅ Xi con la quale è possibile stimare i punti sulla retta, corrispondenti a quelli sperimentalmente rilevati. Per tracciare la retta è sufficiente calcolare un solo altro punto, oltre quello noto individuato dall’incrocio delle due medie, che identifica il baricentro della distribuzione; di norma, ma non necessariamente, è scelto entro il campo di variazione delle Xi empiriche. Successivamente, si deve prolungare il segmento che per estremi ha il punto stimato ed il baricentro della distribuzione, come nella figura di seguito riportata. 80 75 70 65 Y PESO 60 55 50 155 X 165 175 185 ALTEZZA Qualsiasi altro valore di Y$ i , stimato a partire da un generico Xi , sarà collocato su questa retta, se non sono stati commessi errori di calcolo in una fase qualsiasi del procedimento. E’ quindi utile, a dimostrazione empirica della correttezza di calcoli effettuati a mano, verificare effettivamente tale proprietà per un altro valore della variabile X. Nel sua interpretazione biologica, il valore calcolato di b indica che in media gli individui che formano il campione aumentano di 0,796 Kg. al crescere di 1 cm. in altezza. E’ quindi ovvio che, se l’altezza delle 7 giovani fosse stata misurata in metri (1,60; 1,78; ...), il coefficiente angolare b sarebbe risultato uguale a 79,6 (cento volte il valore precedentemente stimato), indicando l’incremento di 79,6 kg. per l’aumento di 1 metro in altezza. 18 Nello stesso modo e simmetricamente, se il peso fosse stato stimato in ettogrammi (520, 680, ...) e l’altezza sempre in centimetri, il coefficiente angolare b sarebbe risultato uguale a 7,96 indicando un aumento medio del peso di hg. 7,96 per un aumento di 1 cm in altezza. Sono concetti utili, quando si devono confrontare due o più coefficienti angolari di rette di regressione e fornire interpretazioni a carattere biologico o ambientale. Il valore di a molto spesso non è importante. Serve solamente per calcolare i valori sulla retta; ha uno scopo strumentale e nessun significato biologico. In questo esempio, nella realtà a non esiste, poiché è fuori dal campo di variazione della X e soprattutto non esiste alcuna persona con l’altezza 0 (zero). L’intercetta ha significato solo in pochi casi; ad esempio quando si confrontano due metodi per stimare la stessa quantità, che potrebbe essere 0. Se per X = 0, il valore di Y è differente si ha a ≠ 0 : significa che i due strumenti hanno una taratura differente, la cui quantità è indicata dal valore di a . Sono concetti che saranno ripresi nel paragrafo dedicato alla significatività e all’intervallo di confidenza dell’intercetta a . 15.5. VALORE PREDITTIVO DELLA REGRESSIONE La retta di regressione è sovente usata a scopi predittivi, per stimare una variabile conoscendo il valore dell’altra. Ma è necessario procedere con cautela: in questa operazione spesso viene dimenticato che, - sotto l’aspetto statistico, qualsiasi previsione o stima di Y è valida solamente entro il campo di variazione sperimentale della variabile indipendente X. Questo campo di variazione comprende solo i valori osservati della X, usati per la stima della regressione. Per valori minori o maggiori, non è assolutamente dimostrato che la relazione trovata tra le due variabili persista e sia dello stesso tipo. L'ipotesi che la relazione stimata si mantenga costante anche per valori esterni al campo d’osservazione è totalmente arbitraria; estrapolare i dati all’esterno del reale campo d’osservazione è un errore di tecnica statistica, accettabile solamente nel contesto specifico della disciplina studiata, a condizione che sia motivato da una maggiore conoscenza del fenomeno. In alcuni casi, questo metodo è utilizzato appunto per dimostrare come la legge lineare trovata non possa essere valida per valori inferiori o superiori, stante l’assurdità della risposta. 19 Nell'esempio del paragrafo precedente, la relazione trovata tra Y e X con la retta di regressione è valida solamente entro un'altezza compresa tra 160 e 183 centimetri. E' da ritenere statisticamente errato usare la retta stimata per predire valori di Y in funzione di valori di X che siano minori di 160 o maggiori di 183 centimetri. Come dimostrazione semplice di tale principio, nei vari testi di statistica sono riportati esempi anche divertenti, ma è possibile usare la retta calcolata. Una bambina alla nascita di norma ha un'altezza (lunghezza) di circa 50 centimetri. Che peso dovrebbe avere, se la relazione precedente fosse applicabile anche al suo caso? La prosecuzione della retta stimata Yˆi = -73,354 + 0,796⋅ Xi per una lunghezza (Xi) uguale a 50 cm. -73,354 + 0,796⋅50 = -33,554 fornisce un peso medio (Yi) uguale a Kg. -33,554. E’ una risposta chiaramente assurda, evidenziata nella figura, poiché la relazione lineare calcolata per giovani da 160 a 183 cm. di altezza non può essere estesa a dimensioni diverse. E’ intuitivo che gli effetti saranno tanto più distorti, quanto maggiore è la distanza dai limiti sperimentali utilizzati per il calcolo della regressione. PESO 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0 -5 -10 -15 -20 -25 -30 -35 -40 -45 -50 -55 -60 -65 -70 -75 -80 0 20 40 60 80 100 ALTEZZA 20 120 140 160 180 200 Nella ricerca applicata l’evoluzione temporale e la diffusione spaziale di un fenomeno sono casi ricorrenti di uso della regressione lineare a fini predittivi. I dati, - se ordinati secondo il periodo, sono chiamati serie temporali o storiche, - mentre sono chiamate serie territoriali quando ordinate sulla base della distanze dal luogo di rilevazione. Sono analisi particolarmente importanti per verificare l’aumento (o della diminuzione) dei tassi di inquinamento ad iniziare da un certo momento oppure per analizzare la diffusione geografica di un inquinante a partire da una fonte. Una serie temporale può essere scomposta in 4 componenti: - la componente di fondo, detta trend, che ne rappresenta l’evoluzione più importante, a lungo termine; - le oscillazioni periodiche, stagionali, o cicliche che si ripetono con regolarità ad intervalli costanti; - le variazioni casuali, non riconducibili a nessuna causa costante; - gli eventi eccezionali, che sono in grado di modificare le tendenze di medio o di lungo periodo. Per esse e per le serie territoriali, tra i metodi specifici è utilizzata la regressione, in particolare per predire la tendenza di fondo. Per approfondimenti sull’argomento delle serie storiche o territoriali, si rinvia a trattazioni specifiche. 15.6. SIGNIFICATIVITÀ' DEI PARAMETRI β E α DELLA RETTA DI REGRESSIONE Con le formule presentate, è sempre possibile ottenere la retta che meglio si adatta ai dati rilevati, con qualunque forma di dispersione dei punti. Tuttavia, allo statistico il semplice calcolo della retta non è sufficiente. Essa potrebbe indicare - una relazione reale tra le due variabili, se la dispersione dei punti intorno alla retta è ridotta, - una relazione casuale o non significativa, quando la dispersione dei punti intorno alla retta è approssimativamente uguale a quella intorno alla media. Le tre figure successive (A, B, C), rappresentando in modo schematico situazioni sperimentali notevolmente differenti, possono illustrare questi concetti con semplicità e chiarezza. 21 o o o o Y o o o o o o o o o o Y o o Y o o o o o o Y o o X X X A) X B) o o o o o Y o Y o o o o o o X X C) La figura A riporta una retta che, visivamente, esprime la relazione tra le due variabili: i punti hanno distanze dalla retta di regressione sensibilmente minori di quelle dalla media ( Y ). Conoscendo X, il valore stimato di Y può avvicinarsi molto a quello reale, rappresentato dal punto. All’opposto, la figura C evidenzia una situazione in cui la retta calcolata non è un miglioramento effettivo della distribuzione dei punti rispetto alla media. In questo caso, la retta calcolata può essere interpretata come una variazione casuale della media: con questi dati, la retta ha una pendenza 22 positiva; ma con un altro campione estratto dalla stessa popolazione o con l’aggiunta di un solo dato della stessa popolazione si potrebbe stimare un coefficiente angolare (b) negativo. Il caso B raffigura una situazione di maggiore incertezza sulla significatività della retta calcolata; la semplice rappresentazione grafica risulta insufficiente per decidere se all’aumento di X i valori di Y tendano realmente a crescere. E’ sempre necessario ricorrere a metodi che, a partire dagli stessi dati, conducano tutti alle stesse conclusioni. Sono i test di inferenza. Per rispondere alle domande poste, occorre valutare la significatività della retta, cioè se il coefficiente angolare b si discosta da zero in modo significativo. Il coefficiente angolare b è relativo al campione. La sua generalizzazione nella popolazione è indicata con β (beta) e la sua significatività è saggiata mediante la verifica dell'ipotesi nulla H 0 H0 : β = 0 Rifiutando l'ipotesi nulla e senza altre indicazioni, si accetta l'ipotesi alternativa a due code H1 H1 : β ≠ 0 Affermare che β è uguale a zero, nella regressione lineare significa che - al variare di X, - Y resta costante, uguale al valore dell'intercetta a . Di conseguenza, non esiste alcun legame di regressione o predittivo tra X e Y, poiché la prima cambia mentre la seconda, che dovrebbe essere da essa determinata, resta costante. Rifiutando l'ipotesi nulla, implicitamente si accetta l'ipotesi alternativa H1 che β sia diverso da zero: al variare di X si ha una corrispondente variazione sistematica di Y. Di conseguenza, si afferma che la regressione esiste, perché conoscendo X si ha informazione non nulla sul valore di Y. Per la verifica della significatività della retta calcolata, un metodo semplice e didatticamente utile alla comprensione del significato statistico della regressione è il test F, fondato sulla scomposizione delle devianze e dei relativi gdl. Nelle figure sottostanti A e B, indicando con - Yi il punto sperimentale, - con Y$ i la sua proiezione (parallela all’asse delle ordinate) sulla retta, - con Y la media, 23 $ e Y ) si definiscono tre a partire dalla somma dei quadrati delle distanze tra i tre punti ( Y, Y devianze, come nell’analisi della varianza ad un criterio: - la devianza totale, con gdl n-1, - la devianza della regressione o devianza dovuta alla regressione, con gdl 1, - la devianza d'errore o devianza dalla regressione o residuo, con gdl n-2. secondo le formule di seguito riportate con i relativi gdl: - Devianza totale ∑ (Y − Y) - Devianza della regressione ∑ (Ŷ − Y) - Devianza d’errore ∑ (Y − Yˆ ) 2 i con gdl n-1 2 con gdl 1 (Fig. B, parte inferiore) 2 con gdl n-2 (Fig. B, parte superiore) i i (Fig. A) i Queste formule definiscono il significato delle 3 devianze. Potrebbero essere usate per stimare i valori, ma richiedono calcoli lunghi e forniscono risultati approssimati, poiché fondati sulle medie e sui valori della retta, che non sono quasi mai valori esatti e impongono l’uso di decimali. Per effettuare in modo più rapido e preciso i calcoli, si utilizzano le formule abbreviate: - Devianza totale ∑Y 2 − (∑ Y ) 2 n con gdl n-1 24 - Devianza della regressione 2 Cod XY Dev X con gdl 1 ricordando che, sempre con le formule abbreviate, Cod XY = ∑ ( X ⋅ Y ) − ∑ X ⋅ ∑Y n e Dev X = ∑ X 2 − (∑ X ) 2 n Successivamente, per differenza, si calcola la devianza d'errore: - Devianza d’errore = (Devianza totale – Devianza della regressione ) con gdl n-2 Dal rapporto - della devianza della regressione con i suoi gdl si stima la varianza della regressione; - della devianza d'errore con i suoi gdl si ottiene la varianza d'errore. Se l’ipotesi nulla è vera, la varianza d’errore e la varianza della regressione stimano le stesse grandezze e quindi dovrebbero essere simili. Se invece esiste regressione (H0 falsa), la varianza della regressione è maggiore di quella d’errore. Il rapporto tra queste due varianze determina il valore del test F con gdl 1 e n-2 F (1, n-2) = Varianza della regressione Varianza d ' errore Teoricamente, quando l’ipotesi nulla è falsa, si ottengono valori significativamente maggiori di 1. In pratica, se il valore di F calcolato è inferiore al valore tabulato, relativo alla probabilità prefissata e ai gdl corrispondenti, si accetta l'ipotesi nulla: non si ha una regressione lineare statisticamente significativa. Al contrario, se il valore calcolato di F supera il valore tabulato, si rifiuta l'ipotesi nulla e pertanto si accetta l'ipotesi alternativa: la regressione lineare tra le due variabili è significativa. Gli stessi concetti possono essere espressi con termini più tecnici. 25 - Se β = 0, la varianza dovuta alla regressione e quella d'errore sono stime indipendenti e non viziate della variabilità dei dati. - Se β ≠ 0, la varianza d'errore è una stima non viziata della variabilità dei dati, mentre la varianza dovuta alla regressione è stima di una grandezza maggiore. - Di conseguenza, il rapporto tra le varianze (varianza d'errore/varianza della regressione) con d.f. rispettivamente 1 e n-2 è da ritenersi utile alla verifica dell'ipotesi β = 0. Il test applicato è detto anche test di linearità. Infatti, rifiutare l'ipotesi nulla non significa affermare che tra X e Y non esista alcuna relazione, ma solamente che non esiste una relazione di tipo lineare tra le due variabili. Potrebbe esistere una relazione di tipo differente, come quella curvilinea, di secondo grado o di grado superiore. ESEMPIO. Con le misure di peso ed altezza rilevati su 7 giovani donne Individui 1 2 3 4 5 6 7 Peso (Y) in Kg. 52 68 75 71 63 59 57 Altezza (X) in cm. 160 178 183 180 166 175 162 è stata calcolata la retta di regressione Y$ = −73,354 + 0,796 X Valutare la sua significatività mediante il test F. Risposta. Valutare se esiste regressione tra le due variabili con il test F equivale a verificare l’ipotesi H0: β = 0 contro l’ipotesi alternativa H1: β ≠ 0 Dopo i calcoli preliminari dei valori richiesti dalle formule abbreviate ∑ ( X ⋅ Y ) = 76945 ∑ X = 1204 ∑ X 2 = 207598 precedentemente riportate, si ottengono le tre devianze: 26 ∑ Y = 445 ∑ Y 2 = 28693 n = 7 - SQ totale = 28693 − 4452 = 28693 − 28289,285 = 403,715 7 1204 ⋅ 445 2 ) (76945 − 76540) 2 164025 7 = = = 321,618 207598 − 207088 510 1204 2 207598 − 7 (76945 − - SQ della regressione = - SQ d’errore = 403,715 − 321,618 = 82,097 Per presentare in modo chiaro i risultati, è sempre utile riportare sia le tre devianze e i df relativi, sia le varianze rispettive, in una tabella riassuntiva, Devianza DF Varianza F Totale 403,715 6 ---- --- Regressione 321,618 1 321,62 19,59 Errore 82,097 5 16,42 --- P <0.01 che fornisce tutti gli elementi utili al calcolo e all’interpretazione di F. Con i dati dell'esempio, il valore di F F(1, 5) = 321, 62 = 19 , 59 16 , 42 risulta uguale a 19,59 con df 1 e 5. I valori critici riportati nelle tavole sinottiche di F per df 1 e 5 sono - 6,61 alla probabilità α = 0.05 - 16,26 alla probabilità α = 0.01. Il valore calcolato è superiore a quello tabulato alla probabilità α = 0.01. Pertanto, con probabilità P inferiore a 0.01 (di commettere un errore di I tipo, cioè di rifiutare l’ipotesi nulla quando in realtà è vera), si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: nella popolazione dalla quale è stato estratto il campione di 7 giovani donne, esiste un relazione lineare tra le variazioni in altezza e quelle in peso. 27 La verifica della significatività della retta o verifica dell'esistenza di una relazione lineare tra le due variabili può essere attuata anche mediante il test t di Student, con risultati perfettamente equivalenti al test F. Come già dimostrato per il confronto tra le medie di due campioni dipendenti od indipendenti, anche nel test di linearità il valore di t con df n-2 è uguale alla radice quadrata di F con df 1 e n-2 t( n-2 ) = F(1,n-2 ) oppure t(2n −2 ) = F(1,n −2 ) Il test t è fondato su calcoli che sono didatticamente meno chiari di quelli del test F, per la comprensione dei parametri riportati nelle formule; ma per l’inferenza offre due vantaggi - può essere più facilmente applicato anche a test unilaterali, H1: β < 0 oppure H1: β > 0 - permettere il confronto con qualsiasi valore (β0), (non solo 0 come con il test F) quindi verificare l’ipotesi nulla H0: β = β0 ovviamente sempre con ipotesi alternative H1 bilaterali oppure unilaterali. I test unilaterali - non solo sono più potenti di quelli bilaterali, - ma spesso sono anche logicamente più adeguati e corretti ai fini della ricerca. Ad esempio, sulla relazione lineare tra altezza e peso fino ad ora utilizzato, - è più logico un test unilaterale (all’aumentare dell’altezza il peso aumenta) - che non un test bilaterale (all’aumentare dell’altezza il peso varia), potendo a priori escludere come accettabile il risultato che all’aumentare dell’altezza il peso medio possa diminuire. 28 Il test t è fondato sul rapporto tra il valore del coefficiente angolare b ed il suo errore standard S b . La formula generale può essere scritta come t ( n -2 ) = b − β0 Sb dove - β 0 è il valore atteso, - S b è determinato dalla radice quadrata del rapporto tra la dispersione dei dati sperimentali (Y) intorno alla retta di regressione (Y$ ) e la devianza totale di X. Sb = Varianza ⋅ d ' errore ⋅ della ⋅ retta = Devianza ⋅ totale ⋅ della ⋅ X S e2 ∑ (X − X) 2 i Nella verifica della significatività della regressione β è uguale a 0; ma essa può assumere qualsiasi valore di confronto o ipotizzato (β0); di conseguenza, la formula può essere utilizzata per verificare la significatività dello scostamento da qualunque valore atteso. Un caso relativamente frequente nella ricerca applicata consiste nel verificare se il coefficiente angolare campionario b può essere in disaccordo con la teoria che Y aumenti di una unità all’aumentare di una di X, cioè se β = 1. Si ricorre a questo confronto, ad esempio, quando si raffrontano i risultati di due metodi di valutazione che dovrebbero dare gli stessi valori. E' importante osservare che - l'errore standard di b ( S b ) diminuisce, quindi il valore di t diventa più significativo, - all'aumentare della devianza di X. L’osservazione ha applicazioni importanti nella programmazione degli esperimenti, per la scelta dei valori campionari di X. Si supponga di dover valutare la regressione tra peso ed altezza. Si pone un problema di scegliere gli individui, ai fini di trovare una regressione significativa. Molti sono incerti se sia preferibile - scegliere individui di altezza media, con la motivazione che rappresentano il caso “tipico”, - scegliere individui che coprano tutto il campo di variazione dell’altezza. Per ottenere più facilmente la significatività della pendenza della retta, è sempre vantaggioso utilizzare per la variabile X un campo di variazione molto ampio, con più misure collocate ai valori estremi. 29 Infatti - se la devianza di X è grande, il valore di S b è piccolo; - di conseguenza il valore di t è grande e più facilmente significativo. La varianza d'errore della retta S e2 con df n-2 è chiamata anche errore standard della stima; è data da S e2 = ∑ (Y i − Yˆi ) 2 n−2 E’ fondata sui valori attesi e quindi il suo calcolo richiede vari passaggi. Può essere stimata con le formule presentate nel test F, dove la devianza d'errore è ottenuta in modo rapido per differenza tra la devianza totale e quella dovuta alla regressione. Quando è nota la retta, è possibile calcolare la devianza dovuta alla regressione direttamente dai valori sperimentali di X e Y mediante Devianza della regressione = ESEMPIO 1. ∑Y i 2 − a ⋅ ∑ Yi - b ⋅ ∑ ( X i ⋅ Yi ) Con le stesse 7 misure di peso ed altezza degli esercizi precedenti, stimare la significatività della regressione mediante il test t di Student. Risposta. E’ vantaggioso e più logico ricorrere ad un test unilaterale, quindi verificare se il peso aumenta in modo significativo al crescere dell'altezza. Tuttavia, in questo caso e solo con lo scopo di confrontare il risultato del test t con quello del precedente test F, è stato preferito un test bilaterale. Ricordando dai calcoli precedenti che b = 0 , 796 se2 = 16,42 ∑ (X n n=7 i =1 − X ) = 510 2 i S2b = 16 , 42 510 S b = 0,1794 il valore di t 5 t5 = 0,796 = 4,437 0,1794 risulta uguale a 4,437. Come già messo in evidenza in varie altre occasioni, il test F ed il test t danno il medesimo risultato. Infatti, F1, 5 = 19 , 59 corrisponde a 30 t 5 = 19 , 59 = 4, 426 (La piccola differenza tra 4,437 e 4,426 dipende dai vari arrotondamenti usati nelle due differenti serie di calcoli.) ESEMPIO 2. Con una ricerca bibliografica, è stato trovato che il coefficiente angolare β0 della retta di regressione tra altezza (X) e peso (Y) in una popolazione è risultato uguale a 0,950. Il valore di 0,796 calcolato sulle 7 giovani se ne discosta in modo significativo? Risposta. E’ un test bilaterale, in quanto chiede semplicemente se il valore calcolato b si discosta in modo significativo da un valore atteso, dove H0: β = 0,950 e H1: β ≠ 0,950 Applicando la formula t( n -2 ) = b−β Sb si trova t(5) = 0,796 − 0,950 −0,154 = = - 0,858 0,1794 0,1794 un valore di t uguale a -0.858 con 5 df. E’ un rapporto inferiore all’unità, quindi senza dubbio non significativo. Di conseguenza, si deve concludere che non è dimostrata l’esistenza di una differenza tra il coefficiente angolare riportato sulla pubblicazione e quello sperimentalmente calcolato con i 7 dati. Quando non è possibile rifiutare l'ipotesi nulla in merito al coefficiente angolare b (pertanto la retta campionaria non può essere assunta come significativa di una relazione lineare tra le due variabili), la risposta ai diversi valori di X è fornita dalla media di Y, della quale può essere utile la conoscenza della varianza e della deviazione standard. Con la simbologia ormai consueta, la varianza ( SY2 ) e la deviazione standard ( SY ) della media Y , sono rispettivamente SY2 = S e2 n e SY = Se n Nella ricerca ambientale, oltre alla significatività del coefficiente angolare b spesso è importante verificare anche - la significatività dell'intercetta a (rispetto a zero) 31 - la significatività della sua differenza da un valore atteso o prefissato. Il concetto è identico al confronto tra una media campionaria X e la media reale µ o della popolazione. Il confronto è verificato ricorrendo ancora alla distribuzione t, con una formula analoga a quella per la media X e per il coefficiente angolare b . Un caso frequente è quando l’origine della retta dovrebbe coincidere con l’origine degli assi; quindi con X = 0 si dovrebbe Y = 0, cioè una risposta media di a che non si discosta significativamente da 0. Il test può comunque essere applicato al confronto con qualsiasi valore atteso dell’intercetta e l’ipotesi alternativa H1 può essere sia unilaterale che bilaterale. Per la significatività dell’intercetta a , si verifica l’ipotesi nulla H0: α = 0 mentre per il confronto dell’intercetta a con un generico valore atteso α0 si verifica l’ipotesi nulla H0: α = α0 dove - α è il valore della popolazione dalla quale è stato estratto il campione che ha permesso il calcolo di a. Il test è effettuato con il calcolo di un valore di t, con gdl n-2 in quanto fondato sulla varianza d’errore della retta; è dato da t( n −2 ) = a −α Sa dove - Sa è l'errore standard dell'intercetta ed è stimato come 1 Sa = S ⋅ ( + n 2 e X2 ) ∑ ( X i − X )2 con S e2 che indica la varianza d’errore della retta (già utilizzata per stimare la significatività del coefficiente angolare b ). ESEMPIO. Utilizzando gli stessi 7 dati della relazione peso - altezza, in cui a = −73,357 S e2 = 16,101 n n=7 ∑ (X i =1 32 − X ) = 510 2 i X = 172 stimare se l'intercetta a si discosta in modo significativo da zero. Risposta. Per verificare l’ipotesi nulla H0: α = 0 con ipotesi alternativa H1: α ≠ 0 poiché l’errore standard di a 1 172 2 = 30,599 S a = 16,101 ⋅ + 7 510 è uguale a 30,599 si ottiene un valore del t di Student t5 = − 73,357 = −2,397 30,599 uguale a -2,397 con 5 df. Per un test bilaterale, il valore critico di t con 5 df alla probabilità α = 0.05 è uguale a 2,571. Di conseguenza, l'intercetta calcolata non risulta significativamente diversa da zero. In realtà il valore è così vicino alla significatività che, con un numero maggiore di dati, il test sarebbe risultato significativo. Per una interpretazione più attenta e meno affrettata del risultato, si pone il problema di stimare la potenza del test effettuato, prima di affermare con sufficiente sicurezza che il coefficiente angolare b oppure, come in questo caso, l’incetta a non sono significativamente differenti da zero oppure da un qualunque valore atteso. 15.7. CONFRONTO TRA LA SIGNIFICATIVITA’ E LA POTENZA DEL TEST DELLA REGRESSIONE CON QUELLE DELLA CORRELAZIONE Come risulterà evidente alla fine della esposizione degli argomenti che riguardano la correlazione, la regressione lineare semplice e la correlazione lineare semplice hanno - finalità differenti, - condizioni di validità differenti, - nei test di significatività rispondono a domande differenti. Nella verifica della significatività, - con la retta di regressione, l’ipotesi nulla verte sul valore del coefficiente angolare b : H0: β = 0 33 - nella correlazione, l’ipotesi nulla verte sul valore del coefficiente r: H0: ρ = 0 Come sarà illustrato nei paragrafi successivi, quando si effettua il confronto con un qualsiasi valore teorico, - con il coefficiente angolare b, si verifica l’ipotesi nulla H0: β = β0 - con il coefficiente di correlazione r si verifica l’ipotesi nulla H0: ρ = ρ0 Tuttavia, la regressione e la correlazione possono essere calcolate sulle stesse coppie di dati. Per ambedue, - la significatività può essere stimata sia con il test F sia con il test t, - i test hanno gli stessi gradi di libertà, - le ipotesi alternative possono essere ugualmente bilaterali oppure unilaterali., - i risultati della significatività sono identici: il test t e il test F per la significatività di b forniscono lo stesso valore di quello applicato su r . Sulla base di queste affinità sono uguali anche - la potenza a priori, cioè il numero di dati (n) che servono affinché il coefficiente angolare b o il coefficiente di correlazione r risultino significativamente differenti da zero o da un valore prefissato, - la potenza a posteriori, cioè la probabilità (1-β) di rifiutare correttamente l’ipotesi nulla, in un test sulla significatività di un coefficiente angolare b oppure un coefficiente di correlazione r . Di conseguenza, per il calcolo della potenza della regressione si può utilizzare la procedura per la correlazione, dopo aver ricavato r dai dati della regressione o da suoi indici. Questo valore r può essere ricavato a partire - dal coefficiente di determinazione R2 (spiegato in un paragrafo successivo) con r = R2 - dal coefficiente angolare b e dalle due devianze con 34 r = b⋅ ∑ (X ∑ (Y − X) 2 i i −Y ) 2 Nei paragrafi successivi di questo capitolo, saranno presentati anche i metodi per confrontare due coefficienti angolari b1 e b2, allo scopo di verificare se appartengono alla stessa popolazione con coefficiente angolare β. Anche per la correlazione, nel capitolo successivo saranno presentati i metodi per confrontare due coefficienti di correlazione r1 e r2, per verificare se appartengono alla stessa popolazione con coefficiente di correlazione ρ. In modo analogo al caso precedente, anche per questo test di confronto tra i coefficienti di due campioni indipendenti è possibile stimare - la potenza a priori, cioè il numero di dati (n) che servono affinché i coefficienti angolari b1 e b2 oppure i coefficienti di correlazione r1 e r2 risultino significativamente differenti tra loro, - la potenza a posteriori (1-β) di un test di confronto tra due coefficienti angolari oppure tra due coefficienti di correlazione. Anche per il calcolo della potenza di un test sul confronto tra due coefficienti di regressione, si utilizza la procedura della correlazione (spiegata nel capitolo sulla correlazione). Per quanto riguarda gli aspetti concettuali dell’uso del coefficiente di correlazione r , allo scopo di valutare la significatività del coefficiente angolare b , si rinvia al paragrafo specifico nel capitolo sulla correlazione. 15.8. INTERVALLI DI CONFIDENZA DEI PARAMETRI β E α L’uso della retta di regressione a fini predittivi richiede che possa essere stimato l’errore di previsione - del coefficiente angolare β - dell’intercetta α. I limiti di confidenza sono utili anche per eventuali confronti con un parametro prefissato, quindi ai fini dell’inferenza, come già fatto per la media campionaria X . Infatti un qualsiasi valore campionario b0 oppure un valore β0 di una popolazione, se non è compreso entro i limiti di limiti di confidenza di un altro coefficiente angolare b, è significativamente differente da esso. Questa analisi coincide con i risultati di un test t bilaterale, alla stessa probabilità P. 35 Come per la media, - conoscendo β e la sua deviazione standard σ β - è possibile determinare l’intervallo di confidenza dei valori campionari b alla probabilità P, attraverso la distribuzione normale ridotta Z. b = β ± Zα / 2 ⋅ σ β In realtà, nella ricerca quasi sempre il procedimento logico ha la direzione opposta: si cerca di stimare il parametro della popolazione (β oppure α) che di solito è ignoto, a partire dalle statistiche ( b oppure a ) calcolate su n dati campionari. Calcolato un valore b , il coefficiente angolare della popolazione (β) con probabilità P si trova entro i limiti dell’intervallo di confidenza L1 e L2 L1 = b − t ( n − 2 , α 2 ) ⋅ S b L2 = b + t ( n − 2 , α 2 ) ⋅ S b spesso scritto più rapidamente come β = b ± t ( n −2 , α 2 ) ⋅ S b dove - S b è l’errore standard di b Sb = S e2 ∑ (X − X) 2 i Per l'intercetta campionaria ( a ), il valore reale o della popolazione (α) si trova entro l’intervallo α = a ± t( n −2, α 2) ⋅ Sa dove - S a è l'errore standard di a 1 S a = S e2 ⋅ ( + n X2 ) ∑ ( X i − X )2 con - S e2 che in entrambi i casi indica la varianza d’errore, stimata con il test F 36 ESEMPIO. Ricorrendo agli stessi dati su altezza e peso, con i quali sono stati calcolati la retta e la sua significatività, si è ottenuto b = 0,796 S b = 0,1794 t(5,0.025) = 2,571 t(5, 0.005) = 4,032 a = -73,357 S a = 30,599 Stimare alla probabilità α = 0.05 e a quella α = 0.01 a) l’intervallo di confidenza del coefficiente angolare β b) l’intervallo di confidenza dell’intercetta α. Risposta. A) L'intervallo di confidenza del coefficiente angolare β alla probabilità del 95% è 0 , 796 − 2 , 571 ⋅ 0 , 1794 ≤ β ≤ 0 , 796 + 2 , 571 ⋅ 0 , 1794 cioè 0 , 335 ≤ β ≤ 1, 257 - L1 è uguale a 0,335 - L2 e uguale a 1,257. Si può anche scrivere che il valore della popolazione con probabilità del 95% è compreso tra il limite di confidenza inferiore L1 = 0,335 e il limite di confidenza superiore L2 = 1,257. Alla probabilità del 99% è 0 , 796 − 4 , 032 ⋅ 0 , 1794 ≤ β ≤ 0 , 796 + 4 , 032 ⋅ 0 , 1794 cioè 0,073 ≤ β ≤ 1,519 il valore reale β è compreso tra L1 = 0,073 e L2 = 1,519. B) L'intervallo di confidenza per l'intercetta α alla probabilità del 95% è −73 , 357 − 2 , 571 ⋅ 30 , 599 ≤ α ≤ −73 , 357 + 2 , 571 ⋅ 30 , 599 −152 , 027 ≤ α ≤ 5 , 313 compreso tra L1 = –152,027 e L2 = 5,313. Alla probabilità del 99% è −73 , 357 − 4 , 032 ⋅ 30 , 599 ≤ α ≤ −73 , 357 + 4 , 032 ⋅ 30 , 599 −196 , 732 ≤ α ≤ 50 , 018 compreso tra L1 = –196,732 e L2 = 50,018. 37 Anche in queste applicazioni, come già evidenziato per la media della popolazione (µ) rispetto alla media campionaria ( X ), l’intervallo di confidenza costruito attorno al valore campionario cresce, quando si aumenta la probabilità che esso comprenda il valore reale. Per semplicità didattica e come aiuto alla esecuzione di tutti i calcoli richiesti dalle formule, è stato utilizzato un numero di dati molto limitato, nettamente inferiore a quello che si usa nella ricerca. Di conseguenza, i parametri della retta hanno intervalli molto ampi; tale risultato è particolarmente evidente per l’intercetta a . 15.9. INTERVALLI DI CONFIDENZA DELLA RETTA O INTERVALLI DI PREVISIONE PER I VALORI MEDI DI Yˆk STIMATI Nella ricerca applicata all’analisi e alla gestione dell’ambiente, si rilevano utili tre diversi casi di stima dell’intervallo di confidenza: - del coefficiente angolare, come nel paragrafo precedente; - del valore medio di Y stimato ( Yˆk ), corrispondente ad un dato valore k di X; è il caso in cui si somministra una sostanza tossica ad un gruppo di cavie e si vuole prevedere quale sarà l’effetto medio sulla loro crescita, supposto che esista la relazione lineare già stimata tra dose e accrescimento; è chiamato anche intervallo di confidenza della retta, essendo infatti la stima di ogni punto sulla retta; - di un singolo valore di Y stimato, sempre corrispondente ad un dato valore di X; è il caso in cui si voglia predire la risposta di un singolo soggetto, come succede al medico che per un paziente voglia stimare la risposta individuale possibile alla somministrazione di una dose X di un farmaco. Il valore medio di Yˆk , collocato sulla retta e corrispondente ad un dato valore X k può essere stimato attraverso la funzione Yˆk = a + b ⋅ X k Ma spesso l’incetta a è fuori dal campo di rappresentazione del grafico, centrato sul baricentro o incontro dei valori medi X e Y . E’ quindi possibile utilizzare la formula equivalente Yˆk = Y + b ⋅ ( X k − X ) ESEMPIO. Calcolare il valore medio Yˆk previsto per X k = 180, con i dati sull’altezza delle 7 ragazze. 38 Risposta. Con a = -73,35 b = 0,796 Y = 63,57 X = 172,0 per X k = 180 con la prima formula si ricava Yˆk = −73,35 + b ⋅ 180 = −73,35 + 143,28 = 69,93 e con la seconda Yˆk = 63,57 + 0,796 ⋅ (180 − 172,0 ) = 63,57 + 6,36 = 69,93 L’intervallo di confidenza di questo valore medio di Yˆk o valore atteso di Yˆk corrispondente ad un singolo valore k di X i come può essere l’intervallo di confidenza del peso medio di giovani donne alte 180 cm., è stimato mediante la formula 2 1 (X − X ) Yˆk ± t( n −2, α 2 ) ⋅ S e2 ⋅ + n k n (X i − X )2 ∑ i =1 dove - Yˆk è il valore previsto o medio di Y per un dato valore k della variabile X, - S e2 è la varianza d’errore della regressione (16,62), - n è la dimensione del campione, - X k è il valore di X del quale si prevede la risposta media Yˆk , ∑ (X n - i =1 − X ) è la devianza di X. 2 i Questa formula elenca i fattori che sono utilizzati nella stima e spiega come essi che influiscono sull'ampiezza dell'intervallo di confidenza della retta 39 80 70 PESO 60 50 40 160 170 180 190 ALTEZZA Intervalli di confidenza per valori medi di Yˆi al 5% (linee a punti) e all'1% (linee tratteggiate) Per una data probabilità P, - aumenta al crescere della varianza d'errore, - diminuisce all'aumentare del numero n di osservazioni, per l'effetto congiunto del valore di t n −2 , α 2 e del rapporto 1/n, - diminuisce al crescere della devianza di X, - varia in funzione dei valori di X, con valori minimi quando X k è vicino alla sua media e valori massimi quando X k ha distanza massima dalla media. E’ importante evidenziare questa ultima caratteristica. Il valore ( X k − X )2 n ∑ (X i =1 − X) 2 i è detto valore di leva (leverage) dell’osservazione k sul valore della retta . 40 A differenza di quanto succede per l’intervallo del coefficiente angolare, l'intervallo di confidenza della retta o valore medio atteso Yˆk non è costante, ma varia con una funzione iperbolica in rapporto alla vicinanza di X k alla sua media. I valori di Yˆk corrispondenti a valori di X k più distanti dalla media loro media X hanno una influenza maggiore nella determinazione dei parametri della retta. Considerando i 7 dati dell'esempio ricorrente sulla relazione tra peso e altezza, è stato calcolato l’intervallo di confidenza degli Yk stimati per ogni valore X rilevato; è possibile anche il confronto con il valore Y campionario. Valori attesi di Yk con il loro intervallo di confidenza Altezza Peso X Y 160 178 183 180 166 175 162 52 68 75 71 63 59 57 α = 0. 05 α = 0. 01 L2 L1 L2 Yˆk Yˆk 47 , 291 ≤ 54 , 018 ≤ 60 , 495 43 , 468 ≤ 54 , 018 ≤ 64 , 568 63 , 582 ≤ 68 , 348 ≤ 73 , 114 60 , 873 ≤ 68 , 348 ≤ 75 , 823 65 , 968 ≤ 72 , 328 ≤ 78 , 688 62 , 353 ≤ 72 , 328 ≤ 82 , 303 64 , 596 ≤ 69 , 940 ≤ 75 , 284 61, 560 ≤ 69 , 940 ≤ 78 , 321 54 , 029 ≤ 58 , 795 ≤ 63 , 561 51, 320 ≤ 58 , 795 ≤ 66 , 270 61, 827 ≤ 65 , 960 ≤ 70 , 093 59 , 478 ≤ 65 , 960 ≤ 72 , 442 49 , 605 ≤ 55 , 611 ≤ 61, 617 46 , 192 ≤ 55 , 611 ≤ 65 , 030 L1 Nella tabella sono riportati - i valori medi di Yˆk (al centro) - i relativi intervalli di confidenza (L1, valore medio, L2) alla probabilità α = 0.05 e α = 0.01, per alcuni valori di X k elencati in ordine casuale: I valori di L1 e L2 , insieme con la figura, evidenziano - la minore dispersione del valore medio di Yk stimato ( Yˆk ) quando il valore di Xk è prossimo alla media delle X, - la maggiore dispersione delle stime alla probabilità α = 0.01 rispetto a quelle della probabilità α = 0.05. La stima dell’errore standard di ogni valore medio permette anche il confronto tra un valore medio calcolato per una specifica quantità X k ed un valore medio ipotizzato o atteso, (ad esempio, perché trovato su una pubblicazione) 41 - attraverso il test t con df n-2 ed ipotesi H1 sia bilaterali che unilaterali t( n −2 ) = Yˆcalcolato − Yipotizzato 2 1 + Se ⋅ n 2 (X − X ) ∑ (X − X ) 2 k n i i =1 Nel calcolo di singoli valori medi, l’errore standard di a ( S a ) è uguale a quello di b. E’ infatti semplice osservare che per X k = 0 si ottiene Yˆk = a. 1 Sa = Se ⋅ + n (X − X ) ∑ (X − X ) 2 k n I =1 2 i scritto spesso come X2 2 1 Sa = Se ⋅ + n n (X i − X )2 ∑ i =1 in quanto X k = 0 Tuttavia l’intervallo di confidenza di α è quasi sempre molto grande: la sua distanza dal valore medio è massima, quindi ( X k − X )2 oppure X 2 sono valori molto grandi. Ponendo l’attenzione sul valore medio di Yk stimato ( Yˆk ) per una specifica quantità Xk, in varie occasioni il ricercatore può essere interessato a conoscere la medie di m osservazioni. L’errore standard per quel valore di Yk stimato ( Yˆk ) cioè SYk diventa S Yk X2 1 2 1 = Se ⋅ + + n m n (X i − X )2 ∑ i =1 dove 42 - m è il numero di osservazioni di cui si cerca la risposta media Yˆk per lo specifico valore XK 15.10. INTERVALLI DI CONFIDENZA O INTERVALLI DI PREVISIONE PER SINGOLI VALORI DI Yˆk STIMATI Un'altra esigenza frequente nella ricerca è la previsione dell'intervallo di previsione (detto anche intervallo di confidenza, seppure in modo meno corretto) per una singola risposta di Yk; in altri termini, quale è la dispersione dei singoli valori di Y, per un dato valore Xk. Anche in questo caso, il valore medio collocato sulla retta può essere stimato con Yˆk = a + b ⋅ X k oppure con la formula equivalente Yˆk = Y + b ⋅ ( X k − X ) come illustrato nel paragrafo precedente L'intervallo di previsione di un singolo valore Y per un valore Xk può essere stimato a partire dal valore sulla retta Yˆk mediante 2 1 (X − X ) Yk = Yˆk ± t( n −2, α 2 ) ⋅ S e2 ⋅ 1 + + n k n (X i − X )2 ∑ i =1 con la consueta simbologia, usata anche per i valori medi di Yk nel paragrafo precedente. La figura successiva è costruita con i dati della tabella, per gli stessi valori Xk già utilizzati per il calcolo dell’intervallo di confidenza dei valori medi Yˆk riportati nel paragrafo precedente. 43 90 80 PESO 70 60 50 40 30 160 165 170 175 180 185 ALTEZZA Intervalli di confidenza per singoli valori di Yˆi al 5% (linee a punti) e all'1% (linee tratteggiate) Valori attesi di Yk con il loro intervallo di confidenza Altezza Peso X Y 160 178 183 180 166 175 162 52 68 75 71 63 59 57 α = 0. 05 α = 0. 01 Yˆk L1 L2 41, 702 ≤ 54 , 018 ≤ 66 , 334 56 , 984 ≤ 68 , 348 ≤ 79 , 712 60 , 208 ≤ 72 , 328 ≤ 84 , 447 58 , 322 ≤ 69 , 940 ≤ 81, 558 47 , 431 ≤ 58 , 795 ≤ 70 , 159 54 , 846 ≤ 65 , 960 ≤ 77 , 074 43 , 674 ≤ 55 , 611 ≤ 67 , 548 Anche in questo caso è presente il valore ( X k − X )2 n ∑ (X i =1 − X) 2 i 44 L1 Yˆk L2 34 , 703 ≤ 54 , 018 ≤ 73 , 332 50 , 526 ≤ 68 , 348 ≤ 86 , 170 53 , 321 ≤ 72 , 328 ≤ 91, 335 51, 719 ≤ 69 , 940 ≤ 88 , 161 40 , 973 ≤ 58 , 795 ≤ 73 , 617 48 , 531 ≤ 65 , 960 ≤ 83 , 389 36 , 890 ≤ 55 , 611 ≤ 74 , 332