RELAZIONI TRA 2 FENOMENI QUANTITATIVI STATISTICA A – K (60 ore) Marco Riani [email protected] http://www.riani.it RELAZIONI TRA 2 FENOMENI QUANTITATIVI • Vi è una relazione tra le variabili oggetto di studio? • Di quanto variano i valori d’una variabile quando cambiano i valori dell’altra? • CORRELAZIONE • REGRESSIONE X = NUMERO DI DIPENDENTI Y = FATTURATO (in milioni di euro) Supermercato A xi 10 yi 1,9 B C D 18 20 8 3,1 3,2 1,5 E F G 30 12 14 6,2 2,8 2,3 Tot. 112 21,0 M(X) = 16 M(Y) = 3,0 DIAGRAMMA DI DISPERSIONE (SCATTER) 7 6 II I M(Y) = 3,0 fatturato 5 E (30 6,2) 4 3 2 G (14 2,3) III IV 1 0 0 5 10 15 20 numero di dipendenti M(X) = 16 25 30 35 DIAGRAMMA DI DISPERSIONE (SCATTER) • I quadranti in cui compare la maggioranza dei punti indicano il tipo di relazione 7 6 II I fatturato 5 4 3 2 III IV 1 0 0 5 10 15 20 numero di dipendenti 25 30 35 • Punti in I e III relazione diretta • Punti in II e IV relazione inversa • Punti si distribuiscono casualmente in tutti i quadranti all’incirca nella stessa proporzione nessuna relazione lineare tra le due variabili • L’osservazione della “nuvola” di punti nel diagramma di dispersione fornisce una prima idea sulla relazione eventualmente esistente tra i due fenomeni. X = NUMERO DI DIPENDENTI Y = FATTURATO (in milioni di euro) (xi – Mx) (yi – My) -6 - 1,1 Supermercato A xi 10 yi 1,9 B C D 18 20 8 3,1 3,2 1,5 +2 +4 -8 + 0,1 + 0,2 - 1,5 E F G 30 12 14 6,2 2,8 2,3 + 14 -4 -2 + 3,2 - 0,2 - 0,7 0 0 Tot. 112 21,0 M(X) = 16 M(Y) = 3,0 COVARIANZA 1 n COV ( X ,Y ) ( x i M x )( yi M y ) n i 1 • = MEDIA ARITMETICA DEI PRODOTTI DEGLI SCOSTAMENTI • COV(X,Y) >0 RELAZIONE DIRETTA • COV(X,Y) <0 RELAZIONE INVERSA • COV(X,Y) =0 X, Y INCORRELATE X = NUMERO DI DIPENDENTI Y = FATTURATO (in milioni di euro) (xi – Mx) (yi – My) (xi-Mx)(yi-My) -6 - 1,1 6,6 Supermercato A xi 10 yi 1,9 B C D 18 20 8 3,1 3,2 1,5 +2 +4 -8 + 0,1 + 0,2 - 1,5 0,2 0,8 12 30 6,2 12 2,8 14 2,3 112 21,0 + 14 -4 -2 0 + 3,2 - 0,2 - 0,7 0 44,8 0,8 1,4 66,6 E F G Tot. M(X) = 16 COV(X,Y)=66,6/7=9,514 M(Y) = 3,0 1 n COV ( X ,Y ) ( x i M x )( yi M y ) n i 1 Osservazione: per ottenere la covarianza è sufficiente calcolare solo gli scostamenti di una variabile, moltiplicandoli per i valori dell'altra variabile (p. 153) X = NUMERO DI DIPENDENTI Y = FATTURATO (in milioni di euro) (xi-Mx) yi (yi – My) xi 6,6 0,2 -11,4 6,2 -11 1,8 + 0,2 - 1,5 0,8 12 12,8 -12 4 -12 + 3,2 - 0,2 - 0,7 0 44,8 0,8 1,4 66,6 86,8 -11,2 -4,6 66,6 96 -2,4 -9,8 66,6 (xi – Mx) (yi – My) (xi-Mx) Superm ercato xi yi A B 10 18 1,9 3,1 -6 +2 - 1,1 + 0,1 C D 20 8 3,2 1,5 +4 -8 30 6,2 12 2,8 14 2,3 112 21 + 14 -4 -2 0 E F G Tot. M(X) = 16 M(Y) = 3,0 (yi-My) COV(X,Y)=66,6/7=9,514 Osservazione: può essere ottenuta anche in funzione dei dati originari (p.154) Superm ercato A B C D E F G Tot. xi 10 18 20 8 30 12 14 112 yi 1,9 3,1 3,2 1,5 6,2 2,8 2,3 21 xiyi 19 55,8 64 12 186 33,6 32,2 402,6 M(X) = 16 M(Y) = 3,0 COV(X,Y) = 402,6/7-16*3=9,514 Proprietà della covarianza • E’ ESPRESSA NEL PRODOTTO DELLE UNITA’ DI MISURA DI X E DI Y • COV(X,X)=VAR(X) • E’ scale equivariant Proprietà della covarianza Proprietà della covarianza • max | COV (X, Y) | = = [VAR(X) VAR(Y)]1/2= = σ(X) σ(Y) Dimostrazione • var(tX-Y)>0 • t2 var(X) -2t cov(X,Y) + var(Y) >0 • h(t) è una funzione quadratica in t. Se h(t)>0 le radici non sono reali • Δ<0 implica che • 4 [cov(X,Y)]2 -4 var(X) var(Y) <0 • [cov(X,Y)]2 < var(X) var(Y) • |cov(X,Y)| < σ(X) σ(Y) Come ovviare ai difetti della COV? • La covarianza ha il difetto di risentire dell'unità di misura e dell'ordine di grandezza dei due fenomeni originari essendo espressa in termini del prodotto delle unità di misura di X e Y • I valori che essa può assumere non sono compresi in un intervallo di interpretazione immediata, RICHIAMO SCOSTAMENTI STANDARDIZZATI (p. 125) zi • • • • xi M Proprietà: Mz = 0 z = 1 puri numeri confronto tra fenomeni diversi COEFFICIENTE DI CORRELAZIONE rxy ( xi M x ) ( yi M y ) 1 rxy n i 1 x y n • (media dei prodotti degli scostamenti standardizzati è un numero puro) SCOSTAMENTI STANDARDIZZATI Superm ercato xi yi A 10 1,9 B 18 3,1 C 20 3,2 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Tot. 112 21,0 (xi – Mx)/σx (yi – My)/σy -0,87 0,29 0,58 -1,15 2,02 -0,58 -0,29 0 -0,77 0,07 0,14 -1,05 2,24 -0,14 -0,49 0 (xi – Mx) (yi – My)/(σx σy) 0,67 0,02 0,08 1,21 4,53 0,08 0,14 6,73 ( xi M x ) ( yi M y ) 1 rxy n i 1 x y n Superm ercato xi yi A 10 1,9 B 18 3,1 C 20 3,2 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Tot. 112 21,0 (xi – Mx) (yi – My)/σx σy 0,67 0,02 0,08 1,21 4,53 0,08 0,14 6,73 • rxy=6,73/7 =0,961 Formule di calcolo alternative (p. 157) 1 n ( xi M x ) ( yi M y ) rxy n i 1 x y COV ( X , Y ) rxy ( X ) (Y ) COV ( X , Y ) rxy VAR( X ) VAR(Y ) Formule di calcolo alternative: COV ( X , Y ) rxy VAR( X ) VAR(Y ) 1 n ( xi M x )( yi M y ) n i 1 1/ 2 1 2 2 ( xi M x ) ( yi M y ) n i 1 i 1 n n Interpretazione di r • rxy = -1 perfetta relazione lineare inversa tra X ed Y (cioè quando yi = a + bxi, con b < 0 e a numero qualsiasi) • rxy = 0 X ed Y sono incorrelate (non vi è tra loro un legame lineare; non si esclude però l’eventuale esistenza d’una relazione non lineare, ad esempio parabolica o sinusoidale) rxy = +1 perfetta relazione lineare diretta tra X ed Y (cioè quando yi = a + bxi, con b > 0 e a numero qualsiasi) Punti in situazioni estreme e rxy Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare |rxy |= 1 se e solo c’è perfetta relazione lineare tra X ed Y • Se Y = a+|b| X COV ( X , Y ) rxy ( X ) (Y ) rx ,a bx COV ( X , a | b | X ) ( X ) (a | b | X ) rx ,a bx rx ,a bx | b | COV ( X , X ) | b | ( X ) ( X ) | b | VAR( X ) 1 | b | VAR( X ) Esempio: 7 supermercati Supermercat o (xi – Mx) A B C -6 +2 +4 (yi – My) - 1,1 + 0,1 + 0,2 (xi-Mx)* (yi-My) 6,6 0,2 0,8 (xi-Mx)2 (yi-My)2 COV(X,Y) = 36 4 16 ) 9,12 514 D - 8 cov( X-, Y1,5 64 rxy 0,961 ,895 var( X )+var( E + 14 3,2Y ) 944,8 196 F -4 - 0,2 0,8 16 G -2 - 0,7 1,4 4 Tot. 0 0 66,6 336 1,21 0,01 0,04 66,6/7=9,514 VAR(X) = 336/7 = 48 VAR(Y) = 2,25 14,28/7 10,24 =2,04 0,04 0,49 14,28 max COV(X, Y) 48 2,040 9,895 Esempio: 7 supermercati (continua) Supermercato (xi-Mx)(yi-My) A B C D 6,6 0,2 0,8 12 E F G Tot. (xi-Mx)2 36 4 16 64 (yi-My)2 1,21 0,01 0,04 2,25 44,8 10,24 66,6 9196 ,514 rxy 16 0,961 0,8 0,04 9 , 895 336 14,28 1,4 4 0,49 66,6 336 COV(X,Y) = 66,6/7=9,514 VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7=2,04 14,28 max COV(X, Y) 48 2,040 9,895 Caratteristiche di r • Dato che rxy = ryx, il coefficiente di correlazione è una misura simmetrica in X ed Y interdipendenza tra le due variabili. • In esso non si assume una variabile come antecedente e l’altra come conseguente, ma si valuta semplicemente il legame vicendevole tra X ed Y. Proprietà di rxy (p. 160) • è invariante in senso forte (cioè presenta lo stesso valore numerico) per trasformazioni lineari crescenti di una o di entrambe le variabili Proprietà di rxy • Proprietà di invarianza per trasformazioni lineari: il coefficiente di correlazione lineare rimane invariato effettuando una trasformazione lineare crescente di una o di entrambe le variabili. • se si cambia l’origine del sistema di misurazione e/o l’unità di misura in cui sono espresse le variabili, il valore del coefficiente di correlazione non varia. Applicazione della precedente proprietà • Si ottiene il medesimo valore di rxy anche effettuando il calcolo sui n.i. a base fissa Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare, in presenza di dati contaminati indicati con il simbolo * (p. 162) Es: 6 famiglie, ammontare della spesa annua (in euro) per l’acquisto di due generi di largo consumo: latte fresco e biscotti. Famiglia Spesa annua per l’acquisto di latte fresco (€) Spesa annua per l’acquisto di biscotti (€) A 105 65 B 190 130 C 80 160 D 120 90 E 240 220 F 60 50 M(x)= 132.5 M(y)= 119.2 • (i) rxy? (ii) commento (iii) diagramma di dispersione (iv) concordanza tra rxy e diagramma di dispersione (v) Perché rxy invece della retta di regressione? CORRELAZIONE FRA DUE S.S. • Esempio: X = numero di extracomunitari iscritti al collocamento, Y = numero di discount • Calcolare e commentare rXY tra le variabili originarie, i NI a base fissa, le variazioni percentuali a base fissa, i NI a base mobile, le variazioni percentuali a base mobile Anni X Y 1993 1994 72.644 85.993 600 1.300 1995 1996 1997 96.287 136.942 140.100 1.930 2.328 2.523