Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a. 2014-2015 1 Distribuzione doppia di frequenza Genere respons 6 M 6 M 10 F 10 F 7 M 3 M 3 M 6 F 4 F Genere responsabile Addetti Addet ti M F 3 2 0 4 0 1 6 2 1 7 1 0 10 0 2 Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2 Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0 2 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot 1 è la frequenza congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile 3 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot Distribuzione marginale del genere del responsabile (distribuzione di frequenza semplice del carattere “genere del responsabile”) Qual è la proporzione di punti vendita il cui responsabile è una femmina? 4 p 0,44 (44%) 9 4 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot Distribuzione marginale degli addetti (distribuzione di frequenza semplice del carattere “numero di addetti”) 5 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot Distribuzione parziale del numero di addetti, condizionata alla modalità “maschio” del carattere “genere del responsabile” Distribuzione del numero di addetti dato che il genere del responsabile è “maschio” Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo? 6 Distribuzione doppia di frequenza Genere responsabile Tot F 3 2 0 2 4 0 1 1 6 2 1 3 7 1 0 1 10 0 2 2 5 4 9 Addetti M Tot Distribuzione parziale del genere del responsabile, condizionata alla modalità “6” del carattere “numero di addetti” Distribuzione del genere del responsabile dato che il numero di addetti è pari a6 Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina? 7 Distribuzione doppia di frequenza Ubicazione Vendita on line centro si periferia si Semicentro no periferia no centro no centro no Ubicazione Vendita on line periferia no Tot Semicentro no centro si Tot si no Centro 2 2 4 Semic entro 0 2 2 Perif. 1 2 3 3 6 9 8 Distribuzione doppia di frequenza Ubicazione Vendita on line Tot Tot si no Centro 2 2 4 Semic entro 0 2 2 Perif. 1 2 3 3 6 9 Qual è la proporzione di p.v. ubicati in centro? Nel sottoinsieme dei p.v. che effettuano anche la vendita on line, qual è la proporzione di p.v. ubicati in centro? Qual è la proporzione di p.v. che vendono anche on line? Nel sottoinsieme di p.v. ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line? 9 Distribuzione doppia di frequenza Y y1 X1 … yj Tot … yK n11 n1j n1k n1. ni1 nij nik ni. nH1 nHj nHK nH. n.1 n.j n.K n … X Xi … xH Tot 2 distribuzioni marginali H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y 10 Relazioni tra variabili: indipendenza Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essi Se tra X e Y non c’è alcun legame X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro 11 Associazione In presenza di un qualche legame (associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di: • distinguere la tipologia di caratteri che si esaminano • specificare se si è interessati a studiare la dipendenza o l’interdipendenza 12 Dipendenza e interdipendenza Dipendenza: studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale Interdipendenza: Si assume che i due caratteri abbiano lo stesso ruolo e che il legame sia bidirezionale 13 Caratteri qualitativi sconnessi Tabella doppia di frequenza Frequenze osservate nij Frequenze teoriche (quelle che si osserverebbero in caso di indipendenza ni. n.j statistica) ' nij n La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra ciascuna frequenza osservata e la corrispondente frequenza teorica cij nij nij' 14 Freq. osservate e freq. teoriche Y y1 X1 … yj Tot … Freq. osservate yK n11 n1j n1k n1. ni1 nij nik ni. … X Xi … xH Tot nH1 nHj nHK nH. n.1 n.j n.K n Freq. che si utilizzano per ricavare le freq. teoriche ni. n. j n n ' ij 15 Frequenze osservate Ubicazione Vendita on line Tot Tot si no Centro 2 2 4 Semice ntro 0 2 2 Perif. 1 2 3 3 6 9 16 Frequenze teoriche Ubicazione Vendita on line Tot Tot si no Centro 43 9 46 9 4 Semice ntro 23 9 33 9 26 9 36 9 2 3 6 9 Perif. Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte? 3 17 Frequenze osservate e teoriche Tot Tot Teoriche si no Centro 2 2 4 Semice ntro 0 2 2 Perif. 1 2 3 Ubicazione Ubicazione Osservate Vendita on line 3 6 9 Tot Vendita on line Tot si no Centro 1,33 2,67 4 Semice ntro 0,67 1,33 2 Perif. 1 2 3 3 6 9 Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri Qual è il grado di associazione tra i due caratteri? 18 Interdipendenza: Indice Chi-quadrato Studia l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una tabella doppia c 2 i1 j1 n H 2 0 2 0 K 2 ij ' ij cij nij n ' ij indipendenza statistica interdipendenza 19 Interdipendenza: Indice V di Cramer Indice relativo per misurare l’associazione (interdipendenza) tra due caratteri qualitativi V V=0 V=1 2 / n minH 1, K 1 0 V 1 indipendenza statistica associazione perfetta Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y 20 Calcolo di χ2 e V 2 2 2 2 1,33 2 2,67 1,33 0 0,67 2 0,67 1 1 2 1 2,67 2 1,33 2 1,33 2 0,33 0,17 0,33 0,67 1,5 2 2 2 2 H=3, K=2 quindi il minimo tra H-1 e K-1 è uguale a 1 V 1,50 0,41 9 21 Per caratteri che non sono qualitativi sconnessi Se X e/o Y sono qualitativi ordinati o quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibile Tuttavia ci sono indici più opportuni da utilizzare 22 Un carattere quantitativo e uno qualsiasi Se Y è un carattere quantitativo e X è qualitativo o quantitativo discreto o quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione. 23 Caratteri quantitativi Se X e Y sono quantitativi si può costruire un indice che misuri l’intensità del legame lineare tra le variabili (covarianza, coefficiente di correlazione). 24 Rappresentazione grafica Grafico di dispersione 400 300 Costi Due variabili quantitative Ricavi sull’asse X Costi sull’asse Y Ogni punto rappresenta una unità (un punto vendita) Le coordinate (x,y) del punto rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita 200 100 0 0 100 200 300 400 500 600 700 Ricavi n=9 coppie di valori del tipo (xi,yi) 25 Grafico di dispersione 400 300 Costi Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due variabili In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi C’è una relazione lineare positiva (concordanza) tra costi e ricavi 200 100 0 0 100 200 300 400 500 600 700 Ricavi 26 Interdipendenza tra due caratteri quantitativi Covarianza: Indice simmetrico di associazione tra due variabili quantitative Cov(X, Y) XY 1 n xi x yi y n i1 Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y oppure alti valori di X corrispondenti a alti valori di Y). Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra variabile) Cov = 0 in assenza di relazione lineare tra X e Y 27 Covarianza nulla Cov(X,Y)=0 28 Covarianza positiva (concordanza) Cov(X,Y)>0 29 Covarianza negativa (discordanza) Cov(X,Y)<0 30 Legame non lineare La relazione tra X e Y non è di tipo lineare Ci aspettiamo un valore di Cov(X,Y) prossimo allo 0, il che indica assenza di legame lineare X e Y NON sono indipendenti, ma legati da una forte relazione di tipo non lineare 31 Correlazione lineare Indice relativo di concordanza/discordanza n Corr(X, Y) XY XY X Y x i1 i x yi y n 2 x x y y i i i1 XY 1 n 1 XY 1 2 i1 perfetta discordanza 1 XY 0 discordanza XY 0 assenza di legame lineare 0 XY 1 concordanza XY 1 concordanza perfetta 32 Concordanza e discordanza perfetta ρ=1 Perfetta concordanza ρ=-1 Perfetta discordanza 33 Calcolo della covarianza Media Scarti X Scarti Y (Scarti X) x (Scarti Y) Ricavi (X) Costi (Y) 350 205 25 16,11 402,8 200 100 -125 -88,99 11111,1 600 350 275 161,11 44305,6 500 270 175 81,11 14194,4 270 200 -55 11,11 -611,1 180 120 -145 -68,89 9988,9 205 105 -120 -83,89 10066,7 340 210 15 21,11 316,7 280 140 -45 -48,89 2200,0 325 188,89 1 n xi x yi y Cov(X, Y) 91975 10219 ,44 n i1 9 34 Calcolo del coefficiente di correlazione Ricavi (X) Media Costi (Y) 350 205 200 100 600 350 500 270 270 200 180 120 205 105 340 210 280 140 325 188,89 Dev std 134,66 Cov(X, Y) 10219,44 XY 10219 ,44 0,97 X Y 134,66 78,48 C’è una forte concordanza tra ricavi e costi 78,48 35 Ancora sulla covarianza Codevianza(X, Y) n n xi x yi y xiyi nx y i1 i1 Codev(X, Y ) 1 n Cov(X, Y ) xiy y x y n n i1 36 Relazioni tra variabili: riepilogo Tipo di relazione Caratteri Struttura dati Indici Interdipendenza qualsiasi (se qualitativi tra X e Y Tabella doppia di frequenze χ2 Dipendenza in media di Y da X Valori η2 (relativo) raggruppati in base alle modalità di X sconnessi è l’unico tipo di relazione da studiare) Y quantitativo X qualsiasi (se quantitativo continuo, in classi) Interdipendenza quantitativi tra X e Y (concordanza/di scordanza) Coppie di valori V (relativo) Cov ρ (relativo) 37 Relazioni tra variabili: applicazioni Si vuole investire nel mercato azionario italiano e in quello di un altro Paese con l’obiettivo di diversificare il portafoglio. Sulla base delle serie mensili delle variazioni del Morgan Stanley Capital Index (MSCI) riferito a Italia, Germania, Francia e Singapore si hanno i seguenti risultati: ρ Italia-Francia 0.87 Italia-Germania 0.88 Italia-Singapore 0.63 Il suggerimento è di investire in titoli azionari italiani e di Singapore. Perché? 38 Relazioni tra variabili: applicazioni Dalla teoria economica sappiamo che esiste una relazione tra la variabile produzione (misurata tramite il valore aggiunto) e gli input fattore capitale e fattore lavoro. Dalle serie storiche (1970-1983) delle tre variabili si ottengono i grafici di dispersione del valore aggiunto e, rispettivamente, l’input di capitale e l’input di lavoro 39 Relazioni tra variabili: applicazioni Il valore aggiunto ha una correlazione maggiore con l’input di capitale (grafico a sinistra) che con l’input di lavoro (grafico a destra) 40