statistica analisi bidimensionale #2 alessandro polli facoltà di scienze politiche, sociologia, comunicazione 29 aprile 2015 Generalità Obiettivo Nella sezione precedente abbiamo esaminato i principali metodi per l’analisi di fenomeni complessi, la cui osservazione in un collettivo comporta la considerazione congiunta di più caratteri qualitativi, limitandoci all’analisi bidimensionale Estendiamo adesso l’analisi al caso di variabili statistiche doppie c.d. miste, cioè composte da una mutabile statistica definita su scala nominale/ordinale e da una variabile definita su scala quantitativa Ovviamente, nel caso di variabili statistiche doppie miste è possibile, come in precedenza, analizzare la distribuzione congiunta delle frequenze (assolute e relative) allo scopo di accertare l’eventuale presenza di connessione tra le due variabili statistiche componenti la variabile statistica doppia Generalità Obiettivo Del resto, il fatto che una delle due variabili componenti sia definita su uno spazio numerico apre la strada a nuove interessanti possibilità di indagine: infatti, se al mutamento di stato della variabile qualitativa si verifica una variazione nei valori della variabile quantitativa (effetto segnalato dalla «polarizzazione» delle osservazioni in precise regioni dell’insieme ℝ), allora significa che le due variabili statistiche non soltanto sono connesse, ma vi è un «qualcosa in più» che lega tra loro le due variabili: in breve, è lo stesso concetto di connessione che va riformulato La proprietà che caratterizza una coppia di variabili statistiche, di cui una qualitativa ed una quantitativa, componenti una variabile statistica doppia mista è indicata come dipendenza in media Generalità La dipendenza in media Esempio 1. Ipotizziamo di essere interessati ad accertare se il reddito medio delle famiglie italiane è influenzato dalla ripartizione geografica. A tale scopo, rileviamo il reddito medio in un collettivo di 𝑛 = 500 famiglie residenti nelle tre ripartizioni geografiche del territorio nazionale. Il risultato della rilevazione è contenuto nel seguente prospetto: Tabella 1. Prospetto di rilevazione del reddito medio annuo in un collettivo di 500 famiglie. Classi di reddito in migliaia di euro Reddito annuale (000 euro) Ripartizione geografica Totale [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Nord Centro Sud e isole 15 3 32 23 23 44 59 32 49 132 29 19 21 13 6 250 100 150 Totale 50 90 140 180 40 500 Generalità La dipendenza in media Con riferimento alla precedente tabella, potremmo procedere con l’analisi della connessione e calcolare quindi gli indici 𝜙 2 e 𝑉, tuttavia le due variabili non sono equivalenti su un piano logico, in quanto siamo interessati a verificare se al passaggio dall’una all’altra ripartizione geografica, varia il reddito medio annuo familiare, mentre la relazione inversa non ha giustificazione logica o, semplicemente, non è interessante Quindi, in presenza di variabili statistiche doppie miste, lo studio delle relazioni tra le variabili componenti è asimmetrico, in quanto mira ad accertare la risposta della variabile quantitativa ai cambiamenti di stato della variabile qualitativa (variazione del reddito medio al mutare della ripartizione geografica), o la risposta della variabile qualitativa ad una variazione della variabile quantitativa (attenuazione dei sintomi per una determinata patologia a seguito di un aumento nel dosaggio di un farmaco), ma di solito non mira a verificare la relazione inversa Generalità La dipendenza in media Con riferimento ai dati riportati nella Tabella 1, per accertare se al passaggio dall’una all’altra ripartizione il reddito medio varia, possiamo calcolare le medie delle quattro distribuzioni univariate del reddito ─ quelle che caratterizzano le tre ripartizioni geografiche e quella riferita all’intero territorio nazionale Se al passaggio dall’una all’altra ripartizione del territorio nazionale il reddito medio non varia e assume un valore prossimo o al limite uguale a quello medio nazionale, ciò indica assenza di legame tra ripartizione geografica e reddito. Poiché per accertare tale proprietà abbiamo fatto riferimento a medie (più precisamente, medie condizionate, come vedremo tra poco), indicheremo tale situazione come assenza di dipendenza in media, o meglio di indipendenza in media Traduciamo la precedente intuizione nei termini che seguono Generalità La dipendenza in media Calcoliamo il reddito medio nella ripartizione dell’Italia settentrionale, il che equivale a «lavorare» sui dati della prima riga del quadro centrale della Tabella 1 e applicare la metodologia standard per il calcolo di una media aritmetica. Impostiamo il prospetto di calcolo: Tabella 2. Distribuzione del reddito in Italia settentrionale Reddito annuale (000 euro) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Totale 5 15 25 35 45 15 23 59 132 21 0,060 0,092 0,236 0,528 0,084 0,300 1,380 5,900 18,480 3,780 250 1,000 29,840 Generalità La dipendenza in media Procediamo adesso a determinare il reddito medio con riferimento all’Italia centrale (seconda riga del quadro centrale della Tabella 1), seguendo la stessa procedura. Otteniamo: Tabella 3. Distribuzione del reddito in Italia centrale Reddito annuale (000 euro) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Totale 5 15 25 35 45 3 23 32 29 13 0,030 0,230 0,320 0,290 0,130 0,150 3,450 8,000 10,150 5,850 100 1,000 27,600 Generalità La dipendenza in media Analogamente, calcoliamo il reddito medio che caratterizza l’Italia meridionale e insulare (terza riga del quadro centrale della Tabella 1), impostando il seguente prospetto di calcolo: Tabella 4. Distribuzione del reddito in Italia meridionale e insulare Reddito annuale (000 euro) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Totale 5 15 25 35 45 32 44 49 19 6 0,213 0,293 0,327 0,127 0,040 1,067 4,400 8,167 4,433 1,800 150 1,000 19,867 Generalità La dipendenza in media Infine, determiniamo il reddito medio sull’intero territorio nazionale (riga dei totali della Tabella 1), seguendo la stessa impostazione: Tabella 5. Distribuzione del reddito in Italia Reddito annuale (000 euro) [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] Totale 5 15 25 35 45 50 90 140 180 40 0,100 0,180 0,280 0,360 0,080 0,500 2,700 7,000 12,600 3,600 500 1,000 26,400 Poiché la media aritmetica del reddito in questo caso è stata calcolata utilizzando la distribuzione marginale delle frequenze, la indicheremo come media marginale Generalità La dipendenza in media Raccogliamo i risultati precedenti in un prospetto di sintesi e rappresentiamoli graficamente: Media marginale Ripartizione geografica Nord Centro Sud e isole 29,840 27,600 19,867 Italia 26,400 Dall’esame della spezzata di regressione, appare evidente che passando da «nord» a «sud» il reddito medio diminuisce Medie condizionate Spezzata di regressione Generalità La dipendenza in media Con riferimento al grafico precedente, appare chiaro che deve esistere una qualche relazione di dipendenza in media tra «ripartizione geografica» e «reddito» Se viceversa tale situazione non si fosse verificata e ci fossimo trovati in un caso di indipendenza in media, avremmo riscontrato che le medie del reddito nelle tre ripartizioni geografiche sarebbero risultate tutte uguali fra loro e uguali alla media marginale del reddito Notare che nella procedura che abbiamo adottato per il calcolo del reddito medio a livello di ripartizione geografica, le frequenze relative sono state ottenute rapportando le frequenze assolute congiunte ai rispettivi totali riga: in sostanza, abbiamo calcolato le medie utilizzando le frequenze relative condizionate, per cui il reddito medio a livello di ripartizione è a tutti gli effetti una media condizionata Generalità La dipendenza in media Formalizziamo le operazioni di calcolo appena svolte. Consideriamo la generica tabella di contingenza: 𝑿\𝒀 1 … 𝑥1 11 … … 𝑥𝑖 … … 𝑖1 … … ℎ 1 … 1ℎ … … … … … 𝑖 … … … … 𝑖ℎ … 𝑥𝑘 𝑘1 … 𝑘 … 𝑘ℎ 𝑇𝑜𝑡𝑎𝑙𝑒 .1 … . … .ℎ 𝑇𝑜𝑡𝑎𝑙𝑒 1. … 𝑖. … 𝑘. 𝑛 Generalità La dipendenza in media Richiamando le convenzioni adottate nella precedente sezione, nella tabella di contingenza le 𝑘 modalità della variabile 𝑿 sono riportate in fiancata, mentre le ℎ modalità della 𝒀 sono riportate in testata Se restringiamo la nostra attenzione alle singole righe della tabella di contingenza (è il caso considerato nell’esempio), ciò equivale ad introdurre la nozione di variabile statistica condizionata; se consideriamo la 𝑖 −esima modalità del carattere 𝑿 come «evento condizionante» e ci concentriamo sulla distribuzione di 𝒀 in tale partizione, indichiamo con 𝑌 𝑋 = 𝑥𝑖 la variabile 𝒀 condizionata alla modalità 𝑥𝑖 di 𝑿 Generalità La dipendenza in media Indicando con la notazione 𝑌 𝑋= 𝑖 le frequenze relative condizionate associate alla variabile 𝑌 𝑋 = 𝑥𝑖 , queste possono essere calcolate rapportando le frequenze (assolute o relative) congiunte collocate sull’ 𝑖 −esima riga della tabella di contingenza ai rispettivi totali riga. Con riferimento alla 𝑗 −esima modalità della 𝒀, la relativa frequenza condizionata, in simboli, sarà data da 𝑖 = 𝑖 𝑖. Notare che la variabile condizionata 𝑌 𝑋 = 𝑥𝑖 è a tutti gli effetti una variabile statistica univariata, quindi possiamo determinarne l’intero set di parametri di posizione, di variabilità e di forma Generalità La dipendenza in media In generale, la media condizionata è definita dalla relazione ℎ 𝑌 𝑋= 𝑖 = 𝑖 =1 mentre la media marginale (che nell’esempio è rappresentata dal reddito medio sull’intero territorio nazionale) è definita come ℎ 𝑌 = =1 . Generalità La dipendenza in media Se si verificasse un caso di indipendenza in media di 𝒀 da 𝑿, allora al variare di 𝑥𝑖 le medie condizionate 𝑌 𝑋= 𝑖 risulterebbero tutte uguali fra loro e pari al valore della media marginale. In simboli: 𝑌 𝑋= 1 = = …= 𝑌 𝑋= 2 𝑌 𝑋= 𝑘 ≡ 𝑌 Dimostriamo tale equivalenza. Abbiamo già visto che in caso di assenza di connessione le distribuzioni condizionate sono tutte uguali tra loro e uguali alla distribuzione marginale. Nel problema in esame, questo equivale a dire che 𝑖 = . Generalità La dipendenza in media Con riferimento alla generica media condizionata che ℎ 𝑌 𝑋= 𝑖 = =1 𝑌 𝑋= 𝑖 avremo quindi ℎ 𝑖 = =1 . = 𝑌 Da un punto di vista grafico, nel caso di indipendenza in media la spezzata di regressione risulterebbe parallela all’asse delle ascisse e coinciderebbe con la media marginale Viceversa, quanto più vi è dipendenza in media, tanto più le medie condizionate differiranno fra loro e differiranno dalla media marginale. Da un punto di vista grafico, la spezzata di regressione assumerà valori ben distinti, maggiori o minori della media marginale Generalità La dipendenza in media Un’interessante proprietà delle medie condizionate è che la loro media aritmetica è pari alla media marginale. Dimostriamolo con riferimento all’esempio precedente, calcolando la media aritmetica delle medie condizionate tramite il seguente prospetto di calcolo: Tabella 6. Prospetto di calcolo della media aritmetica delle medie condizionate Ripartizione geografica 𝑌 𝑋= Nord Centro Sud e isole 29,840 27,600 19,867 Totale 𝑖 𝑖. 𝑖. 𝑌 𝑋= 𝑖 250 100 150 0,500 0,200 0,300 14,920 5,520 5,960 500 1,000 26,400 𝑖. Generalità La dipendenza in media Formalmente, scriveremo che 𝑘 𝑖=1 𝑌 𝑋= 𝑖 𝑖. = 𝑌 Questo risultato è importante, in quanto in precedenza abbiamo osservato che all’aumentare del legame di dipendenza in media, le medie condizionate tenderanno a differenziarsi sempre più fra loro e rispetto alla media marginale Ma se la media aritmetica delle medie condizionate è la media marginale, ciò equivale a dire che all’aumentare del legame di dipendenza in media, la dispersione delle medie condizionate attorno alla loro media tende ad aumentare, dispersione che è possibile misurare calcolando la varianza delle medie condizionate Generalità La dipendenza in media Con riferimento al nostro esempio, possiamo calcolare la varianza delle medie condizionate organizzando il seguente prospetto di calcolo: Tabella 7. Prospetto di calcolo della varianza delle medie condizionate Ripartizione geografica 𝑌 𝑋= Nord Centro Sud e isole 29,840 27,600 19,867 2 𝑖. 𝑖 Totale 𝑖. 𝑌 𝑋= 𝑖 250 100 150 0,500 0,200 0,300 445,2128 152,3520 118,4053 500 1,000 715,970 𝑖. La varianza delle medie condizionate sarà data da 𝜎𝜇2𝑌 𝑋 𝑘 = 𝑖=1 2 𝑌 𝑋= 𝑖 𝑖. − 2 𝑌 = 715,97 − 26,42 = 19,01 Generalità La dipendenza in media Sviluppiamo ulteriormente il ragionamento, introducendo il concetto di varianza condizionata Calcoliamo le varianze condizionate in quanto, come si è sottolineato in precedenza, essendo la variabile condizionata 𝑌 𝑋 = 𝑥𝑖 a tutti gli effetti una variabile statistica univariata, possiamo determinarne tutti i parametri di posizione, di variabilità e di forma Abbiamo già determinato le medie delle 3 distribuzioni condizionate. Procediamo adesso a calcolarne le varianze, allo scopo di evidenziare le differenze con cui, nelle tre ripartizioni geografiche considerate, i redditi si disperdono attorno alle rispettive medie condizionate Generalità La dipendenza in media Con riferimento alla distribuzione del reddito in Italia settentrionale, impostiamo il prospetto per il calcolo della varianza condizionate: Tabella 8. Varianza della distribuzione del reddito in Italia settentrionale Reddito annuale (000 euro) 2 𝑋 = 𝑥1 [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 5 15 25 35 45 Totale 15 23 59 132 21 0,060 0,092 0,236 0,528 0,084 1,50 20,70 147,50 646,80 170,10 250 1,000 986,60 La varianza della prima distribuzione condizionata sarà data da 𝜎𝑌2 𝑋= 1 ℎ = =1 𝑋 = 𝑥1 . − 2 𝑌 𝑋= 1 = 986,6 − 29,842 = 96,174 Generalità La dipendenza in media Procediamo a determinare la varianza condizionata della distribuzione del reddito in Italia centrale, seguendo la stessa procedura: Tabella 9. Varianza della distribuzione del reddito in Italia centrale Reddito annuale (000 euro) 2 𝑋 = 𝑥2 [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 5 15 25 35 45 Totale 3 23 32 29 13 0,030 0,230 0,320 0,290 0,130 0,75 51,75 200,00 355,25 263,25 100 1,000 871,00 La varianza della seconda distribuzione condizionata sarà data da 𝜎𝑌2 𝑋= 2 ℎ = =1 𝑋 = 𝑥2 . − 2 𝑌 𝑋= 2 = 871,0 − 27,62 = 109,240 Generalità La dipendenza in media Analogamente, calcoliamo la varianza condizionata della distribuzione del reddito in Italia meridionale e insulare: Tabella 10. Varianza della distribuzione del reddito in Italia meridionale e insulare Reddito annuale (000 euro) 2 𝑋=𝑥 [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 5 15 25 35 45 Totale 32 44 49 19 6 0,213 0,293 0,327 0,127 0,040 5,33 66,00 204,17 155,17 81,00 150 1,000 511,67 La varianza della terza distribuzione condizionata sarà data da 𝜎𝑌2 𝑋= 3 ℎ = 𝑋=𝑥 =1 . − 2 𝑌 𝑋= 3 = 511,67 − 19,8672 = 116,982 Generalità La dipendenza in media Poiché le varianze condizionate, nel passaggio dall’una all’altra modalità della 𝑿, hanno valori differenti, sintetizziamone la distribuzione attraverso il calcolo della loro media aritmetica: Tabella 11. Prospetto di calcolo della media aritmetica delle varianze condizionate 𝜎𝑌2 𝑋= Ripartizione geografica Nord Centro Sud e isole 𝑖. 𝑖 96,174 109,240 116,982 Totale 𝑖. 𝜎𝑌2 𝑋= 𝑖 250 100 150 0,500 0,200 0,300 48,087 21,848 35,095 500 1,000 105,030 La media aritmetica delle varianze condizionate è ottenuta come 𝑘 𝜎𝑌2 𝑋 = 𝑖=1 𝜎𝑌2 𝑋= 𝑖 𝑖. = 105,03 𝑖. Generalità La dipendenza in media Infine, per ragioni che saranno immediatamente evidenti, ci interessa anche la varianza della variabile statistica 𝒀, di cui riportiamo il prospetto di calcolo: Tabella 12. Prospetto di calcolo per la varianza del reddito Reddito annuale (000 euro) 2 [0, 10) [10, 20) [20, 30) [30, 40) [40, 50] 5 15 25 35 45 Totale 50 90 140 180 40 0,100 0,180 0,280 0,360 0,080 2,50 40,50 175,00 441,00 162,00 500 1,000 821,00 La varianza di 𝒀 è data dalla seguente relazione: 2 𝜎𝑌2 ℎ = =1 2 . − 2 𝑌 = 821 − 26,42 = 124,04 Generalità Variabilità «between» e variabilità «within» Perché ci siamo complicati la vita calcolando i parametri distributivi delle medie e delle varianze condizionate? Per un motivo molto semplice: abbiamo appena calcolato la varianza marginale della variabile 𝒀, verificando che è pari a 𝜎𝑌2 = 124,04 Tale valore misura la dispersione del reddito a livello nazionale, a prescindere dalla conoscenza di come il reddito si distribuisce nelle ripartizioni geografiche in cui si articola il territorio italiano Generalità Variabilità «between» e variabilità «within» Adesso, sommiamo la varianza delle medie condizionate 𝜎𝜇2𝑌 𝑋 e la media delle varianze condizionate 𝜎2 ottenute in precedenza: 𝑌𝑋 𝜎𝜇2𝑌 𝑋 + 𝜎𝑌2 𝑋 = 19,01 + 105,03 = 124,04 ≡ 𝜎𝑌2 Quindi la varianza della variabile 𝒀, note le sue relazioni con una seconda variabile 𝑿 (che può essere qualitativa o quantitativa), può essere decomposta in due componenti, di cui una misura la variabilità «fra» distribuzioni condizionate (between groups), mentre l’altra misura la variabilità media «entro» le distribuzioni condizionate (within groups) Generalità Variabilità «between» e variabilità «within» Questa informazione è di estremo interesse. Infatti, se osservassimo la distribuzione del reddito nazionale nel complesso, quindi senza considerare le differenze tra ripartizioni territoriali, il calcolo della misura di dispersione ci fornirebbe una informazione «descrittiva» senza ulteriori connotazioni Nota la distribuzione del reddito tra ripartizioni territoriali, viceversa, siamo in grado di risalire alle «cause» della dispersione osservata a livello nazionale: un reddito medio che differisce tra ripartizioni territoriali (misurato dalla dispersione delle medie condizionate attorno al valore medio del reddito rilevato a livello nazionale: varianza between) e una diversa distribuzione del reddito all’interno delle singole ripartizioni territoriali (di cui consideriamo un valore medio: varianza within) Generalità Proprietà della media condizionata Generalizziamo i risultati ottenuti enunciando le due proprietà della media condizionata, che abbiamo già dimostrato con un procedimento induttivo 1. Proprietà della media iterata. Data una variabile statistica doppia 𝑿, 𝒀 , il valore medio delle medie condizionate 𝑌 𝑋 è uguale al valore medio della variabile 𝒀. In simboli: 𝑘 𝑌 = 𝑖=1 𝑌 𝑋= 𝑖 𝑖. 2. Proprietà di decomposizione della varianza. La varianza della variabile 𝑌 è pari alla somma della varianza delle medie condizionate (varianza between) e della media delle varianze condizionate (o varianza within). In simboli: 𝜎𝑌2 = 𝜎𝜇2𝑌 𝑋 + 𝜎𝑌2 𝑋 Generalità La misura di dipendenza in media 𝜼𝟐 La seconda proprietà della media condizionata ci fornisce anche un’indicazione per costruire una misura di dipendenza in media. Infatti, poiché all’aumentare della dipendenza in media aumenta la variabilità «fra» distribuzioni condizionate, una misura di dipendenza in media è data dal rapporto 𝜂𝑌2 𝑋 = 𝜎𝜇2𝑌 𝑋 𝜎𝑌2 in cui al numeratore figura la varianza delle medie condizionate (o varianza between), mentre al denominatore figura la varianza totale della 𝒀. La misura 𝜂𝑌2 𝑋 è indicata come rapporto di correlazione di Pearson Come di consueto, analizziamo i casi limite, cioè gli estremi dell’intervallo di definizione di 𝜂𝑌2 𝑋 Generalità La misura di dipendenza in media 𝜼𝟐 • 𝜂𝑌2 𝑋 = 0 se e solo se è nullo il numeratore del rapporto, cioè se 𝜎𝜇2𝑌 𝑋 = 0, circostanza che si verifica, come sappiamo, in caso di indipendenza in media, cioè di assenza di legame tra 𝑿 e 𝒀 • 𝜂𝑌2 𝑋 = 1 se e solo se 𝜎𝜇2𝑌 𝑋 = 𝜎𝑌2 , cioè quando il numeratore e il denominatore del rapporto sono uguali, circostanza che si verifica se la seconda componente in cui può essere decomposta la varianza è nulla e quindi 𝜎2 = 0. In questo caso 𝑌𝑋 l’unica «causa» di dispersione è la variabilità «fra» distribuzioni condizionate, mentre in media non vi è dispersione «entro» le distribuzioni. Un esempio si ha quando ad ogni modalità della 𝑿 corrisponde un solo valore di 𝒀, per cui le varianza condizionate sono tutte nulle e quindi è nulla anche la loro media • In tutti i casi intermedi si avrà che 0 < 𝜂𝑌2 𝑋 < 1. Si tratta di un’intera gamma di situazioni in cui il legame tra 𝑿 e 𝒀 contribuirà in maniera crescente a spiegare la variabilità del carattere 𝒀 Generalità La misura di dipendenza in media 𝜼𝟐 Con riferimento al precedente esempio, essendo 𝜎𝑌2 = 124,04 e 𝜎𝜇2𝑌 𝑋 = 19,01 la misura di dipendenza in media sarà data da 𝜂𝑌2 𝑋 = 19,01 ≅ 0,153 124,04 Ne deduciamo che il legame di dipendenza in media di 𝒀 da 𝑿 è alquanto debole, in quanto la principale causa di variabilità della 𝒀 deriva dalla distribuzione del reddito all’interno delle singole ripartizioni territoriali ( 𝜎2 = 105,03), mentre 𝑌𝑋 l’influsso esercitato sulla reddito dalla diversa appartenenza territoriale spiega appena il 15,3% della variabilità complessiva