Statistica Descrittiva: Analisi esplorativa bi- e multivariata Il ruolo delle variabili indagate Un momento chiave nella analisi dei dati è la formulazione di una IPOTESI ESPLICATIVA un modello concettuale dei possibili legami tra le entità o i fenomeni misurati Questo richiede la definizione di: Una (o più) variabili di risultato Effetto (outcome), variabili dipendenti Le possibili variabili “causali” Esposizioni, variabili indipendenti (esplicative) Le possibili variabili “di confondimento” 1 Un esempio: tipo di intervento in cardiochirugia infantile e danno cerebrale . describe Esposizione Contains data from circarrest2.dta obs: 171 vars: 8 17 May 2002 15:35 size: 6,156 (99.2% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------vsd float %9.0g Ventricular Septal Defect (1=yes; 0=no) dhca float %9.0g Deep Hypothermic Circulatory Arrest (1=yes; 0=low-flow bypass) minutes float %9.0g Duration of circulatory arrest (minutes) birthwt float %9.0g Birth weight (grams) age float %9.0g Age at surgery (days) clinseiz float %9.0g Clinical Seizures within 7 postoperative days eegseiz float %9.0g EEG seizure activity within 48 postoperative hours pdi float %9.0g Psychomotor Development Index at age 1 ------------------------------------------------------------------------------- A priori A posteriori Un esempio: tipo di intervento in cardiochirugia infantile e danno cerebrale . describe Effetto Contains data from circarrest2.dta obs: 171 vars: 8 17 May 2002 15:35 size: 6,156 (99.2% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------vsd float %9.0g Ventricular Septal Defect (1=yes; 0=no) dhca float %9.0g Deep Hypothermic Circulatory Arrest (1=yes; 0=low-flow bypass) minutes float %9.0g Duration of circulatory arrest (minutes) birthwt float %9.0g Birth weight (grams) age float %9.0g Age at surgery (days) clinseiz float %9.0g Clinical Seizures within 7 postoperative days eegseiz float %9.0g EEG seizure activity within 48 postoperative hours pdi float %9.0g Psychomotor Development Index at age 1 ------------------------------------------------------------------------------- Precoce Tardivo 2 Tabelle: Doppia entrata, Variabile Ordinale Partendo da questi dati grezzi: Id Sesso Età Classe di esposizione Modalità del carattere 1 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore 0005 M 27 medio fumatore Carattere 1 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore 0013 M 36 non fumatore STATA: M belga F Tot. 2 4 6 lieve 3 0 3 medio 1 0 1 italiana forte 1 2 3 italiana Tot. 7 6 13 eegseiz vsd dhca Esposizione non Conta dei soggetti nel campione che presentano la combinazione di entrambe le modalità Tabelle a n entrate -----------------------------------| Deep Hypothermic EEG | Circulatory Arrest seizure | (1=yes; 2=low-flow activity | bypass) and Ventricular within 48 | Septal Defect (1=yes; postopera | 0=no) tive | ---- 0 ------ 1 --hours | 0 1 0 1 ----------+------------------------0 | 43 11 49 6 1 | 6 2 9 10 -----------------------------------. table Sesso italiana tab classe sesso . table Modalità del carattere 2 Carattere 2 Nazionalità eegseiz vsd dhca, row col scol ----------------------------------------------------------------------------EEG | seizure | activity | within 48 |Deep Hypothermic Circulatory Arrest (1=yes; 2=low-flow bypass) and postopera | Ventricular Septal Defect (1=yes; 0=no) tive | -------- 0 --------------- 1 ------------- Total -----hours | 0 1 Total 0 1 Total 0 1 Total ----------+-----------------------------------------------------------------0 | 43 11 54 49 6 55 92 17 109 1 | 6 2 8 9 10 19 15 12 27 | Total | 49 13 62 58 16 74 107 29 136 ----------------------------------------------------------------------------- . table vsd dhca, c(mean minutes sd minutes count minutes) row col f(%4.1f) ------------------------------Ventricul | Deep Hypothermic ar Septal | Circulatory Arrest Defect | (1=yes; 2=low-flow (1=yes; | bypass) 0=no) | 0 1 Total ----------+-------------------0 | 13.9 52.0 33.4 | 11.4 12.6 22.5 | 63 66 129 | 1 | 33.0 54.8 43.9 | 16.4 8.2 16.9 | 21 21 42 | Total | 18.7 52.6 36.0 | 15.2 11.7 21.7 | 84 87 171 ------------------------------- 3 Altri comandi che fanno tabelle table tabelle tabdisp di indici riassuntivi, alto livello di complessità riepilogo tabsum tabelle tabellare di dati di indici riassuntivi cs tabelle e test per dati raccolti nel corso di studi epidemiologici di coorte cc tabelle e test per dati raccolti nel corso di studi epidemiologici caso-controllo Barre affiancate 0 20 40 60 EEG seizure activity within 48 h since surgery Number of children Low Flow By-Pass EEG seizures Deep Hypothermic Circulatory Arrest No EEG seizures graph bar (sum) eegseiz noeegseiz, over(dhca, relabel(1 "Low Flow ByPass" 2 "Deep Hypothermic Circulatory Arrest")) bar(2, bfcolor (ltblue) blcolor(ltblue)) ytitle(Number of children) title(EEG seizure activity within 48 h since surgery) legend(order(1 "EEG seizures" 2 "No EEG seizures")) 4 Barre sovrapposte 40 0 20 Number of children 60 80 EEG seizure activity within 48 h since surgery Low Flow By-Pass Deep Hypothermic Circulatory Arrest EEG seizures No EEG seizures graph bar (sum) eegseiz noeegseiz, over(dhca, relabel(1 "Low Flow ByPass" 2 "Deep Hypothermic Circulatory Arrest")) bar(2, bfcolor (ltblue) blcolor(ltblue)) ytitle(Number of children) title(EEG seizure activity within 48 h since surgery) legend(order(1 "EEG seizures" 2 "No EEG seizures")) stack Torte affiancate Low Flow By-pass Deep Hypothermic Circulatory Arrest EEG seizure activity within 48 postoperative hours noeegseiz Graphs by Deep Hypothermic Circulatory Arrest (1=yes; 2=low-flow bypass) graph pie eegseiz noeegseiz, angle(90) by(dhca) pie( 2, color (ltblue)) 5 DIAGRAMMI DI DISPERSIONE Sono utili per illustrare la relazione tra due diversi caratteri che assumono modalità numeriche Ogni punto del grafico rappresenta una unità statistica 100,000 150,000 50,000 20 25 ,0 00 , ,0 00 , 00 0 00 0 0 00 ,00 15 ,0 00 00 ,0 10 ,0 00 0, 00 0 5, 0 0 la scala per un carattere è riportata nell asse x e la scala per l altro nell asse y Se i due caratteri non sono correlati, i punti si distribuiscono casualmente su tutto il piano cartesiano msize(medium))! Population 1980 U.S. census data STATA: !twoway (scatter marriage pop, , xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))! DIAGRAMMI DI DISPERSIONE 200,000 A DUE DIMENSIONI California 150,000 Tex as New York 100,000 Nevada Florida Il linois Ohio Pennsylvania Michigan 25 ,0 00 ,0 00 00 0 20 ,0 00 , 15 ,0 00 ,00 0 00 0 00 0, 10 , 5, 0 0 00 ,00 0 50,000 Georgia Virginia Tennessee Indiana New Jersey Missouri S. Carolina Alabama Washington Oklahoma Maryland Massachusetts N. Carolina Louisiana Wisconsin Minnesota Colorado Kentucky Arizona Mississippi Iowa Arkansas Connecticut Kansas Oregon W.Mex Virginia New Utah ico Idaho Nebraska Hawaii Maine New S. Montana DakHampshire ota Rhode Island Wyoming N. Dakota Alaska Vermont Delaware 0 Number of marriages Number of marriages 200,000 A DUE DIMENSIONI Population 1980 U.S. census data STATA: !twoway (scatter marriage pop, msize(small) mlabel(state) mlabsize(small) mlabcolor(red)), xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))! 6 DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI 200000 Trend Number of marriages 150000 Outliers 100000 Clustering 50,000 0 0 STATA: !gr7 5.0e+06 1.0e+07 Population 1.5e+07 2.0e+07 2.5e+07 marriage pop, oneway twoway xlab(0 (0.5e+07) 2.5e+07) ylab(0 (50000) 200000)! DIAGRAMMI DI DISPERSIONE 50,000100,000150,000200,000 N C ntrl South West 50,000100,000150,000200,000 0 NE 0 Number of marriages A DUE DIMENSIONI 0 10,000,000 20,000, 000 30,000,0000 10,000,000 20,000,000 30,000,000 Population Graphs by Census region STATA: !twoway (scatter marriage pop), by( region) 7 Ginec.Ostet.2 1996 3 1997 Rianimaz. 2 Neonatol. Neurochir. Ch.Urgenza Pneumologia Nefr ologia Urologia Ortopedia 3 Nido Ginec.Ostet.2 Ch.G enerale1 Em atologi a Cardiochirurgia Ginec.Ostet.1 Ch.G enerale2 Endocrino Cardio Medica Neurologia UTIC Mal .Infett. Geriatria Psic hiatr ia Oncologia Med. Pediatria Nido ORL Med.Generale Cardio Em odinam. Rianimaz. Oculistica ICP ---> Oculistica Cardio Em Urologia Litotrissia Em atologi a Cardiochirurgia Ginec.Ostet.1 Ch.G enerale2 Neurochir. Neonatol. Ch.GCh.Urgenza enerale1 Psic hiatr ia Endocrino Mal .Infett. Ortopedia odinam. Nefr ologia Cardio Medica UTICMed.Generale Pneumologia Geriatria ORL 1 Neurologia Pediatria 1 ICP ---> 2 Litotrissia .5 .5 .33 .33 .33 .5 1 ICM ---> 2 .33 1998 3 2 Rianimaz. Ch.Urgenza Endocrino Ch.G enerale2 Ch.G enerale1 Em atologi a Urologia 3 2 3 Ginec.Ostet.2 Ch.G enerale2 Neurochir. Cardiochirurgia Ch.Urgenza Mal .Infett. Ch.G enerale1 ICP ---> Med.Generale Ginec.Ostet.2 Neurologia Ortopedia Nefr ologia Geriatria UTIC Oculistica Cardio Medica Cardio Em odinam. Oncologia Med. Nido 2 Rianimaz. Ginec.Ostet.1 Mal .Infett. Pneumologia Pediatria ORL 1 1 ICM ---> Neonatol. Neurochir. Neonatol. Urologia .5 1999 3 2 Oculistica Nefr ologia Med.Generale Endocrino Geriatria 1 Pediatria Cardio Em odinam. .5 .5 .33 Cardiochirurgia UTIC Ortopedia Neurologia Em atologi a Ginec.Ostet.1 ORL Psic hiatr ia Cardio Medica Pneumologia Psic hiatr ia Litotrissia NidoOncologia Med. Litotrissia .33 .33 .5 1 ICM ---> ∞ 3 .33 .5 1 ICM ---> 1 SCARSA SCARSA Efficiente Semplicità Complessità: Efficienza: SCARSA ELEVATA ∞ Tranquilla Complessità Quadrante PROBLEMATICO Complessità: Efficienza: 1 Efficienza (ICP) 2 Complessità della casistica (ICM) 0 0 ICP ---> 3 Standard di riferimento Complessità: Efficienza: ELEVATA SCARSA Quadrante VIRTUOSO Complessità: Efficienza: ELEVATA ELEVATA 8 9 DIAGRAMMI LINEARI Ciascun punto sul grafico rappresenta una coppia di modalità A Ciascun valore sull asse x ha un solo valore sull asse y I punti adiacenti sono collegati da linee rette In genere, la scala sull asse x rappresenta il tempo STATA: graph twoway (connect anno eventi), sort è così possibile seguire il comportamento del carattere riportato in y in un determinato periodo Pertosse - RM/E (1991-1997) Pert osse " - ROMA" Pert osse " - Di strett o A" 15 Tasso per 100.000 ab. Tasso per 100.000 ab. 15 10 5 0 10 5 0 Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94De c94 Jun 95 De c95 Jun 96De c96 Jun 97De c97 Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94 De c94 Jun 95De c95 Jun 96De c96 Jun 97De c97 Pert osse " - ASL RME" Pert osse " - Di strett o B" 15 Tasso per 100.000 ab. Tasso per 100.000 ab. 15 10 5 0 10 5 0 Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94De c94 Jun 95 De c95 Jun 96De c96 Jun 97De c97 Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94 De c94 Jun 95De c95 Jun 96De c96 Jun 97De c97 10 Mortalita' grezza Trend lineare (p=0.07) Media mobile a 5 mesi .15 .1 .05 0 1/96 7/96 1/97 7/97 1/98 7/98 Mese 1/99 Mortalita' grezza 7/99 1/00 7/00 1/01 Media mobile a 5 mesi .15 .1 .05 0 2/96 2/97 2/98 Mese 2/99 2/00 2/01 Cardiochirurgia Ospedale San Carlo - Potenza 11 DIAGRAMMI POLARI o A STELLA Sono grafici multivariati Tutte Infettiv e Tumori Leucemie Circ XVII Circ XVIII Circ XIX Circ XX Diabete M. Circolator Ipertensione IMA Cirrosi Traumatismi Infarto Rapporti standardizzati di mortalita' - per causa - 1996 A ciascun braccio della stella corrisponde un diverso carattere numerico Le braccia adiacenti sono collegate da linee rette La forma generale delle stelle vuole evidenziare a prima vista deviazioni dalla regolarità STATA: gr7 c17 c18 c19 c20, star label(causa) da usare per piu variabili o per rappresentare andamenti temporali ciclici Il diverso sviluppo delle braccia per raggruppamenti diversi fa risaltare le caratteristiche distintive Diagrammi Polari: i Coxcombs di Florence Nightingale 12 Starplot multivariato Primario 1 (valori indice=100) N. medio dimessi/die 140 120 % altre provincie (>1 gg) Primario 2 Primario 3 % DRG Chirurgici 100 80 60 40 % da prov. confine (>1gg) % DRG Specialistici 20 0 % da regione, altra prov. (>1gg) ICM (solo ricoveri >1 gg) % da provincia (>1gg) ICP (solo ricoveri >1 gg) Starplot multivariato Primario 1 (valori indice=100) Primario 2 % DRG Chirurgici % altre provincie (>1 gg) % da altre provincie (tutti) 160 140 120 100 Primario 3 % DRG Specialistici ICM (anche ricoveri 0-1 gg) 80 60 % da prov. confine (>1gg) ICM (solo ricoveri >1 gg) 40 20 0 % da prov. confine (tutti) ICP (anche ricoveri 0-1 gg) % da regione, altra prov. (>1gg) ICP (solo ricoveri >1 gg) % da regione, altra prov. (tutti) % da provincia (>1gg) N. medio dimessi/die % da provincia (tutti) 13 MAPPE La distribuzione spaziale di una variabile può essere rappresentata assegnando lo stesso colore alle aree delimitate dai loro confini geografici che presentano la stessa modalità o appartengano alla stessa classe di modalità rispetto ad una tabella, è mantenuto il potere informativo della contiguità utilizzando come delimitatore delle curve isolivello del carattere numerico in uso curve isolivello STATA (add-on!): tmap Mappe con Stata? La nuova grafica di Stata 8 ha consentito lo sviluppo di una r o u t i n e a d a t t a a l l a rappresentazione delle mappe areali. [4.61,6.64] (6.64,9.03] (9.03,10.84] (10.84,13.65] . use milano-areadata.dta . tmap choropleth foreign01, id(id) map ("milano-areamap.dta") La routine tmap , è scritta da Maurizio Pisati, Department of Sociology and Social Research, University of Milano Bicocca – Italy, ed è stata presentata al 1° Stata User Group Meeting a Roma nell ottobre 2004 e pubblicata sullo Stata Journal non fa parte di Stata 8 ma è disponibile gratuitamente attraverso internet (webseek tmap) Il problema è la conversione dei confini delle aree geografiche (poligoni) Ma l applicazione è generale La routine utilizza palette di colori definite da Dr. Cynthia A. Brewer, Department of Geography, The Pennsylvania State University, University Park, Pennsylvania, USA. Nel ColorBrewer map design tool disponibile al sito http://www.ColorBrewer.org. 14 Grafici famosi del passato 1137 d.C., Cina William Playfair, economista, pubblica il Commercial e Political Atlas, che contiene 44 grafici, per lo più grafici lineari (serie temporali), o grafici a barre 1801 d.C. Inghilterra Snow, medico, costruisce la famosa mappa per punti dei morti per colera a Londra William Playfair pubblica il primo grafico a torta Nightingale, infermiera, usa i “coxcombs”, oggi chiamati grafici polari, nella sua campagna di miglioramento delle condizioni sanitarie dell’esercito A.M. Guerry in Essai sur la Statistique morale de la France pubblica un istogramma 1895 d.C. Karl Pearson conia il termine Istogramma 1952 d.C. Mary Eleanor Spear propone la “range bar”, prina versione orizzontale del box plot 1833 d.C., Francia 1857 d.C., Inghilterra Florence 1785 d.C., Inghilterra Edmund Halley, astronomo, misura l’altezza del mercurio in un barometro a diverse altezze s.l.m. e deriva una relazione tra pressione e altezza attraverso un grafico a dispersione 1854 d.C., Inghilterra John 1686 d.C., Inghilterra coordinate cartesiane nella mappa delle strade di Yu il grande 1977 d.C. John Tukey propone il box plot 15