Statistica Descrittiva:
Analisi esplorativa bi- e multivariata
Il ruolo delle variabili indagate
 
Un momento chiave nella analisi dei dati
è la formulazione di una IPOTESI
ESPLICATIVA
  un
modello concettuale dei possibili legami tra le
entità o i fenomeni misurati
 
Questo richiede la definizione di:
  Una
(o più) variabili di risultato
  Effetto (outcome), variabili dipendenti
  Le possibili variabili “causali”
  Esposizioni, variabili indipendenti (esplicative)
  Le possibili variabili “di confondimento”
1
Un esempio: tipo di intervento in
cardiochirugia infantile e danno cerebrale
. describe
Esposizione
Contains data from circarrest2.dta
obs:
171
vars:
8
17 May 2002 15:35
size:
6,156 (99.2% of memory free)
------------------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------vsd
float %9.0g
Ventricular Septal Defect
(1=yes; 0=no)
dhca
float %9.0g
Deep Hypothermic Circulatory
Arrest (1=yes; 0=low-flow
bypass)
minutes
float %9.0g
Duration of circulatory arrest
(minutes)
birthwt
float %9.0g
Birth weight (grams)
age
float %9.0g
Age at surgery (days)
clinseiz
float %9.0g
Clinical Seizures within 7
postoperative days
eegseiz
float %9.0g
EEG seizure activity within 48
postoperative hours
pdi
float %9.0g
Psychomotor Development Index
at age 1
-------------------------------------------------------------------------------
A priori
A posteriori
Un esempio: tipo di intervento in
cardiochirugia infantile e danno cerebrale
. describe
Effetto
Contains data from circarrest2.dta
obs:
171
vars:
8
17 May 2002 15:35
size:
6,156 (99.2% of memory free)
------------------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------vsd
float %9.0g
Ventricular Septal Defect
(1=yes; 0=no)
dhca
float %9.0g
Deep Hypothermic Circulatory
Arrest (1=yes; 0=low-flow
bypass)
minutes
float %9.0g
Duration of circulatory arrest
(minutes)
birthwt
float %9.0g
Birth weight (grams)
age
float %9.0g
Age at surgery (days)
clinseiz
float %9.0g
Clinical Seizures within 7
postoperative days
eegseiz
float %9.0g
EEG seizure activity within 48
postoperative hours
pdi
float %9.0g
Psychomotor Development Index
at age 1
-------------------------------------------------------------------------------
Precoce
Tardivo
2
Tabelle:
 
Doppia entrata, Variabile Ordinale
Partendo da questi dati grezzi:
Id
Sesso Età
Classe di
esposizione
Modalità del
carattere 1
0001
M
35
lieve fumatore
italiana
0002
F
40
non fumatore
francese
0003
M
60
forte fumatore
italiana
0004
M
29
lieve fumatore
0005
M
27
medio fumatore
Carattere 1
0006
F
26
non fumatore
francese
0007
F
35
non fumatore
tedesca
0008
F
32
forte fumatore
belga
0009
M
45
non fumatore
tedesca
0010
M
19
lieve fumatore
tedesca
0011
F
24
non fumatore
francese
0012
F
28
forte fumatore
0013
M
36
non fumatore
STATA:
M
belga
F
Tot.
2
4
6
lieve
3
0
3
medio
1
0
1
italiana
forte
1
2
3
italiana
Tot.
7
6
13
eegseiz vsd dhca
Esposizione
non
Conta dei soggetti nel campione
che presentano la combinazione di
entrambe le modalità
Tabelle a n entrate
-----------------------------------|
Deep Hypothermic
EEG
|
Circulatory Arrest
seizure
|
(1=yes; 2=low-flow
activity | bypass) and Ventricular
within 48 | Septal Defect (1=yes;
postopera |
0=no)
tive
| ---- 0 ------ 1 --hours
|
0
1
0
1
----------+------------------------0 |
43
11
49
6
1 |
6
2
9
10
-----------------------------------. table
Sesso
italiana
tab classe sesso
. table
Modalità del
carattere 2
Carattere 2
Nazionalità
eegseiz vsd dhca, row col scol
----------------------------------------------------------------------------EEG
|
seizure
|
activity |
within 48 |Deep Hypothermic Circulatory Arrest (1=yes; 2=low-flow bypass) and
postopera |
Ventricular Septal Defect (1=yes; 0=no)
tive
| -------- 0 --------------- 1 ------------- Total -----hours
|
0
1 Total
0
1 Total
0
1 Total
----------+-----------------------------------------------------------------0 |
43
11
54
49
6
55
92
17
109
1 |
6
2
8
9
10
19
15
12
27
|
Total |
49
13
62
58
16
74
107
29
136
-----------------------------------------------------------------------------
.
table
vsd dhca, c(mean
minutes sd minutes count
minutes) row col f(%4.1f)
------------------------------Ventricul | Deep Hypothermic
ar Septal | Circulatory Arrest
Defect
| (1=yes; 2=low-flow
(1=yes;
|
bypass)
0=no)
|
0
1 Total
----------+-------------------0 | 13.9
52.0
33.4
| 11.4
12.6
22.5
|
63
66
129
|
1 | 33.0
54.8
43.9
| 16.4
8.2
16.9
|
21
21
42
|
Total | 18.7
52.6
36.0
| 15.2
11.7
21.7
|
84
87
171
-------------------------------
3
Altri comandi che fanno tabelle
 
table
  tabelle
 
tabdisp
di indici riassuntivi, alto livello di complessità
  riepilogo
 
tabsum
  tabelle
 
tabellare di dati
di indici riassuntivi
cs
  tabelle
e test per dati raccolti nel corso di studi
epidemiologici di coorte
cc
  tabelle
e test per dati raccolti nel corso di studi
epidemiologici caso-controllo
Barre affiancate
0
20
40
60
EEG seizure activity within 48 h since surgery
Number of children
 
Low Flow By-Pass
EEG seizures
Deep Hypothermic Circulatory Arrest
No EEG seizures
graph bar (sum) eegseiz noeegseiz, over(dhca, relabel(1 "Low Flow ByPass" 2 "Deep Hypothermic Circulatory Arrest")) bar(2, bfcolor
(ltblue) blcolor(ltblue)) ytitle(Number of children) title(EEG
seizure activity within 48 h since surgery) legend(order(1 "EEG
seizures" 2 "No EEG seizures"))
4
Barre sovrapposte
40
0
20
Number of children
60
80
EEG seizure activity within 48 h since surgery
Low Flow By-Pass
Deep Hypothermic Circulatory Arrest
EEG seizures
No EEG seizures
graph bar (sum) eegseiz noeegseiz, over(dhca, relabel(1 "Low Flow ByPass" 2 "Deep Hypothermic Circulatory Arrest")) bar(2, bfcolor
(ltblue) blcolor(ltblue)) ytitle(Number of children) title(EEG
seizure activity within 48 h since surgery) legend(order(1 "EEG
seizures" 2 "No EEG seizures")) stack
Torte affiancate
Low Flow By-pass
Deep Hypothermic Circulatory Arrest
EEG seizure activity within 48 postoperative hours
noeegseiz
Graphs by Deep Hypothermic Circulatory Arrest (1=yes; 2=low-flow bypass)
graph pie eegseiz noeegseiz, angle(90) by(dhca) pie( 2, color
(ltblue))
5
DIAGRAMMI DI DISPERSIONE
Sono utili per
illustrare la relazione
tra due diversi
caratteri che
assumono modalità
numeriche
Ogni punto del grafico
rappresenta una unità
statistica
100,000
150,000
 
50,000
 
20
25
,0
00
,
,0
00
,
00
0
00
0
0
00
,00
15
,0
00
00
,0
10
,0
00
0,
00
0
5,
0
0
 
la scala per un
carattere è riportata
nell asse x e la scala
per l altro nell asse
y
Se i due caratteri non
sono correlati, i punti
si distribuiscono
casualmente su tutto il
piano cartesiano
msize(medium))!
Population
 
1980 U.S. census data
STATA: !twoway (scatter marriage pop,
, xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))!
DIAGRAMMI DI DISPERSIONE
200,000
A DUE DIMENSIONI
California
150,000
Tex as
New York
100,000
Nevada
Florida Il linois
Ohio
Pennsylvania
Michigan
25
,0
00
,0
00
00
0
20
,0
00
,
15
,0
00
,00
0
00
0
00
0,
10
,
5,
0
0
00
,00
0
50,000
Georgia
Virginia
Tennessee
Indiana New Jersey
Missouri
S. Carolina
Alabama
Washington
Oklahoma
Maryland
Massachusetts
N. Carolina
Louisiana
Wisconsin
Minnesota
Colorado
Kentucky
Arizona
Mississippi
Iowa
Arkansas
Connecticut
Kansas
Oregon
W.Mex
Virginia
New
Utah
ico
Idaho
Nebraska
Hawaii
Maine
New
S.
Montana
DakHampshire
ota
Rhode
Island
Wyoming
N.
Dakota
Alaska
Vermont
Delaware
0
Number of marriages
Number of marriages
200,000
A DUE DIMENSIONI
Population
1980 U.S. census data
STATA:
!twoway (scatter marriage pop, msize(small) mlabel(state) mlabsize(small)
mlabcolor(red)), xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))!
6
DIAGRAMMI DI DISPERSIONE
A DUE DIMENSIONI
200000
Trend
Number of marriages
150000
Outliers
100000
Clustering
50,000
0
0
STATA:
!gr7
5.0e+06
1.0e+07
Population
1.5e+07
2.0e+07
2.5e+07
marriage pop, oneway twoway xlab(0 (0.5e+07) 2.5e+07) ylab(0 (50000) 200000)!
DIAGRAMMI DI DISPERSIONE
50,000100,000150,000200,000
N C ntrl
South
West
50,000100,000150,000200,000
0
NE
0
Number of marriages
A DUE DIMENSIONI
0
10,000,000
20,000, 000
30,000,0000
10,000,000
20,000,000
30,000,000
Population
Graphs by Census region
STATA:
!twoway (scatter marriage pop), by( region)
7
Ginec.Ostet.2
1996
3
1997
Rianimaz.
2
Neonatol.
Neurochir.
Ch.Urgenza
Pneumologia
Nefr ologia
Urologia
Ortopedia
3
Nido
Ginec.Ostet.2
Ch.G enerale1
Em atologi a Cardiochirurgia
Ginec.Ostet.1
Ch.G
enerale2
Endocrino
Cardio Medica Neurologia
UTIC
Mal .Infett.
Geriatria
Psic hiatr ia
Oncologia Med.
Pediatria Nido
ORL
Med.Generale
Cardio Em odinam.
Rianimaz.
Oculistica
ICP --->
Oculistica
Cardio Em
Urologia
Litotrissia
Em atologi a Cardiochirurgia
Ginec.Ostet.1
Ch.G enerale2 Neurochir.
Neonatol.
Ch.GCh.Urgenza
enerale1
Psic hiatr ia
Endocrino
Mal
.Infett.
Ortopedia
odinam.
Nefr ologia
Cardio Medica
UTICMed.Generale
Pneumologia
Geriatria
ORL
1
Neurologia
Pediatria
1
ICP --->
2
Litotrissia
.5
.5
.33
.33
.33
.5
1
ICM --->
2
.33
1998
3
2
Rianimaz.
Ch.Urgenza
Endocrino
Ch.G
enerale2
Ch.G
enerale1
Em atologi
a
Urologia
3
2
3
Ginec.Ostet.2
Ch.G
enerale2
Neurochir.
Cardiochirurgia
Ch.Urgenza
Mal .Infett.
Ch.G enerale1
ICP --->
Med.Generale
Ginec.Ostet.2
Neurologia
Ortopedia
Nefr ologia
Geriatria
UTIC
Oculistica
Cardio Medica
Cardio Em odinam.
Oncologia Med.
Nido
2
Rianimaz.
Ginec.Ostet.1
Mal .Infett.
Pneumologia
Pediatria
ORL
1
1
ICM --->
Neonatol.
Neurochir.
Neonatol.
Urologia
.5
1999
3
2
Oculistica
Nefr ologia
Med.Generale
Endocrino
Geriatria
1
Pediatria
Cardio Em odinam.
.5
.5
.33
Cardiochirurgia
UTIC
Ortopedia
Neurologia
Em atologi a
Ginec.Ostet.1
ORL
Psic hiatr ia
Cardio Medica
Pneumologia
Psic hiatr ia
Litotrissia
NidoOncologia Med.
Litotrissia
.33
.33
.5
1
ICM --->
∞
3
.33
.5
1
ICM --->
1
SCARSA
SCARSA
Efficiente
Semplicità
Complessità:
Efficienza:
SCARSA
ELEVATA
∞
Tranquilla
Complessità
Quadrante
PROBLEMATICO
Complessità:
Efficienza:
1
Efficienza (ICP)
2
Complessità della casistica (ICM)
0
0
ICP --->
3
Standard di
riferimento
Complessità:
Efficienza:
ELEVATA
SCARSA
Quadrante
VIRTUOSO
Complessità:
Efficienza:
ELEVATA
ELEVATA
8
9
DIAGRAMMI LINEARI
 
 
 
 
Ciascun punto sul grafico
rappresenta una coppia
di modalità
A Ciascun valore sull
asse x ha un solo valore
sull asse y
I punti adiacenti sono
collegati da linee rette
In genere, la scala sull
asse x rappresenta il
tempo
 
STATA:
graph twoway (connect anno eventi), sort
è così possibile seguire il
comportamento del
carattere riportato in y in
un determinato periodo
Pertosse - RM/E (1991-1997)
Pert osse " - ROMA"
Pert osse " - Di strett o A"
15
Tasso per 100.000 ab.
Tasso per 100.000 ab.
15
10
5
0
10
5
0
Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94De c94 Jun 95 De c95 Jun 96De c96 Jun 97De c97
Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94 De c94 Jun 95De c95 Jun 96De c96 Jun 97De c97
Pert osse " - ASL RME"
Pert osse " - Di strett o B"
15
Tasso per 100.000 ab.
Tasso per 100.000 ab.
15
10
5
0
10
5
0
Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94De c94 Jun 95 De c95 Jun 96De c96 Jun 97De c97
Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94 De c94 Jun 95De c95 Jun 96De c96 Jun 97De c97
10
Mortalita' grezza
Trend lineare (p=0.07)
Media mobile a 5 mesi
.15
.1
.05
0
1/96
7/96
1/97
7/97
1/98
7/98
Mese
1/99
Mortalita' grezza
7/99
1/00
7/00
1/01
Media mobile a 5 mesi
.15
.1
.05
0
2/96
2/97
2/98
Mese
2/99
2/00
2/01
Cardiochirurgia Ospedale San Carlo - Potenza
11
DIAGRAMMI POLARI o A STELLA
 
Sono grafici multivariati
 
 
Tutte
Infettiv e
Tumori
Leucemie
Circ XVII
Circ XVIII
 
Circ XIX
Circ XX
Diabete
M. Circolator
Ipertensione
IMA
Cirrosi
Traumatismi
Infarto
 
 
Rapporti standardizzati di mortalita' - per causa - 1996
A ciascun braccio della
stella corrisponde un
diverso carattere
numerico
Le braccia adiacenti sono
collegate da linee rette
La forma generale delle
stelle vuole evidenziare a
prima vista deviazioni
dalla regolarità
 
STATA:
gr7 c17 c18 c19 c20, star label(causa)
da usare per piu variabili
o per rappresentare andamenti
temporali ciclici
Il diverso sviluppo delle braccia
per raggruppamenti diversi fa
risaltare le caratteristiche
distintive
Diagrammi
Polari:
i Coxcombs di
Florence
Nightingale
12
Starplot multivariato
Primario 1 (valori indice=100)
N. medio dimessi/die
140
120
% altre provincie (>1 gg)
Primario 2
Primario 3
% DRG Chirurgici
100
80
60
40
% da prov. confine (>1gg)
% DRG Specialistici
20
0
% da regione, altra prov. (>1gg)
ICM (solo ricoveri >1 gg)
% da provincia (>1gg)
ICP (solo ricoveri >1 gg)
Starplot multivariato
Primario 1 (valori indice=100)
Primario 2
% DRG Chirurgici
% altre provincie (>1 gg)
% da altre provincie (tutti)
160
140
120
100
Primario 3
% DRG Specialistici
ICM (anche ricoveri 0-1 gg)
80
60
% da prov. confine (>1gg)
ICM (solo ricoveri >1 gg)
40
20
0
% da prov. confine (tutti)
ICP (anche ricoveri 0-1 gg)
% da regione, altra prov. (>1gg)
ICP (solo ricoveri >1 gg)
% da regione, altra prov. (tutti)
% da provincia (>1gg)
N. medio dimessi/die
% da provincia (tutti)
13
MAPPE
 
La distribuzione spaziale
di una variabile può
essere rappresentata
 
 
assegnando lo stesso colore
alle aree delimitate dai loro
confini geografici che
presentano la stessa modalità
o appartengano alla stessa
classe di modalità
  rispetto ad una tabella, è
mantenuto il potere
informativo della
contiguità
utilizzando come delimitatore
delle curve isolivello del
carattere numerico in uso
  curve isolivello
STATA (add-on!): tmap
Mappe con Stata?
 
La nuova grafica di Stata 8 ha
consentito lo sviluppo di una
r o u t i n e a d a t t a a l l a
rappresentazione delle mappe
areali.
 
[4.61,6.64]
(6.64,9.03]
(9.03,10.84]
(10.84,13.65]
 
. use milano-areadata.dta
. tmap choropleth foreign01, id(id) map
("milano-areamap.dta")
 
La routine tmap , è scritta da Maurizio
Pisati, Department of Sociology and
Social Research, University of Milano
Bicocca – Italy, ed è stata presentata al
1° Stata User Group Meeting a Roma
nell ottobre 2004 e pubblicata sullo
Stata Journal
  non fa parte di Stata 8 ma è
disponibile gratuitamente
attraverso internet (webseek tmap)
Il problema è la conversione dei confini
delle aree geografiche (poligoni)
  Ma l applicazione è generale
La routine utilizza palette di colori
definite da Dr. Cynthia A. Brewer,
Department of Geography, The
Pennsylvania State University, University
Park, Pennsylvania, USA. Nel
ColorBrewer map design tool disponibile
al sito http://www.ColorBrewer.org.
14
Grafici famosi del passato
 
1137 d.C., Cina
 
 
William Playfair, economista, pubblica il
Commercial e Political Atlas, che
contiene 44 grafici, per lo più grafici
lineari (serie temporali), o grafici a barre
1801 d.C. Inghilterra
 
 
Snow, medico, costruisce la
famosa mappa per punti dei morti
per colera a Londra
 
William Playfair pubblica il primo grafico
a torta
Nightingale, infermiera,
usa i “coxcombs”, oggi chiamati
grafici polari, nella sua campagna di
miglioramento delle condizioni
sanitarie dell’esercito
 
A.M. Guerry in Essai sur la Statistique
morale de la France pubblica un
istogramma
1895 d.C.
  Karl
Pearson conia il termine
Istogramma
 
1952 d.C.
  Mary
Eleanor Spear propone la
“range bar”, prina versione
orizzontale del box plot
1833 d.C., Francia
 
1857 d.C., Inghilterra
  Florence
1785 d.C., Inghilterra
 
 
Edmund Halley, astronomo, misura
l’altezza del mercurio in un barometro a
diverse altezze s.l.m. e deriva una
relazione tra pressione e altezza
attraverso un grafico a dispersione
1854 d.C., Inghilterra
  John
1686 d.C., Inghilterra
 
 
 
coordinate cartesiane nella mappa delle
strade di Yu il grande
 
1977 d.C.
  John
Tukey propone il box plot
15
Scarica

file