Alcune metodiche
Relazione tra consanguineità ed isonimia (Crow & Mange, 1965)
F=I/4
Metodo delle coppie ripetute (Lasker & Kaplan, 1985)

S S

RP 
iJ
ij

 1
N N  1
Indici di similarità in cognomi (Lasker, 1977)
Rij 
 S
ik
S jk 
2 Ni N j
Analisi in Componenti Principali
E’ una tecnica statistica il cui scopo principale è quello di ridurre il
contenuto e la ridondanza informativa di un set di dati.
L’analisi in componenti principali è dunque indicata quando ogni
osservazione di un insieme o di un campione è rappresentata da
misure relative a più variabili.
Tali variabili descrivono il punto nello spazio multidimensionale nel
quale ogni osservazione si viene a trovare rispetto alle altre
osservazioni.
Lo scopo è dunque quello di ridurre lo spazio multidimensionale,
difficilmente interpretabile e rappresentabile graficamente, ad uno
spazio bidimensionale (cartesiano), nel quale sia il più possibile
sintetizzato il contenuto informativo dei dati originali.
La matrice di correlazione/ 1
Se si suppone che il contenuto informativo di un dataset sia ridondante ciò
significa che le variabili che lo compongono siano tra loro in parte correlate,
vale a dire che alcune di esse spiegano, almeno in parte, il medesimo aspetto
del fenomeno studiato.
Il coefficiente di correlazione tra due variabili è dato da:
Cod ( X 1 X 2 )
r

Dev( X 1 )  Dev( X 2 )
(X
(X
1i
 X 1 )  ( X 2i  X 2 )
2
2

X
)
(
X

X
)
 2i 2
1i
1
r è un numero che varia da -1 a +1, valori ai quali si raggiunge la massima
correlazione, negativa nel primo caso, positiva nel secondo. r = 0 identifica
al contrario l’assenza di correlazione.
La matrice di correlazione/ 2
Variabile
Omicidi
Stupri
Rapine
Aggress.
Furti
Truffe
Omicidi
1.00
Stupri
0.35
1.00
Rapine
0.44
0.21
1.00
Aggress.
0.56
0.76
0.53
1.00
Furti
0.23
0.46
0.27
0.42
1.00
Truffe
-0.07
0.49
0.26
0.34
0.76
1.00
Furti auto
0.05
0.36
0.46
0.38
0.27
0.31
Furti auto
1.00
Cosa sono le “Componenti Principali”?
Le Componenti Principali di un set di dati sono la combinazione lineare delle
variabili originali opportunamente pesate.
Si basano sul concetto di score. Lo score è il valore di ogni osservazione
rispetto ad ogni nuova singola componente principale.
Si definisce come
c1  b11 ( X 1 )  b12 ( X 2 )  ...  b1 p ( X p )
Dove
c1 = score dell’osservazione 1 sulla componente 1
b1p = peso della variabile originaria p nella creazione della componente principale 1
Xp = il valore osservato della variabile p per l’osservazione 1
Caratteristiche delle Componenti Principali
• Si possono estrarre tante componenti principali quante sono
le variabili originarie
• La varianza totale spiegata dalle componenti principali è
uguale a quella spiegata dalle variabili originarie
• La prima CP spiega la quota massima di variabilità complessiva
delle variabili originarie, la seconda CP spiega il massimo della
variabilità residua, ecc.
• Le CP sono incorrelate tra loro. Ciò significa che sono
completamente indipendenti una dall’altra e che i loro
coefficienti di correlazione sono pari a 0
Determinazione del numero di componenti da ritenere
CP
Autovalori
Proporzione
Cumulativa
1
149233.2
0.69
0.69
2
30871.4
0.14
0.83
3
19232.9
0.09
0.92
4
12679.2
0.06
0.98
5
4254.0
0.02
100.0
6
44.2
0.00
100.0
7
10.5
0.00
100.0
Scores delle osservazioni sulle due prime CP
Città
Score CP1
Score CP2
Atlanta
-1.164
1.056
Boston
-2.084
-0.085
Chicago
-0.896
2.167
Dallas
1.184
1.085
Denver
1.064
-1.563
Detroit
1.842
0.249
Hartford
-3.283
-0.297
Honolulu
-2.100
-1.901
Houston
-0.034
1.266
Kansas City
1.060
0.133
Los Angeles
3.199
-1.265
New Orleans
0.814
0.645
New York
1.985
-0.530
Portland
-0.728
-1.594
Tucson
-2.031
-0.162
Washington
1.171
0.796
Rappresentazione grafica delle osservazioni sulle
nuove CP
Persona
Tipo di reato
Proprietà
Bassa
Alta
Intensità di delinquenza
Qualità della vita – Capoluoghi di regione 2011
•
•
•
•
•
•
Affari e lavoro
Ordine pubblico
Popolazione
Servizi, Ambiente e Salute
Tempo libero
Tenore di vita
Determinazione del numero di CP da ritenere
CP
Autovalori
Proporzione
Cumulativa
1
3.70
0.617
0.617
2
1.37
0.229
0.846
3
0.42
0.069
0.915
4
0.26
0.043
0.958
5
0.16
0.026
0.984
6
0.09
0.015
100.0
Pesi delle variabili originarie sulle prime 2 CP
0.8
0.6
0.4922
0.43530.47190.471
0.3478
0.2
0
Prima componente
0.0536
-0.2
-0.4
-0.6
I
0.8
0.7883
0.6
0.4821
0.2
0
0.03919
-0.001785
-0.1705
-0.3398
-0.2
-0.4
-0.6
I
H
G
-1
E
-0.8
D
Seconda componente
Loading
0.4
F
H
G
F
-1
E
-0.8
D
Loading
0.4
Grafico delle prime 2 CP
2.5
3
2
Component 2
17
15
19
-4
-3.2
-2.4
21
22 20
18
-1.6
5
1.5
7
1
0.5
-0.8
-0.5
11
13
0.8
12
-1
16-1.5
-2
Component 1
1.6
2.4
10
9
4
6
14
2
8
Scarica

Diapositiva 1 - Dipartimento di Giurisprudenza