Alcune metodiche Relazione tra consanguineità ed isonimia (Crow & Mange, 1965) F=I/4 Metodo delle coppie ripetute (Lasker & Kaplan, 1985) S S RP iJ ij 1 N N 1 Indici di similarità in cognomi (Lasker, 1977) Rij S ik S jk 2 Ni N j Analisi in Componenti Principali E’ una tecnica statistica il cui scopo principale è quello di ridurre il contenuto e la ridondanza informativa di un set di dati. L’analisi in componenti principali è dunque indicata quando ogni osservazione di un insieme o di un campione è rappresentata da misure relative a più variabili. Tali variabili descrivono il punto nello spazio multidimensionale nel quale ogni osservazione si viene a trovare rispetto alle altre osservazioni. Lo scopo è dunque quello di ridurre lo spazio multidimensionale, difficilmente interpretabile e rappresentabile graficamente, ad uno spazio bidimensionale (cartesiano), nel quale sia il più possibile sintetizzato il contenuto informativo dei dati originali. La matrice di correlazione/ 1 Se si suppone che il contenuto informativo di un dataset sia ridondante ciò significa che le variabili che lo compongono siano tra loro in parte correlate, vale a dire che alcune di esse spiegano, almeno in parte, il medesimo aspetto del fenomeno studiato. Il coefficiente di correlazione tra due variabili è dato da: Cod ( X 1 X 2 ) r Dev( X 1 ) Dev( X 2 ) (X (X 1i X 1 ) ( X 2i X 2 ) 2 2 X ) ( X X ) 2i 2 1i 1 r è un numero che varia da -1 a +1, valori ai quali si raggiunge la massima correlazione, negativa nel primo caso, positiva nel secondo. r = 0 identifica al contrario l’assenza di correlazione. La matrice di correlazione/ 2 Variabile Omicidi Stupri Rapine Aggress. Furti Truffe Omicidi 1.00 Stupri 0.35 1.00 Rapine 0.44 0.21 1.00 Aggress. 0.56 0.76 0.53 1.00 Furti 0.23 0.46 0.27 0.42 1.00 Truffe -0.07 0.49 0.26 0.34 0.76 1.00 Furti auto 0.05 0.36 0.46 0.38 0.27 0.31 Furti auto 1.00 Cosa sono le “Componenti Principali”? Le Componenti Principali di un set di dati sono la combinazione lineare delle variabili originali opportunamente pesate. Si basano sul concetto di score. Lo score è il valore di ogni osservazione rispetto ad ogni nuova singola componente principale. Si definisce come c1 b11 ( X 1 ) b12 ( X 2 ) ... b1 p ( X p ) Dove c1 = score dell’osservazione 1 sulla componente 1 b1p = peso della variabile originaria p nella creazione della componente principale 1 Xp = il valore osservato della variabile p per l’osservazione 1 Caratteristiche delle Componenti Principali • Si possono estrarre tante componenti principali quante sono le variabili originarie • La varianza totale spiegata dalle componenti principali è uguale a quella spiegata dalle variabili originarie • La prima CP spiega la quota massima di variabilità complessiva delle variabili originarie, la seconda CP spiega il massimo della variabilità residua, ecc. • Le CP sono incorrelate tra loro. Ciò significa che sono completamente indipendenti una dall’altra e che i loro coefficienti di correlazione sono pari a 0 Determinazione del numero di componenti da ritenere CP Autovalori Proporzione Cumulativa 1 149233.2 0.69 0.69 2 30871.4 0.14 0.83 3 19232.9 0.09 0.92 4 12679.2 0.06 0.98 5 4254.0 0.02 100.0 6 44.2 0.00 100.0 7 10.5 0.00 100.0 Scores delle osservazioni sulle due prime CP Città Score CP1 Score CP2 Atlanta -1.164 1.056 Boston -2.084 -0.085 Chicago -0.896 2.167 Dallas 1.184 1.085 Denver 1.064 -1.563 Detroit 1.842 0.249 Hartford -3.283 -0.297 Honolulu -2.100 -1.901 Houston -0.034 1.266 Kansas City 1.060 0.133 Los Angeles 3.199 -1.265 New Orleans 0.814 0.645 New York 1.985 -0.530 Portland -0.728 -1.594 Tucson -2.031 -0.162 Washington 1.171 0.796 Rappresentazione grafica delle osservazioni sulle nuove CP Persona Tipo di reato Proprietà Bassa Alta Intensità di delinquenza Qualità della vita – Capoluoghi di regione 2011 • • • • • • Affari e lavoro Ordine pubblico Popolazione Servizi, Ambiente e Salute Tempo libero Tenore di vita Determinazione del numero di CP da ritenere CP Autovalori Proporzione Cumulativa 1 3.70 0.617 0.617 2 1.37 0.229 0.846 3 0.42 0.069 0.915 4 0.26 0.043 0.958 5 0.16 0.026 0.984 6 0.09 0.015 100.0 Pesi delle variabili originarie sulle prime 2 CP 0.8 0.6 0.4922 0.43530.47190.471 0.3478 0.2 0 Prima componente 0.0536 -0.2 -0.4 -0.6 I 0.8 0.7883 0.6 0.4821 0.2 0 0.03919 -0.001785 -0.1705 -0.3398 -0.2 -0.4 -0.6 I H G -1 E -0.8 D Seconda componente Loading 0.4 F H G F -1 E -0.8 D Loading 0.4 Grafico delle prime 2 CP 2.5 3 2 Component 2 17 15 19 -4 -3.2 -2.4 21 22 20 18 -1.6 5 1.5 7 1 0.5 -0.8 -0.5 11 13 0.8 12 -1 16-1.5 -2 Component 1 1.6 2.4 10 9 4 6 14 2 8