Ricerca delle componenti principali • Se abbiamo due variabili osservate, (per esempio Test di vocabolario e Test di ragionamento verbale) le possiamo rappresentare in un grafico di coordinate cartesiane, dopo averle standardizzate entrambe Grafico di dispersione di due test Gli stessi dati, ma standardizzati La retta di regressione è uguale per entrambe, visto che entrambe sono standardizzate Rotazione degli assi • Ruotiamo gli assi, prendendo la retta di regressione (e la sua perpendicolare) come nuovo sistema di assi di riferimento. • Le nuove coordinate si ottengono con una formula matematica • Dove sen a e cos a sono il seno e il coseno dell’angolo di rotazione • L’angolo di rotazione dipende dal coefficiente di correlazione: più è elevata, più grande è la rotazione Gli stessi dati, ruotati su nuovi assi Esempio con pochi casi ruotati… I due nuovi assi • Il primo asse nuovo riporta le coordinate dei punti originali, (proporzionali alla somma delle due variabili) e ha una varianza uguale a 1+r • Il secondo asse riporta le coordinate dei punti originali ma è proporzionale alla differenza dei punti originali. La sua varianza è uguale a 1-r. • Il valore r è il coefficiente di correlazione. Le due nuove variabili • Le due nuove variabili sono indipendenti (la loro correlazione è nulla) • Le loro varianze sono uguali a • 1+ r per la prima • 1-r per la seconda • Tutti i punti originali mantengono la loro distanza fra di loro. • Le due nuove variabili si chiamano le componenti principali. Che si fa quando ci sono più di due variabili? • Si ruotano a due a due tutte le coppie di variabili da analizzare • Si ricalcolano le correlazioni fra le prime due nuove variabili (che si chiamano ora componenti principali) con le restanti variabili osservate • La rotazione trasferisce la covariazione sulle nuove componenti principali Siamo sicuri di arrivare ad una fine? • Il procedimento di trasformazione verso le componenti principali si arresta quando tutta la covariazione è stata trasferita sulle compomenti principali, che diventano delle somme composite delle variabili originarie, ma ognuna incorrelata (indipendente) da tutte le altre • Se k è il numero di variabili originarie, la somma della varianza nuove variabili è ancora uguale a k. Calcolo iterativo • Si ripete la rotazione con altre variabili, a due a due. Alla fine del procedimento, tutta la covariazione è stata trasferita sulle nuove variabili. • Le correlazioni fra le nuove variabili e quelle originali si ritrova nella matrice delle saturazioni fattoriali. • Le k componenti principali contengono tutta l’ informazione originale, ma con altre coordinate. Risultati delle rotazioni a coppie • Tutta la covariazione delle k variabili è trasferita sulle k componenti principali • Le k componenti principali sono fra loro indipendenti (correlazione nulla fra di loro) • Le componenti possono essere disposte in ordine canonico, e le prime sono più importanti delle ultime, che si possono trascurare. Rappresentazione vettoriale delle variabili (osservate e latenti) Componenti principali (latenti) Proiezioni di una variabile osservata su una componente latente Variabili osservate Proiezioni di una variabile osservata su una componente latente Attenzione ! • La rotazione di questi assi non è quella di cui si parla generalmente quando si parla di rotazione degli assi fattoriali. • Questa rotazione degli assi è un metodo matematico di estrazione di autovalori e autovettori dovuto a Carl Gustav Jacobi, pubblicato nel 1846.