Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Dati utilizzati 500 titoli dell’indice S&P Anno 1998 Serie di 252 numeri Prezzo di apertura Classificazione S&P in 62 cluster 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Cosa vedremo… …clustering dello S&P Data pre-processing Algoritmo di clustering Misure di similarità Analisi dei risultati ottenuti Confronto con lo studio di Jin, Lu, Shi “Similarity measure based on partial information of time series” 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 FASE 1: data pre-processing 1. Rappresentazione della serie Raw data First derivative 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 FASE 1: data pre-processing 2. Normalizzazione None Z-score Piecewise 17 marzo 2006 v’ = v–μ σ Sistemi informativi per le decisioni Gruppo 2 FASE 1: data pre-processing 3. Riduzione delle dimensioni PCA ( = principal component analysis) Aggregation Fourier transform 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 I. Principal Component Analysis Crea un nuovo insieme di attributi Dato il vettore Xi in d dimensioni, trova le d basi ortonormali e ne seleziona M, con M<d, definite principal component ed ordinate in maniera decrescente secondo la varianza I dati iniziali diventano una combinazione lineare dei principal component 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 I. PCA X2 Y2 Y1 X1 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 II. Aggregation Sostituisce i valori di un periodo di giorni B con la loro media Il periodo B può avere ampiezza diversa (5, 10, 20 giorni) La dimensione dei dati diminuisce di un fattore 1/B 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 III. Trasformata di Fourier Data una serie temporale s, i coefficienti di Fourier sono numeri complessi definiti come: Sf = 1/√D ∑t st exp(-j2πft/D) f = 0,……,D-1 Selezionando pochi coefficienti di Fourier si ottiene una buona approssimazione della serie iniziale La maggior parte dell’energia è concentrata alle basse frequenze 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 FASE 2: algoritmo di clustering Algoritmo gerarchico agglomerativo (HAC) unione binaria di cluster unione di 2 cluster con la minima distanza intercluster 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 FASE 3: misure di similarità Confronto tra classificazione S&P di riferimento (C) e clustering effettuato con i metodi precedenti (C’) Similarità tra i 2 gruppi di cluster: Sim(C,C’) = (∑i maxjSim(Ci ,C’j)) / k Similarità tra 2 singoli cluster: Sim(Ci ,C’j) = 17 marzo 2006 2 |Ci ∩ C’j| |Ci| + |C’j| Sistemi informativi per le decisioni Gruppo 2 Risultati ottenuti FD NORM DIM Sim(S&P,HAC) Sim(HAC,S&P) N N all 0.183 0.210 N N 5 0.197 0.210 N Y all 0.222 0.213 N Y 10 0.211 0.212 Y N all 0.154 0.198 Y N 50 0.172 0.207 Y Y all 0.290 0.298 Y Y 100 0.310 0.310 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Risultati ottenuti FD NORM AggWin N N N N N N N N none 5 10 20 0.183 0.192 0.193 0.192 0.210 0.217 0.215 0.213 N N N N Y Y Y Y none 5 10 20 0.228 0.217 0.221 0.215 0.217 0.212 0.216 0.220 Y Y Y Y N N N N none 5 10 20 0.152 0.190 0.195 0.178 0.197 0.211 0.217 0.208 Y Y Y Y Y Y Y Y none 5 10 20 0.288 0.225 0.230 0.211 0.294 0.217 0.231 0.211 17 marzo 2006 Sim(S&P,HAC) Sistemi informativi per le decisioni Sim(HAC,S&P) Gruppo 2 Risultati ottenuti FD NORM Freq Sim(S&P,HAC) Sim(HAC,S&P) N N N N N N N N 5 10 20 50 0.191 0.203 0.192 0.193 0.197 0.204 0.196 0.202 N N N N Y Y Y Y 5 10 20 50 0.215 0.210 0.221 0.225 0.217 0.208 0.229 0.224 Y Y Y Y N N N N 5 10 20 50 0.202 0.189 0.191 0.190 0.215 0.209 0.217 0.212 Y Y Y Y Y Y Y Y 5 10 20 50 0.198 0.235 0.247 0.232 0.209 0.236 0.240 0.234 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Risultati ottenuti Win FD Sim(S&P,HAC) Sim(HAC,S&P) 10 15 30 45 60 75 N N N N N N 0.322 0.307 0.270 0.266 0.246 0.255 0.326 0.314 0.273 0.281 0.241 0.257 10 15 30 45 60 75 Y Y Y Y Y Y 0.338 0.346 0.330 0.346 0.316 0.310 0.334 0.339 0.329 0.333 0.310 0.297 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Precision-recall curves RETRIEVED RELEVANT NOT RETRIEVED NON RELEVANT RELEVANT & NOT RETRIEVED NON RELEVANT & NOT RETRIEVED NON RELEVANT & RETRIEVED RELEVANT & RETRIEVED 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Precision-recall curves RELEVANT & NOT RETRIEVED NON RELEVANT & NOT RETRIEVED NON RELEVANT & RETRIEVED RELEVANT & RETRIEVED PRECISION = RECALL = + 17 marzo 2006 Sistemi informativi per le decisioni + Gruppo 2 Osservazioni generali Normalizzare i dati in input migliora la qualità dei risultati FD NORM DIM Sim(S&P,HAC) Sim(HAC,S&P) Y N all 0.154 0.198 Y N 50 0.172 0.207 Y Y all 0.290 0.298 Y Y 100 0.310 0.310 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Osservazioni generali Win FD Sim(S&P,HAC) Sim(HAC,S&P) 10 N 0.322 0.326 10 Y 0.338 0.334 Si ottengono migliori risultati con la piecewise normalization FD NORM DIM Sim(S&P,HAC) Sim(HAC,S&P) N Y all 0.222 0.213 Y Y all 0.290 0.298 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Osservazioni generali Utilizzando le first derivative normalizzate della serie temporale si ottengono risultati migliori Win 10 15 30 45 60 75 10 15 30 45 60 75 17 marzo 2006 FD N N N N N N Y Y Y Y Y Y Sim(S&P,HAC) 0.322 0.307 0.270 0.266 0.246 0.255 0.338 0.346 0.330 0.346 0.316 0.310 Sistemi informativi per le decisioni Sim(HAC,S&P) 0.326 0.314 0.273 0.281 0.241 0.257 0.334 0.339 0.329 0.333 0.310 0.297 Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Osservazioni generali Calcolare le first derivative senza normalizzare peggiora le performance FD NORM DIM Sim(S&P,HAC) Sim(HAC,S&P) N N all 0.183 0.210 N N 5 0.197 0.210 N Y all 0.222 0.213 N Y 10 0.211 0.212 Y N all 0.154 0.198 Y N 50 0.172 0.207 Y Y all 0.290 0.298 Y Y 100 0.310 0.310 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Osservazioni generali I dati grezzi possono essere ridotti notevolmente senza perdere il loro contenuto, ma non è possibile ottenere buoni cluster da essi Con le tecniche per ottenere buoni cluster non posso ridurre le dimensioni senza perdere le informazioni 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 E’ POSSIBILE RIDURRE LE DIMENSIONI DEI DATI E FARE BUONI CLUSTER SU DI ESSI? 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Similarity measure based on partial information of time series X.Jin Y.lu C.Shi 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Osservazioni generali 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 Osservazioni generali 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2 MA LA % DI DATI CONSIDERATI HA UN IMPATTO DECISIVO SULLA QUALITA’ DEL CLUSTERING! 17 marzo 2006 Sistemi informativi per le decisioni Gruppo 2