& Sviluppo sistema iTag Studio del sistema Implementazione similarità Valutazione qualità 1 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi: IMMAGINI VIDEO SITI WEB 2 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri “Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”) In informatica, la similarità viene implementata attraverso il concetto matematico di DISTANZA 3 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri INCOMPLETI PERCHÈ si effettua la pulizia? Molto spesso i dati sono FONTI ETEROGENEE RUMOROSI INCONSISTENTI Passi principali: • Pulizia: levigare il rumore nei dati, risolvere le inconsistenze • Integrazione: più fonti eterogenee vengono unite • Riduzione: diminuire il volume del dataset 4 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri RISORSA elemento taggato (foto, video, sito web) DATASET insieme di risorse, ognuna con i suoi post POST DELICIOUS CROWDSOURCING insieme di tag dati di una risorsa sistema di social bookmarking piattaforma online che favorisce il contributo degli utenti dietro incentivo economico 5 Ogni risorsa alla quale è possibile applicare tag può risultare: • Sovrataggata (per le più popolari) Aumentare la QUALITA’ del dataset • Sottotaggata In questo modo quando un utente effettua una ricerca Non tutte le risorse vengono mostrate ricerca inefficiente 6 CROWDSOURCING DATASET LAVORO COMPLETATO i-Tag iTAG CREA I LAVORI VIENE CONSEGNATO L’INCENTIVO MOTORE DI INCENTIVI 7 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri I passi sono stati: Argomento approvato: • Analizzare iTag • Cercare aspetti da migliorare Feedback Similarità • Ho fatto alcune proposte: Differenziazione incentivi 8 Le tre misure di similarità che ho scelto sono state: Similarità del Coseno Coefficiente di Dice Similarità di Jacquard 9 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri Fonte: Delicious Inizialmente i files, relativi ad 1 mese di utilizzo, erano 4 da circa 10 GB ciascuno (40GB totali) Dopo le operazioni di pulizia e filtraggio del dataset, le dimensioni si sono ridotte a 100MB 10 Per ogni risorsa, la prima cifra rappresenta il numero di post 1 9 Le cifre dentro al post rappresentano l’ID del tag 2 8 3 4 7 6 5 Ogni linea è una risorsa Per ogni post, la prima cifra rappresenta il numero di tag dentro al post “viaggi” 11 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri STABILITÀ w QUALITÀ RFD DP B si ha quando il livello di informazioni per la risorsa è sufficiente finestra (quantità di post) utilizzata per valutare la stabilità si ha quando le informazioni della risorsa superano la soglia di stabilità vettore di frequenze relative di ogni tag algoritmo ottimo per generare gli assegnamenti delle risorse Budget stanziato dal provider per l’incremento della qualità 12 CARATTERISTICHE: RUMOROSO RUMORE: DATI SPORCHI RIDONDANTE Guardiamo i seguenti tag: RIDONDANZA: DATI RIPETUTI TROPPO GRANDE tag: 1 mese Circa Guardiamo 40GB i seguenti r4sa334 pasta 2 anni Circa 1TB RIDUZIONE RUMORE ricetta PULITO spaghetti spaghetti RIDOTTO sidofhbdjnopf cucina cucina 4 X 10GB FORMATTATO pasta RIDUZIONE RIDONDANZA 100 MB 3dfasgg5 spaghetti cucina QUESTO E’ IL RUMORE pasta DATASET ORIGINALE QUESTA E’ LA RIDONDANZA 13 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri RFD DATASET PULITO INPUT APPLICAZIONE FORMULE STATISTICHE OUTPUT Punto di stabilità 14 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri BUDGET RFD STATO INIZIALE (RANDOM) INPUT Punto di stabilità ASSIGNMENT ASSIGNMENT ASSEGNAMENTO OTTIMO DP OUTPUT Qualità del dataset 15 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri COSINE DICE JACQUARD COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI... ... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI? 16 17 18 19 20 21 22 23 24 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri Osservando i risultati sperimentali è possibile vedere come i risultati in valore assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi per la Jacquard. Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il sistema analizzato non è presente una misura di similarità migliore delle altre, ma sono tutte e tre equivalenti. Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a misura, le curve abbiano esattamente lo stesso comportamento, ottenendo alla fine gli stessi valori di qualità. Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On incentive-based tagging” (ICDE 2013). 25 Per cominciare: Cos’è un tag? Cosa si intende per similarità? Perchè la pulizia dei dati? Presentazione del sistema iTag Ricerca effettuata Breve descrizione del dataset Implementazione dell’algoritmo di qualità Pulizia del dataset Calcolo delle frequenze e del punto di stabilità Implementazione della strategia ottima Risultati sperimentali Conclusioni Sviluppi futuri Effettuare i test anche con le altre strategie di assegnamento Scelta libera Round Robin Less Posts first Most Unstable first Ibrida Indirizzare l’utente verso le risorse che più si addicono al suo profilo Implementare un sistema di feedback Generare un sistema di riconoscimento semantico dei tag 26