&
Sviluppo sistema iTag
Studio del sistema
Implementazione similarità
Valutazione qualità
1

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?
Presentazione del sistema iTag
 Ricerca effettuata
 Breve descrizione del dataset
 Implementazione dell’algoritmo di qualità

 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
VIDEO
SITI WEB
2

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
“Affinità di natura, struttura o composizione.”
(De Mauro “Il dizionario della lingua italiana”)
In informatica, la similarità viene implementata
attraverso il concetto matematico di DISTANZA
3

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
INCOMPLETI
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
FONTI ETEROGENEE
RUMOROSI
INCONSISTENTI
Passi principali:
• Pulizia: levigare il rumore nei dati, risolvere le inconsistenze
• Integrazione: più fonti eterogenee vengono unite
• Riduzione: diminuire il volume del dataset
4

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
RISORSA
elemento taggato (foto, video, sito web)
DATASET
insieme di risorse, ognuna con i suoi post
POST
DELICIOUS
CROWDSOURCING
insieme di tag dati di una risorsa
sistema di social bookmarking
piattaforma online che favorisce il contributo
degli utenti dietro incentivo economico
5
Ogni risorsa alla quale è possibile applicare tag può risultare:
• Sovrataggata (per le più popolari)
Aumentare la QUALITA’ del dataset
• Sottotaggata
In questo modo quando un
utente effettua una ricerca
Non tutte le risorse vengono
mostrate ricerca inefficiente
6
CROWDSOURCING
DATASET
LAVORO COMPLETATO
i-Tag
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
MOTORE DI INCENTIVI
7

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
I passi sono stati:
Argomento approvato:
• Analizzare iTag
• Cercare aspetti da migliorare
Feedback
Similarità
• Ho fatto alcune proposte:
Differenziazione incentivi
8
Le tre misure di similarità che ho scelto sono state:
Similarità del Coseno
Coefficiente di Dice
Similarità di Jacquard
9

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
Fonte: Delicious
Inizialmente i files, relativi ad 1 mese di utilizzo,
erano 4 da circa 10 GB ciascuno (40GB totali)
Dopo le operazioni di pulizia e filtraggio del dataset,
le dimensioni si sono ridotte a 100MB
10
Per ogni risorsa, la prima cifra
rappresenta il numero di post
1
9
Le cifre dentro al post
rappresentano l’ID del tag
2
8
3
4
7
6
5
Ogni linea è una risorsa
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
“viaggi”
11

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
STABILITÀ
w
QUALITÀ
RFD
DP
B
si ha quando il livello di informazioni per la risorsa è sufficiente
finestra (quantità di post) utilizzata per valutare la stabilità
si ha quando le informazioni della risorsa superano la soglia di stabilità
vettore di frequenze relative di ogni tag
algoritmo ottimo per generare gli assegnamenti delle risorse
Budget stanziato dal provider per l’incremento della qualità
12
CARATTERISTICHE:
RUMOROSO
RUMORE: DATI SPORCHI
RIDONDANTE
Guardiamo
i seguenti tag:
RIDONDANZA:
DATI RIPETUTI
TROPPO GRANDE
tag:
1 mese
Circa Guardiamo
40GB i seguenti
r4sa334
pasta
2 anni
Circa
1TB
RIDUZIONE RUMORE
ricetta
PULITO
spaghetti spaghetti
RIDOTTO
sidofhbdjnopf
cucina
cucina
4 X 10GB
FORMATTATO
pasta
RIDUZIONE
RIDONDANZA
100 MB
3dfasgg5
spaghetti
cucina
QUESTO E’ IL RUMORE
pasta
DATASET ORIGINALE
QUESTA E’ LA RIDONDANZA
13

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
RFD
DATASET PULITO
INPUT
APPLICAZIONE
FORMULE
STATISTICHE
OUTPUT
Punto di
stabilità
14

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
BUDGET
RFD
STATO INIZIALE (RANDOM)
INPUT
Punto di
stabilità
ASSIGNMENT
ASSIGNMENT
ASSEGNAMENTO OTTIMO
DP
OUTPUT
Qualità del
dataset
15

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
COSINE
DICE
JACQUARD
COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...
... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?
16
17
18
19
20
21
22
23
24

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
Osservando i risultati sperimentali è possibile vedere come i risultati in valore
assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi
per la Jacquard.
Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il
sistema analizzato non è presente una misura di similarità migliore delle
altre, ma sono tutte e tre equivalenti.
Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a
misura, le curve abbiano esattamente lo stesso comportamento, ottenendo
alla fine gli stessi valori di qualità.
Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On
incentive-based tagging” (ICDE 2013).
25

Per cominciare:
 Cos’è un tag?
 Cosa si intende per similarità?
 Perchè la pulizia dei dati?




Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
 Pulizia del dataset
 Calcolo delle frequenze e del punto di stabilità
 Implementazione della strategia ottima



Risultati sperimentali
Conclusioni
Sviluppi futuri
 Effettuare i test anche con le altre strategie di assegnamento





Scelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
 Indirizzare l’utente verso le risorse che più si addicono al suo profilo
 Implementare un sistema di feedback
 Generare un sistema di riconoscimento semantico dei tag
26
Scarica

PER COMINCIARE