Curriculum Vitae et Studiorum
di Francesco Gullo
12 agosto 2013
Dati Anagrafici
• Luogo e Data di Nascita: Cosenza, 17 marzo 1982
• Cittadinanza: Italiana
• Indirizzi :
– Ufficio: Yahoo! Research, Avinguda Diagonal, 177 (8th floor) - 08018 Barcelona Spain
– Residenza: Carrer del Concili de Trento, 112, Planta 4, Puerta 1, 08020 Barcelona Spain
• Recapiti Telefonici :
– Ufficio: +34 93 183 8891
– Cellulare: +34 622 926 677, +39 328 0112858
• Fax : +34 93 183 8901
• E-mail : [email protected]
• Web: http://uweb.deis.unical.it/gullo
• Stato Civile: Celibe
• Posizione Militare: Nessun obbligo di leva
• Codice Fiscale: GLLFNC82C17D086Y
Indice
1 Posizioni Ricoperte e Formazione
1.1 Posizioni Ricoperte . . . . . . . .
1.1.1 Posizioni Attuali . . . . .
1.1.2 Posizioni Precedenti . . .
1.2 Formazione . . . . . . . . . . . .
1.2.1 Titoli di Studio . . . . . .
1.2.2 Certificati e Diplomi . . .
1.2.3 Scuole di Dottorato . . .
1.3 Riconoscimenti . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Attività di Ricerca
3 Attività Professionali
3.1 Attività Organizzative . . .
3.2 Comitati di Programma . .
3.3 Attività di Revisione . . . .
3.3.1 Riviste . . . . . . . .
3.3.2 Capitoli di Libro . .
3.3.3 Conferenze . . . . .
3.4 Partecipazione a Conferenze
3
3
3
3
3
3
4
4
4
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
12
12
13
13
13
14
4 Attività Didattiche
4.1 Attività Didattica Universitaria . . . . . . . . .
4.1.1 Università della Calabria . . . . . . . .
4.1.2 Università Magna Græcia di Catanzaro
4.1.3 Tesi di Laurea Revisionate . . . . . . . .
4.2 Altre Attività Didattiche . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
16
17
18
.
.
.
.
.
19
19
19
21
21
21
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Elenco delle Pubblicazioni
5.1 Riviste Internazionali . . . . . . . . . .
5.2 Conferenze Internazionali . . . . . . .
5.3 Volumi . . . . . . . . . . . . . . . . . .
5.4 Capitoli di Libro (con revisori esterni)
5.5 Workshop e Conferenze Nazionali . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Posizioni Ricoperte e Formazione
1.1
1.1.1
Posizioni Ricoperte
Posizioni Attuali
• Dal 30 Agosto 2011 è postdoctoral researcher presso l’istituto di ricerca Yahoo! Research
Barcelona (Spagna)
1.1.2
Posizioni Precedenti
• Dal 1 gennaio 2010 al 29 agosto 2011 è stato titolare di un assegno di ricerca dal titolo
“Tecniche di data mining per analisi di dati probabilistici e altamente dimensionali ”, presso
il Dipartimento di Elettronica, Informatica e Sistemistica (DEIS) dell’Università della
Calabria, S.S.D. ING-INF/05 (Sistemi di Elaborazione delle Informazioni)
• Da febbraio 2006 ad ottobre 2011 è stato docente a contratto ed esercitatore presso l’Università della Calabria (Facoltà di Ingegneria, Facoltà di Farmacia e Facoltà di Scienze
Politiche)
• Da marzo 2008 ad Ottobre 2011 è stato docente a contratto ed esercitatore presso
l’Università “Magna Græcia” di Catanzaro (Facoltà di Medicina e Chirurgia)
• Dall’11 giugno 2011 al 10 luglio 2011 ha svolto attività di collaborazione occasionale presso
il Dipartimento di Elettronica, Informatica e Sistemistica (DEIS) dell’Università della
Calabria in merito alla prestazione “Sviluppo di software per la classificazione di dati time
series (progetto Enel)”
• Dal 1 luglio 2006 al 31 dicembre 2009 è stato titolare di un assegno di ricerca dal titolo
“Memorizzazione e Interrogazione di dati XML”, presso il Dipartimento di Elettronica, Informatica e Sistemistica (DEIS) dell’Università della Calabria, S.S.D. ING-INF/05 (Sistemi
di Elaborazione delle Informazioni)
• Dal 15 aprile 2009 al 3 settembre 2009 ha svolto attività di ricerca presso il Department of
Computer Science della George Mason University, Fairfax, Virginia (USA), in qualità di
short-term visiting scholar, in collaborazione con il gruppo di Data Mining diretto dalla
Prof.ssa Carlotta Domeniconi
• Dal 1 marzo 2006 al 30 giugno 2006 ha svolto attività di ricerca in qualità di collaboratore
presso il Dipartimento di Elettronica, Informatica e Sistemistica (DEIS) dell’Università
della Calabria, in merito a Interrogazione e Memorizzazione di Dati XML
1.2
1.2.1
Formazione
Titoli di Studio
• Il 26 gennaio 2010 ha conseguito il titolo di Dottore di Ricerca in Ingegneria dei Sistemi e
Informatica, XXII ciclo, presso il Dipartimento di Elettronica, Informatica e Sistemistica
(DEIS) dell’Università della Calabria. Tesi di Dottorato: “Overcoming Uncertainty and
the Curse of Dimensionality in Data Clustering”, supervisore Prof. Sergio Greco
3
• Nell’ottobre 2006 (prima sessione 2006) ha superato l’esame di stato per l’abilitazione
all’esercizio della professione di Ingegnere, sezione A, settore dell’Informazione
• Il 16 dicembre 2005 ha conseguito la Laurea Specialistica in Ingegneria Informatica presso
l’Università della Calabria, con votazione 110/110 e lode. Tesi di Laurea: “Interrogazione
e Riparazione di Basi di Dati XML inconsistenti ”, relatore il Prof. Sergio Greco
• Il 26 settembre 2003 ha conseguito la Laurea in Ingegneria Informatica presso l’Università
della Calabria, con votazione 110/110 e lode. Tesi di Laurea: “Dati Semistrutturati e
XML”, relatore il Prof. Sergio Greco
• Il 17 giugno 2000 ha conseguito il Diploma di Maturità Scientifica presso il Liceo Scientifico
Statale “Pitagora” di Rende (CS), con votazione 100/100
1.2.2
Certificati e Diplomi
• Nel marzo 2002 ha ottenuto il rilascio del certificato Preliminary English Test (PET),
rilasciato da University of Cambridge, place of entry Cosenza, reference number
023IT0445089
1.2.3
Scuole di Dottorato
• 14th GII Doctoral School on Advances on Databases, Università della Calabria, Rende
(CS) & Hotel S. Michele, Cetraro (CS), Italy, 7-18 Settembre 2009
• “Extending Database Technology”, 8th EDBT Summer School on Database Technologies
for Novel Applications, Libera Università di Bolzano, Italy, 3-7 Settembre 2007
1.3
Riconoscimenti
• Il lavoro “Advancing Data Clustering via Projective Clustering Ensembles”[14] ha partecipato al programma SIGMOD 2011 Repeatability and Workability Evaluation (RWE)
riguardante la ripetibilità e l’estendibilità dei risultati presentati nell’articolo, risultando
pienamente idoneo
• Il progetto di ricerca (al quale ha preso parte attivamente) “Fraud and signature detection
by the Load Profile”, coadiuvato dall’Università della Calabria, Exeura Srl ed Enel Distribuzione Spa nell’ambito dell’iniziativa “EUREKA! Un’idea per l’energia” ha ricevuto
il Premio Nazionale per l’Innovazione - I edizione (2009), istituito presso la Fondazione
per l’Innovazione Tecnologica COTEC per concessione del Presidente della Repubblica
Italiana. Il premio, assegnato per la categoria “Industria e Servizi - Grandi Gruppi ”, è
stato consegnato l’8 giugno 2009 al Palazzo del Quirinale, Roma (Italy), dal Presidente della Repubblica Italiana Giorgio Napolitano in occasione della Giornata Nazionale
dell’Innovazione
• Student Travel Award per la partecipazione alla conferenza 9th SIAM International Conference on Data Mining (SDM ‘09), Sparks, Nevada (USA), 30 Aprile-2 Maggio, 2009
(lavoro [20])
4
2
Attività di Ricerca
Svolge attività di ricerca presso l’istituto di ricerca Yahoo! Research Barcelona (Spagna) in
qualità di postdoctoral researcher nel gruppo di Web Mining. Gli interessi di ricerca abbracciano
le aree del data mining e machine learning. In riferimento a tali aree, le attività di ricerca vertono
principalmente sui seguenti temi.
I. Interrogazione e mining di grafi [11,9]
I grafi costituiscono uno dei principali metodi di modellazione dei dati che si incontrano al
giorno d’oggi in applicazioni reali. Mediante grafi è possibile modellare il web, social network,
reti biologiche, dati bibliografici e moltre altre tipologie di dati.
Graph clustering.
Un nuovo problema di clustering viene affrontato in [11], la
cui principale innovazione consiste nel considerare la distanza tra oggetti non di tipo
numerico, bensı̀ categorico. Un modo naturale di pensare a tale problema è quello di
voler partizionare un grafo in cui gli archi che collegano i vari nodi sono di differente
tipologia o colore. Il problema viene affrontato definendo una funzione obiettivo atta ad
individuare una partizione del grafo in modo tale che gli oggetti nello stesso cluster siano il
più possibile connessi da archi aventi il medesimo colore. Il problema è dimostrato essere
NP-hard, e quindi risolto introducendo un algoritmo approssimato con bound garantito,
una variante di tale algoritmo che incorpora due ulteriori euristiche che mirano a risolvere
alcuni problemi pratici in cui l’algoritmo base può incorrere, e un terzo algoritmo, che tende
ad ottimizzare la funzione obiettivo proposta in maniera diretta, sfruttando i principi della
strategia di ottimizzazione alternating minimization.
Reachability/distance queries su grafi. I grafi ad archi etichettati (in inglese edgelabeled graphs), ossia grafi i cui archi hanno un’etichetta che indica il tipo di relazione
tra i nodi incidenti, stanno sempre più prendendo piede in vari domini applicativi, come
reti sociali, bioinformatica, e mobilità su reti stradali. Una problematica basilare quando
si ha a che fare con tale tipologia di grafi è data dal calcolo della distanza minima tra
due nodi del grafo, vincolata all’attraversamento di soli archi la cui etichetta ricade in un
insieme di etichette fornito in input dall’utente. L’applicazione diretta di metodi esatti
per il calcolo di tali distanze è limitata dalle elevate dimensioni delle reti (grafi) attuali,
che non permettono di calcolare distanze esatte in maniera sufficientemente veloce per la
maggior parte delle applicazioni esistenti . Nel lavoro [lavoro sottomesso] viene studiato
come approssimare in maniera efficiente e accurata il calcolo di distanze minime soggette
al vincolo di etichetta: dati due nodi s e t e un insieme di etichette C, l’obiettivo è quello
di approssimare in maniera veloce la distanza minima tra s e t composta solo da archi la
cui etichetta è presente nell’insieme C. A tale scopo vengono proposti due indici basati
sull’idea di landmark. Il primo indice è più veloce ed accurato, ma richiede, al tempo
stesso, maggiore spazio di memorizzazione rispetto al secondo.
A causa di misurazioni affette da rumore, errori di inferenza, e altri motivi simili in vari
domini applicativi odierni, sempre più tipologie di dati vengono rappresentati come grafi
incerti o probabilistici, ossia grafi i cui archi sono associati con una probabilità di esistenza.
Una delle problematiche principali da risolvere quando si ha a che fare con tale tipologia di
grafi consiste nel calcolo dell’insieme di affidabilità (in inglese, reliable set) RS(S, η), ossia
5
l’insieme di nodi raggiungibili con probabilità maggiore η da un insieme di nodi S fornito
in input dall’utente. Il lavoro [lavoro sottomesso] ha come obiettivo principale quello di
definire una innovitiva struttura di indicizzazione per approssimare in maniera veloce i
reliable set. Tale struttura di indicizzazione sfrutta un clustering di tipo gerarchico dei
nodi del grafo, che viene ottimizzato mediante tecniche basate sul calcolo di cut minimali
bilanciati. La valutazione online delle interrogazioni fornite in input dall’utente è basata
invece su una prima fase di generazione di nodi candidati, seguita da una fase di filtraggio.
Sia la costruzione dell’indice che il calcolo online dei reliable set non richiedono alcuna
(costosa) operazione di campionamento.
Estrazione di sottografi densi.
L’estrazione di sottografi densi a partire da grafi
di elevate dimensioni è una problematica basilare in vari contesti, quali Web, reti sociali, biologia, finanza, problemi di raggiungibilità e calcolo della distanza minima in grafi.
Ottimizzare in maniera diretta la densità in termini di archi presenti nel grafo non è un
problema significativo, visto che perfino un sottografo composto da due nodi collegati tra
loro ha densità massima. Per tale motivo, la ricerca scientifica in tale ambito è stata principalmente incentrata sulla definizione e ottimizzazione di nozioni di densità alternative.
Tra queste, una delle più utilizzate è la nozione di densità nota col nome di grado medio
(in inglese, average degree), la cui ottimizzazione porta all’estrazione dei cosiddetti densest
subgraph. Contrariamente a quanto lasciato presupporre dal nome, purtroppo, in molti
casi i densest subgraph sono grafi che non possiedono le caratteristiche che un sottografo
denso dovrebbe possedere, essendo essi tipicamente di grandi dimensioni, con bassa densità in termini di archi e diametro elevato. Nel lavoro [9], una nuova nozione di densità
viene proposta. Tale nozione permette l’estrazione di sottografi di qualità notevolmente
migliore dei densest subgraph, visto che i sottografi estratti sfruttando la nozione di densità proposta sono compatti, densi, ed hanno hanno un diametro piccolo. La nozione di
densità proposta è basata sul concetto di quasi-clique e l’obiettivo principale consiste nel
massimizzare il numero di archi presenti nel sottografo da estrarre in confronto al numero
di archi presente in media nel modello di grafo Erdös-Rényi. Il problema di ottimizzazione
risultante è dimostrato essere NP-hard e risolto in maniera approssimata mediante un
algoritmo di approssimazione a fattore costante basato su programmazione semidefinita.
Due ulteriori algoritmi sono altresı̀ definiti: un algoritmo di tipo greedy e uno basato su
ricerca locale, i quali hanno entrambi il vantaggio di possedere un’elevata efficienza.
Il lavoro [lavoro sottomesso] tratta il problema della core decomposition in grafi incerti,
ossia grafi in cui gli archi hanno associata una probabilità di esistenza. La core decomposition è una primitiva base utilizzata per svariate problematiche inerenti i grafi soprattutto
grazie alla sua elevata efficienza, caratteristica che la differenzia da altre nozioni di densità
su grafi. Il fatto che la core decomposition può essere ricavata in tempo lineare su grafi
deterministici non implica la stessa efficienza su grafi incerti, dove perfino i problemi più
semplici possono diventare intrattabili. Il nostro contributo principale in tale ambito è
quello di mostrare come la core decomposition possa essere derivata in maniera efficiente
anche su grafi incerti.
II. Web mining [13]
Il fenomeno dell’influenza sociale in reti sociali è stato oggetto di numerosi studi di ricerca negli
ultimi anni, soprattutto grazie alle numerose applicazioni che essa ha in campi come marke6
ting virale, recommendation personalizzata, analisi di siti di micro-blogging. In generale, una
propagazione di influenza può essere vista come una sequenza temporale di attivazioni di utenti su un determinato ogetto/azione. Nel lavoro [lavoro sottomesso] viene trattato il problema
dell’estrazione di sommari da una collezione di propagazioni, ossia insiemi di propagazioni che
(i) riguardano grossomodo la stessa popolazione di utenti, e (ii) condividono la stessa struttura
gerarchica.
I metodi di link analysis ranking, quali il noto PageRank, si pongono come obiettivo principale quello di sfruttare la struttura dei collegamenti ipertestuali per determinare l’importanza
relativa delle singole pagine Web. Tali metodi stanno sempre più trovando applicazione in basi
di conoscenza lessicali al fine di risolvere problemi di processamento di linguaggi naturali, quali
ranking e disambiguazione del significato di una parola (in inglese, word sense ranking and disambiguation). In confronto al testo non strutturato, il contesto nel quale il significato di una
parola di un linguaggio naturale è immerso per ciò che concerne i dati semistrutturati non è
stato fin’ora oggetto di molti studi di ricerca. Il lavoro [13] si pone l’obiettivo di colmare il gap
tra word sense ranking e dati semistrutturati. In tale lavoro vengono proposti metodi basati su
PageRank per il problema di word sense ranking strutturale, che tengono in considerazione le
relazioni che intercorrono tra le strutture ad albero tipiche dei dati semistrutturati insieme alle
relazioni semantiche tra le singoli parti che costituiscono tali strutture ad albero.
III. Clustering di dati ad elevata dimensionalità e di dati con rappresentazione
multipla [1,3,26,10,12,14,16,17,20]
Clustering ensembles.
L’insieme di tecniche e metodologie che vanno sotto il nome di clustering ensembles (note anche col nome di consensus clustering o aggregation
clustering) rappresenta una valida soluzione di recente fattura ai problemi che tipicamente interessano il clustering. Essenzialmente, un insieme di soluzioni di clustering, detto
ensemble, viene generato su un insieme di oggetti da clusterizzare, variando uno o più
aspetti, come l’algoritmo di clustering, il settaggio dei parametri, o il numero di attributi,
oggetti o cluster. L’obiettivo principale del clustering ensembles è quello di generare una
partizione di consenso a partire dall’ensemble, ossia una soluzione di clustering che minimizzi un’opportuna funzione obiettivo (ossia la funzione di consenso) definita a partire
dalle informazioni provenienti dall’ensemble.
In tale ambito, diverse funzioni di consenso sono state definite in letteratura, cosı̀ come
algoritmi euristici atti alla scoperta di valide approssimazioni per ognuna delle funzioni
in questione. Una limitazione di tali approcci è data dal fatto che le funzioni di consenso
sulle quali si basano sono tipicamente definite considerando le varie soluzioni dell’ensemble in maniera uguale l’una con l’altra. In [20] viene definito e investigato il problema del
weighting clustering ensembles, proponendo dei meccanismi generali di weighting basati
su differenti nozioni di diversità. In particolare, vengono definiti tre schemi di weighting,
ognuno dei quali indipendente dal particolare metodo di clustering ensembles utilizzato
per calcolare la partizione di consenso. Viene altresı̀ mostrato come gli schemi proposti possono facilmente essere inglobati e utilizzati assieme ad un qualsiasi algoritmo di
clustering ensembles esistente.
Subspace/projective clustering & clustering ensembles.
Il problema noto col
nome di projective clustering o projected clustering ha come obiettivo principale quello
7
di individuare projective cluster, ossia sottoinsiemi dei dati in input a cui sono associati
differenti sottoinsiemi (sottospazi) di attributi dimensionali. Il projective clustering è
parente stretto del problema denominato subspace clustering, visto che entrambi i problemi
mirano alla scoperta di cluster di dati che esistono in differenti sottospazi dimensionali;
ad ogni modo, però, l’obiettivo principale del subspace clustering consiste nella ricerca di
tutti i cluster in tutti i sottospazi di interesse, mentre il projective clustering mira alla
scoperta di una singola partizione dei dati.
In [3], si pone l’attenzione per la prima volta sul problema del projective clustering ensembles (PCE), il cui obiettivo principale è quello di derivare un’opportuna projective
consensus partition da un ensemble costituito da soluzioni di projective clustering. PCE
viene formulato come problema di ottimizzazione atto a soddisfare vincoli sull’indipendenza dallo specifico algoritmo di clustering ensembles e sulla capacità di trattare ensemble
costituiti da soluzioni di clustering hard e soft, cosı̀ come soluzioni di clustering basate
su differenti rappresentazioni dell’associazione feature-cluster. In particolare, vengono definite due formulazioni per il problema PCE: una formulazione a due obiettivi, la quale
mira a considerare separatamente le rappresentazioni object-based e feature-based delle
soluzioni nell’ensemble, e una formulazione a singolo obiettivo, in cui le rappresentazioni
object-based e feature-based vengono combinate in un’unica funzione obiettivo.
La formulazione a singolo obiettivo per il problema PCE introdotta in [3] permette di
ottenere un guadagno sostanziale in termini di efficienza rispetto alla formulazione a due
obiettivi, al costo di una minore accuratezza. Per tale motivo, la formulazione a singolo
obiettivo viene migliorata in [16], in maniera tale da mantenere il vantaggio in termini
di efficienza rispetto alla formulazione a due obiettivi, ma nello stesso tempo riuscire ad
ottenere miglioramenti in termini di accuratezza.
Una formulazione alternativa del problema PCE viene altresı̀ proposta in [1]. Tale formulazione si pone come obiettivo principale la risoluzione delle problematiche delle precedenti
formulazioni, trattando le rappresentazioni object-based e feature-based dei vari cluster simultaneamente. In tale ambito, vengono definite due algoritmi cluster-based per l’approssimazione efficiente della formulazione proposta; tali algoritmi hanno entrambi il merito
di essere conformi a uno degli approcci standard al problema del clustering ensembles.
Infine, in [12] viene proposto un approccio multi-obiettivo basato su preferenze. Tale
approccio affronta il problema PCE mediante euristiche multiple, applicando una strategia
a gradiente ascendente come procedura di selezione.
Clustering di documenti basato su viste e classificazioni multiple. Il clustering
di documenti testuali viene tipicamente eseguito sfruttando solo il contenuto testuale presente nei documenti. Poca attenzione da parte della ricerca scientifica è stata invece posta
sul caso in cui un singolo clustering dei documenti deve essere definito a partire da un
numero di preesistenti classificazioni dei documenti stessi. Tali classificazioni possono essere interpretate come viste multiple di una stessa collezione di documenti che potrebbero
derivare dalle informazioni fornite manualmente da differenti utenti o estratte in maniera
automatica da vari algoritmi di classificazione.
Nel lavoro [10] viene proposto un approccio innovativo al problema del clustering di documenti quando si ha la disponibilità di differenti classificazioni dei documenti in input.
Oltre a considerare il contenuto testuale dei documenti, l’approccio proposto sfrutta le
8
associazioni tra documenti fornite dalle varie classificazioni, cosı̀ da catturare il modo con
cui i documenti tendono ad essere raggruppati. A tale fine, viene construto un tensore a
tre mode sullo spazio dei termini presenti nei documenti e sullo spazio definito dalle associazioni frequenti tra documenti. Una volta costruito, tale tensore viene successivamente
decomposto al fine di estrarre un singolo clustering di documenti da fornire come output
finale.
IV. Clustering di dati probabilistici [2,4,15,21,22,30,31]
Per oggetto incerto (uncertain object) si intende un particolare tipo di oggetto la cui rappresentazione non è deterministica ma è bensı̀ basata sulla definizione di una distribuzione di probabilità
definita su una specifica regione multidimensionale. Per quel che riguarda il clustering di tale
tipologia di oggetti, diversi approcci di tipo partizionale e basati su densità sono stati fin qui
definiti; al contrario, nessuno degli algoritmi esistenti abbraccia il paradigma gerarchico. Il primo algoritmo di tipo gerarchico per il clustering di oggetti incerti viene proposto in [21]. Tale
algoritmo, detto U-AHC, è essenzialmente basato sulla definizione di un innovativo criterio di
merging tra cluster che sfrutta concetti derivanti dall’information theory.
Per quanto riguarda gli algoritmi di tipo partizionale, il noto algoritmo K-means è stato
recentemente adattato al contesto degli oggetti incerti. Tale algoritmo ha però due grossi problemi che riguardano da un lato l’accuratezza, poichè i centroidi di ogni cluster hanno una
rappresentazione deterministica, e dall’altro l’efficienza, dovuto alla necessità di effettuare costose operazioni di calcolo della distanza tra ogni oggetto e ogni centroide. In [22] viene definito
l’algoritmo UK-medoids, il cui fine è quello di attenuare gli effetti negativi di tali problematiche.
L’obiettivo prefisso viene raggiunto da UK-medoids grazie all’adozione di un’accurata misura di
distanza tra oggetti incerti e il ricorso ad un approccio di tipo K-medoids.
Un ulteriore problema comune alla maggior parte degli esistenti algoritmi per il clustering
di oggetti incerti è dato dalla limitata efficienza; ciò è tipicamente dovuto al fatto che le nozioni
di distanza tra oggetti incerti spesso contribuiscono in maniera rilevamente al degrado delle
performance. In [2] viene proposta una nuova formulazione al problema del clustering di oggetti
incerti, che mira a risolvere tale problema. L’obiettivo principale in tale ambito è quello di
definire un nuovo algoritmo, MMVar, basato sul criterio di minimizzazione della varianza dei
mixture model che rappresentano i vari cluster da identificare. La caratteristica principale di tale
algoritmo è quella di fornire una soluzione al problema del clustering di dati incerti in maniera
accurata ed efficiente, senza ricorrere all’utilizzo di alcuna misura di distanza tra dati incerti.
Il lavoro [4] presenta un’analisi teorica sui maggiori algoritmi partizionali di clustering di
oggetti incerti esistenti. In tale ambito, vengono messe a nudo le debolezze teoriche di tali
approcci e viene quindi proposto un approccio alternativo basato su una innovativa nozione
di centroide. In particolare, il centroide di un cluster di oggetti incerti viene visto come una
variabile aleatoria le cui realizzazioni sono definite sulla base delle rappresentazioni (multiple)
dei vari oggetti appartenenti al cluster da rappresentare. Le analisi sia teoriche che sperimentali
effettuate mostrano come tale approccio consenta di ottenere una maggiore accuratezza nel
clustering di oggetti incerti, pur restando comparabile in termini di efficienza con gli approcci
più veloci esistenti in letteratura.
9
V. Managing e mining di dati semistrutturati [6,27,28,29]
La diffusione dei dati testuali semistrutturati è oggigiorno in continua crescita. Tali dati vengono
tipicamente rappresentati mediante quello che può ormai considerare come uno standard de-facto
per la rappresentazione di dati semistrutturati, ossia XML. In quest’ambito, una tematica particolarmente interessante è rappresentata dal clustering di documenti XML, che costituisce un
task di notevole importanza per una miriade di applicazioni. Ad esempio, domini applicativi che
necessitano di organizzare documenti dotati di strutture complesse o documenti costituiti da poche porzioni strutturate che coesistono insieme ad ampie porzioni prive di struttura tipicamente
traggono notevoli benefici da task di clustering.
In [6] viene proposto un innovativo framework per il clustering distribuito di tipo collaborativo di documenti XML. In particolare, i documenti XML sono mappati in un dominio
transazionale, che si basa, essenzialmente, sulla nozione di XML tree tuple. Il framework proposto sfrutta un algoritmo di clustering partizionale basato su centroide che viene eseguito in
un ambiente distribuito di tipo peer-to-peer. Ogni peer della rete è responsabile del calcolo
sia di soluzioni locali di clustering (centroidi locali), basandosi sulla porzione di dati che ha a
disposizione, che di (parte di) soluzioni globali (centroidi globali), sfruttando le informazioni
locali provenienti dagli altri peer nella rete.
Fin dall’adozione di XML come standard per la rappresentazione e lo scambio di dati semistrutturati sul Web, grande attenzione è stata posta allo studio di vincoli di integrità per
documenti XML. Le tipologie di vincoli definite hanno riguardato il semplice meccanismo di
riferimento fornito dal costrutto ID/IDREF presente nelle specifiche DTD, chiavi e chiavi esterne definite dalle specifiche XML Schema, dipendenze funzionali e vari tipi di vincoli di path
(path constraints). La maggior parte del lavoro in quest’ambito ha riguardato principalmente la
definizione di nuove forme di vincoli XML, oppure la validazione di tipologie di vincoli XML già
esistenti, o ancora l’uso di vincoli di integrità per la progettazione di sorgenti dati XML. L’obiettivo principale perseguito nel lavoro di tesi specialistica, dal titolo “Interrogazione e Riparazione
di Basi di Dati XML Inconsistenti” (cf. Sezione 1.2), ha riguardato la trattazione di documenti
XML inconsistenti rispetto a un DTD e ad un insieme di vincoli di integrità appartenenti ad una
particolare classe denominata dipendenze funzionali. In particolare, sono state definite tecniche
innovative per l’interrogazione e la riparazione di documenti XML non conformi (inconsistenti)
ai suddetti vincoli.
VI. Managing e mining di dati biologici [5,8,19,23,24]
Lo sviluppo di applicazioni nel settore biomedico richiede la trattazione di ingenti quantità di
dati, che scaturiscono, ad esempio, dall’identificazione di allineamenti e similarità tra sequenze DNA, dallo studio delle funzionalità dei vari geni, dalla registrazione di immagini mediche
o di record elettronici (EMR). In quest’ambito, un ruolo cruciale è svolto da dati derivanti
da Spettrometria di Massa (in inglese Mass Spectrometry (MS)) e dati di espressione genica
(emphmicroarray).
Rappresentazione, mining, e analisi di dati proteomici.
La Spettrometria di
Massa racchiude un insieme di metodologie, strumenti e applicazioni atti all’estrazione di
informazioni utili dall’analisi del contenuto proteico di campioni biologici. Diverse tecniche
di data management e mining sono state impiegate insieme alle tecnologie MS per guidare
gli analisti al riconoscimento di informazioni rilevanti. Uno scoglio contro il quale tali
10
tecniche vanno inevitabilmente a cozzare è rappresentato dall’elevata dimensionalità dei
dati MS e dalla presenza di innumerevoli fattori esterni che inficiano notevolmente la
purezza di tali dati.
Il lavoro [8] descrive un sistema innovativo per l’analisi e la gestione di dati MS. Tale
sistema, il cui nome è MaSDA, ha le seguenti caratteristiche: (i) i dati MS vengono
modellati in accordo ad un approccio basato su serie temporali, definito in [5]; (ii) il preprocessamento di dati MS viene effettuato attraverso un tool di semplice utilizzo introdotto
in [23], che mette a disposizione un’ampia gamma di operazioni; (iii) diversi task di data
maining ed analisi dei dati sono resi disponibili dal sistema, in modo tale da fornire un
valido supporto per decisioni critiche in ambito biomedico.
Rappresentazione, mining, e analisi di dati di espressione genica.
Differentemente dalla proteomica (che rappresenta la scienza di riferimento per le tecniche di
spettrometria di massa), uno dei principali obiettivi della genomica è quello di scoprire
le relazioni che intercorrono tra i vari geni e il ruolo che queste svolgono nella nascita e
nello sviluppo delle malattie. La tecnologia DNA microarray è molto usata in genomica e
biologia molecolare per misurare la quantità relativa di un ingente numero di geni presenti
in un campione biologico in un singolo esperimento, in maniera simultanea. Il risultato
finale di ogni esperimento microarray è una matrice costituita da valori di intensità che
misurano il livello di espressione di ogni singolo gene. Per costruire tale matrice, i chip
microarray sfruttano una serie di particolari sensori (probes) che vengono usati per captare
informazioni dai campioni biologici che si stanno analizzando. Queste misurazioni sono
affette da incertezza, denominata incertezza di tipo probe-level.
In [19] viene proposto un approccio innovativo per la modellazione dell’incertezza probelevel, essenzialmente basato sull’algoritmo gerarchico per il clustering di oggetti incerti
introdotto in [21]. Tale approccio consente di aumentare il potere espressivo dei dati microarray, contribuendo a migliorare l’accuratezza delle tecniche di processamento e analisi
di tali dati.
VII. Mining di dati spazio-temporali [7,18,32]
Una serie temporale è una successione di valori numerici (reali), atti a rappresentare l’evoluzione
di un oggetto nel corso del tempo. Dati di questo tipo sono tipicamente gestiti da un’innumerevole quantità di applicazioni. In tale ambito, di cruciale importanza è il problema della ricerca
e dell’identificazione di similarità tra serie temporali, che deve soddisfare, allo stesso tempo, sia
requisiti di efficienza che di accuratezza.
In [7] viene definito un nuovo modello per la rappresentazione di serie temporali. Tale
modello, che prende il nome di Derivative time series Segment Approximation (DSA), sfrutta
in maniera originale le nozioni di derivazione, segmentazione e approssimazione dei segmenti in
modo tale da ottenere un’elevata compressione, facendo in modo, allo stesso tempo, che non si
riscontrino perdite significative in termini di accuratezza. Il modello DSA è altresı̀ alla base di
un framework utilizzato per l’analisi di dati di curve di carico relative al consumo di energia
elettrica per utenti domestici [18]. La principale applicazione di tale framework ha riguardato
la caratterizzazione di clienti ENEL (compagnia italiana fornitrice di energia elettrica).
11
3
Attività Professionali
3.1
Attività Organizzative
• Program co-Chair del 4th MultiClust Workshop: Multiple Clusterings, Multi-view Data,
and Multi-source Knowledge-driven Clustering, organizzato in concomitanza con la conferenza ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,
2013 (KDD ‘13 )
• Program co-Chair del 1st International Workshop on Multi-view data, Highdimensionality, External Knowledge: Striving for a Unified Approach to Clustering 3Clust
‘12 ), organizzato in concomitanza con la conferenza Pacific-Asia Conference on Knowledge
Discovery and Data Mining, 2012 (PAKDD ‘12 )
3.2
Comitati di Programma
• Membro del comitato di programma della conferenza International World Wide Web
Conference, 2014 (WWW ‘14 )
• Membro del comitato di programma della conferenza ACM International Conference on
Web Search and Data Mining, 2014 (WSDM ‘14 )
• Membro del comitato di programma della conferenza ACM International Conference on
Information and Knowledge Management, 2013 (CIKM ‘13 )
• Membro del comitato di programma della conferenza ACM International Conference on
Web Search and Data Mining, 2013 (WSDM ‘13 )
• Membro del comitato di programma del 1st International Workshop on Ensemble Methods for Clustering and Co-Clustering (EMClust), organizzato in concomitanza con la
conferenza IEEE International Conference on Data Mining, 2013 (ICDM ‘13 )
• Membro del comitato di programma della conferenza ACM International Conference on
Information and Knowledge Management, 2012 (CIKM ‘12 )
• Membro del comitato di programma della conferenza SIAM International Conference on
Data Mining, 2012 (SDM ‘12 )
• Membro del comitato di programma del workshop 3rd MultiClust Workshop: Discovering, Summarizing and Using Multiple Clusterings organizzato in concomitanza con la
conferenza SIAM International Conference on Data Mining, 2012 (SDM ‘12 )
• Membro del comitato di programma della conferenza International Conference on Emerging Intelligent Data and Web Technologies, 2011 (EIDWT ‘11 ), track Data Mining and
Knowledge Discovery
3.3
Attività di Revisione
Ha svolto le seguenti attività di revisione in qualità di revisore esterno:
12
3.3.1
Riviste
• IEEE Transactions on Data and Knowledge Engineering (TKDE) (2013, 2012, 2011, 2010)
• Data Mining and Knowledge Discovery (DAMI) (2013)
• Statistical Analysis and Data Mining (SAM) (2013)
• Machine Learning (2012)
• Knowledge and Information Systems (KAIS) (2012, 2011)
• ACM Transactions on Intelligent Systems and Technology (TIST) (2012)
• AI Communications (2012)
• International Journal of Information Technology & Decision Making (IJITDM) (2012)
• Information Systems (2011)
• Journal of Computational Science (2011)
• Journal of Intelligent and Robotic Systems (JINT) (2011)
• Pattern Recognition (2009)
• Computational Intelligence (2009)
3.3.2
Capitoli di Libro
• Encyclopedia of Database Technologies and Applications, 2nd edition (2007)
3.3.3
Conferenze
• ACM SIGMOD International Conference on Management of Data (SIGMOD) (2013)
• ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
(KDD) (2013, 2012)
• IEEE International Conference on Data Mining (ICDM ) (2013, 2011, 2009)
• International Conference on Extending Database Technology (EDBT ) (2013)
• European Conference on Machine Learning and Principles and Practice of Knowledge
Discovery in Databases (ECML PKDD) (2012, 2011)
• International World Wide Web Conference (WWW ) (2011)
• SIAM International Conference on Data Mining (SDM ) (2011, 2010)
• ACM International Conference on Information and Knowledge Management (CIKM )
(2011, 2010)
• International Conference on Data Warehousing and Knowledge Discovery (DaWaK )
(2011)
13
• IEEE Symposium on Computational Intelligence and Data Mining (CIDM ) (2011)
• International Conference on Emerging Databases (EDB ) (2010)
• International Database Engineering & Applications Symposium (IDEAS ) (2010, 2009)
• Italian Symposium on Advanced Database Systems (SEBD) (2011, 2008, 2007)
3.4
Partecipazione a Conferenze
• 38th International Conference on Very Large Databases (VLDB ‘12), Istanbul, Turchia,
27-31 Agosto, 2012: talk di presentazione del lavoro [4]
• 19th Italian Symposium on Advanced Database Systems (SEBD ‘11), Maratea, Italy, 26-29
Giugno, 2011
• 2011 ACM SIGMOD International Conference on Management of Data (SIGMOD ‘11),
Atene, Grecia, 12-16 Giugno, 2011: talk di presentazione del lavoro [14]
• 10th IEEE International Conference on Data Mining (ICDM ‘10), Sydney, Australia,
14-17 Dicembre, 2010: talk di presentazione dei lavori [16] e [15]
• 9th IEEE International Conference on Data Mining (ICDM ‘09), Miami, Florida (USA),
6-9 Dicembre, 2009: talk di presentazione del lavoro [17]
• 13th International Database Engineering & Applications Symposium (IDEAS ‘09),
Cetraro, Italia, 16-18 Settembre, 2009: talk di presentazione del lavoro [18]
• 9th SIAM International Conference on Data Mining (SDM ‘09), Sparks, Nevada (USA),
30 Aprile-2 Maggio, 2009 (lavoro [20], Student Travel Award)
• 8th IEEE International Conference on Data Mining (ICDM ‘08), Pisa, Italia, 15-19
Dicembre, 2008 (lavoro [21])
• 2nd International Conference on Scalable Uncertainty Management (SUM ‘08), Napoli,
Italia, 1-3 Ottobre, 2008: talk di presentazione del lavoro [22]
• 20th IEEE International Symposium on Computer-Based Medical Systems (CBMS ’07),
Maribor, Slovenia, 20-23 Giugno, 2007: talk di presentazione del lavoro [24]
4
Attività Didattiche
4.1
4.1.1
Attività Didattica Universitaria
Università della Calabria
Dall’Anno Accademico 2005-2006 all’Anno Accademico 2010-2011 ha svolto attività didattica
presso l’Università della Calabria. In particolare:
• Anno Accademico 2010-2011
14
– Esercitatore per il corso di Fondamenti di Informatica (6 CFU), Facoltà di Ingegneria,
Corsi di Laurea in Ingegneria (I anno, I semestre)
– Esercitatore per il corso di Fondamenti di Informatica (4 CFU), Facoltà di Scienze
Politiche, Corso di Laurea in Scienze Politiche (I anno, I semestre)
– Esercitatore per il corso di Informatica (2 CFU), Facoltà di Scienze Politiche, Corso
di Laurea Specialistica in Scienze Politiche (I anno, II semestre)
• Anno Accademico 2009-2010
– Docente del modulo didattico di Informatica (15 ore), Percorsi di Azzeramento Deficit
Competenze (Laurea I livello, I anno), Facoltà di Ingegneria, Classe L
– Docente del modulo didattico di Informatica (20 ore), Percorsi di Azzeramento Deficit
Competenze (Laurea I livello, I anno), Facoltà di Farmacia, Classe 13
– Docente del modulo didattico di Informatica (20 ore), Percorsi di Azzeramento Deficit
Competenze (Laurea I livello, I anno), Facoltà di Farmacia, Classe 21
– Esercitatore per il corso di Algoritmi per Internet e Crittografia (5 CFU), Facoltà di
Ingegneria, Corso di Laurea Specialistica in Ingegneria Informatica (II anno, I periodo
didattico)
– Esercitatore per il corso di Fondamenti di Informatica (6 CFU), Facoltà di Ingegneria,
Corsi di Laurea in Ingegneria (I anno, I semestre)
– Esercitatore per il corso di Fondamenti di Informatica (4 CFU), Facoltà di Scienze
Politiche, Corso di Laurea in Servizio Sociale e Sociologia (I anno, II semestre)
– Esercitatore per il corso di Fondamenti di Informatica (4 CFU), Facoltà di Scienze
Politiche, Corso di Laurea in Scienze Politiche (I anno, II semestre)
• Anno Accademico 2008-2009
– Docente del modulo didattico di Informatica (32 ore), Percorsi di Azzeramento Deficit
Competenze (Laurea I livello, I anno), Facoltà di Scienze Politiche, Classe 14
– Docente del modulo didattico di Informatica (32 ore), Percorsi di Azzeramento Deficit
Competenze (Laurea I livello, I anno), Facoltà di Scienze Politiche, Classe 15
– Docente del modulo didattico di Informatica (20 ore), Percorsi di Azzeramento Deficit
Competenze (Laurea I livello, I anno), Facoltà di Farmacia, Classe Q
– Tutor Animatore per il modulo didattico di Informatica (30 ore), Percorsi di Azzeramento Deficit Competenze (Laurea I livello, I anno), Facoltà di Ingegneria, Gruppo
P6
– Esercitatore per il corso di Fondamenti di Informatica I (2 CFU), Facoltà di Scienze
Politiche, Corso di Laurea in Scienze Politiche (I anno, I periodo didattico)
– Esercitatore per il corso di Sistemi Informatici per Internet (5 CFU), Facoltà di
Ingegneria, Corsi di Laurea (III anno, II periodo didattico) e Laurea Specialistica (II
anno, II periodo didattico) in Ingegneria Informatica
• Anno Accademico 2007-2008
15
– Esercitatore per il corso di Sistemi Informatici per Internet (5 CFU), Facoltà di
Ingegneria, Corsi di Laurea (III anno, II periodo didattico) e Laurea Specialistica (II
anno, II periodo didattico) in Ingegneria Informatica
– Esercitatore per il corso di Informatica (2 CFU), Facoltà di Scienze Politiche, Corso
di Laurea Specialistica in Scienze Politiche (I anno, III periodo didattico)
– Esercitatore per il corso di Basi di Dati e Conoscenza (5 CFU), Facoltà di Ingegneria,
Corso di Laurea Specialistica in Ingegneria Informatica (I anno, III periodo didattico)
• Anno Accademico 2006-2007
– Esercitatore per il corso di Algoritmi e Strutture Dati (5 CFU), Facoltà di Ingegneria,
Corso di Laurea in Ingegneria Informatica (II anno, II periodo didattico)
– Esercitatore per il corso di Sistemi Informatici per Internet (5 CFU), Facoltà di
Ingegneria, Corsi di Laurea (III anno, II periodo didattico) e Laurea Specialistica (II
anno, II periodo didattico) in Ingegneria Informatica
– Esercitatore per il corso di Informatica (2 CFU), Facoltà di Scienze Politiche, Corso
di Laurea Specialistica in Scienze Politiche (I anno, III periodo didattico)
• Anno Accademico 2005-2006
– Esercitatore per il corso di Sistemi Informatici per Internet (5 CFU), Facoltà di
Ingegneria, Corsi di Laurea (III anno, II periodo didattico) e Laurea Specialistica (II
anno, II periodo didattico) in Ingegneria Informatica
– Esercitatore per il corso di Basi di Dati e Conoscenza (5 CFU), Facoltà di Ingegneria,
Corso di Laurea Specialistica in Ingegneria Gestionale (I anno, III periodo didattico)
4.1.2
Università Magna Græcia di Catanzaro
Dall’Anno Accademico 2007-2008 all’Anno Accademico 2010-2011 ha svolto attività didattica
presso l’Università Magna Græcia di Catanzaro. In particolare:
• Anno Accademico 2010-2011
– Docente del corso di Informatica (2 CFU), Facoltà di Medicina e Chirurgia, Corso di
Laurea in Scienze Infermieristiche — Polo Didattico di Crotone (III anno, II semestre)
– Attività didattica integrativa per il corso di Fondamenti di Informatica I (6 CFU),
Corso di Laurea Interateneo in Ingegneria Informatica e Biomedica (I anno, I
semestre)
• Anno Accademico 2009-2010
– Docente del corso di Informatica (2 CFU), Facoltà di Medicina e Chirurgia, Corso di
Laurea in Scienze Infermieristiche — Polo Didattico di Crotone (III anno, I semestre)
– Docente dell’insegnamento di Attività di Laboratorio Informatico (2 CFU), corso integrato di Laboratorio Informatico, Facoltà di Medicina e Chirurgia, Corso di Laurea
in Igienista Dentale — Polo di Catanzaro (III anno, II semestre)
16
– Attività didattica integrativa per il corso di Fondamenti di Informatica I (10 CFU),
Corso di Laurea Interateneo in Ingegneria Informatica e Biomedica (I anno, I
semestre)
– Attività didattica integrativa per l’insegnamento di Informatica (1 CFU), corso integrato di Informatica, Facoltà di Medicina e Chirurgia, Corso di Laurea delle Professioni Sanitarie (Tronco Comune, Tecnici e Riabilitatori) — Polo di Catanzaro (III
anno, I semestre)
• Anno Accademico 2008-2009
– Docente del corso di Informatica (2 CFU), Facoltà di Medicina e Chirurgia, Corso di
Laurea in Scienze Infermieristiche — Polo Didattico di Crotone (III anno, I semestre)
– Docente dell’insegnamento di Informatica (1 CFU), corso integrato di Scienze Fisiche,
Informatiche e Statistiche, Facoltà di Medicina e Chirurgia, Corso di Laurea in Scienze
Infermieristiche — Polo Didattico di Crotone (I anno, I semestre)
– Attività didattica integrativa per il corso di Fondamenti di Informatica I (10 CFU),
Corso di Laurea Interateneo in Ingegneria Informatica e Biomedica (I anno, I
semestre)
• Anno Accademico 2007-2008
– Docente del corso di Informatica (2 CFU), Facoltà di Medicina e Chirurgia, Corso di
Laurea in Scienze Infermieristiche — Polo Didattico di Crotone (III anno, I semestre)
– Attività didattica integrativa per il corso di Fondamenti di Informatica I (10 CFU),
Corso di Laurea Interateneo in Ingegneria Informatica e Biomedica (I anno, I
semestre)
4.1.3
Tesi di Laurea Revisionate
• “Graph Partitioning per Clustering Ensembles”, relatori Prof. A. Tagarelli, Ing. F. Gullo,
candidato Fabrizio Granieri, Laurea N.O. (I livello). Dipartimento di Elettronica, Informatica e Sistemistica (DEIS), Facoltà di Ingegneria, Università della Calabria, A.A.
2009/10
• “Graph Partitioning per Clustering Ensembles”, relatori Prof. A. Tagarelli, Ing. F. Gullo,
candidato Ronny Meringolo, Laurea N.O. (I livello). Dipartimento di Elettronica, Informatica e Sistemistica (DEIS), Facoltà di Ingegneria, Università della Calabria, A.A.
2009/10
• “Metodi di Clustering Ensembles”, relatori Ing. A. Tagarelli, Ing. F. Gullo, candidato
Antonio Senno, Laurea Specialistica (II livello). Dipartimento di Elettronica, Informatica
e Sistemistica (DEIS), Facoltà di Ingegneria, Università della Calabria, A.A. 2008/09
• “Serie temporali multidimensionali: Identificazione di similarità e tecniche di clustering”,
relatori Prof. S. Greco, Ing. F. Gullo, Ing. G. Ponti, Ing. A. Tagarelli, candidato
Giuseppe Scrivano, Laurea N.O. (I livello). Dipartimento di Elettronica, Informatica e
Sistemistica (DEIS), Facoltà di Ingegneria, Università della Calabria, A.A. 2006/07
17
• “Algoritmi per il Clustering di Serie Temporali”, relatori Prof. S. Greco, Ing. A. Tagarelli,
Ing. F. Gullo, Ing. G. Ponti, candidato Emanuele Forlano, Laurea V.O. Dipartimento di
Elettronica, Informatica e Sistemistica (DEIS), Facoltà di Ingegneria, Università della
Calabria, A.A. 2005/06
4.2
Altre Attività Didattiche
• Nel periodo 13 ottobre 2008—30 gennaio 2009 ha svolto attività didattica in merito ad un
percorso formativo per “Tirocinio Locale Alta Formazione Plus”, promosso dalla Direzione
Generale del Mercato del Lavoro (DGML) del Ministero del Lavoro e della Previdenza Sociale (MLPS), dalla Facoltà di Ingegneria dell’Università della Calabria e da Italia Lavoro
SpA, e realizzato all’interno del progetto Lavoro & Sviluppo, atto di concessione di contributo del MLPS del 14/12/2005 (FSE PON-SIL MIS.3/FdR EX LEGE 183/87). Soggetto
Attuatore: Azienda ITKEY SRL, c/da Concistocchi - Rende (CS).
L’attività è consistita in 20 ore relative alle Unità Didattiche 2, 3, 5 (Formazione in Aula),
materie: “Infrastrutture per applicazioni J2EE ”, “Java Persistence API ”, “Introduzione ai
sistemi per il workflow management”. Soggetti beneficiari: Domenico Franzè, Alessandra
Marrelli
• Nel periodo 1—30 settembre 2008 ha svolto attività didattica in merito ad un percorso
formativo per “Tirocinio Locale Alta Formazione Plus”, promosso dalla Direzione Generale del Mercato del Lavoro (DGML) del Ministero del Lavoro e della Previdenza Sociale
(MLPS), dalla Facoltà di Ingegneria dell’Università della Calabria e da Italia Lavoro SpA,
e realizzato all’interno del progetto Lavoro & Sviluppo, atto di concessione di contributo del MLPS del 14/12/2005 (FSE PON-SIL MIS.3/FdR EX LEGE 183/87). Soggetto
Attuatore: Azienda Edizioni Master SPA, c/da Lecco, 64 - Zona Industriale - Rende (CS).
L’attività è consistita in 16 ore relative all’Unità Didattica 2 (Formazione in Aula), materia:
“Gli Strumenti di Sviluppo nei Sistemi Web-based ”. Soggetto beneficiario: Pierpaolo De
Santo
• Nel periodo gennaio—marzo 2007 ha ricoperto un incarico di esercitatore nell’ambito del
modulo “Programmazione Avanzata e Algoritmi ” del Progetto “Pilot” (Piattaforma di
Interoperabilità per la LOgistica ed i Trasporti), organizzato da ETNOTEAM S.p.A, con
la collaborazione del Dipartimento di Elettronica, Informatica e Sistemistica (DEIS) dell’Università della Calabria e del Dipartimento di Informatica, Matematica, Elettronica e
Trasporti (DIMET) dell’Università Mediterranea di Reggio Calabria
18
5
5.1
Elenco delle Pubblicazioni
Riviste Internazionali
1 F. Gullo, C. Domeniconi, A. Tagarelli, Metacluster-based Projective Clustering Ensembles.
Machine Learning, ONLINE FIRST, 2013 (DOI: http://dx.doi.org/10.1007/s10994-013-5395-y)
2 F. Gullo, G. Ponti, A. Tagarelli, Minimizing the Variance of Cluster Mixture Models for
Clustering Uncertain Objects. Statistical Analysis and Data Mining, 6(2):116-135, 2013 (DOI:
http://dx.doi.org/10.1002/sam.11170)
3 F. Gullo, C. Domeniconi, A. Tagarelli, Projective Clustering Ensembles. Data Mining and
Knowledge Discovery (DAMI), 26(3):452-511, 2013 (DOI: http://dx.doi.org/10.1007/s10618012-0266-x)
4 F. Gullo, A. Tagarelli, Uncertain Centroid based Partitional Clustering of Uncertain Data.
Proceedings of the VLDB Endowment (PVLDB), 5(7):610-621, 2012
5 F. Gullo, G. Ponti, A. Tagarelli, G. Tradigo, P. Veltri, A Time Series Approach for Clustering Mass Spectrometry Data. Journal of Computational Science, 3(5):344-355, 2012 (DOI:
http://dx.doi.org/10.1016/j.jocs.2011.06.008)
6 S. Greco, F. Gullo, G. Ponti, A. Tagarelli, Collaborative Clustering of XML Documents. Journal of Computer and System Sciences (JCSS), 77(6):988-1008, 2011 (DOI:
http://dx.doi.org/10.1016/j.jcss.2011.02.005).
2010 Impact Factor: 1.631, 5-year Impact Factor: 1.721
7 F. Gullo, G. Ponti, A. Tagarelli, S. Greco, A Time Series Representation Model for Accurate and Fast Similarity Detection. Pattern Recognition, 42(11):2998-3014, 2009 (DOI:
http://dx.doi.org/10.1016/j.patcog.2009.03.030).
2010 Impact Factor: 2.607, 5-year Impact Factor: 3.402
8 F. Gullo, G. Ponti, A. Tagarelli, G. Tradigo, P. Veltri, MaSDA: A System for Analyzing Mass Spectrometry Data. Computer Methods and Programs in Biomedicine (CMPB),
95(2 suppl.):S12-S21, 2009 (DOI: http://dx.doi.org/10.1016/j.cmpb.2009.02.011).
2010 Impact Factor: 1.238, 5-year Impact Factor: 1.402
5.2
Conferenze Internazionali
9 C. E. Tsourakakis, F. Bonchi, A. Gionis, F. Gullo, M. A. Tsiarli, Denser than the densest subgraph: extracting optimal quasi-cliques with quality guarantees. In Proceedings of the
ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ‘13).
Chicago, Illinois (USA), August 11-14, 2013 (TO APPEAR)
10 S. Romeo, A. Tagarelli, F. Gullo, S. Greco, A Tensor-based Clustering Approach for Multiple Document Classifications. In Proceedings of the International Conference on Pattern
Recognition Applications and Methods (ICPRAM ‘13). Barcelona, Spain, February 15-18, 2013
19
11 F. Bonchi, A. Gionis, F. Gullo, A. Ukkonen, Chromatic Correlation Clustering. In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
(KDD ‘12), pp. 1321-1329. Beijing, China, August 12-16, 2012
12 F. Gullo, A. K. A. Talukder, S. Luke, C. Domeniconi, A. Tagarelli, Multiobjective Optimization of Co-Clustering Ensembles. In Proceedings of the Genetic and Evolutionary Computation
Conference (GECCO ‘12), pp. 1495-1496. Philadelphia, PA (USA), July 7-11, 2012
13 A. Tagarelli, F. Gullo, Evaluating PageRank Methods for Structural Sense Ranking in
Labeled Tree Data. In Proceedings of the International Conference on Web Intelligence, Mining
and Semantics (WIMS ‘12). Craiova, Romania, June 13-15, 2012
14 F. Gullo, C. Domeniconi, A. Tagarelli, Advancing Data Clustering via Projective Clustering
Ensembles. In Proceedings of the 2011 ACM SIGMOD International Conference on Management
of Data (SIGMOD ‘11), pp. 733-744. Athens, Greece, June 12-16, 2011
15 F. Gullo, G. Ponti, A. Tagarelli, Minimizing the Variance of Cluster Mixture Models for
Clustering Uncertain Objects. In Proceedings of the 10th IEEE International Conference on
Data Mining (ICDM ‘10), pp. 839-844. Sydney, Australia, December 14-17, 2010
16 F. Gullo, C. Domeniconi, A. Tagarelli, Enhancing Single-Objective Projective Clustering
Ensembles. In Proceedings of the 10th IEEE International Conference on Data Mining (ICDM
‘10), pp. 833-838. Sydney, Australia, December 14-17, 2010
17 F. Gullo, C. Domeniconi, A. Tagarelli, Projective Clustering Ensembles. In Proceedings
of the 9th IEEE International Conference on Data Mining (ICDM ‘09), pp. 794-799. Miami,
Florida (USA), December 6-9, 2009
18 F. Gullo, G. Ponti, A. Tagarelli, S. Iiritano, M. Ruffolo, D. Labate, Low-voltage Electricity
Customer Profiling based on Load Data Clustering. In Proceedings of the 13th International
Database Engineering & Applications Symposium (IDEAS ‘09), pp. 330-333. Cetraro, Italy,
September 16-18, 2009
19 F. Gullo, G. Ponti, A. Tagarelli, G. Tradigo, P. Veltri, Hierarchical Clustering of Microarray
Data with Probe-level Uncertainty. In Proceedings of the 22th IEEE International Symposium
on Computer-Based Medical Systems (CBMS ‘09). Albuquerque, New Mexico (USA), August
3-4, 2009
20 F. Gullo, A. Tagarelli, S. Greco, Diversity-based Weighting Schemes for Clustering Ensembles. In Proceedings of the 9th SIAM International Conference on Data Mining (SDM ‘09), pp.
437-448. Sparks, Nevada (USA), April 30-May 2, 2009
21 F. Gullo, G. Ponti, A. Tagarelli, S. Greco, A Hierarchical Algorithm for Clustering Uncertain
Data via an Information-Theoretic Approach. In Proceedings of the 8th IEEE International
Conference on Data Mining (ICDM ‘08), pp. 821-826. Pisa, Italy, December 15-19, 2008
22 F. Gullo, G. Ponti, A. Tagarelli, Clustering Uncertain Data via K-medoids. In Proceedings of
the 2nd International Conference on Scalable Uncertainty Management (SUM ‘08), pp. 229-242.
Napoli, Italy, October 1-3, 2008
20
23 F. Gullo, G. Ponti, A. Tagarelli, G. Tradigo, P. Veltri, MSPtool: A Versatile Tool for Mass
Spectrometry Data Preprocessing. In Proceedings of the 21th IEEE International Symposium on
Computer-Based Medical Systems (CBMS ‘08), pp. 209-214. Jyväskylä, Finland, June 17-19,
2008
24 F. Gullo, G. Ponti, A. Tagarelli, G. Tradigo, P. Veltri, A Time Series Based Approach for
Classifying Mass Spectrometry Data. In Proceedings of the 20th IEEE International Symposium
on Computer-Based Medical Systems (CBMS ‘07), pp. 412-417. Maribor, Slovenia, June 20-23,
2007
5.3
Volumi
25 I. Assent, C. Domeniconi, F. Gullo, A. Tagarelli, A. Zimek. MultiClust ’13: Proceedings
of the 4th MultiClust Workshop on Multiple Clusterings, Multi-view Data, and Multi-source
Knowledge-driven Clustering, co-located with the KDD ’13 conference, Chicago, Illinois (USA),
August 11 - 14, 2013. ACM, 2013, ISBN 978-1-4503-2334-5
26 T. Washio, J. Luo, P. Desikan, K.-W. Hsu, J. Srivastava, E.-P. Lim, M. Teisseire, M. Roche,
C. Domeniconi, F. Gullo, A. Tagarelli, H. K. Tan, W. C. Onn. Emerging Trends in Knowledge
Discovery and Data Mining - PAKDD 2012 International Workshops: DMHM, GeoDoc, 3Clust,
and DSDM, Kuala Lumpur, Malaysia, May 29 - June 1, 2012, Revised Selected Papers. LNAI
7769, Springer, 2013, ISBN 978-3-642-36777-9
5.4
Capitoli di Libro (con revisori esterni)
27 F. Gullo, G. Ponti, S. Greco, Organizing XML Documents on a Peer-to-Peer Network by
Collaborative Clustering. In XML Data Mining: Models, Methods, and Applications, IGI Global,
2012, pp. 449-466 (DOI: http://dx.doi.org/10.4018/978-1-61350-356-0.ch018)
5.5
Workshop e Conferenze Nazionali
28 S. Greco, F. Gullo, G. Ponti, A. Tagarelli, G. Agapito, Clustering XML Documents: a
Distributed Collaborative Approach. In Proceedings of the 18th Italian Symposium on Advanced
Database Systems (SEBD ‘10), pp. 406-413. Rimini, Italy, June 20-23, 2010
29 S. Greco, F. Gullo, G. Ponti, A. Tagarelli, Collaborative Clustering of XML Documents. In Proceedings of the 1st International Workshop on Distributed XML Processing: Theory
and Practice (DXP ‘09), in conjunction with the 38th International Conference on Parallel
Processing (ICPP ‘09). Vienna, Austria, September 22-25, 2009
30 F. Gullo, G. Ponti, A. Tagarelli, S. Greco, Information-Theoretic Hierarchical Clustering of
Uncertain Data. In Proceedings of the 17th Italian Symposium on Advanced Database Systems
(SEBD ‘09), pp. 273-280. Geneva, Italy, June 21-24, 2009
21
31 F. Gullo, G. Ponti, Hierarchical Clustering of Uncertain Data. In Doctoral Symposium
in conjunction with the 14th GII Doctoral School on Advances in Databases, Cetraro, Italy,
September 19, 2009
32 F. Gullo, G. Ponti, A. Tagarelli, S. Greco, Accurate and Fast Similarity Detection in Time
Series. In Proceedings of the 15th Italian Symposium on Advanced Database Systems (SEBD
‘07), pp. 172-183. Bari, Italy, June 17-20, 2007
Ai sensi della Legge 675/96 “Tutela delle persone e di altri soggetti rispetto al trattamento dei
dati personali”, autorizzo al trattamento dei dati personali contenuti nel presente curriculum nel
pieno rispetto di tale legge e limitatamente ai fini connessi alla gestione del curriculum medesimo.
Dichiaro inoltre di essere consapevole della responsabilità penale prevista, dall’art. 76 del
D.P.R. 445/2000, per le ipotesi di falsità in atti e dichiarazioni mendaci ivi indicate.
Rende, 12 agosto 2013
Francesco Gullo
22
Scarica

Curriculum Vitae et Studiorum