Multimedia information
retrieval
Problematica
• Materiale multimediale: non solo testo, ma audio
(speech, musica..) immagini, video
• Retrieval basato su criteri meno precisi del “keyword
match”:
– la somiglianza,
l’approssimazione,
i rapporti di misure e valori (es. face recognition)
• Utilizzando quali chiavi di ricerca e recupero:
– figure geometriche
– strutture
contorni
colori
suoni
– Ma anche rappresentazioni semantiche
Architettura di un sistema MIR
Feature
extraction
Feature
extraction
Multimedia retrieval
• Estrazione di caratteristiche
– Caratteristiche proprie del media: pixel,
contorni, segnale audio..
– Annotazioni testuali: “legenda” delle figure,
speech, annotazioni fatte da umani
• Funzione di matching
– Dal “bag of words”al “bag of features”
Features diverse possono essere combinate
I. Image retrieval
•
Caratteristiche:
1. geometriche
2. spettrali
3. semantiche
1.Features geometriche
•
•
•
•
Distanze (es. face recognition, OCR)
Archi (forme d’onda)
Linee (arterie stradali)
Forme complesse (triangoli, rettangoli..)
Esempio di estrazione di features
basata su “geometria”: face
recognition
•
•
•
•
scanning dell’iride
impronte digitali
distanza fra occhi, naso, bocca
segnale vocale
011001010010101…
011010100100110…
001100010010010...
Misure: Geometria facciale
Misure: Face recognition
immagine
Enroll:
Sistema di registrazione
Biometric
reader
”template
Feature
Extractor
1010010…
• La rappresentazione può essere più
complessa di un vettore di features
• Rappresentazione strutturata (ad es. i
templates, come per IE)
Applicazione : riconoscitore di identità
foto
recuperata
foto
“sorgente”
(query)
2.Features spettrali
2.1 Analisi di dati raster
– Segmentazione e clustering di dati raster
(immagini rappresentate mediante matrici
di celle con informazioni su colore,
intensità, luminosità, elevazione..)
2.2 Texture (tessellatura) analysis
– Riconoscimento di aree caratterizzate da
comuni caratteristiche di intensità e
struttura
2.2 Dati raster. Es:
un’immagine..
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
.. I suoi pixels
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
Features più complesse si ottengono
“raggruppando” i pixels sulla base di una
caratteristica (es. colore)
Celle adiacenti omogenee o simili rispetto ad un
descrittore (es. il colore) vengono raggruppate. Problema:
features più “compatte” ma in numero variabile.
Image Retrieval basato su
immagini raster
• Le immagini sono memorizzate ad esempio
in formato JPEG compresso
• Viene calcolato il coefficiente DC
dell’immagine e si crea un istogramma
• DC coefficient: il valore medio della forma
d’onda associata all’immagine spettrale
• L’utente sottomette una query “grafica”
• Viene paragonato l’istogramma DC della
query con quello del database di immagini
Es: istogramma dell’immagine
di un elefante
Applicazione : “retrieval” di
opere d’arte
La query è
un particolare
“best matching”
Notate che query e
particolare possono
non essere identici.
Ad es. la query può
essere scelta da un’
immagine prima di
un restautro
Esistono decine di misure di similarità, es. distanza eucliidea
.. E si possono avere varie
risposte ordinate per “rank”
query
2.2 Texture analysis
(tessellatura)
Texture analysis
• Metodi statistici (ogni tessello è caratterizzato
da un vettore delle caratteristiche)
• Strutturali (i tesselli sono visti come aree con
un significato, es: centri abitati)
• Sintattici (i tesselli vengono “combinati”
mediante una grammatica, es. graph
grammars )
field
residential
vegetation
(circondato da case)
3.Features semantiche: shape
recognition
• Riconoscere forme
(shapes) che
rappresentano oggetti
di un certo tipo
• Per “imparare” a
identificare le forme è
necessario addestrare i
sistemi con un insieme
di immagini di
“apprendimento”
Shape recognition
Problemi: variazione punti di
osservazione
Occlusioni parziali
Metodi di shape recognition:
shock graphs
Shape boundary
Shocks
Luogo dei centri delle
circonferenze massime
bitangenti ai confini della
figura
Esempio
Features di basso e alto livello
Immagine di partenza
Features di “basso
livello”: colori,
contorni, luminosità
..may be later..
Idealmente, descrizione semantica: “immagine di un porto,
con alcune persone Features
e nello sfondo
e faro”
di altogru
livello:
forme, quali
persone, edifici, cielo, torri, gru..
II. Video retrieval
• Un video è semplicemente una
sequenza di molte immagini
• Ogni immagine viene detta frame
Analisi dei video
• “Parsing” del video: si analizza l’intero video e lo si frammenta
in:
– Scena: un insieme di immagini correlate (gli elementi che
appaiono sono simili)
– Shot: Un sequenza ripresa da una singola telecamera
– Frame: una singola immagine
• Indexing: ai frames vengono assegnate delle features e si
genera un sistema di indici (come per IR tradizionale)
• L’informazione viene compressa, calcolando le differenze di
ogni frame rispetto a “key frames” (quelli che sono caratterizzati
da discontinuità, es. cambio di scena o shot)
• Retrieval and browsing: si accede ai vari video con chiavi di
ricerca testuali o immagini
Architettura di un sistema di
VR
I “key frames” sono quelli che segnalano delle discontinuità
Nei video si sfruttano anche
features testuali
• Metadata: titolo, autore, produttore,
data..
• Sottotitoli e trascrizioni degli autori
Architettura di un sistema di video indexing:
astrazione temporale e spaziale
III. Audio retrieval
Vari tipi di audio:
Features audio
Features audio (2)
Audio retrieval: tecniche
Scarica

features