Multimedia information retrieval Problematica • Materiale multimediale: non solo testo, ma audio (speech, musica..) immagini, video • Retrieval basato su criteri meno precisi del “keyword match”: – la somiglianza, l’approssimazione, i rapporti di misure e valori (es. face recognition) • Utilizzando quali chiavi di ricerca e recupero: – figure geometriche – strutture contorni colori suoni – Ma anche rappresentazioni semantiche Architettura di un sistema MIR Feature extraction Feature extraction Multimedia retrieval • Estrazione di caratteristiche – Caratteristiche proprie del media: pixel, contorni, segnale audio.. – Annotazioni testuali: “legenda” delle figure, speech, annotazioni fatte da umani • Funzione di matching – Dal “bag of words”al “bag of features” Features diverse possono essere combinate I. Image retrieval • Caratteristiche: 1. geometriche 2. spettrali 3. semantiche 1.Features geometriche • • • • Distanze (es. face recognition, OCR) Archi (forme d’onda) Linee (arterie stradali) Forme complesse (triangoli, rettangoli..) Esempio di estrazione di features basata su “geometria”: face recognition • • • • scanning dell’iride impronte digitali distanza fra occhi, naso, bocca segnale vocale 011001010010101… 011010100100110… 001100010010010... Misure: Geometria facciale Misure: Face recognition immagine Enroll: Sistema di registrazione Biometric reader ”template Feature Extractor 1010010… • La rappresentazione può essere più complessa di un vettore di features • Rappresentazione strutturata (ad es. i templates, come per IE) Applicazione : riconoscitore di identità foto recuperata foto “sorgente” (query) 2.Features spettrali 2.1 Analisi di dati raster – Segmentazione e clustering di dati raster (immagini rappresentate mediante matrici di celle con informazioni su colore, intensità, luminosità, elevazione..) 2.2 Texture (tessellatura) analysis – Riconoscimento di aree caratterizzate da comuni caratteristiche di intensità e struttura 2.2 Dati raster. Es: un’immagine.. QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture. .. I suoi pixels QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture. Features più complesse si ottengono “raggruppando” i pixels sulla base di una caratteristica (es. colore) Celle adiacenti omogenee o simili rispetto ad un descrittore (es. il colore) vengono raggruppate. Problema: features più “compatte” ma in numero variabile. Image Retrieval basato su immagini raster • Le immagini sono memorizzate ad esempio in formato JPEG compresso • Viene calcolato il coefficiente DC dell’immagine e si crea un istogramma • DC coefficient: il valore medio della forma d’onda associata all’immagine spettrale • L’utente sottomette una query “grafica” • Viene paragonato l’istogramma DC della query con quello del database di immagini Es: istogramma dell’immagine di un elefante Applicazione : “retrieval” di opere d’arte La query è un particolare “best matching” Notate che query e particolare possono non essere identici. Ad es. la query può essere scelta da un’ immagine prima di un restautro Esistono decine di misure di similarità, es. distanza eucliidea .. E si possono avere varie risposte ordinate per “rank” query 2.2 Texture analysis (tessellatura) Texture analysis • Metodi statistici (ogni tessello è caratterizzato da un vettore delle caratteristiche) • Strutturali (i tesselli sono visti come aree con un significato, es: centri abitati) • Sintattici (i tesselli vengono “combinati” mediante una grammatica, es. graph grammars ) field residential vegetation (circondato da case) 3.Features semantiche: shape recognition • Riconoscere forme (shapes) che rappresentano oggetti di un certo tipo • Per “imparare” a identificare le forme è necessario addestrare i sistemi con un insieme di immagini di “apprendimento” Shape recognition Problemi: variazione punti di osservazione Occlusioni parziali Metodi di shape recognition: shock graphs Shape boundary Shocks Luogo dei centri delle circonferenze massime bitangenti ai confini della figura Esempio Features di basso e alto livello Immagine di partenza Features di “basso livello”: colori, contorni, luminosità ..may be later.. Idealmente, descrizione semantica: “immagine di un porto, con alcune persone Features e nello sfondo e faro” di altogru livello: forme, quali persone, edifici, cielo, torri, gru.. II. Video retrieval • Un video è semplicemente una sequenza di molte immagini • Ogni immagine viene detta frame Analisi dei video • “Parsing” del video: si analizza l’intero video e lo si frammenta in: – Scena: un insieme di immagini correlate (gli elementi che appaiono sono simili) – Shot: Un sequenza ripresa da una singola telecamera – Frame: una singola immagine • Indexing: ai frames vengono assegnate delle features e si genera un sistema di indici (come per IR tradizionale) • L’informazione viene compressa, calcolando le differenze di ogni frame rispetto a “key frames” (quelli che sono caratterizzati da discontinuità, es. cambio di scena o shot) • Retrieval and browsing: si accede ai vari video con chiavi di ricerca testuali o immagini Architettura di un sistema di VR I “key frames” sono quelli che segnalano delle discontinuità Nei video si sfruttano anche features testuali • Metadata: titolo, autore, produttore, data.. • Sottotitoli e trascrizioni degli autori Architettura di un sistema di video indexing: astrazione temporale e spaziale III. Audio retrieval Vari tipi di audio: Features audio Features audio (2) Audio retrieval: tecniche