“Music Information Retrieval - AUDIO” Antonello D’Aguanno [email protected] http://www.lim.dico.unimi.it/didatt/materiali/mir1.ppt MIR (Music Information Retrieval) DEFINIZIONE: Area di ricerca multidisciplinare che coinvolge esperti in vari campi scientifici (informatici, fisici e altri), ma anche umanistici e musicali (musicologi, storici e altri). SCOPO: Permettere una maggiore interazione e fruibilità dell’informazione musicale. MIR MOTIVAZIONI: • • • Con l’introduzione dei formati audio compressi è enormemente cresciuto il numero di titoli presenti nelle varie collezioni All’aumento del numero di titoli disponibili non ha fatto seguito un relativo aumento nella gestione dei brani Il mercato musicale si sta frammentando dall’album al singolo brano Architettura MIR MIR e EMD (1) Necessario distinguere 2 diverse tipologie di sistemi: • MIR: Hanno lo scopo di fornire all’utente informazioni su brani conosciuti o sconosciuti, permettendo un’ interazione “rapida” con il contenuto musicale. • EMD (Electronic Music Distribution) : Sistemi per la distribuzione (vendita) di musica digitale, il loro scopo ideale è riuscire a fornire (vendere) ad ogni utente la musica che preferisce. In poche parole: • MIR • EMD CONOSCENZA VENDITA MIR e EMD (2) Tipiche domande a cui dovrebbe poter rispondere un sistema MIR: • Esempi di problematiche inerenti il singolo brano: • • • • Sai dirmi il titolo di quel brano che fa… Quante cover sono state fatte del brano… Esiste una versione live del brano… Esempi di problematiche legate ad intere compilation: • • • Avrei bisogno di creare una compilation con brani melodici Per Natale vorrei un album con dei brani a tema Vorrei tutti i brani in cui è presente la “tromba marina” MIR e EMD (3) Finalità di un sistema EMD: • • • • Attualmente il mercato della musica conta su oltre 10.000.000 di titoli (dati 2004) Virtualmente ogni utente Internet può essere considerato un possibile fruitore di musica Gli utenti Internet superano i 600 milioni e continuano a crescere Come rendere accessibile questa grande quantità di dati al grande pubblico? EMD Problematiche EMD: • Dei 10 milioni di titoli presenti realmente solo l 1% è considerato realmente “attivo” • I titoli “attivi” sono realmente i “migliori”? • In un sistema ideale ogni utente dovrebbe trovare la musica che vuole realmente ascoltare, indipendentemente dalle conoscenza che ha! Esempi di Sistemi EMD Amazon’s MP3 Store 1 solo campo di ricerca 2 sole modalità di ricerca Funzionamento di Amazon • DataBase contenente i meta-dati “basilari” (artista-titolo-album) alimentato “non tramite analisi dei contenuti” • Query dell’utente legate a questo set di meta-dati • Raccomandazioni automatiche del sistema legate alle preferenze degli utenti precedenti PROBLEMA! I titoli più “raccomandati” saranno sempre quelli aventi maggior “successo” ovvero i più noti e famosi che raccolgono il maggior numero di click. Esempi di Sistemi MIR Last.fm / Pandora (music recommender) Valutazione positiva Inizio della Navigazion e Valutazione negativa Funzionamento di Last.fm / Pandora • DataBase contenente oltre 100 meta-dati per ogni canzone relativi ai contenuti (in Pandora si parla di Music Genome) alimentato da ascoltatori esperti • Query dell’utente legate ad un brano/artista di partenza. Il sistema tramite analisi/confronto dei metadati considerati propone la canzone successiva • L’utente può accettare o meno la raccomandazione. Il sistema ne terrà conto per le scelte successive PROBLEMA! Quanto costa far ascoltare i brani agli esperti? Cosa accade in caso di errore di Compilazione? (es. Exodus su last.fm) Esempi di Sistemi MIR MiDoMi (Query by Humming) Inizio navigazione tramite tastiera Inizio della navigazione tramite Voce Navigazione per associazione Funzionamento di MiDoMi • DataBase contenente per ogni canzone i comuni meta-dati e una serie di registrazioni degli stessi utenti che cantano il brano in esame • Il sistema confronta il brano cantato dall’utente con il DB e seleziona i brani più simili proponendoli all’utente • L’utente individua il brano corretto tra quelli proposti dal sistema PROBLEMA! Cosa accade in caso un utente registri una canzone sbagliata? L’utente medio è in grado di valutare la qualità del suo cantato? MIR e EMD (4) In generale possiamo distinguere 2 diversi scenari d’uso legati a questo tipo di sistemi: • SCENARIO 1 L’utente vuole navigare all’interno del sistema per accrescere le proprie conoscenze musicali • SCENARIO 2 L’utente vuole avere una risposta esauriente ad una domanda specifica Amazon e Last.fm Rispetto agli scenari precedenti: Last.fm è focalizzato sullo scenario 1: un utente naviga all’interno del DB ascoltando brani proposti automaticamente, dando dei pareri sulle selezioni per istruire l’algoritmo di scelta dei brani. Molto difficile selezionare uno specifico brano. Amazon è focalizzato sullo scenario 2: un utente ha a disposizione dei parametri di ricerca molto stringenti per trovare in fretta ciò di cui ha bisogno. Molto difficile navigare nel sistema. MidoMi MiDoMi è focalizzato sullo scenario 2: • un utente ha a disposizione dei parametri di ricerca testuali e per contenuti (humming) per trovare in fretta ciò di cui ha bisogno. • Poco utile navigare nel sistema. In realtà si naviga tra varie registrazioni fatte da altri utenti • Primo esempio di sistema di ricerca per contenuti Funzionamento dei Sistemi Esistenti I sistemi presentati sono tutti basati su meta-dati: • Compilati dagli utenti • Estrapolati tramite inferenza • Non viene eseguita nessuna analisi sui contenuti audio del brano musicale Hard-Way e Easy-Way (1) Due diverse possibilità per gestire l’informazione musicale: • Easy Way Le informazioni sui contenuti musicali possono essere generati tramite l’analisi compiuta da esperti Le relazioni tra i brani possono essere ottenuti tramite inferenza dal comportamento degli utenti In generale non viene eseguita nessuna analisi sui contenuti audio del brano musicale Hard-Way e Easy-Way (2) Due diverse possibilità per gestire l’informazione musicale: • Hard Way Le informazioni sui contenuti musicali sono generati tramite l’analisi compiuta da algoritmi di DSP Le relazioni tra i brani sono anche loro ottenute tramite il risultato degli algoritmi di analisi In generale non sono necessari interventi umani per la comprensione dei contenuti del brano musicale Hard-Way e Easy-Way Vantaggi e Svantaggi Costi di Sviluppo Costi di Mantenimento Valutazione Affidabilità Easy Way Bassi Molto Elevati Media Bassa Hard Way Elevati Bassi Media Elevata Comprensione dell’informazione Comprensione Tutti i problemi e le informazioni contenute in un segnale musicale sono ben definite? Alcune si, altre no, altre solo in parte Qualche esempio legato all’immagine precedente • durata, spettro, pitch, timbro Ben definite • armonia, bpm, dinamica, ritmo Parzialmente definite • genere, mood, similarità Poco definite Sincronizzazione Stream Audio Partitura sincronizzata Sincronizzatore Partitura Navigazione coerente audio partitura Ambito di ricerca affrontato nel MIR Soluzioni proposte solo su stream audio non compressi