Università degli studi di Verona Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica Rendering spaziale sonoro mediante ricostruzione stereo Relatore: Vittorio Murino Correlatori: Andrea Fusiello Davide Rocchesso Candidato: Sartor Luca 1 Sommario Motivazioni Architettura del sistema Analisi visuale della scena Spazializzazione sonora Risultati e conclusioni 2 Motivazioni Creare uno strumento che produca in tempo reale uno spazio sonoro tridimensionale virtuale che rispecchi la scena reale, analizzata tramite una telecamera stereo. Applicazione: ausilio ai non vedenti 3 Motivazioni La maggior parte delle informazioni che una persona riceve dall’ambiente circostante derivano dalla vista. La mancanza della vista è la menomazione più limitante. Il suono non richiede un’attenzione focalizzata per essere percepito. E’ difficile generare suoni in maniera tale che riescano a fornire informazioni utili. 4 Architettura del sistema Il sistema si basa su una telecamera stereo. Dopo avere acquisito la scena, vengono individuati i principali ostacoli in essa presenti. Tali ostacoli vengono spazializzati tridimensionalmente, quindi sonificati in cuffia. 5 Stereopsi Per ricostruire la scena, si esaminano le disparità, ovvero le differenze tra le immagini destra e sinistra acquisite dalle due telecamere. Tale disparità ci permette di calcolare la profondità reale del punto esaminato. Il principale problema è quello delle corrispondenze, ovvero stabilire quale punto dell’immagine di destra corrisponde ad un particolare punto dell’immagine di sinistra. 6 Stereopsi Per semplificare la ricerca di un punto nell’altra immagine si sfrutta il vincolo epipolare, ovvero ogni punto deve giacere su una retta, detta retta epipolare, nell’altra immagine . Eseguendo lo stesso processo per tutti i punti, è possibile ricostruire integralmente la scena esaminata. 7 Ricostruzione della scena Per semplificare la successiva fase di sonificazione, è possibile utilizzare tre differenti modalità : - Tutta la scena - Solo gli ostacoli vicini - Solo gli ostacoli distanti 8 Sonificazione Tramite la sonificazione, un suono viene posizionato in uno spazio virtuale, e percepito come proveniente da una posizione nello spazio reale. Gli indizi principali per determinare la posizione di un oggetto sono: - il volume ed il riverbero per la distanza - il tempo di ritardo (ITD) e la differenza di volume tra le due orecchie per la posizione orizzontale 9 Modello strutturale Si è scelto di utilizzare il modello ideato da C. P. Brown e R. Duda, diviso in tre blocchi funzionali: Testa, che contribuisce con l’head shadow Spalle e torso che causano la formazione di un’eco Pinne che forniscono ulteriori echi supplementari Head Shadow ITD + Eco pinna Spalle + Output Eco pinna 10 Scelte implementative Per rendere il suono più naturale, si è deciso di aggiungere un’ulteriore eco riverberante, che simula una parete posta circa 3 metri dietro l’ascoltatore. Per rappresentare meglio l’elevazione, è stato aggiunto un ulteriore ritardo derivante dalle spalle. I suoni utilizzati non sono generati tramite funzioni matematiche, ma sono stati precampionati. 11 Suoni utilizzati I suoni precampionati vengono generati tramite il pacchetto “impact modal”, che fa parte del progetto SoundingObject, sviluppato in linguaggio pure data (PD). Gomma Simulazione di impatto Legno Vetro Dimensione oggetto Suono da spazializzare Metallo 12 Implementazione L’interfaccia grafica del progetto è stata realizzata tramite il pacchetto FLTK in linguaggio C++. L’analisi della scena, la ricostruzione tridimensionale e i successivi filtri sono stati realizzati in linguaggio C. Per produrre gli adeguati output sonori, si utilizza C-sound, che rimane in attesa di leggere nuove linee da un file di pipeline, che viene scritto dalla parte precedente. Interfaccia grafica C++ Core C Output sonoro C-Sound 13 Risultati 14 Vantaggi del sistema Tra i vantaggi va ricordata la semplicità della struttura risultante ed il basso costo finale. Il sistema complessivamente risulta facile da utilizzare e piuttosto intuitivo. Non è invasivo, e può essere usato immediatamente senza particolari problemi o procedure. Non esistono vincoli sulle scene da sonificare, tranne quelli dovuti alla scarsa illuminazione o alla bassa risoluzione delle telecamere. 15 Sviluppi futuri Migrazione del codice su calcolatore palmare (iPAQ 3760). Telecamera digitale a colori. Studio di usabilità con soggetti non-vedenti. Sponsorizzato da HP Philantropic, progetto Sounding Landscape 16 FINE 17 Problemi delle corrispondenze Occlusioni: esistono parti della tesi che sono inquadrate da una sola delle due telecamere. Tali punti non hanno corrispondenti nell’altra immagine. Distorsione proiettiva: un oggetto si proietta in modo diverso nelle due telecamere quanto più le due telecamere sono distanti. 18 Vincoli Di somiglianza: un particolare appare simile nelle due immagini (spesso è implicito). Epipolare: il punto coniugato giace sulla retta epipolare. Di continuità: lontano dai bordi, la profondità dei punti di una superficie varia lentamente. Unicità: un punto nell’immagine di sinistra può essere messo in corrispondenza con un solo punto nell’immagine di destra, e viceversa. 19 Triangolazione La disparità è inversamente proporzionale alla profondità, secondo la formula: D= b f r dove d è la disparità, b la baseline della telecamera stereo, f la lunghezza focale della telecamera e r la distanza dell’oggetto dal piano immagine. 20 Telecamera stereo 21