Università degli studi di Verona
Facoltà di Scienze MM. FF. NN.
Corso di Laurea in Informatica
Rendering spaziale sonoro mediante
ricostruzione stereo
Relatore:
Vittorio Murino
Correlatori:
Andrea Fusiello
Davide Rocchesso
Candidato:
Sartor Luca
1
Sommario

Motivazioni

Architettura del sistema

Analisi visuale della scena

Spazializzazione sonora

Risultati e conclusioni
2
Motivazioni
 Creare uno strumento che produca in tempo
reale uno spazio sonoro tridimensionale virtuale
che rispecchi la scena reale, analizzata tramite
una telecamera stereo.
 Applicazione: ausilio ai non vedenti
3
Motivazioni
 La maggior parte delle informazioni che una persona
riceve dall’ambiente circostante derivano dalla vista.
 La mancanza della vista è la menomazione più limitante.
 Il suono non richiede un’attenzione focalizzata per
essere percepito.
 E’ difficile generare suoni in maniera tale che riescano
a fornire informazioni utili.
4
Architettura del sistema



Il sistema si basa su una telecamera
stereo.
Dopo avere acquisito la scena,
vengono individuati i principali
ostacoli in essa presenti.
Tali ostacoli vengono spazializzati
tridimensionalmente, quindi
sonificati in cuffia.
5
Stereopsi



Per ricostruire la scena, si esaminano le disparità, ovvero le
differenze tra le immagini destra e sinistra acquisite dalle due
telecamere.
Tale disparità ci permette di calcolare la profondità reale del
punto esaminato.
Il principale problema è quello delle corrispondenze, ovvero
stabilire quale punto dell’immagine di destra corrisponde ad un
particolare punto dell’immagine di sinistra.
6
Stereopsi
 Per semplificare la ricerca di un punto nell’altra
immagine si sfrutta il vincolo epipolare, ovvero ogni
punto deve giacere su una retta, detta retta epipolare,
nell’altra immagine .
 Eseguendo lo stesso processo per tutti i punti, è
possibile ricostruire integralmente la scena esaminata.
7
Ricostruzione della scena

Per semplificare la successiva fase di sonificazione,
è possibile utilizzare tre differenti modalità :

- Tutta la scena

- Solo gli ostacoli vicini

- Solo gli ostacoli distanti
8
Sonificazione

Tramite la sonificazione, un suono viene posizionato
in uno spazio virtuale, e percepito come proveniente
da una posizione nello spazio reale.

Gli indizi principali per determinare la posizione di
un oggetto sono:
- il volume ed il riverbero per la distanza
- il tempo di ritardo (ITD) e la differenza di volume
tra le due orecchie per la posizione orizzontale
9
Modello strutturale




Si è scelto di utilizzare il modello ideato da C. P. Brown
e R. Duda, diviso in tre blocchi funzionali:
Testa, che contribuisce con l’head shadow
Spalle e torso che causano la formazione di un’eco
Pinne che forniscono ulteriori echi supplementari
Head Shadow
ITD
+
Eco pinna
Spalle
+
Output
Eco pinna
10
Scelte implementative

Per rendere il suono più naturale, si è deciso di
aggiungere un’ulteriore eco riverberante, che simula
una parete posta circa 3 metri dietro l’ascoltatore.

Per rappresentare meglio l’elevazione, è stato aggiunto
un ulteriore ritardo derivante dalle spalle.

I suoni utilizzati non sono generati tramite funzioni
matematiche, ma sono stati precampionati.
11
Suoni utilizzati

I suoni precampionati vengono generati tramite il
pacchetto “impact modal”, che fa parte del progetto
SoundingObject, sviluppato in linguaggio pure data
(PD).
Gomma
Simulazione
di impatto
Legno
Vetro
Dimensione
oggetto
Suono da
spazializzare
Metallo
12
Implementazione



L’interfaccia grafica del progetto è stata realizzata
tramite il pacchetto FLTK in linguaggio C++.
L’analisi della scena, la ricostruzione tridimensionale e
i successivi filtri sono stati realizzati in linguaggio C.
Per produrre gli adeguati output sonori, si utilizza
C-sound, che rimane in attesa di leggere nuove linee
da un file di pipeline, che viene scritto dalla parte
precedente.
Interfaccia grafica
C++
Core
C
Output sonoro
C-Sound
13
Risultati
14
Vantaggi del sistema




Tra i vantaggi va ricordata la semplicità della struttura
risultante ed il basso costo finale.
Il sistema complessivamente risulta facile da utilizzare
e piuttosto intuitivo.
Non è invasivo, e può essere usato immediatamente
senza particolari problemi o procedure.
Non esistono vincoli sulle scene da sonificare, tranne
quelli dovuti alla scarsa illuminazione o alla bassa
risoluzione delle telecamere.
15
Sviluppi futuri



Migrazione del codice su calcolatore palmare
(iPAQ 3760).
Telecamera digitale a colori.
Studio di usabilità con soggetti non-vedenti.
Sponsorizzato da HP Philantropic, progetto Sounding Landscape
16
FINE
17
Problemi delle corrispondenze
Occlusioni:
esistono parti della tesi che sono inquadrate
da una sola delle due telecamere. Tali punti non hanno
corrispondenti nell’altra immagine.
Distorsione
proiettiva: un oggetto si proietta in modo
diverso nelle due telecamere quanto più le due telecamere
sono distanti.
18
Vincoli
Di
somiglianza: un particolare appare simile nelle due
immagini (spesso è implicito).
Epipolare:
il punto coniugato giace sulla retta epipolare.
Di
continuità: lontano dai bordi, la profondità dei punti
di una superficie varia lentamente.
Unicità:
un punto nell’immagine di sinistra può essere
messo in corrispondenza con un solo punto nell’immagine
di destra, e viceversa.
19
Triangolazione

La disparità è inversamente proporzionale alla
profondità, secondo la formula:
D= b f
r
dove d è la disparità, b la baseline della telecamera
stereo, f la lunghezza focale della telecamera e r la
distanza dell’oggetto dal piano immagine.
20
Telecamera stereo
21
Scarica

Motivazioni - Università degli Studi di Verona