Diamo voce alla
NUI
Giuseppe Castagneri
Interfacce 03
Si parlerà di..
•
•
•
•
Peculiarità delle interfacce che utilizzano la voce
Alcuni esempi
Le tecnologie vocali
Il futuro:
– Esprimere emozioni
– Riconoscere emozioni
Interfacce 03
2
The idea is to have a natural conversation with
the computer, there's nothing more natural than
that. ….
(Kai-Fu Lee, Microsoft)
Interfacce 03
3
Ma bisogna ricordare che …
Interfacce 03
4
Un computer capisce solo
quello che sa
Per cui ad esempio se ha un vocabolario che comprende tutte le auto
della FIAT e gli si chiede il prezzo di una Y (Lancia) non riuscirà mai a
dare la semplice risposta:
guardi che ho solo i prezzi delle FIAT
Perché non capirà mai che sono interessato ad una Y
Interfacce 03
5
Un computer può non capire quello
che dico
…. Ma dare comunque una risposta sicura
Interfacce 03
6
Una persona quando parla ad un
computer ….
…spesso non sta a sentire attentamente quello che gli dice il sistema ma
risponde con la frase che reputa più appropriata con quello che ha in
mente di fare
…raramente prende l’iniziativa
…tende ad utilizzare un linguaggio semplificato ed una dizione scandita
Interfacce 03
7
Un sistema che ignora di essere
ignorante ed un interlocutore che non
ascolta e parla con un linguaggio
semplificato ….
….ma allora dove sta la naturalezza
Interfacce 03
8
NUI=NUI
La Natural User Interface
è quell’ interfaccia che permette una
Natural User Interaction:
la naturalezza non è nel canale vocale in se
ma nel suo corretto utilizzo nel dialogo uomo-macchina
Interfacce 03
9
Evoluzione della naturalezza in
un’interfaccia esistente
FS-Informa:
– Fase 1: riconoscimento a parole isolate.
La naturalezza della prima parte (partenza-arrivo, conferma, parteoggi) era assicurata dalla pertinenza delle domande alla situazione.
La naturalezza della seconda parte era bassa (richiesta a parole
isolate della data e dell’ ora).
– Fase 2: riconoscimento continuo
Naturalezza globale aumentata soprattutto per la possibilità di dire
data e ora in un solo turno di dialogo.
Si evidenziano comportamenti di linguaggio semplificato a livello
lessicale con una prosodia complessa.
Interfacce 03
10
Natural Key Factors
•
NUI lettura SMS:
– parser di espansione delle abbreviazioni
– Variazione dell’intonazione della voce in presenza di marker emozionali
(individuazione di pattern che possono identificare differenti intenzioni,
emoticons…)
•
NUI dettatura SMS:
– Modello linguaggio appropriato (limitato numero caratteri)
– Possibilità di spelling
– Interazione con la tastiera
•
NUI PAD-Navigator:
– Sincronizzazione tra differenti modalità di Input (voce/touchscreen)
Interfacce 03
11
Voglio andare da qui a li!
• Voglio andare … non ci sono problemi
• Da qui a li: 4 sillabe (acusticamente simili) x 4 concetti
• Due pressioni sul PAD per istanziare due espressioni
referenziali (qui e li)
• Una successione temporale che modifica il valore di due
parole
Interfacce 03
12
Naturalezza = Semplicità
• Tecnologie complesse per riuscire a rendere semplice e
naturale l’interazione
• Fonti di complessità:
– Il segnale vocale: intrinsecamente complesso e differenziato
(riusciamo a riconoscere una persona dalla sua voce, questo
significa che a livello acustico i segnali sono differenti, si parla di
riconoscimento del parlatore …)
– Il linguaggio utilizzato
– Il contesto (espressioni referenziali, anafore contestuali o meno..)
– Il rumore di fondo
Interfacce 03
13
Loquendo TTS Voices
American English Female & Male voices
Argentine Male voice
Brazilian Portuguese Female voice
British English Female & Male voices
Castilian Spanish Female & Male voices
Catalan Female voice
Chilean Female voice
Chinese Mandarin Female voice
French Female & Male voices
German Female & Male voices
Greek Female voices
Italian Female & Male voices
Mexican Female voice
Portuguese Female voice
Swedish Female voice
14
Interfacce 03
L’inadeguatezza dei sistemi artificiali di comunicazione
nell’esprimere e riconoscere manifestazioni emozionali
rischia di ridurre la loro accettabilita’.
e ancora …
L’impossibilita’ di riprodurre emozioni in un sistema di sintesi ne limita le aree di
potenziale utilizzo.
Interfacce 03
15
Studi sull’ espressione vocale delle
emozioni
Modificazioni del segnale causate da:
• Attivazione di muscoli facciali e dell’apparato fonatorio
• Rapporto tra stimolazione muscolare afferente al SNC e
risposte provenienti dal SNA (salivazione, ecc…)
Interfacce 03
16
Parametri dell’espressione fisicomotoria
Interfacce 03
17
Tecnologie emozionali
• Riconoscimento dello stato emotivo partendo
dalla voce dello speaker (integrato nell’ASR)
• Analisi del contenuto emotivo di un testo (da
sintetizzare, o prodotto da un ASR)
Interfacce 03
18
Esprimere emozioni
Riconoscere stati emozionali
La riproduzione di caratteristiche tipiche degli stati emozionali in
sistemi artificiali di comunicazione ha come scopo:
– favorire l’accettabilita’ del sistema (sintesi)
• Il supposto stato emozionale del sistema deve essere percepito come coerente
con il contenuto ed il contesto di enunciazione
– migliorarne le prestazioni (riconoscimento)
• Il sistema deve ‘tollerare’ le variazioni nelle realizzazioni acustiche causate da
stati emozionali di particolare stress, tensione, patologia…
Interfacce 03
19
Algoritmi di trasformazione della voce
• Conversione della prosodia
• Conversione del contenuto spettrale della voce
• Conversione dei fonemi: inserzione, cancellazione,
raddoppiamenti, sostituzione (allofoni).
Interfacce 03
20
Concludendo
• L’ interazione vocale aumenta la naturalezza di una
interfaccia se viene progettata in modo da tener conto del
modello che l’utente utilizzerà per interagire con il sistema
• La semplicità dell’ interazione maschera a volte la
complessità delle tecnologie necessarie per la sua
implementazione
• Sono disponibili tecnologie vocali molto performanti ed in
grado di produrre una voce molto naturale
• Il riconoscimento e l’ espressione di emozioni semplici è la
nuova frontiera su cui si sta lavorando in tutto il mondo per
far fare un salto qualitativo alle tecnologie vocali
Interfacce 03
21
Scarica

Interfacce 03