Diamo voce alla NUI Giuseppe Castagneri Interfacce 03 Si parlerà di.. • • • • Peculiarità delle interfacce che utilizzano la voce Alcuni esempi Le tecnologie vocali Il futuro: – Esprimere emozioni – Riconoscere emozioni Interfacce 03 2 The idea is to have a natural conversation with the computer, there's nothing more natural than that. …. (Kai-Fu Lee, Microsoft) Interfacce 03 3 Ma bisogna ricordare che … Interfacce 03 4 Un computer capisce solo quello che sa Per cui ad esempio se ha un vocabolario che comprende tutte le auto della FIAT e gli si chiede il prezzo di una Y (Lancia) non riuscirà mai a dare la semplice risposta: guardi che ho solo i prezzi delle FIAT Perché non capirà mai che sono interessato ad una Y Interfacce 03 5 Un computer può non capire quello che dico …. Ma dare comunque una risposta sicura Interfacce 03 6 Una persona quando parla ad un computer …. …spesso non sta a sentire attentamente quello che gli dice il sistema ma risponde con la frase che reputa più appropriata con quello che ha in mente di fare …raramente prende l’iniziativa …tende ad utilizzare un linguaggio semplificato ed una dizione scandita Interfacce 03 7 Un sistema che ignora di essere ignorante ed un interlocutore che non ascolta e parla con un linguaggio semplificato …. ….ma allora dove sta la naturalezza Interfacce 03 8 NUI=NUI La Natural User Interface è quell’ interfaccia che permette una Natural User Interaction: la naturalezza non è nel canale vocale in se ma nel suo corretto utilizzo nel dialogo uomo-macchina Interfacce 03 9 Evoluzione della naturalezza in un’interfaccia esistente FS-Informa: – Fase 1: riconoscimento a parole isolate. La naturalezza della prima parte (partenza-arrivo, conferma, parteoggi) era assicurata dalla pertinenza delle domande alla situazione. La naturalezza della seconda parte era bassa (richiesta a parole isolate della data e dell’ ora). – Fase 2: riconoscimento continuo Naturalezza globale aumentata soprattutto per la possibilità di dire data e ora in un solo turno di dialogo. Si evidenziano comportamenti di linguaggio semplificato a livello lessicale con una prosodia complessa. Interfacce 03 10 Natural Key Factors • NUI lettura SMS: – parser di espansione delle abbreviazioni – Variazione dell’intonazione della voce in presenza di marker emozionali (individuazione di pattern che possono identificare differenti intenzioni, emoticons…) • NUI dettatura SMS: – Modello linguaggio appropriato (limitato numero caratteri) – Possibilità di spelling – Interazione con la tastiera • NUI PAD-Navigator: – Sincronizzazione tra differenti modalità di Input (voce/touchscreen) Interfacce 03 11 Voglio andare da qui a li! • Voglio andare … non ci sono problemi • Da qui a li: 4 sillabe (acusticamente simili) x 4 concetti • Due pressioni sul PAD per istanziare due espressioni referenziali (qui e li) • Una successione temporale che modifica il valore di due parole Interfacce 03 12 Naturalezza = Semplicità • Tecnologie complesse per riuscire a rendere semplice e naturale l’interazione • Fonti di complessità: – Il segnale vocale: intrinsecamente complesso e differenziato (riusciamo a riconoscere una persona dalla sua voce, questo significa che a livello acustico i segnali sono differenti, si parla di riconoscimento del parlatore …) – Il linguaggio utilizzato – Il contesto (espressioni referenziali, anafore contestuali o meno..) – Il rumore di fondo Interfacce 03 13 Loquendo TTS Voices American English Female & Male voices Argentine Male voice Brazilian Portuguese Female voice British English Female & Male voices Castilian Spanish Female & Male voices Catalan Female voice Chilean Female voice Chinese Mandarin Female voice French Female & Male voices German Female & Male voices Greek Female voices Italian Female & Male voices Mexican Female voice Portuguese Female voice Swedish Female voice 14 Interfacce 03 L’inadeguatezza dei sistemi artificiali di comunicazione nell’esprimere e riconoscere manifestazioni emozionali rischia di ridurre la loro accettabilita’. e ancora … L’impossibilita’ di riprodurre emozioni in un sistema di sintesi ne limita le aree di potenziale utilizzo. Interfacce 03 15 Studi sull’ espressione vocale delle emozioni Modificazioni del segnale causate da: • Attivazione di muscoli facciali e dell’apparato fonatorio • Rapporto tra stimolazione muscolare afferente al SNC e risposte provenienti dal SNA (salivazione, ecc…) Interfacce 03 16 Parametri dell’espressione fisicomotoria Interfacce 03 17 Tecnologie emozionali • Riconoscimento dello stato emotivo partendo dalla voce dello speaker (integrato nell’ASR) • Analisi del contenuto emotivo di un testo (da sintetizzare, o prodotto da un ASR) Interfacce 03 18 Esprimere emozioni Riconoscere stati emozionali La riproduzione di caratteristiche tipiche degli stati emozionali in sistemi artificiali di comunicazione ha come scopo: – favorire l’accettabilita’ del sistema (sintesi) • Il supposto stato emozionale del sistema deve essere percepito come coerente con il contenuto ed il contesto di enunciazione – migliorarne le prestazioni (riconoscimento) • Il sistema deve ‘tollerare’ le variazioni nelle realizzazioni acustiche causate da stati emozionali di particolare stress, tensione, patologia… Interfacce 03 19 Algoritmi di trasformazione della voce • Conversione della prosodia • Conversione del contenuto spettrale della voce • Conversione dei fonemi: inserzione, cancellazione, raddoppiamenti, sostituzione (allofoni). Interfacce 03 20 Concludendo • L’ interazione vocale aumenta la naturalezza di una interfaccia se viene progettata in modo da tener conto del modello che l’utente utilizzerà per interagire con il sistema • La semplicità dell’ interazione maschera a volte la complessità delle tecnologie necessarie per la sua implementazione • Sono disponibili tecnologie vocali molto performanti ed in grado di produrre una voce molto naturale • Il riconoscimento e l’ espressione di emozioni semplici è la nuova frontiera su cui si sta lavorando in tutto il mondo per far fare un salto qualitativo alle tecnologie vocali Interfacce 03 21