IL PARLATO
E
I SISTEMI
TEXT-TO-SPEECH
Rachele Sprugnoli
L’espressione fonico-acustica
Risultato di una complessa storia evolutiva.
Circa 250.000 anni fa:
• discesa della laringe verso il basso;
• sistema “a due canne”.
Struttura dell’apparato
fonatorio
NB.
Fonazione come FUNZIONE SECONDARIA installata
su un insieme di organi inizialmente disegnato per la
respirazione, l’alimentazione e la percezione degli odori.
Fonazione come SCELTA tra le possibili modalità
espressive (ad es. gestualità, mimica, produzione di
manufatti) per ragioni di EFFICIENZA SEMIOTICA
Vantaggi della fonazione
• Simultanea ad altri comportamenti;
• Può essere eseguita e ricevuta in condizioni ambientali difficili;
• Ha una larga modulabilità;
• Può essere ricevuta da più riceventi contemporaneamente;
• Può essere prodotta in modo continuo;
• È “portatile”;
• È rapida.
Come si forma un suono
I.
I polmoni si espandono e si contraggono immettendo ed
espellendo aria;
II.
Se le corde vocali sono chiuse, l’aria esercita una pressione su
di esse
l’aria esce sotto forma di sbuffo;
III. Si forma il cosiddetto TONO LARINGEO;
IV. Il tono laringeo viene modificato dai diaframmi che incontra
si originano i suoni linguistici come li percepiamo
uditivamente.
NB. Vocali vs. Consonanti
Grafemi, foni, fonemi
Vari modi in cui si possono descrivere i suoni di una lingua:
• PRONUNCIA
grafemi, digrammi, trigrammi
• FONETICA
foni
• FONEMATICA (o fonologia)
fonemi
grafema = segno che costituisce l'unità grafica minima;
fono = suono di una lingua considerato in base alle sue
caratteristiche fisiche (articolatorie, acustiche, percettive);
fonema = suono di una lingua considerato in base alla funzione
distintiva che ha in un determinato sistema linguistico. Unità
minima di una parola, non dotata di significato.
Fenomeni che riguardano
l’enunciato (1)
Fenomeni SOPRASEGMENTALI
(funzione distintiva)
Accento
soprasegmentale
di parola
ES.
prìncipi VS. princìpi
Intonazione
soprasegmentale
di enunciato
ES.
Chiudi la porta! VS. Chiudi la porta?
Fenomeni che riguardano
l’enunciato (2)
Fenomeni PARALINGUISTICI
volume
esitazioni
pause
velocità
Il concetto di prosodia
Caratteristiche
del parlante:
• sesso
• età
Emozioni:
• rabbia
• gioia
• tristezza
PROSODIA
(prosody)
Intonazione, accento,
lunghezza sillabe, pause,
volume
Significato
della frase:
• domanda
• imperativo
Cos’è un sistema
Text-To-Speech
“The automatic production of speech, through a grapheme-tophoneme transcription of the sentences to utter.” (Thierry Dutoit)
NB.
TTS vs. mangianastri o lettori CD
TTS vs. Voice Response System
Input: TEXT
Text Analyzer
Grapheme-Phoneme Conversion
Prosodic Modelling
Digital Signal Processing
Module
Output: SPEECH
Schema di un
sistema TTS
Input: TEXT
Text Analyzer
Converte il testo dato in
input in una sequenza di
elementi machine-readable
Grapheme-Phoneme Conversion
• pre-processing module
Prosodic Modelling
• morphological analysis
module
• contextual analysis
module
Digital Signal Processing
Module
Output: SPEECH
• syntactic parser
Input: TEXT
Text Analyzer
Grapheme-Phoneme Conversion
Converte il risultato della
fase di text processing in
sequenze di fonemi.
Due metodi:
1. dictionary-based
Prosodic Modelling
Digital Signal Processing
Module
2. rule-based
La terza alternativa è una
strategia ibrida:
set di regole
Output: SPEECH
exception lexicon
Input: TEXT
Text Analyzer
Grapheme-Phoneme Conversion
Prosodic Modelling
Digital Signal Processing
Module
Output: SPEECH
Combina la stringa di fonemi
ottenuta nella fase precedente,
con le informazioni che
riguardano la durata delle
singole unità linguistiche e
l’intonazione delle frasi.
• durata: metodo Klatt
dur  min dur 
(inhdur  min dur )  prcnt
100
• intensità: modello Fujisaki
Modello Fujisaki
Input: TEXT
Text Analyzer
Grapheme-Phoneme Conversion
Prosodic Modelling
Digital Signal Processing
Module
Output: SPEECH
Viene tenuto conto delle
caratteristiche articolatorie
del tratto vocale per fare in
modo che l’output vocale
finale corrisponda all’input
testuale iniziale.
La transizione tra un fonema
e l’altro può essere resa in
due modi:
• sintesi rule-based
• sintesi concatenativa
Sintesi rule-based
Formant Synthesis
FORMANTS = frequenze caratteristiche del parlato grazie alle
quali i vari suoni vengono identificati dall’ascoltatore.
• Vengono simulate le caratteristiche spettrografiche dei diversi
suoni tramite composizioni di vari risonatori, ciascuno accordato
su frequenze specifiche di formanti diversi.
• Le posizioni dei formanti nei diversi fonemi e le loro variazioni
nel passaggio da un fonema al successivo sono descritte da
specifiche regole.
Sintesi concatenativa
I sistemi più recenti utilizzano la concatenazione di difoni.
DIFONI = segnale che connette la seconda metà di un
fonema con la prima metà del fonema successivo.
unità fonetiche che realizzano la transizione tra fonemi
utilizzandoli si risolve il problema della distorsione causata
dalla dispersione nei punti di concatenazione.
Sintesi articolatoria
• In teoria è il metodo migliore per generare il parlato in maniera
artificiale in quanto punta a riprodurre il sistema fonatorio
umano usando modelli computazionali biomeccanici.
• Nella pratica 2 difficoltà: – ottenere modelli tridimensionali del
tratto vocale;
– modellare il sistema con un insieme
limitato di parametri
richiede una notevole capacità di elaborazione
VISUAL TTS
Visual TTS is the synchronization of a facial image, or talking
head, with synthesized speech.
• incremento dell’intelligibilità del sistema
• aggiunta di informazioni nel processo comunicativo tra utente
e sistema
 1972, Parke crea il primo modello facciale 3D
 1974, Parke sviluppa il primo modello parametrico in 3D
Esempi
August
varie espressioni
Lucia:
tristezza
Lucia:
gioia
Valutazione dei sistemi TTS
Qualità del parlato ottenuto in output da un sistema TTS
rispetto ai parametri di naturalezza e di intelligibilità:
più livelli di analisi
più metodi per testare proprietà diverse:
• Segmental evaluation methods;
• Comprehension tests;
• Prosody evaluation;
• Field tests
Applicazioni
 servizi di telecomunicazione;
 insegnamento delle lingue;
 aiuto ad ipo-vedenti e non-vedenti;
 strumenti per la logopedia;
 libri e giocattoli parlanti;
 monitoraggio vocale;
 interfacce “hands-free”;
 ricerca
Linguaggi di markup (1):
SSML
Speech Synthesis Markup Language
Sviluppato dal Centre for Speech Technology Research
(CSTR) dell’Università di Edinburgo nel 1995.
ES.
<ssml>
<define word= "edinburgh" pro="EH1 D AH0 N B ER2 OW0"
format= "cmudict.1.0">
<phrase> I saw the man in the park <phrase> with the telescope
</phrase>
<phrase> I saw the man <phrase> in the park with the telescope
</phrase>
<phrase> The train is now standing on platform <emph> A </emph>
<language="italian"> <phrase> continua in italiano </phrase>
</ssml>
Linguaggi di markup (2):
VoiceXML
Voice eXtensible Markup Language
È un “dialog markup language” (definizione del W3C), basato
sulla sintassi XML, usato per sviluppare applicazioni in cui la
comunicazione uomo-computer non si realizza solo per mezzo di
un interfaccia grafica (ad es. link e bottoni accessibili attraverso
tastiera e mouse) ma anche e soprattutto mediante un’interfaccia
vocale.
Ancora VoiceXML…
Un po’ di storia…
IBM
SpeechML
AT&T
PML
Lucent
PML
Motorola
VoxML
VoiceXML
www.voicexml.org
W3C:
Marzo 2000: Recommendation versione 1.0;
16 Marzo 2004: Recommendation versione 2.0;
23 Marzo 2004: primo Working Draft della versione 2.1
…e ancora…
Dal punto di vista tecnico…
Per l’accesso vocale sono necessari due moduli lato-server:
1.
uno per il riconoscimento vocale (Speech Recognition);
2.
uno per la traduzione del testo in voce (TTS).
Dal punto di vista pratico…
Un documento VoiceXML è costituito da una serie di “dialoghi”.
Ne vengono definiti 2 tipi:
• form, per l’output e l’input vocale;
• menu, presenta una selezione di voci tra cui scegliere.
VoiceXML, esempio
ES.
<?xml version="1.0"?>
<vxml version="2.0">
<menu>
<prompt>Scegli una sezione<enumerate/> </prompt>
<choice next="http://www.sports.example/start.vxml">
Sport </choice>
<choice next="http://www.weather.example/intro.vxml">
Tempo </choice>
<choice next="http://www.news.example/news.vxml">
News </choice>
<noinput>Per favore scegli una sezione <enumerate/></noinput>
</menu>
</vxml>
VoiceXML, portali vocali
Offrono accesso vocale a vari servizi quali titoli di borsa, liste
di spettacoli teatrali e cinema, notizie del giorno, lettura e
scrittura di e-mail usando la voce:
• TellMe www.tellme.com
• Quack www.quack.com
• BeVocal www.bevocal.com
• Hey Anita www.heyanita.com
Linguaggi di markup (3):
SALT
Speech Application Language Tags
“SALT extends existing web markup languages to enable
multimodal and telephony access to the web” (SALTforum)
Consente agli sviluppatori di inserire comandi vocali all’interno
di pagine HTML, XML o XHTML già esistenti.
le applicazioni vocali possono convivere parallelamente ai
mezzi tradizionali di input/output
Linguaggi di markup (4):
(X+V)
XHTML + VoiceXML
 Ideato da IBM, OPERA e Motorola
 W3C: Novembre 2001: versione 1.0
Gennaio 2003: versione 1.1
Integra XHTML con VoiceXML 2.0 per realizzare l’interazione vocale
Bibliografia ragionata (1)
Studi di linguistica:
 Simone R., Fondamenti di linguistica, Roma-Bari,
Laterza, 1990
 Muliačić Ž., Fonologia generale e fonologia della lingua
italiana, Bologna, il Mulino, 1971
 Sobrero A.A., Introduzione all’italiano contemporaneo:
le strutture, Roma-Bari, Laterza, 1999
Bibliografia ragionata (2)
Informazioni generali sui sistemi TTS e sulla sintesi vocale:
 Tutorial per un sistema TTS: http://www.ias.et.tudresden.de/sprache/lehre/multimedia/tutorial/index.html
 Speech synthesis:
http://www.fact-index.com/s/sp/speech_synthesis.html
 A Text-to-Speech Primer:
http://www.portset.co.uk/text_to_speech_primer.htm
 A Short Introduction to Text-to-Speech Synthesis:
http://tcts.fpms.ac.be/synthesis/introtts.html
 Review of Speech Synthesis Technology:
http://www.acoustics.hut.fi/~slemmett/dippa/
Bibliografia ragionata (3)
 Bilotta E., Interfacce multimodali ed aspetti psicologici
dell’interazione uomo-computer:
http://galileo.cincom.unical.it/Pubblicazioni/editoria/libri/HCI
-ele/coper.html
 Klatt D.H., Review of text-to-speech conversion for English:
http://www.mindspring.com/~ssshp/ssshp_cd/dk_737a.htm
Ibarra I.O. – Curatelli F., A Brief Introduction to Speech
Analysis and Recognition, An Internet Tutorial:
http://www.mor.itesm.mx/~omayora/Tutorial/tutorial.html
Bibliografia ragionata (4)
VoiceXML:
 Guida del W3C:
http://www.w3.org/Voice/Guide/
Kleis Communication Technologies:
http://www.kleis.it/portali-vocali/1#1
 Community italiana di VoiceXML:
http://www.vxmlitalia.com/
 ITportal:
http://www.itportal.it/special/internet/voicexml/default.asp
Bibliografia ragionata (5)
SALT:
 SALT Forum:
http://www.saltforum.org/
SSML:
 Speech Synthesis Markup Language Version 1.0
http://www.w3.org/TR/speech-synthesis/
XHTML + VoiceXML:
 XHTML+Voice Profile 1.0
http://www.w3.org/TR/xhtml+voice/
Bibliografia ragionata (6)
Linguaggi di markup per le applicazioni vocali:
 Standard per applicazioni multimodali
http://www.vxmlitalia.com/Baggia.pdf
Rivista on-line:
 Speech Technology Magazine:
http://www.speechtechmag.com/
Pagina di riferimenti on-line:
 Home pages related to phonetics and speech sciences:
http://fonsg3.let.uva.nl/Other_pages.html
Scaricare
IL PARLATO E I SISTEMI TEXT-TO

IL PARLATO E I SISTEMI TEXT-TO

Interazione Vocale

1emotional speech

Percezione della musica e del linguaggio

Abstracts - Associazione Italiana di Scienze della Voce

Italian Journal of Linguistics Rivista di linguistica