Sintesi vocale concatenativa per l’italiano tramite modello sinusoidale Giacomo Sommavilla, Carlo Drioli, Piero Cosi ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www: http://www.istc.cnr.it SEZIONE DI PADOVA “FONETICA E DIALETTOLOGIA” Via G. Anghinoni, 10 35121 Padova (Italy) e-mail: [email protected] www: http://www.pd.istc.cnr.it “ANALISI PROSODICA” teorie, modelli e sistemi di annotazione 2° Convegno Nazionale AISV – 30/11- 2/12 2005 Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree“ Copyright, 2005 © ISTC-SPFD-CNR Riassunto introduzione TTS SMS HNM - Harmonic + Noise Model SMS tools (CLAM) risultati conclusioni e sviluppi futuri Sistema TTS “per concatenazione” TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto x concatenazione: la sintesi viene realizzata per concatenazione di unità di base unità base, difoni: “segmenti acustici che includono la transizione fra due fonemi consecutivi” sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo TTS (concatenativo ): schema generale FESTIVAL TTS text NLP + Prosody Match Prosody Phonetic .pho file Elaborazione dei difoni Digital Signal Processing speech Signal Synthesis DSP – Digital Signal Processing Match Prosody Codifica dei parametri prosodici per ogni fonema nelle variabili di f0 e durata (pitch shifting e time stretching) Trasformazione e Elaborazione concatenazione in frequenza di dei difoni difoni successivi Signal Synthesis Sintesi del segnale dal dominio frequenziale a quello temporale e creazione del file audio vocale SMS - Spectral Modeling Synthesis Rappresentazione nel dominio della frequenza Il modello Spectral Modeling Synthesis (SMS) si basa sulla rappresentazione armoniche + residuo R s (t ) Ar (t ) cos[ r (t )] e(t ) r 1 armoniche residuo (parte armonica, deterministica) (parte stocastica, rumore) Sinusoidal analysis/synthesis system HNM - Harmonic + Noise Model HNM synthesis si aggiorna dinamicamente Fm[n] sulla base di un ‘test di armonicità’ il rumore (noise) ha un inviluppo sia nel dominio temporale e[n] che in quello frequenziale Hn (k) HNM synthesis PROCEDURA di SINTESI NLP fonemi, durata, pitch ricerca unità di base (difono) sul database sintesi HNM cross-fading di Ak e w0 La “chiave” per una buona sintesi è la preparazione accurata del database delle unità di base (difoni) il modello sinusoidale consente l’allineamento in fase di tutte le unità un database ricco migliora la sintesi CLAM-SMS CLAM - C++ Library for Audio and Music http://www.iua.upf.es/mtg/clam/ Analisi del database di difoni File audio File SDIF d0.raw d1.raw d2.raw d3.raw … d0.sdif d1.sdif d2.sdif d3.sdif … File SDIF analyzeDatabase.m MBROLA 1. frequenze, ampiezze e fasi delle parziali (comp. armonica) 2. inviluppo spettrale della comp. residuale Architettura del sistema .pho file .wav file Parser Sintesi (IFFT + OLA) Fonemi, prosodia (pitch e durate) Match prosody Data Base di difoni (SDIF) Time Stretching Pitch Shifting (formant preserving) Concatenazione C++ Risultati sperimentali Confronti con MBROLA (Mons, TCTS Lab.), programma TTS allo stato dell’arte (trasf. e conc. dominio temporale, pitch sincrono) 1) Sintesi MBROLA 2) Sintesi SMS 3) Sintesi SMS con trasformazione (1) 4) Sintesi SMS con trasformazione (2) 5) Sintesi MBROLA (T=1.5, F=2) 6) Sintesi SMS (T=1.5, F=2) Conclusioni i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto Sviluppi Futuri residuo: concatenazione ad-hoc per fonemi unvoiced; parte armonica: I. morphing / voice conversion II. sintesi vocale emotiva (E-TTS) III. tecniche di voice quality