UNIVERSITA’ DEGLI STUDI DI GENOVA Corso di Laurea in Ingegneria Elettronica STUDIO E REALIZZAZIONE DI TECNICHE PER IL RICONOSCIMENTO VOCALE Relatore : Prof. Francesco Curatelli Studente : Lorenzo Banderali MOTIVAZIONI • I sistemi di riconoscimento vocale sono sempre più diffusi ed importanti. Possono essere impiegati in: - Telefonia mobile - Stazioni telefoniche - Refertazione automatica - Interazione facilitata uomo-macchina Università degli Studi di Genova – Facoltà di Ingegneria ACQUISIZIONE • E’ necessario acquisire il segnale vocale e trasformarlo in un segnale tempo discreto tramite un appropriato campionamento Università degli Studi di Genova – Facoltà di Ingegneria MODELLO PLP • Il modello PLP simula la percezione dell’udito umano e stima con accuratezza i parametri del parlato in modo veloce MEMORIA ASSOCIATIVA • Associa i parametri del parlato ottenuti con il modello PLP ad un set predefinito di caratteristiche • Adatta per una rappresentazione vettoriale dei dati • Rende possibile il riconoscimento della forma d’onda Università degli Studi di Genova – Facoltà di Ingegneria SISTEMA DI RICONOSCIMENTO • Fase di Apprendimento (training) – Analisi del segnale vocale per ogni frame – Costruzione database con i vettori PLP • Fase di riconoscimento – Analisi del segnale vocale (PLP) – Calcolo score rispetto al database di training – Stima parola con algoritmo DTW Università degli Studi di Genova – Facoltà di Ingegneria OBIETTIVI • Rendere il sistema di riconoscimento più rapido e meno costoso • Mettere a punto un sistema software che permetta di minimizzare i tempi di calcolo senza provocare un significativo peggioramento del risultato finale Università degli Studi di Genova – Facoltà di Ingegneria OTTIMIZZAZIONE • Riduzione del file di training - Algoritmo di Lloyd - Algoritmo K-Means - Disattivazione Università degli Studi di Genova – Facoltà di Ingegneria Lloyd & K-Means • Si muovono ripetitivamente tutti i valori di riferimento alla media del loro Voronoi set (L) o considerando il punto vincitore (K) • Il riferimento si posiziona come un centroide per un insieme di punti DISATTIVAZIONE • Elimina i punti “sparsi” attratti più da altre classi che da quella di appartenenza • Può essere effettuata prima o dopo la riduzione tramite Lloyd & K-Means • Riduce ulteriormente il file di training DIAGRAMMA DI VORONOI • Permette di dividere il piano assegnando a ciascun punto il seme più vicino PROVE EFFETTUATE • Utilizzo di un database di registrazioni composto da parole pronunciate da differenti parlatori in più sessioni • Addestramento con files di training completi e ridotti • Riconoscimento di parole dello stesso o di altri parlatori nelle varie sessioni Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI Riduzione Lloyd e nessuna disattivazione ulteriore (XV) Ancos01 Ancos01.10 Ancos01.100 Parlatore Parola R % R % R % Ancos01 0#1 S 100 S 83.5 S 68.5 Ancos01 2#3 S 100 S 78.8 S 59 Ancos02 0#1 S 60 S 60 S 38.6 Ancos02 2#3 S 70.4 S 70.4 S 70.4 Lucas01 5#3 S 52 S 50 S 54.6 Lucas01 9#4 S 47 S 47 S 39.4 Cabos03 6#1 N 33.7 N 36.6 S 31.1 Cabos03 0#3 N 26.4 S 22.9 S 18.4 Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI Riduzione Lloyd e disattivazione ulteriore (XV V*) Ancos01 Ancos01.10 Ancos01.100 Parlatore Parola R % R % R % Ancos01 0#1 S 100 S 57.5 S 30.1 Ancos01 2#3 S 100 S 65 S 28 Ancos02 0#1 S 60 S 54.6 S 28 Ancos02 2#3 S 70.4 S 58.7 S 62.1 Lucas01 5#3 S 52 S 50.2 S 42.5 Lucas01 9#4 S 47 S 39.3 S 29 Cabos03 6#1 N 33.7 N 24.5 S 20.9 Cabos03 0#3 N 26.4 N 16.6 N 14.2 Università degli Studi di Genova – Facoltà di Ingegneria RISULTATI Riduzione Lloyd e disattivazione ulteriore (XX* V) Ancos01 Ancos01.10 Ancos01.100 Parlatore Parola R % R % R % Ancos01 0#1 S 100 S 73.9 S 68.4 Ancos01 2#3 S 100 S 72.3 S 52.8 Ancos02 0#1 S 60 S 57.3 S 61.3 Ancos02 2#3 S 70.4 S 66.1 S 62.5 Lucas01 5#3 S 52 S 45.9 S 49.1 Lucas01 9#4 S 47 S 45 S 35.9 Cabos03 6#1 N 33.7 N 32.7 S 28.5 Cabos03 0#3 N 26.4 S 18.3 S 16.5 Università degli Studi di Genova – Facoltà di Ingegneria CONCLUSIONI • Significativa riduzione dei file di training • Diminuzione dei tempi di esecuzione del programma di riconoscimento “Spear” • Pochi errori nel riconoscimento delle parole Università degli Studi di Genova – Facoltà di Ingegneria