UNIVERSITA’ DEGLI STUDI DI GENOVA
Corso di Laurea in Ingegneria
Elettronica
STUDIO E REALIZZAZIONE DI TECNICHE PER
IL RICONOSCIMENTO VOCALE
Relatore :
Prof. Francesco Curatelli
Studente :
Lorenzo Banderali
MOTIVAZIONI
• I sistemi di riconoscimento vocale sono
sempre più diffusi ed importanti.
Possono essere impiegati in:
- Telefonia mobile
- Stazioni telefoniche
- Refertazione automatica
- Interazione facilitata uomo-macchina
Università degli Studi di Genova – Facoltà di Ingegneria
ACQUISIZIONE
• E’ necessario acquisire il segnale vocale e
trasformarlo in un segnale tempo discreto
tramite un appropriato campionamento
Università degli Studi di Genova – Facoltà di Ingegneria
MODELLO PLP
• Il modello PLP simula la percezione
dell’udito umano e stima con accuratezza i
parametri del parlato in modo veloce
MEMORIA ASSOCIATIVA
• Associa i parametri del parlato ottenuti
con il modello PLP ad un set predefinito di
caratteristiche
• Adatta per una rappresentazione
vettoriale dei dati
• Rende possibile il riconoscimento della
forma d’onda
Università degli Studi di Genova – Facoltà di Ingegneria
SISTEMA DI RICONOSCIMENTO
• Fase di Apprendimento (training)
– Analisi del segnale vocale per ogni frame
– Costruzione database con i vettori PLP
• Fase di riconoscimento
– Analisi del segnale vocale (PLP)
– Calcolo score rispetto al database di training
– Stima parola con algoritmo DTW
Università degli Studi di Genova – Facoltà di Ingegneria
OBIETTIVI
• Rendere il sistema di riconoscimento più
rapido e meno costoso
• Mettere a punto un sistema software che
permetta di minimizzare i tempi di calcolo
senza provocare un significativo
peggioramento del risultato finale
Università degli Studi di Genova – Facoltà di Ingegneria
OTTIMIZZAZIONE
• Riduzione del file di training
- Algoritmo di Lloyd
- Algoritmo K-Means
- Disattivazione
Università degli Studi di Genova – Facoltà di Ingegneria
Lloyd & K-Means
• Si muovono ripetitivamente tutti i valori di
riferimento alla media del loro Voronoi set (L) o
considerando il punto vincitore (K)
• Il riferimento si posiziona come un centroide per
un insieme di punti
DISATTIVAZIONE
• Elimina i punti “sparsi” attratti più da altre classi che da
quella di appartenenza
• Può essere effettuata prima o dopo la riduzione tramite
Lloyd & K-Means
• Riduce ulteriormente il file di training
DIAGRAMMA DI VORONOI
• Permette di dividere il piano assegnando a
ciascun punto il seme più vicino
PROVE EFFETTUATE
• Utilizzo di un database di registrazioni
composto da parole pronunciate da
differenti parlatori in più sessioni
• Addestramento con files di training completi
e ridotti
• Riconoscimento di parole dello stesso o di
altri parlatori nelle varie sessioni
Università degli Studi di Genova – Facoltà di Ingegneria
RISULTATI
Riduzione Lloyd e nessuna disattivazione ulteriore (XV)
Ancos01
Ancos01.10
Ancos01.100
Parlatore
Parola
R
%
R
%
R
%
Ancos01
0#1
S
100
S
83.5
S
68.5
Ancos01
2#3
S
100
S
78.8
S
59
Ancos02
0#1
S
60
S
60
S
38.6
Ancos02
2#3
S
70.4
S
70.4
S
70.4
Lucas01
5#3
S
52
S
50
S
54.6
Lucas01
9#4
S
47
S
47
S
39.4
Cabos03
6#1
N
33.7
N
36.6
S
31.1
Cabos03
0#3
N
26.4
S
22.9
S
18.4
Università degli Studi di Genova – Facoltà di Ingegneria
RISULTATI
Riduzione Lloyd e disattivazione ulteriore (XV V*)
Ancos01
Ancos01.10
Ancos01.100
Parlatore
Parola
R
%
R
%
R
%
Ancos01
0#1
S
100
S
57.5
S
30.1
Ancos01
2#3
S
100
S
65
S
28
Ancos02
0#1
S
60
S
54.6
S
28
Ancos02
2#3
S
70.4
S
58.7
S
62.1
Lucas01
5#3
S
52
S
50.2
S
42.5
Lucas01
9#4
S
47
S
39.3
S
29
Cabos03
6#1
N
33.7
N
24.5
S
20.9
Cabos03
0#3
N
26.4
N
16.6
N
14.2
Università degli Studi di Genova – Facoltà di Ingegneria
RISULTATI
Riduzione Lloyd e disattivazione ulteriore (XX* V)
Ancos01
Ancos01.10
Ancos01.100
Parlatore
Parola
R
%
R
%
R
%
Ancos01
0#1
S
100
S
73.9
S
68.4
Ancos01
2#3
S
100
S
72.3
S
52.8
Ancos02
0#1
S
60
S
57.3
S
61.3
Ancos02
2#3
S
70.4
S
66.1
S
62.5
Lucas01
5#3
S
52
S
45.9
S
49.1
Lucas01
9#4
S
47
S
45
S
35.9
Cabos03
6#1
N
33.7
N
32.7
S
28.5
Cabos03
0#3
N
26.4
S
18.3
S
16.5
Università degli Studi di Genova – Facoltà di Ingegneria
CONCLUSIONI
• Significativa riduzione dei file di training
• Diminuzione dei tempi di esecuzione del
programma di riconoscimento “Spear”
• Pochi errori nel riconoscimento delle parole
Università degli Studi di Genova – Facoltà di Ingegneria
Scarica

Presentazione ppt