Un Sistema di Speaker Identification per la segmentazione Automatica di Videogiornali G. Percannella1, C. Sansone2, D. Sorrentino1, M. Vento1 1 Dipartimento di Ing. dell’Informazione e Ing. Elettrica Università degli Studi di Salerno Dipartimento di Informatica e Sistemistica Università degli Studi di Napoli “Federico II” 2 E-mail: [email protected] 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Il contesto La Segmentazione dei video è il passo preliminare per l’indicizzazione ed il retrieval attraverso contenuti. La traccia video è la sorgente di informazioni più comune. Non è raro l’impiego dell’audio come sorgente alternativa di informazioni per la segmentazione. E’ possibile impiegare un sistema di speaker identification in tempo reale per la segmentazione automatica e per la metadatazione automatica dei notiziari. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Speaker identification Sistemi Closed Set Lo Speaker da identificare è parte di un insieme finito di persone noto a priori. Sistemi Open Set Lo Speaker da identificare può non appartenere all’insieme di Speaker noti. Sistemi Text-Dependent E’ richiesto l’inserimento di un testo fisso per l’identificazione di uno Speaker (ad esempio una password). Sistemi Text-Independent Non è imposto alcun vincolo al testo degli Speaker per la loro identificazione. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Il nostro sistema E’ Text Indipendent e opera in tempo reale ed in modalità closed set. Utilizza feature calcolate nel dominio del tempo e quello della frequenza. La classificazione è effettuata attraverso una rete neurale LVQ in due diverse configurazioni prototipali. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Architettura del sistema Sorgente Audio Buffer Preprocessing Normalizzazione Feature Estrazione Feature Classificazione Speaker Identificato 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Pre-processing Frame blocking Il segnale audio è partizionato in frame sovrapposti. La sovrapposizione è pari ad due terzi della lunghezza del frame. La durata di un frame è di circa 23 ms. Pre-enfasi Un filtro passa basso riduce significativamente le componenti in alta frequenza, in modo da aumentare il rapporto segnale rumore. Finestramento Una finestra di Hamming elimina le discontinuità agli estremi del frame. Si assegna un peso maggiore ai campioni centrali che compongono il frame. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Feature utilizzate Linear Predictive Cepstral Coefficients (LPCC) Estratti nel dominio del tempo con un analisi di predizione lineare Si utilizza il metodo di Levinson-Durbin. Post Filter Linear (PF) Estratti ancora nel dominio del tempo attraverso un analisi di predizione lineare. Migliorano le prestazioni del LPCC alle basse frequenze. Mel Filtered Cepstral Coefficients (MFCC) Ricavati nel dominio della frequenza mediante la trasformata inversa di Fourier del logaritmo dello spettro di ampiezza del segnale di ingresso. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Normalizzazione e classificazione delle feature Normalizzazione Rende assoluto il sistema di riferimento. Migliora il potere discriminante delle feature. Classificazione Addestramento Una rete LVQ è addestrata con algoritmo FSCL come classificatore. La classificazione di uno speaker è basata sul concetto di minima distanza. Testing Il sistema provvederà alla classificazione di un blocco di vettori di feature, riportando in uscita lo speaker più occorrente. Ogni vettore di feature è calcolato in un intervallo di circa 23 msec (frame audio). La risposta del sistema viene effettuata dopo aver analizzato una sequenza di frame di durata prefissata (shot audio). La durata degli shot può variare da 0.5 sec a 5 sec. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Il database L’intero database ha una durata complessiva di circa 1h e 2 min. 12 differenti telegiornali italiani. 10 speaker (5 di sesso maschile e 5 femminile). 25 segmenti audio per ogni speaker. Ogni segmento audio nel data base ha una durata di 15 sec. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento La sperimentazione Tre training set (TRS) sono stati usati, ogni uno costituito da segmenti audio di durata multipla di 15 sec. 15 sec 30 sec 45 sec La dimensione del test set (TS) è sempre fissata a 30 sec. Il classificatore LVQ opera con 50 e 100 prototipi per classe. Si sono utilizzati 3 differenti set di feature solo LPCC solo MFCC MFCC insieme alle LPCC e PF. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Risultati sperimentali - Caso 1 35% 50 prototipi per classe 30% Tasso di errore in funzione della durata degli shot in secondi per i tre TRS. 45 sec 25% 15 sec 20% 15% 30 sec 10% 5% 0% 35% 30% 25% 20% 100 prototipi per classe 0.5 1 1.5 2 3 5 45 sec 15 sec Solo LPCC feature. 15% 10% 30 sec 5% 0% 2° Convegno AISV Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 0.5 Nazionale 1 1.5Associazione 2 3 5 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Risultati sperimentali - Caso 2 45% 40% Tasso di errore in funzione della durata degli shot in secondi per i tre TRS. 45 sec 30 sec 35% 30% 25% 20% 15 sec 15% 10% 5% 50 prototipi per classe 0% 45% 40% 0.5 30 sec 35% 30% 1 1.5 2 3 5 45 sec 25% 20% Solo MFCC feature. 15 sec 15% 10% 5% 0% 100 prototipi per classe 0.5 1 1.5 2 3 5 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Risultati sperimentali - Caso 3 18% 16% Tasso di errore in funzione della durata degli shot in secondi per i tre TRS. 50 prototipi per classe 14% 12% 10% 8% 15 sec 6% 4% 30 sec 45 sec 2% 16% 100 prototipi per classe 14% 0.5 1 1.5 2 3 5 12% LPCC, MFCC e PF feature 10% 8% 6% 30 sec 4% 45 sec 2% 0% 15 sec 0.5 1 1.5 2 3 5 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento L’applicativo di speaker identification 5 speakers Shot Length: L’applicazione è basata su un sistema addestrato con un TRS avente segmenti di 30 sec, usando un classificatore LVQ con 50 prototipi. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Shot length = 1 sec Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento L’applicativo di speaker identification Il tasso di riconoscimento è del 96.46%. L’affidabilità R è valutata come: 100*(1-N2/N1). N1 è il numero di vettori di feature attribuiti alla classe vincente. N2 è il numero di vettori di feature attribuiti runner-up. Shot Length: Il tasso di riconoscimento sulle classificazioni affidabili è del 99.79%. SIRTA 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento Conclusioni Presentiamo un sistema di speaker identification in tempo reale che utilizza feature estratte sia dal dominio del tempo che in quello delle frequenze. Attraverso un criterio di votazione a maggioranza, il sistema proposto è più robusto rispetto ai silenzi e ai segmenti unvoiced. I risultati sul database di segmenti audio estratti dai notiziari dimostrano l’efficacia del sistema nell’identificazione degli speaker in tempo reale. Il sistema può coadiuvare l’implementazione di una applicazione che usa l’informazione audio per la segmentazione automatica degli stream video. 2° Convegno Nazionale AISV Associazione Italiana di Scienze della Voce - Salerno, 30 Novembre 2 Dicembre, 2005 Un Sistema di Speaker Identification per la Segmentazione Automatica di Videogiornali G. Percannella, C. Sansone, D. Sorrentino, M. Vento