Acquisizione simultanea di materiali tramite
articulografo, ecografo e elettrolaringografo:
prime osservazioni
B.Gili Fivela, M.Grimaldi, F.Sigona,
M.Tavella*, P.Fitzpatrick*, G.Metta*, L.Craighero^, L.Fadiga^, G.Sandini*
CRIL – University of Salento, Lecce – Italy,
*LiraLab - University of Genova, ^NeuroLab – University of Ferrara
Premessa
• Acquisizione simultanea e sincronizzazione dei dati:
– collaborazione con il progetto CONTACT (http://www.liralab.it/contact), il
cui gruppo di ricerca è formato da
•
•
•
•
•
Giulio Sandini. Project leader. LIRA-Lab, Università di Genova
Luciano Fadiga. Neurolab, Dip. Di Scienze Biomediche, Università di Ferrara
Claes von Hofsten. Dip. Di Psicologia, Università di Uppsala, Svezia
Francisco Lacerda. Dip. Di Linguistica, Università di Stoccolma, Svezia
José Santos-Victor. Vis-Lab, Instituto Superior Técnico, Portogallo
– Il progetto CONTACT è una ricerca interdisciplinare dello sviluppo
parallelo degli atti motori relativi alla manipolazione ed alla produzione del
parlato
– I risultati derivanti da questa collaborazione sono stati presentati a Ultrafest
IV - 28-29 Settembre 2007- New York University
http://jerome.linguistics.fas.nyu.edu/Ultrafest_Schedule.html
Sommario
• Materiali acquisiti e relative tecnologie
•
•
•
•
•
Segnale elettroglottografico (Elettrolaringografo)
Segnali cinematici degli articolatori (EMA-3D)
Ecografia linguale (Ultrasuoni)
Registrazione audio/video delle espressioni facciali (Videocamera)
Segnale vocale (speech).
• Cenni sulla sincronizzazione dei materiali
• Panoramica del software sviluppato per la
visualizzazione dei dati
• Alcuni risultati
Tecnologie per l’acquisizione
Elettroglottografia (EGG)
•
Elettrolaringografo (Laryngograph® Ltd)
– Due elettrodi metallici a placca con superficie di
contatto di circa 2-3 cm2 sulla cute di ciascun lato del
collo, in corrispondenza delle cartilagini tiroidee a
livello del piano glottico
– Si utilizza una corrente alternata ad alta frequenza (0,35 MHZ) ed a bassa intensità (< 20 mA) che non viene
avvertita dal paziente e non determina contrazioni
muscolari o stimolazioni nervose
– Si misura l’impedenza elettrica che è in funzione del
tasso di contatto delle corde vocali (essa diminuisce a
corde vocali chiuse ed aumenta a corde vocali aperte)
– Collegamento via USB al PC per l’acquisizione del
segnale digitalizzato
Elettroglottografia (EGG)
– La forma d’onda fornita dal
sistema permette di
• stimare la fase di chiusura per
ognuno dei cicli di apertura e
chiusura della glottide
• studiare le caratteristiche
principali della fonazione normale
e patologica
– Il sistema permette di studiare
la regolarità della vibrazione
delle corde vocali, le singole
fasi di apertura e chiusura, il
rapporto tra le due o la loro
forma.
Apertura/chiusura delle corde vocali
Analisi cinematiche: EMA 3-D
• Articolografia Elettromagnetica 3-D
(AG500, Carstens Medizinelektronik
GmbH)
– Registrazione segnale vocale
• sincrona con il dato cinematico
– Sei trasmettitori
producono una
configurazione di
campo magnetico
alternato
• 7.5 – 13.75 KHz
• 1.25 μT al centro
From Zierdt et al., 1999
Analisi cinematiche: EMA 3-D
– I sensori sono incollati sugli articolatori
(vedi figure)
– F.e.m. indotte alternate nei sensori, più o meno
intense a seconda della distanza e del moto del
sensore dal trasmettitore
– Segnale analogico digitalizzato a 200 Hz
(5 ms)
– Un software (PC) calcola la posizione dei
sensori
– Dal dato cinematico è possibile ricavare valori
di parametri quali l’ampiezza e la velocità del
gesto articolatorio
– Studio della produzione del parlato e del
controllo motorio
M. Tavella 2007
Ecografo
• Aplio XV (Toshiba Medical System corp.)
– immagini prodotte grazie alle proprietà di riflessione di
onde sonore ad alta frequenza (~MHz), emesse da
cristalli piezoelettrici
– la sonda è posta ad un vertice dell’oggetto e l’onda lo
attraversa sino a raggiungerne la superficie opposta,
dove viene riflessa
Da Shaker et al. (1984)
– Si ottengono buone
immagini della
superficie della lingua,
prevedendo un metodo
per il sostegno della
sonda
Da Hedrick et al. (1995)
Ecografo
• Risoluzione temporale: 25 frame/s
– Sebbene l’Aplio XV consenta di ricavare
immagini con risoluzione temporale maggiore,
l’attuale funzionamento della procedura di
sincronizzazione richiede l’uso del segnale SVideo (25 fps) fornito dall’apparecchio
• Il segnale video è digitalizzato ed interlacciato
con l’audio proveniente da un microfono, in una
scheda di acquisizione A/V che riversa il filmato
su un PC
• Utile per lo studio dei movimenti della lingua
nel parlato
• Può essere usato nella riabilitazione per disturbi
e patologie del parlato
Videocamera
• Una normale videocamera è utilizzata per
registrare le espressioni facciali del soggetto.
• La videocamera registra simultaneamente
l’audio captato dal suo microfono integrato,
e quindi il parlato prodotto dal soggetto.
• La registrazione avviene attualmente su
nastro (DV).
• Attualmente, il filmato audio/video ottenuto
non è oggetto di studio, ma rappresenta
un’ulteriore tipologia di sorgente, al fine di
testare la procedura di sincronizzazione con
tale sorgente.
Scheda di acquisizione A/V
Hub switch di rete
Ultrasuoni
EMA 3-D
Videocamera
+ 3 PC di controllo
Elettrolaringografo
Mixer audio
Sostegno in legno per la sonda US
Caratteristiche: acquisizione
• Elettrolaringografo
– Non invasivo & nessun disagio per il soggetto in esame
• EMA
– Dati cinematici piuttosto accurati (errore stimato : +/- 0.5 mm)
– Risoluzione temporale: 5 ms
– Svantaggi/criticità
• Piuttosto invasivo, situazione non sempre confortevole per il soggetto, quindi
conseguenze sulla qualità del dato acquisito.
• Necessaria calibrazione dell’apparecchio per ogni soggetto
• Il dato acquisito richiede una post-elaborazione numerica (filtraggio).
• Ecografia linguale
– Metodo non invasivo
– Risoluzione temporale della sequenza immagini: 40 ms (25 fps)
– Svantaggi/criticità
• Alcuni GByte di memoria per l’archiviazione dell’intero esperimento
• Differenze tra soggetti
• Necessità di un sistema per il bloccaggio della testa (per minimizzare movimenti
non legati alla produzione del parlato). Per il funzionamento simultaneo con
l’EMA, è richiesto un sistema di bloccaggio non metallico.
Sincronizzazione (cenni)
Sincronizzazione
Michele Tavella – Progetto Contact
• Segnali di riferimento
– Impulsi acustici
• Generati direttamente dalla strumentazione (AG500)
• Generati al PC con apposito s/w e mixati con il segnale audio verbale
– Lo stesso segnale verbale, quando non è previsto il mixaggio con gli impulsi (es.
audio della videocamera su nastro)
• Acquisizione
– Programmi in Perl, Python, C/C++, per il controllo di alcune fasi dell’acquisizione
(es. generazione impulsi, presentazione corpus)
• Postprocessing (C/C++, Matlab, Perl)
– Segmentazione dell’esperimento in sequenze ed in parole/pseudoparole
componenti il corpus
– Allineamento
• Cross-correlazione del segnale verbale con il segnale verbale di riferimento
– Distribuzione risultati in formato Matlab (.mat)
– Postprocessing quasi completamente automatizzato
• E’ attualmente richiesto soltanto un piccolo intervento iniziale da parte dell’operatore
Software per l’analisi dei dati
(work in progress)
Caratteristiche principali
• Compatibilità con altri software
– con Praat (http://www.praat.org):
• È in grado di importare livelli di etichette generati con Praat
• E’ in grado di pilotare Praat per calcolare le formanti, e di importare il
risultato ottenuto
– con Edgetrak (http://speech.umaryland.edu/software.html)
• Importare le coordinate dei punti del contorno della lingua elaborato
con Edgetrak
• Visualizzazione delle forme d’onda sincronizzate
– EGG, Speech, EMA
• Visualizzazione immagini US:
– Sovrapposizione griglia radiale di riferimento
– Sovrapposizione contorno importato da Edgetrak
– Sovrapposizione dei sensori EMA sul piano midsagittale
(approssimazione grafica)
Schermata iniziale
1. Selezione pacchetto dati
2. Cliccare su Plot
Plot browser
EGG
Ascolto dell’audio in ogni intervallo
Griglia radiale
Sensori EMA
Contorno lingua di
Edgetrak
Speech
Visualizzazione immagine US
Spettrogramma ( + formanti)
Coordinata Z dei sensori 1 e 3
Sviluppi futuri
• Compatibilità / integrazione con i tool software
maggiormente usati in letteratura (riusabilità del codice)
• Personalizzazioni, per il calcolo di vari parametri
(feedback dai ricercatori)
• Miglioramento dell’interfaccia grafica
• Documentazione del software
• Appena pronta una versione stabile, sarà rilasciata come
freeware o con licenza GPL
Esperimenti ed osservazioni
Esperimenti
Soggetti
Femmine
Maschi
Totale
6
3
9
Stimoli
Parole (dichiarative)
Parole (interrogative)
Pseudo-Parole (sillabe)
Totale
Ogni insieme è stato letto per tre volte:
Totale (1 soggetto)
Totale (9 soggetti)
74
74
68
316
948
8532
Corpus
• Comprende i fonemi consonantici e vocalici attestati in italiano
(varietà di Lecce)
• Parole
– Consonanti (bersaglio) in posizione iniziale di parola, seguite da /a,e,i,o,u/
(e.g., /´matto, ´muffa, ´moro/ <mad, mould, dark >)
– Accento iniziale
(e.g., /´matto, ´nome, ´strada/ <mad, name, street>)
– Alcune parole con diversa posizione dell’accento
(e.g., /mat´tone, pa´pa/ <brick, dad>)
• Pseudo-parole
– monosillabi
– Fonemi consonantici dell’italiano, seguiti da /a,u,i/.
(e.g., /´na, ´nu, ´ni, ´λa, ´ λu, ´ λi, /)
Osservazioni
• Obiettivi
– Passi necessari per la verifica di specifiche ipotesi linguistiche
– Informazioni ricavate grazie alla sincronizzazione
• Posizione delle testa per US
• Elettrodi di riferimento per EMA 3D
• Analisi delle pseudo-parole
– Fonemi alveodentali e postalveolari sordi + vocale
/t, s, ts, tS/ + /a,i,u/
• Due esperimenti/parlanti
• Segmentazione del segnale verbale (PRAAT)
– CV
– Transizioni
• Visualizzazione dei dati articolatori (Matlab script- F. Sigona)
Elettrolaringografo
– A confine sordo/sonoro
• Chiara indicazione del confine
– Minor influenza delle convenzioni di segmentazione
– Minor influenza dei parametri di impostazione del
programma
– In porzioni sonore
• Informazione sull’attività delle pliche vocali
– Possibile integrazione di altre informazioni
0.1093
0
-0.137
0
0.907896
8000
Time (s)
Exp1-dist5-wd17 -ci
LG signal
0.2
0
-0.2
0.2203
0.2602
0.3003
0.3403
0.3802
0
0.4202
0.4602
0.5002
0.5402
0.5802
time [s]
0
0.907896
1
Time (s)
C0
0.5
C1
V1
0
0.2203
0.2602
0.3003
0.3403
0.3802
0.4202
0.4602
T0
0.5002
0.5402
0.5802
T1
-22
Z [mm]
-24
0
0.907896
Time (s)
-26
-28
-30
0.2203
0.2602
0.3003
0.3403
0.3802
time [s]
0.4202
0.4602
0.5002
0.5402
0.5802
Elettrolaringografo
– A confine sordo/sonoro
• Chiara indicazione del confine
– Minor influenza delle convenzioni di segmentazione
– Minor influenza dei parametri di impostazione del
programma
– In porzioni sonore
• Informazione sull’attività delle pliche vocali
– Possibile integrazione di altre informazioni
Ecografo
• Morfologia della lingua (informazioni integrative circa
punti specifici, ad esempio quelli rilevati grazie all’EMA)
– Superficie delle lingua durante la produzione di
affricate (e.g. transizioni)
– Postdorso della lingua
Morfologia della lingua - /tSu/
exp.0001 - seq.0003 - wd.0063 - pic.16 - Time: 0.360000 s
50
Time: 0.360000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Morfologia della lingua - /tSu/
exp.0001 - seq.0003 - wd.0063 - pic.17 - Time: 0.400000 s
50
Time: 0.400000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Morfologia della lingua - /tSu/
exp.0001 - seq.0003 - wd.0063 - pic.18 - Time: 0.440000 s
50
Time: 0.440000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Morfologia della lingua - /tSu/
exp.0001 - seq.0003 - wd.0063 - pic.19 - Time: 0.480000 s
50
Time: 0.480000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Morfologia della lingua - /tSu/
exp.0001 - seq.0003 - wd.0063 - pic.20 - Time: 0.520000 s
50
Time: 0.520000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Morfologia della lingua - /tSu/
exp.0001 - seq.0003 - wd.0063 - pic.21 - Time: 0.560000 s
50
Time: 0.560000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Morfologia della lingua - /tSu/
exp.0001 - seq.0003 - wd.0063 - pic.22 - Time: 0.600000 s
50
Time: 0.600000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Articulografo – EMA 3D
• Informazione dettagliata, relativa a punti specifici
– Dominio spaziale
– Dominio temporale
• Informazioni sulla cinematica labiale
• Integrazione delle informazioni sulla
morfologia della lingua
LG signal
Movimento di labbra e lingua - /tSu/
0.2
0.1
0
-0.1
0.3863
0.4263
0.4663
0.5063
0.5463
0.5863
0.6263
0.6663
0.7063
0.5463
0.5863
0.6263
0.6663
0.7063
0.5463
0.5863
0.6263
0.6663
0.7063
0.5863
0.6263
0.6663
0.7063
time [s]
1
0.5
0
0.3863
0.4263
0.4663
0.5063
0.3863
0.4263
0.4663
0.5063
-4
Y [mm]
-3
-2
-1
time [s]
Z [mm]
-30
-35
-40
0.3863
0.4263
0.4663
0.5063
0.5463
time [s]
Movimento dell’apice della lingua - /sa/
LG signal
0.4
0.2
0
-0.2
0.127
0.167
0.207
0.247
0.287
0.327
0.367
0.407
0.447
0.487
time [s]
1
0.5
Z [mm]
0
0.127
0.167
0.207
0.247
0.287
0.327
0.367
0.407
0.447
0.487
0.127
0.167
0.207
0.247
0.287
0.327
0.367
0.407
0.447
0.487
-32
-34
-36
-38
-40
-42
-44
time [s]
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.11 - Time: 0.080000 s
50
Time: 0.080000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.12 - Time: 0.120000 s
50
Time: 0.120000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.13 - Time: 0.160000 s
50
Time: 0.160000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.14 - Time: 0.200000 s
50
Time: 0.200000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.15 - Time: 0.240000 s
50
Time: 0.240000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.16 - Time: 0.280000 s
50
Time: 0.280000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.17 - Time: 0.320000 s
50
Time: 0.320000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.18 - Time: 0.360000 s
50
Time: 0.360000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
exp.0001 - seq.0003 - wd.0024 - pic.19 - Time: 0.400000 s
50
Time: 0.400000s
100
150
200
250
300
350
400
450
500
550
100
200
300
400
500
600
700
Movimento dell’apice della lingua - /sa/
LG signal
0.4
0.2
0
-0.2
0.127
0.167
0.207
0.247
0.287
0.327
0.367
0.407
0.447
0.487
time [s]
1
0.5
Z [mm]
0
0.127
0.167
0.207
0.247
0.287
0.327
0.367
0.407
0.447
0.487
0.127
0.167
0.207
0.247
0.287
0.327
0.367
0.407
0.447
0.487
-32
-34
-36
-38
-40
-42
-44
time [s]
Correlazione dei dati EMA ed US
• US + superficie della lingua (+ posizione dei sensori EMA)
• Ad esempio, per osservare segmenti rilevanti della lingua ed il
sistema di muscoli che li controlla (Stone, Epstein, Iskarous, 2004)
exp.0004 - seq.0005 - wd.0017 - pic.11 - Time: 0.160000 s
Time: 0.160000s
50
100
/tSi/
150
Approximated estimation
of EMA sensors positions
200
Sup. long. and transverse muscle
250
300
Genioglossus
350
Geniohyoid
400
Mylohyoid
450
Closure
phase
500
550
100
200
300
400
500
600
700
exp.0004 - seq.0005 - wd.0017 - pic.12 - Time: 0.200000 s
Time: 0.200000s
50
100
150
200
Sup. long. and transverse muscle
250
300
Genioglossus
350
Geniohyoid
400
Mylohyoid
450
Release
500
550
100
200
300
400
500
600
700
exp.0004 - seq.0005 - wd.0017 - pic.13 - Time: 0.240000 s
Time: 0.240000s
50
100
150
200
Sup. long. and transverse muscle
250
300
Genioglossus
350
Geniohyoid
400
Mylohyoid
450
Friction
500
550
100
200
300
400
500
600
700
exp.0004 - seq.0005 - wd.0017 - pic.14 - Time: 0.280000 s
Time: 0.280000s
50
100
150
200
Sup. long. and transverse muscle
250
300
Genioglossus
350
Geniohyoid
400
Mylohyoid
450
Raising and
fronting
500
550
100
200
300
400
500
600
700
exp.0004 - seq.0005 - wd.0017 - pic.15 - Time: 0.320000 s
Time: 0.320000s
50
100
150
200
Sup. long. and transverse muscle
250
300
Genioglossus
350
Geniohyoid
400
Mylohyoid
450
Raising and
fronting
500
550
100
200
300
400
500
600
700
exp.0004 - seq.0005 - wd.0017 - pic.16 - Time: 0.360000 s
Time: 0.360000s
50
100
150
200
Sup. long. and transverse muscle
250
300
Genioglossus
350
Geniohyoid
400
Mylohyoid
450
Raising
500
550
100
200
300
400
500
600
700
exp.0004 - seq.0005 - wd.0017 - pic.17 - Time: 0.400000 s
Time: 0.400000s
50
100
150
200
Sup. long. and transverse muscle
250
300
Genioglossus
350
Geniohyoid
400
Mylohyoid
450
Raising
500
550
100
200
300
400
500
600
700
exp.0004 - seq.0005 - wd.0017 - pic.18 - Time: 0.440000 s
Time: 0.440000s
50
100
150
200
Sup. long. and transverse muscle
250
300
Genioglossus
350
Geniohyoid
400
Mylohyoid
450
Raising
500
550
100
200
300
400
500
600
700
Possibili direzioni di indagine
• In generale (cfr. Stone, Epstein, Iskarous, 2004):
– Differenziazione fonologica dovuta ai movimenti midsagittali della
lingua realizzati grazie all’accoppiamento differenziato di ben
determinati muscoli della lingua.
• In particolare :
– Indipendenza funzionale dei muscoli della lingua:
• L’espansione e la compressione della parte posteriore del
Genioglosso e dei muscoli superiori longitudinali e trasversali
sembrano essere rilevanti nella transizione dalla fase di chiusura
(occlusione) alla fase fricativa, alla fase anteriorizzazione alla fase di
innalzamento.
• L’espansione e la compressione della parte posteriore del Genioioide
e del Miloioide contribuiscono probabilmente alla realizzazione del
tratto ATR nella vocale /i/.
/tSi/
5
Closure phase
0
-5
-10
"C1" [0.19133; 0.26711]
Z-displacement [mm]
Z-displacement [mm]
"C0" [0.15633; 0.19133]
/t/
Release and friction
5
0
-5
/S/
-10
-25
-25
-30
-30
-35
-35
-40
-45
X [mm]
0.2
0.25
0.3
0.35
0.4
0.45
0.5
-40
-45
X [mm]
Time [s]
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Time [s]
Contact of the tip with the teeth
Note the three phases: closure,
all [0.15633; 0.5099]
release and
friction, raising
"V1" [0.26711; 0.50991]
5
Z-displacement [mm]
Z-displacement [mm]
Raising and fronting
0
-5
/i/
-10
-25
5
0
-5
-10
/tSi/
-25
-30
-30
-35
-35
0.5
-40
0.4
Vertical displacement
of
positioned mid-sagittally
onto
the tongue
0.35 sensors
0.35 0.4
-45
-45
0.3 the
0.25
0.25 0.3
0.2
0.2
X [mm]
X [mm]
Time [s]
Time [s]
dorsum from a spatial-temporal
perspective
-40
0.45
0.45
0.5
Riepilogando…
• Integrazione delle informazioni
– Attività laringea
– Parti della lingua non visibili con EMA
– Apice ‘non visibile’ con US
• Risoluzione spazio-temporale
• Informazione ‘ridondante’
– Stesso ‘punto’ visibile grazie ad US ed EMA
Direzioni future
• Software per l’analisi
• EMA 3D
– Risoluzione di problemi (elettrodi di riferimento)
– Miglioramento generale (real time check)
• US
– Stabilità e posizione della sonda
– Sistema per ‘bloccare’ la testa
• Posizione dei sensori EMA sulle immagini US
• Sincronizzazione EPG
– Proiezione del palato
• Acquisizione dati
– Possibili interferenze pe rintroduzione di EPG
Grazie
dell’attenzione!
Scarica

S - CRIL