Acquisizione simultanea di materiali tramite articulografo, ecografo e elettrolaringografo: prime osservazioni B.Gili Fivela, M.Grimaldi, F.Sigona, M.Tavella*, P.Fitzpatrick*, G.Metta*, L.Craighero^, L.Fadiga^, G.Sandini* CRIL – University of Salento, Lecce – Italy, *LiraLab - University of Genova, ^NeuroLab – University of Ferrara Premessa • Acquisizione simultanea e sincronizzazione dei dati: – collaborazione con il progetto CONTACT (http://www.liralab.it/contact), il cui gruppo di ricerca è formato da • • • • • Giulio Sandini. Project leader. LIRA-Lab, Università di Genova Luciano Fadiga. Neurolab, Dip. Di Scienze Biomediche, Università di Ferrara Claes von Hofsten. Dip. Di Psicologia, Università di Uppsala, Svezia Francisco Lacerda. Dip. Di Linguistica, Università di Stoccolma, Svezia José Santos-Victor. Vis-Lab, Instituto Superior Técnico, Portogallo – Il progetto CONTACT è una ricerca interdisciplinare dello sviluppo parallelo degli atti motori relativi alla manipolazione ed alla produzione del parlato – I risultati derivanti da questa collaborazione sono stati presentati a Ultrafest IV - 28-29 Settembre 2007- New York University http://jerome.linguistics.fas.nyu.edu/Ultrafest_Schedule.html Sommario • Materiali acquisiti e relative tecnologie • • • • • Segnale elettroglottografico (Elettrolaringografo) Segnali cinematici degli articolatori (EMA-3D) Ecografia linguale (Ultrasuoni) Registrazione audio/video delle espressioni facciali (Videocamera) Segnale vocale (speech). • Cenni sulla sincronizzazione dei materiali • Panoramica del software sviluppato per la visualizzazione dei dati • Alcuni risultati Tecnologie per l’acquisizione Elettroglottografia (EGG) • Elettrolaringografo (Laryngograph® Ltd) – Due elettrodi metallici a placca con superficie di contatto di circa 2-3 cm2 sulla cute di ciascun lato del collo, in corrispondenza delle cartilagini tiroidee a livello del piano glottico – Si utilizza una corrente alternata ad alta frequenza (0,35 MHZ) ed a bassa intensità (< 20 mA) che non viene avvertita dal paziente e non determina contrazioni muscolari o stimolazioni nervose – Si misura l’impedenza elettrica che è in funzione del tasso di contatto delle corde vocali (essa diminuisce a corde vocali chiuse ed aumenta a corde vocali aperte) – Collegamento via USB al PC per l’acquisizione del segnale digitalizzato Elettroglottografia (EGG) – La forma d’onda fornita dal sistema permette di • stimare la fase di chiusura per ognuno dei cicli di apertura e chiusura della glottide • studiare le caratteristiche principali della fonazione normale e patologica – Il sistema permette di studiare la regolarità della vibrazione delle corde vocali, le singole fasi di apertura e chiusura, il rapporto tra le due o la loro forma. Apertura/chiusura delle corde vocali Analisi cinematiche: EMA 3-D • Articolografia Elettromagnetica 3-D (AG500, Carstens Medizinelektronik GmbH) – Registrazione segnale vocale • sincrona con il dato cinematico – Sei trasmettitori producono una configurazione di campo magnetico alternato • 7.5 – 13.75 KHz • 1.25 μT al centro From Zierdt et al., 1999 Analisi cinematiche: EMA 3-D – I sensori sono incollati sugli articolatori (vedi figure) – F.e.m. indotte alternate nei sensori, più o meno intense a seconda della distanza e del moto del sensore dal trasmettitore – Segnale analogico digitalizzato a 200 Hz (5 ms) – Un software (PC) calcola la posizione dei sensori – Dal dato cinematico è possibile ricavare valori di parametri quali l’ampiezza e la velocità del gesto articolatorio – Studio della produzione del parlato e del controllo motorio M. Tavella 2007 Ecografo • Aplio XV (Toshiba Medical System corp.) – immagini prodotte grazie alle proprietà di riflessione di onde sonore ad alta frequenza (~MHz), emesse da cristalli piezoelettrici – la sonda è posta ad un vertice dell’oggetto e l’onda lo attraversa sino a raggiungerne la superficie opposta, dove viene riflessa Da Shaker et al. (1984) – Si ottengono buone immagini della superficie della lingua, prevedendo un metodo per il sostegno della sonda Da Hedrick et al. (1995) Ecografo • Risoluzione temporale: 25 frame/s – Sebbene l’Aplio XV consenta di ricavare immagini con risoluzione temporale maggiore, l’attuale funzionamento della procedura di sincronizzazione richiede l’uso del segnale SVideo (25 fps) fornito dall’apparecchio • Il segnale video è digitalizzato ed interlacciato con l’audio proveniente da un microfono, in una scheda di acquisizione A/V che riversa il filmato su un PC • Utile per lo studio dei movimenti della lingua nel parlato • Può essere usato nella riabilitazione per disturbi e patologie del parlato Videocamera • Una normale videocamera è utilizzata per registrare le espressioni facciali del soggetto. • La videocamera registra simultaneamente l’audio captato dal suo microfono integrato, e quindi il parlato prodotto dal soggetto. • La registrazione avviene attualmente su nastro (DV). • Attualmente, il filmato audio/video ottenuto non è oggetto di studio, ma rappresenta un’ulteriore tipologia di sorgente, al fine di testare la procedura di sincronizzazione con tale sorgente. Scheda di acquisizione A/V Hub switch di rete Ultrasuoni EMA 3-D Videocamera + 3 PC di controllo Elettrolaringografo Mixer audio Sostegno in legno per la sonda US Caratteristiche: acquisizione • Elettrolaringografo – Non invasivo & nessun disagio per il soggetto in esame • EMA – Dati cinematici piuttosto accurati (errore stimato : +/- 0.5 mm) – Risoluzione temporale: 5 ms – Svantaggi/criticità • Piuttosto invasivo, situazione non sempre confortevole per il soggetto, quindi conseguenze sulla qualità del dato acquisito. • Necessaria calibrazione dell’apparecchio per ogni soggetto • Il dato acquisito richiede una post-elaborazione numerica (filtraggio). • Ecografia linguale – Metodo non invasivo – Risoluzione temporale della sequenza immagini: 40 ms (25 fps) – Svantaggi/criticità • Alcuni GByte di memoria per l’archiviazione dell’intero esperimento • Differenze tra soggetti • Necessità di un sistema per il bloccaggio della testa (per minimizzare movimenti non legati alla produzione del parlato). Per il funzionamento simultaneo con l’EMA, è richiesto un sistema di bloccaggio non metallico. Sincronizzazione (cenni) Sincronizzazione Michele Tavella – Progetto Contact • Segnali di riferimento – Impulsi acustici • Generati direttamente dalla strumentazione (AG500) • Generati al PC con apposito s/w e mixati con il segnale audio verbale – Lo stesso segnale verbale, quando non è previsto il mixaggio con gli impulsi (es. audio della videocamera su nastro) • Acquisizione – Programmi in Perl, Python, C/C++, per il controllo di alcune fasi dell’acquisizione (es. generazione impulsi, presentazione corpus) • Postprocessing (C/C++, Matlab, Perl) – Segmentazione dell’esperimento in sequenze ed in parole/pseudoparole componenti il corpus – Allineamento • Cross-correlazione del segnale verbale con il segnale verbale di riferimento – Distribuzione risultati in formato Matlab (.mat) – Postprocessing quasi completamente automatizzato • E’ attualmente richiesto soltanto un piccolo intervento iniziale da parte dell’operatore Software per l’analisi dei dati (work in progress) Caratteristiche principali • Compatibilità con altri software – con Praat (http://www.praat.org): • È in grado di importare livelli di etichette generati con Praat • E’ in grado di pilotare Praat per calcolare le formanti, e di importare il risultato ottenuto – con Edgetrak (http://speech.umaryland.edu/software.html) • Importare le coordinate dei punti del contorno della lingua elaborato con Edgetrak • Visualizzazione delle forme d’onda sincronizzate – EGG, Speech, EMA • Visualizzazione immagini US: – Sovrapposizione griglia radiale di riferimento – Sovrapposizione contorno importato da Edgetrak – Sovrapposizione dei sensori EMA sul piano midsagittale (approssimazione grafica) Schermata iniziale 1. Selezione pacchetto dati 2. Cliccare su Plot Plot browser EGG Ascolto dell’audio in ogni intervallo Griglia radiale Sensori EMA Contorno lingua di Edgetrak Speech Visualizzazione immagine US Spettrogramma ( + formanti) Coordinata Z dei sensori 1 e 3 Sviluppi futuri • Compatibilità / integrazione con i tool software maggiormente usati in letteratura (riusabilità del codice) • Personalizzazioni, per il calcolo di vari parametri (feedback dai ricercatori) • Miglioramento dell’interfaccia grafica • Documentazione del software • Appena pronta una versione stabile, sarà rilasciata come freeware o con licenza GPL Esperimenti ed osservazioni Esperimenti Soggetti Femmine Maschi Totale 6 3 9 Stimoli Parole (dichiarative) Parole (interrogative) Pseudo-Parole (sillabe) Totale Ogni insieme è stato letto per tre volte: Totale (1 soggetto) Totale (9 soggetti) 74 74 68 316 948 8532 Corpus • Comprende i fonemi consonantici e vocalici attestati in italiano (varietà di Lecce) • Parole – Consonanti (bersaglio) in posizione iniziale di parola, seguite da /a,e,i,o,u/ (e.g., /´matto, ´muffa, ´moro/ <mad, mould, dark >) – Accento iniziale (e.g., /´matto, ´nome, ´strada/ <mad, name, street>) – Alcune parole con diversa posizione dell’accento (e.g., /mat´tone, pa´pa/ <brick, dad>) • Pseudo-parole – monosillabi – Fonemi consonantici dell’italiano, seguiti da /a,u,i/. (e.g., /´na, ´nu, ´ni, ´λa, ´ λu, ´ λi, /) Osservazioni • Obiettivi – Passi necessari per la verifica di specifiche ipotesi linguistiche – Informazioni ricavate grazie alla sincronizzazione • Posizione delle testa per US • Elettrodi di riferimento per EMA 3D • Analisi delle pseudo-parole – Fonemi alveodentali e postalveolari sordi + vocale /t, s, ts, tS/ + /a,i,u/ • Due esperimenti/parlanti • Segmentazione del segnale verbale (PRAAT) – CV – Transizioni • Visualizzazione dei dati articolatori (Matlab script- F. Sigona) Elettrolaringografo – A confine sordo/sonoro • Chiara indicazione del confine – Minor influenza delle convenzioni di segmentazione – Minor influenza dei parametri di impostazione del programma – In porzioni sonore • Informazione sull’attività delle pliche vocali – Possibile integrazione di altre informazioni 0.1093 0 -0.137 0 0.907896 8000 Time (s) Exp1-dist5-wd17 -ci LG signal 0.2 0 -0.2 0.2203 0.2602 0.3003 0.3403 0.3802 0 0.4202 0.4602 0.5002 0.5402 0.5802 time [s] 0 0.907896 1 Time (s) C0 0.5 C1 V1 0 0.2203 0.2602 0.3003 0.3403 0.3802 0.4202 0.4602 T0 0.5002 0.5402 0.5802 T1 -22 Z [mm] -24 0 0.907896 Time (s) -26 -28 -30 0.2203 0.2602 0.3003 0.3403 0.3802 time [s] 0.4202 0.4602 0.5002 0.5402 0.5802 Elettrolaringografo – A confine sordo/sonoro • Chiara indicazione del confine – Minor influenza delle convenzioni di segmentazione – Minor influenza dei parametri di impostazione del programma – In porzioni sonore • Informazione sull’attività delle pliche vocali – Possibile integrazione di altre informazioni Ecografo • Morfologia della lingua (informazioni integrative circa punti specifici, ad esempio quelli rilevati grazie all’EMA) – Superficie delle lingua durante la produzione di affricate (e.g. transizioni) – Postdorso della lingua Morfologia della lingua - /tSu/ exp.0001 - seq.0003 - wd.0063 - pic.16 - Time: 0.360000 s 50 Time: 0.360000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Morfologia della lingua - /tSu/ exp.0001 - seq.0003 - wd.0063 - pic.17 - Time: 0.400000 s 50 Time: 0.400000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Morfologia della lingua - /tSu/ exp.0001 - seq.0003 - wd.0063 - pic.18 - Time: 0.440000 s 50 Time: 0.440000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Morfologia della lingua - /tSu/ exp.0001 - seq.0003 - wd.0063 - pic.19 - Time: 0.480000 s 50 Time: 0.480000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Morfologia della lingua - /tSu/ exp.0001 - seq.0003 - wd.0063 - pic.20 - Time: 0.520000 s 50 Time: 0.520000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Morfologia della lingua - /tSu/ exp.0001 - seq.0003 - wd.0063 - pic.21 - Time: 0.560000 s 50 Time: 0.560000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Morfologia della lingua - /tSu/ exp.0001 - seq.0003 - wd.0063 - pic.22 - Time: 0.600000 s 50 Time: 0.600000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Articulografo – EMA 3D • Informazione dettagliata, relativa a punti specifici – Dominio spaziale – Dominio temporale • Informazioni sulla cinematica labiale • Integrazione delle informazioni sulla morfologia della lingua LG signal Movimento di labbra e lingua - /tSu/ 0.2 0.1 0 -0.1 0.3863 0.4263 0.4663 0.5063 0.5463 0.5863 0.6263 0.6663 0.7063 0.5463 0.5863 0.6263 0.6663 0.7063 0.5463 0.5863 0.6263 0.6663 0.7063 0.5863 0.6263 0.6663 0.7063 time [s] 1 0.5 0 0.3863 0.4263 0.4663 0.5063 0.3863 0.4263 0.4663 0.5063 -4 Y [mm] -3 -2 -1 time [s] Z [mm] -30 -35 -40 0.3863 0.4263 0.4663 0.5063 0.5463 time [s] Movimento dell’apice della lingua - /sa/ LG signal 0.4 0.2 0 -0.2 0.127 0.167 0.207 0.247 0.287 0.327 0.367 0.407 0.447 0.487 time [s] 1 0.5 Z [mm] 0 0.127 0.167 0.207 0.247 0.287 0.327 0.367 0.407 0.447 0.487 0.127 0.167 0.207 0.247 0.287 0.327 0.367 0.407 0.447 0.487 -32 -34 -36 -38 -40 -42 -44 time [s] Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.11 - Time: 0.080000 s 50 Time: 0.080000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.12 - Time: 0.120000 s 50 Time: 0.120000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.13 - Time: 0.160000 s 50 Time: 0.160000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.14 - Time: 0.200000 s 50 Time: 0.200000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.15 - Time: 0.240000 s 50 Time: 0.240000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.16 - Time: 0.280000 s 50 Time: 0.280000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.17 - Time: 0.320000 s 50 Time: 0.320000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.18 - Time: 0.360000 s 50 Time: 0.360000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ exp.0001 - seq.0003 - wd.0024 - pic.19 - Time: 0.400000 s 50 Time: 0.400000s 100 150 200 250 300 350 400 450 500 550 100 200 300 400 500 600 700 Movimento dell’apice della lingua - /sa/ LG signal 0.4 0.2 0 -0.2 0.127 0.167 0.207 0.247 0.287 0.327 0.367 0.407 0.447 0.487 time [s] 1 0.5 Z [mm] 0 0.127 0.167 0.207 0.247 0.287 0.327 0.367 0.407 0.447 0.487 0.127 0.167 0.207 0.247 0.287 0.327 0.367 0.407 0.447 0.487 -32 -34 -36 -38 -40 -42 -44 time [s] Correlazione dei dati EMA ed US • US + superficie della lingua (+ posizione dei sensori EMA) • Ad esempio, per osservare segmenti rilevanti della lingua ed il sistema di muscoli che li controlla (Stone, Epstein, Iskarous, 2004) exp.0004 - seq.0005 - wd.0017 - pic.11 - Time: 0.160000 s Time: 0.160000s 50 100 /tSi/ 150 Approximated estimation of EMA sensors positions 200 Sup. long. and transverse muscle 250 300 Genioglossus 350 Geniohyoid 400 Mylohyoid 450 Closure phase 500 550 100 200 300 400 500 600 700 exp.0004 - seq.0005 - wd.0017 - pic.12 - Time: 0.200000 s Time: 0.200000s 50 100 150 200 Sup. long. and transverse muscle 250 300 Genioglossus 350 Geniohyoid 400 Mylohyoid 450 Release 500 550 100 200 300 400 500 600 700 exp.0004 - seq.0005 - wd.0017 - pic.13 - Time: 0.240000 s Time: 0.240000s 50 100 150 200 Sup. long. and transverse muscle 250 300 Genioglossus 350 Geniohyoid 400 Mylohyoid 450 Friction 500 550 100 200 300 400 500 600 700 exp.0004 - seq.0005 - wd.0017 - pic.14 - Time: 0.280000 s Time: 0.280000s 50 100 150 200 Sup. long. and transverse muscle 250 300 Genioglossus 350 Geniohyoid 400 Mylohyoid 450 Raising and fronting 500 550 100 200 300 400 500 600 700 exp.0004 - seq.0005 - wd.0017 - pic.15 - Time: 0.320000 s Time: 0.320000s 50 100 150 200 Sup. long. and transverse muscle 250 300 Genioglossus 350 Geniohyoid 400 Mylohyoid 450 Raising and fronting 500 550 100 200 300 400 500 600 700 exp.0004 - seq.0005 - wd.0017 - pic.16 - Time: 0.360000 s Time: 0.360000s 50 100 150 200 Sup. long. and transverse muscle 250 300 Genioglossus 350 Geniohyoid 400 Mylohyoid 450 Raising 500 550 100 200 300 400 500 600 700 exp.0004 - seq.0005 - wd.0017 - pic.17 - Time: 0.400000 s Time: 0.400000s 50 100 150 200 Sup. long. and transverse muscle 250 300 Genioglossus 350 Geniohyoid 400 Mylohyoid 450 Raising 500 550 100 200 300 400 500 600 700 exp.0004 - seq.0005 - wd.0017 - pic.18 - Time: 0.440000 s Time: 0.440000s 50 100 150 200 Sup. long. and transverse muscle 250 300 Genioglossus 350 Geniohyoid 400 Mylohyoid 450 Raising 500 550 100 200 300 400 500 600 700 Possibili direzioni di indagine • In generale (cfr. Stone, Epstein, Iskarous, 2004): – Differenziazione fonologica dovuta ai movimenti midsagittali della lingua realizzati grazie all’accoppiamento differenziato di ben determinati muscoli della lingua. • In particolare : – Indipendenza funzionale dei muscoli della lingua: • L’espansione e la compressione della parte posteriore del Genioglosso e dei muscoli superiori longitudinali e trasversali sembrano essere rilevanti nella transizione dalla fase di chiusura (occlusione) alla fase fricativa, alla fase anteriorizzazione alla fase di innalzamento. • L’espansione e la compressione della parte posteriore del Genioioide e del Miloioide contribuiscono probabilmente alla realizzazione del tratto ATR nella vocale /i/. /tSi/ 5 Closure phase 0 -5 -10 "C1" [0.19133; 0.26711] Z-displacement [mm] Z-displacement [mm] "C0" [0.15633; 0.19133] /t/ Release and friction 5 0 -5 /S/ -10 -25 -25 -30 -30 -35 -35 -40 -45 X [mm] 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -40 -45 X [mm] Time [s] 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Time [s] Contact of the tip with the teeth Note the three phases: closure, all [0.15633; 0.5099] release and friction, raising "V1" [0.26711; 0.50991] 5 Z-displacement [mm] Z-displacement [mm] Raising and fronting 0 -5 /i/ -10 -25 5 0 -5 -10 /tSi/ -25 -30 -30 -35 -35 0.5 -40 0.4 Vertical displacement of positioned mid-sagittally onto the tongue 0.35 sensors 0.35 0.4 -45 -45 0.3 the 0.25 0.25 0.3 0.2 0.2 X [mm] X [mm] Time [s] Time [s] dorsum from a spatial-temporal perspective -40 0.45 0.45 0.5 Riepilogando… • Integrazione delle informazioni – Attività laringea – Parti della lingua non visibili con EMA – Apice ‘non visibile’ con US • Risoluzione spazio-temporale • Informazione ‘ridondante’ – Stesso ‘punto’ visibile grazie ad US ed EMA Direzioni future • Software per l’analisi • EMA 3D – Risoluzione di problemi (elettrodi di riferimento) – Miglioramento generale (real time check) • US – Stabilità e posizione della sonda – Sistema per ‘bloccare’ la testa • Posizione dei sensori EMA sulle immagini US • Sincronizzazione EPG – Proiezione del palato • Acquisizione dati – Possibili interferenze pe rintroduzione di EPG Grazie dell’attenzione!