Natura non facit saltus First international seminar on new technologies in real time intralingual subtitling Forlì, 17 novembre 2006 Gian Paolo Trivulzio Saluto gli 'Evangelists' oggi qui presenti Dottor Gianni Lazzari Ing. Giuliano Pirelli Ing. Angelo Paglino Prof. Marialuisa Corti Crippa Gli sforzi sono stati particolarmente ardui per un settore specialistico quale è quello della resocontazione. Fino all'avvento del riconoscimento del parlato, le tecnologie usate per passare dal parlato allo scritto erano sostanzialmente due: Stenografia manuale (o grafica) Stenotipia (scrittura sillabica su una tastiera) Entrambe, prima dell'era del personal computer, necessitavano di 'traduzione' in caratteri ordinari. Soltanto verso la metà degli anni '70 • Si ottiene la 'decifrazione' delle note stenotipiche per saltare la fase della 'trascrizione', quindi disporre del testo praticamente in tempo reale • Con operatori allenati si ottiene la sottotitolazione, come vediamo qui oggi. Questo processo ha richiesto più di 20 anni per mettere a punto • Adattamento, modifica nelle forme di scrittura onde evitare conflitti per parole ambigue • Studio e miglioramento del software, anche con sofisticati controlli linguistici (intelligenza artificiale) • Perfezionamento dei percorsi formativi, per una migliore efficacia e per la riduzione dei tempi di apprendimento. L'esperienza italiana • Anche in Italia il riconoscimento del parlato diventa utilizzabile soltanto dai primi anni '90 • Parlato discreto /parlato naturale • Il primo contatto col mondo italiano della resocontazione avvenne nel febbraio 1995 all'Accademia Aliprandi di Firenze grazie al dottor Gianni Lazzari. Una presentazione venne pure da lui fatta al Congresso Intersteno di Amsterdam dello stesso anno • A seguito di tali presentazioni la prof. Crippa ed il sottoscritto decisero di… … sporcarci le mani • Perché gestivamo una importante realtà di resocontazione Dettoscritto (Milano) con 20 operatori che usavano tutte e tre le tecnologie stenotipiche (Michela – Melani – Gornati-Mael) • Perché apparteniamo ad una specie anomala, tendente a sfatare il detto che "chi sa, fa e chi non sa, insegna" Anche se NON siamo diventati 'paperoni della resocontazione' , ma soltanto guide alpine, • siamo riusciti a dimostrare, nonostante i limiti di quell'era giurassica, che il riconoscimento del parlato può avere un notevole valore aggiunto nello specifico settore • Abbiamo trasferito le nostre esperienze nella formazione • Diffondendone i risultati in Italia ed all'estero… nel mio piccolo?! Anch'io 320 sillabe = circa 135 parole italiane al minuto Anche se ci si doveva accontentare e… … aspettare che l'elaborazione finisse. Ho utilizzato la famosa steno-mask, nonostante i belli spiriti… Pappagallo a chi ?! L'esperienza (nel settore della resocontazione) in altri paesi Europei • L'Italia è stata all'avanguardia nell'uso di tecnologie avanzate • Accanto alla stenotipia elettronica, in Italia diverse sperimentazioni ed applicazioni del riconoscimento del parlato sono iniziate verso la metà degli anni '90 al Senato ed della Camera dei Deputati. Dal 2001 alla Camera i 'documentaristi' resocontano con questa tecnologia. • il mondo della resocontazione è settore di nicchia e quindi ha, giustamente, un limitato interesse economico per le grandi multinazionali del settore. • E' questo è uno dei fattori che spiegano il ritardo con cui, in diversi paesi europei, si è 'scoperto' che il riconoscimento del parlato poteva essere, quanto meno, una valida alternativa ad altri sistemi tradizionali. • All'infuori della Francia (metodo Grandjean), dell'Italia (metodi Michela, Melani, Mael Gornati), Inghilterra (Stenograph) e qualche limitato utilizzo in Olanda-Belgio con la macchina Velotype oggi Veyboard, la tecnologia stenotipica non era e non è praticamente presente nella resocontazione professionale ( parlamenti ed aule di giustizia). • Praticamente negli anni '90 in Europa non c'è stata esperienza per il riconoscimento del parlato applicato alla resocontazione. L'unica a noi nota è quella del Parlamento di Hannover, avvenuta più tardi (inizio anni 2000) in cui serviva comunque per la trascrizione delle note riprese con la stenografia tradizionale. L'esperienza degli Stati Uniti • Negli USA vi è un'elevata esigenza di professionalità in tempo reale sia per la resocontazione giudiziaria, che per quella televisiva. • Il mercato è stato ed è dominato dalla tecnologia stenotipica, (oltre 60 mila resocontisti) grazie alle evoluzioni già accennate • Questo spiega il 'ritardo' nel passaggio al riconoscimento del parlato • E' infatti soltanto dal 1998 che inizia ad essere divulgato, soprattutto fra i resocontisti dei tribunali militari che erano già abituati alla dettatura del resoconto ad un registratore di voce (la stenomask fu inventata proprio per questa specifica esigenza) • Forte è la competizione fra le due tecnologie, anche per i grandi interessi economici in gioco, ma oggi domina il problema generazionale che fa prevedere l'esigenza di un ricambio di almeno il 50 % degli operatori entro il 2010. La resocontazione in tempo reale e la formazione degli operatori • • • • La resocontazione in tempo reale, intesa come capacità di poter seguire e fedelmente riprodurre il discorso di un oratore anche molto veloce, è sempre stato l'obiettivo dichiarato di tutte le tecnologie. I risultati delle competizioni ai campionati mondiali dell'Intersteno lo dimostrano da almeno 50 anni, e le prestazioni di spicco (fino a 200 parole italiane al minuto) sono state e sono raggiunte da tutte le tecnologie, stenografia compresa, qualora vi siano abili operatori. Non tutti gli operatori sono in grado di operare in tempo reale (come non tutti i professionisti che operano nella comunicazione linguistica sono interpreti di simultanea) E' in ogni caso indubbio che le esigenze di rapida diffusione delle informazioni a mezzo radio, televisione ed oggi Internet stimolano o meglio condizionano oggi il settore della resocontazione che, per rimanere al passo coi tempi, deve sempre di più diventare in tempo reale. E' questa la grande scommessa e l'opportunità offerta al riconoscimento del parlato, sia utilizzato direttamente dal resocontista che da quest'ultimo supportato (trascrizione automatica). I tre requisiti per il successo del riconoscimento del parlato • • • capacità di raggiungere almeno gli stessi risultati di velocità e precisione già dimostrati dalle altre tecniche (stenotipia in particolare) indispensabili miglioramenti ed aggiornamenti di software anche per fronteggiare facilmente le varie situazioni operative (ad esempio telelavoro) percorsi formativi che rendano disponibili validi operatori in un tempo ragionevolmente sostenibile. La professionalità per gestire situazioni in tempo reale (con stenotipia o riconoscimento del parlato) non si ottiene in pochi minuti • il riconoscimento del parlato parte svantaggiato dal suo vantaggio: i tranquillizzanti messaggi affermano che dopo 10 minuti (od addirittura oggi senza) il computer riproduce la nostra voce con una precisione anche del 97/98 %. Realtà provata e fatta da noi toccare con mano nella formazione ma… • ha ingenerato l'idea (erronea) che, se non proprio dopo 10 minuti, almeno dopo poche ore il resocontista possa andare in un'aula di tribunale, università od assemblea e dare un ottimo risultato, tanto basta che parli! • Anche gli americani stanno cercando di spiegare che non è proprio così: Linda Drake Presidente della National Verbatim Reporters Association (NVRA) ossia i professionisti (voice-writers) che usano il rionoscimento del parlato, ha recentemente ricordato che bisogna lottare con se stessi e la tecnologia per ottenere i risultati voluti, anche se i miglioramenti informatici ci aiutano oggi ad ottenere migliori prestazioni rispetto ad alcuni anni fa. Formazione per real-time USA Percorsi formativi anche on-line Quanto tempo? Un anno o più? • • It's not difficult, but it's not magic either. You will have to put in some effort. How long it takes to complete a realtime voicewriting course of study depends on many factors. A few motivated individuals may be able to become proficient in six months. The average time for most individuals to become average speech recognition voicewriters is estimated to be about a year. To become highly skilled and knowledgeable in all aspects of a career like broadcast captioning is likely to take somewhat longer. Factors that influence the length of time to course completion • • • • • • and development of competency include: A person’s existing level of competency with computers A person’s existing speech and language skills The structure of the program followed and the material studied The motivation and discipline of the student The amount of time the student dedicates to study and practice on a daily basis The guidance of competent instructors or assistance of knowledgeable mentors • (Phillip Kaufman – Voice-ed) Bettye Keyne che svolge da alcuni anni la sua attività in realtime ha recentissimamente proposto un percorso 90 giorni (8 ore al giorno) – diffuso dalla NVRA Un'analisi di queste informazioni ci porterebbe a sofisticate discussioni psico-pedagogiche. Per ora prendiamone atto e confrontiamole con quanto siamo in grado di fare. I percorsi formativi americani sono obiettivizzati per le certificazioni NVRA che prevedono 5 minuti a velocità da 180 a 200 parole al minuto col 96 % di precisione. Intersteno, ponte tra le tecnologie avanzate e gli operatori professionali. • Da più di 50 anni Intersteno organizza, oltre ai tradizionali congressi, campionati tendenti a dimostrare i migliori risultati ottenibili per tutte le tecnologie di scritture veloci. • Gli standard di valutazione/certificazione sono costantemente rivisti per seguire le evoluzioni tecnologiche. • Per il Congresso che si è tenuto a Roma nel 2003, il dottor Fausto Ramondelli (all'epoca Presidente dell'Intersteno) ed il sottoscritto si impegnarono per far ammettere il riconoscimento del parlato a pari condizioni delle altre tecnologie. Non fu compito facile e la decisione finale fu sofferta, perché esistevano paure e gli altri 32 paesi (ad eccezione degli USA) non avevano esperienze nel settore. • Alla seduta inaugurale del Congresso Chad Theriod della Audioscribe presentò lo stato dell'arte e il suo intervento fu ripreso in real time e visibile su schermo da Suzee Magette, presente con stenomask. Successivamente Attilio Di Nepi presentò alcuni minuti di un intervento al Senato. A Roma si tenne per la prima volta una competizione con la nuova tecnologia, nella quale si classificarono i due resocontisti già menzionati, nonché il Dottor Fabrizio Verruso (qui presente e relatore) che vinse alla velocità di 380 sillabe (oltre 160 parole italiane al minuto). Verruso bisserà poi questo successo a Vienna nel 2005 conseguendo il titolo di campione mondiale, riuscendo a seguire la dettatura fino a ben 393 sillabe (pari a circa 180 parole italiane al minuto). • L'Intersteno, confermava così, nei fatti, che i campionati mondiali costituiscono il banco di prova per una realistica ed indipendente valutazione delle tecnologie e delle capacità individuali e che i sogni vagheggiati 8 anni prima dagli 'evangelisti' erano diventati realtà tangibile. • A Roma nessun produttore di software CAT presentava il riconoscimento del parlato, a Vienna 2005 TUTTI lo avevano integrato e dimostravano con orgoglio le loro creature Sulla base di queste certezze maturate nel tempo (natura non facit saltus) • il gruppo Italiano ha proposto di trasformare la competizione di trascrizione rapida (consegna al massimo entro tre volte i minuti trascritti) in realtime. • Al termine della ripresa il concorrente consegnerà immediatamente il testo in formato elettronico, senza alcuna possibilità di correzioni aggiuntive. • Quindi a Praga 2007 la gara sarà di respeaking con testo valutato su quanto scritto in tempo reale Minutes 1 English 2 3 4 5 6 Italian Increase/ minute 16 17 18 19 20 21 1 148 151 154 157 160 163 2 164 180 184 200 205 220 226 5 168 172 176 Real time competition: taking eight-minute dictation 180 185 increasing 190 speed 195 with and delivering the text 196 immediately 202 after the 208end of dictation, 214 without any additional correction. 212 219 226 233 240 247 6 228 236 244 252 260 268 7 244 253 262 271 280 289 8 260 270 280 290 300 310 3 4 Scommessa ed opportunità • Dimostrare praticamente la validità delle affermazioni tecniche a cui ho fatto cenno all'inizio: raggiungere 130 parole italiane al minuto con precisione superiore al 97 % senza apportare alcuna correzione al testo. • Riuscirà a Praga, luglio 2007, l'Italia a ben figurare ed a seguire le orme di Fabrizio Verruso? E' una scommessa ed un auspicio, augurandomi di poter condividere l'entusiasmo della premiazione con qualcuno dei giovani qui presenti. • Nel 2009 saremo a Pechino ed in tale occasione riconoscimento vocale e stenotipia cinese (migliaia di operatori sono stati formati) avranno occasione di combattersi lealmente, in tempo reale Natura non facit saltus Ma noi possiamo aiutarla a saltare più velocemente! Forlì, 17 novembre 2006 Gian Paolo Trivulzio