Computer Assisted
Translation (CAT)
Cristina Bosco
Informatica applicata alla
comunicazione multimediale
2014-2015
Breve storia
L’idea di sistema di CAT nasce negli anni ‘60,
quando la European Coal and Steel Community
(ECSC) sviluppa un sistema per la ricerca di
termini e del loro contesto in traduzioni
memorizzate in formato elettronico.
Il principale obiettivo è di mostrare i termini nel
Linguaggio Sorgente (LS) ed i loro equivalenti
nel Linguaggio Target (LT) all’interno dei loro
rispettivi contesti.
Breve storia
L’idea moderna di sistema consiste invece nel
cercare le unità di traduzione uguali per
riutilizzarle, e la si trova per la prima volta
all’inizio degli anni ‘70, nel modello sviluppato da
Krollman per l’esercito tedesco.
“For revised new editions of translations only the
changed passages would have to be retyped.
Insertion of changes and corrections into the old
text would automatically be done by computer.”
(Krollmann 1971)
Breve storia
Alla fine degli anni ‘70 Arthern, un traduttore
della EC, propone un ulteriore sviluppo,
nell’ambito di una discussione sull’uso dei
database terminologici e l’introduzione di
Systran.
Arthern suggerisce di sviluppare il sistema in
modo che possa trovare non solo le unità di
traduzione uguali al testo da tradurre, ma
anche quelle simili.
Breve storia
Accanto all’idea di “exact match” nasce quindi
l’idea di “fuzzy match” (the nearest available
equivalent), ma anche la proposta di integrare
sistemi di CAT e di MT, per poter ottenere
come risultato la maggior quantità di
materiale tradotto e limitare l’intervento
umano. Realizzare quindi, in accordo con
ALPAC, sistemi di traduzione con al centro il
traduttore invece della macchina.
Breve storia
Solo all’inizio degli anni ‘80 la ricerca di “exact
matches” viene implementata da ALPS
Incorporated, in una semplice componente
detta “repetitions processing” del Translation
Support System (TTS), un sistema di MT.
L’idea del “fuzzy matching” è implementata per
la prima volta all’inizio degli anni ‘90, nei primi
sistemi commercializzati di TM, IBM
Translation Manager e SDL Trados.
I sistemi di TM
Componenti di un sistema di TM:
• Editor multilingue – serve a leggere il testo in LS e
a scriverne la traduzione in tutti i formati
necessari
• Manager della terminologia – per gestire tutto ciò
che riguarda la memorizzazione e modifica dei
termini organizzati per soggetto, cliente e
progetto
• Riconoscitore di termini – per orientare la ricerca
nel database terminologico
I sistemi di TM
Componenti di un sistema di TM:
• Riconoscitore di concordanze – per cercare
tutte le istanze di una stringa di ricerca nel
loro contesto
• Calcolatore statistiche – per avere una
panoramica quantitativa sulla TM e sapere ad
es. quanto del materiale esistente è riutilizzato
nella nuova traduzione
I sistemi di TM
Componenti di un sistema di TM:
• Strumento di allineamento – per creare la TM
con dentro i documenti precedentemente
tradotti, confrontarli con i testi da tradurre
facendo il match dei segmenti corrispondenti,
e legare insieme le unità di traduzione.
I sistemi di TM
Alcuni sistemi offrono anche gli strumenti per la
creazione e gestione di basi terminologiche, e
per l’integrazione con sistemi di MT che
comportano quindi la gestione di vari tipi di
file all’interno di progetti complessi.
In sostanza dagli anni ’90 i sistemi di MT sono
rimasti sostanzialmente uguali, con l’eccezione
degli algoritmi di matching e l’aggiunta di
funzioni più sofisticate.
I sistemi di TM
I sistemi di TM
In sostanza dagli anni ’90 i sistemi di MT sono
rimasti sostanzialmente uguali, con l’eccezione
degli algoritmi di matching e l’aggiunta di
funzioni più sofisticate.
Quello che è cambiato è però il processo
traduttivo viene organizzato e il modo in cui le
persone coinvolte in esso possono interagire
grazie all’architettura client/server e grazie al
cloud computing e crowd sourcing.
Cloud computing
Con cloud computing si indica un paradigma di
erogazione di risorse informatiche (archiviazione,
elaborazione e trasmissione di dati) on demand
tramite il web.
Le risorse non vengono pienamente configurate e
messe in opera dal fornitore apposta per l'utente,
ma gli sono assegnate, rapidamente e
convenientemente, grazie a procedure
automatizzate, a partire da un insieme di risorse
condivise con altri utenti lasciando all'utente
parte dell'onere della configurazione.
Crowdsourcing
Con crowdsourcing (da crowd, "folla", e
outsourcing "esternalizzazione di una parte delle
proprie attività”) si indica un modello di business
per cui si affida la progettazione, la realizzazione
o lo sviluppo di un progetto, oggetto o idea ad un
insieme indefinito di persone non organizzate
precedentemente, solitamente tramite siti e
portali web.
Questo modello è molto applicato per lo sviluppo di
risorse linguistiche, e consente di ottenere dati
che non risentono di bias e sono quindi condivisi.
Tipi di sistemi di TM
Una Translation Memory (TM) è solitamente un
database in cui ogni record contiene una
Translation Unit (TU), che consiste in una
coppia di segmenti in LS e LT e in varie
informazioni sulla TU (data di creazione,
autore, progetto, cliente).
Una TM è un database dinamico, che può essere
popolato in diversi modi.
Tipi di sistemi di TM
Esistono tre modi di popolare il database TM:
• Mentre si traduce – ogni TU tradotta viene
salvata nella TM
• Importando una TM – sia creata con lo stesso
sistema di TM, sia creata con un altro, ma con un
formato compatibile
• Allineando un testo con una traduzione –
esistono strumenti di allineamento per mettere
insieme testi tradotti ad es. in altri progetti
Tipi di sistemi di TM
Alcuni sistemi di TM non sono database, ma
gestiscono il testo nel loro complesso.
Rispetto ai sistemi basati su database hanno il
vantaggio di mettere a disposizione maggiori
informazioni sul contesto.
Per questo motivo nei sistemi basati su database le
TU vengono arricchite con informazioni sul
contesto, senza le quali le TU sono
completamente decontestualizzate.
MT e TM
MT e TM sono due cose distinte, ma hanno
certe cose in comune:
TM trae spunto dalla MT example-based e dalla
statistical MT, entrambi approcci rivolti alla
ricerca del best matching per la frase da
tradurre.
Ci sono però differenze sostanziali di obiettivo
tra TM da un lato e MT example-based e
statistical MT dall’altro.
MT e TM
Un sistema di TM svolge una forma di
Information Retrieval che delega al traduttore
la decisione su quanto e come utilizzare e
modificare il risultato che il sistema produce.
Un sistema di MT example-based o statistical
MT invece producono traduzioni selezionando
le informazioni necessarie nella loro base di
conoscenza costituita da testi tradotti.
MT e TM
TM e MT si possono utilmente integrare in
diversi modi:
• Batch processing – in un sistema che provi a
valutare per ogni TU i match (esatti e fuzzy)
prima dell’intervento del traduttore, è
possibile far intervenire un sistema di MT per
tutte quelle TU che non hanno nessun match,
segnalando il fatto che si tratta di una
traduzione non ricavata dalla TM.
MT e TM
• Batch processing, una nota
Alcuni sistemi di TM valutano la TU nel
momento in cui il traduttore la seleziona per
iniziare a tradurre
Altri sistemi valutano tutte le unità del testo da
tradurre prima che il traduttore inizi il suo
lavoro.
MT e TM
TM e MT si possono utilmente integrare in
diversi modi:
• Interactive processing – in un sistema di TM
che è in comunicazione con un sistema di MT,
il traduttore può richiamare la MT su ogni TU
su cui la TM non gli offre suggerimenti per la
traduzione, e poi se serve può modificare il
risultato offerto dalla MT.
MT e TM
L’integrazione di TM e MT risulta
particolarmente produttiva quando il sistema
di MT viene addestrato su grandi corpora e
precisamente su quelli che contengono le TU
che utilizza il sistema di TM.
I vantaggi si vedono in termini di velocità, costo,
qualità più stabile e quindi aumento della
produttività.
Vantaggi e limiti delle TM
L’uso di TM aumenta la produttività dei
traduttori e la qualità dei materiali tradotti
garantendo l’omogeneità soprattutto
terminologica.
I report mostrano aumenti di produttività tra il
25 e il 60%.
Il numero di parole tradotte al giorno si attesta
intorno ad un massimo di 2.400.
Vantaggi e limiti delle TM
L’uso di TM ha però anche effetti negativi sulla
qualità della traduzione.
Il principale problema è che le TU sono viste
come isolate dal contesto e questo rende
difficile ad es. la traduzione corretta di legami
anaforici cross sentenziali.
Vantaggi e limiti delle TM
L’uso di TM ha però anche effetti negativi sulla
qualità della traduzione.
Un altro problema è il fatto che la nozione di
similarità tra TU di un traduttore e di un
computer possono essere sensibilmente
diverse tra loro e quindi il sistema può
presentare come exact match delle traduzione
errate dal punto di vista del traduttore,
oppure come fuzzy macth delle cose che non
c’entrano.
Migliorare l’IR delle TM
I sistemi di IR che stanno dietro le TM non sono
molto cambiati nel tempo.
Il principale loro limite consiste nel fatto che si
basano su caratteri e stringhe, senza utilizzare
aspetti linguistici come quelli derivanti da
analisi morfologica, sintattica e semantica per
determinare il match tra TU.
Migliorare l’IR delle TM
Ad esempio, i sistemi di TM non sono in grado di
riconoscere il match tra due TU quando ci
sono semplici cambiamenti nell’ordine degli
elementi della frase.
ES. Il cane dorme da oltre un’ora dentro la sua
cuccia in giardino
Il cane dorme in giardino dentro la sua cuccia
da oltre un’ora
Migliorare l’IR delle TM
L’uso di conoscenza linguistica potrebbe
notevolmente migliorare le prestazioni dei
sistemi di TM per due motivi:
• Migliorare la precision e recall del retrieval
monolingue
• Aumentare la riusabilità delle TU
suddividendole in parti più piccole
Migliorare l’IR delle TM
ES. A[Il cane dorme] B[da oltre un’ora] C[dentro
la sua cuccia] D[in giardino]
A[Il cane dorme] D[in giardino] C[dentro la sua
cuccia] B[da oltre un’ora]
Migliorare l’IR delle TM
L’uso di conoscenza linguistica è quindi
l’obiettivo dei sistemi di TM di seconda
generazione, che integrano metodi di analisi
linguistica e di shallow parsing per aumentare
le possibilità di match.
Questo ha effetti positivi soprattutto per certe
coppie di lingue.
Migliorare l’IR delle TM
Empirically documented knowledge about the
nature and applications of TM systems and
translators’ interaction with them is both scarce
and fragmented. In particular, more research is
needed on how translators interact with TM
technology and on how it influences translators’
cognitive processes. The translation profession
itself will also welcome more knowledge about
the translators’ perspective on TM technology.
(Christensen and Schjoldager 2010, 99)