Traduzione e computer
(2)
Cristina Bosco
Informatica applicata alla
comunicazione multimediale
2014-2015
Riflessioni sui primi sistemi
L’assunzione alla base dello sviluppo dei primi
sistemi è che l’obiettivo della MT sia ottenere
traduzioni di qualità analoga a quella prodotta
dai traduttori umani.
Nel contempo non viene minimamente utilizzata
la conoscenza dei traduttori umani e chi lavora
sulla MT sono solo ingegneri ed informatici.
Riflessioni sui primi sistemi
Si crea pertanto un clima di ostilità nei confronti
della MT da parte di coloro che operano nel
settore traduzione e temono di perdere il loro
lavoro.
L’ostilità è condivisa anche da chi non opera nel
settore, ma si aspetta che la ricerca della MT
produca quello che aveva promesso.
Tutto ciò spiega l’effetto del rapporto ALPAC e il
taglio dei fondi che ne consegue.
Riflessioni sui primi sistemi
I primi sistemi vengono sviluppati negli USA e in
URSS con lo scopo di tradurre da inglese a
russo e viceversa.
Il tipo di documento tradotto è di tipo tecnico e
scientifico.
Solitamente si tratta di documenti con un lessico
ridotto e controllato per evitare difficoltà di
traduzione dei termini.
Riflessioni sui primi sistemi
L’utenza dei primi sistemi è composta da pochi
scienziati e tecnici preparati a tollerare le
limitatezze della traduzione automatica pur di
poter accedere a contenuti diversamente non
accessibili.
Riflessioni sui primi sistemi
In seguito l’utenza cambia e si amplia, dato che
cresce la richiesta di attività di traduzione
legata a realtà amministrative e commerciali.
Si manifesta anche l’interesse per lingue diverse
da inglese e russo.
E conseguentemente cambia anche il tipo di
traduzione che l’utente si aspetta, di maggiore
qualità pur non partendo da testi controllati.
Tipi di sistemi e soluzioni
Nel corso della storia della MT sono state
proposte varie strategie, via via più complesse
ed efficaci.
Alcuni aspetti restano gli stessi in tutte le
strategie.
Approcci alla MT
In qualunque approccio va ricordato che esiste
una separazione netta tra algoritmi e base di
conoscenza, i.e. tra algoritmo di analisi e
dizionario.
Di conseguenza si ha relativa indipendenza
- dalle lingue coinvolte;
- dei compiti da svolgere;
- degli errori.
Approcci alla MT
Indipendenza
- dalle lingue coinvolte perché l’algoritmo può
essere lo stesso al variare dei dati specifici sulle
lingue;
- dei compiti da svolgere perché l’informatico può
occuparsi dell’algoritmo e il linguista dei dati;
- degli errori perché la traduzione può essere
errata perché l’algoritmo non fa le cose nel
giusto ordine o perché i dati sono errati o
carenti.
Approcci alla MT
In qualunque approccio i dizionari sono risorse
fondamentali.
Sono molto ampi (es. nei sistemi attuali i dizionari
includono ~ 15,000 entry generali + altrettante
specifiche), quindi ben organizzati ed accessibili,
di norma in porzioni di accesso frequente e di
accesso più raro.
Sono differenti dai dizionari umani (es.
contengono anche informazioni ovvie e quelle
relative al contesto d’uso).
Approcci alla MT
In qualunque approccio è presente:
- una fase di analisi, in cui il testo in Linguaggio
Sorgente (LS) viene scomposto ed analizzato
- una fase di sintesi, in cui viene generato il
corrispondente testo in Linguaggio Target (LT)
Approcci alla MT
Si seguono strategie:
- bilingui (che traducono tra una singola coppia
di lingue) o multilingui (che traducono tra più
di due lingue);
- uni-direzionali (da una lingua A a una lingua B)
o bi-direzionali (da una lingua A a una lingua B
e viceversa)
- reversibili ed irreversibili
Approcci alla MT
In pratica è molto difficile realizzare un sistema
bilingue bi-direzionale e reversibile.
Per realizzarlo si abbinano in realtà due sistemi
bilingui che operano uno nella direzione
opposta all’altro.
Approcci alla MT
Raramente un sistema multilingue consente la
traduzione tra tutte le coppie di lingue che
coinvolge ed in tutte le direzioni (es. Eurotra).
Teoricamente un sistema multilingue comporta
una fase di analisi dalla LS sempre uguale
indipendentemente da quella che deve essere
la LT, ed una fase di sintesi sempre uguale
indipendentemente da quale è la LS; ma in
pratica un sistema multilingue consiste in vari
bilingui assemblati.
EUROTRA
È un progetto sviluppato dalla CE tra il 1978 e il
1992, poi abbandonato. Al contrario di altri
sistemi precedenti di MT EUROTRA non era
fondato su dizionari, o su corpora come i
sistemi più recenti. La traduzione iniziava con
un parsing a costituenti della lingua sorgente,
seguito da un parsing a dipendenze della stessa
lingua, per generare una rappresentazione
intermedia che consentisse il passaggio alla
generazione della lingua target.
Approcci alla MT
In che modo un sistema di MT opera per
tradurre?
Occorre distinguere tra due aspetti:
• In che modo il sistema acquisisce la
conoscenza
• In che modo il sistema elabora i dati di input
per produrre l’output
Approcci alla MT
In che modo il sistema acquisisce la conoscenza
linguistica necessaria a tradurre?
• Se è un sistema rule-based accede a
conoscenza in forma strutturata (grammatica,
lessico …) nei suoi database
• Se è un sistema corpus-based apprende la
conoscenza da corpora di dati dove la
conoscenza non è strutturata
Approcci alla MT
La conoscenza in forma strutturata (grammatica,
lessico …) utilizzata da un sistema rule-based è
solitamente memorizzata all’interno del
sistema, ma potrebbe anche essere accessibile
all’esterno
In ogni caso il sistema è costruito per lavorare
con determinata conoscenza e deve essere
riprogrammato se la conoscenza cambia (ad
es. per un’altra lingua)
Approcci alla MT
La grammatica ed il lessico sono le basi di
conoscenza del sistema.
Nell’approccio rule-based esse vengono date in
una forma tale per cui il sistema di fronte alla
traduzione vi possa accedere per conoscere il
significato di parole e frasi.
Approcci alla MT
La conoscenza in forma non strutturata (corpus)
utilizzata da un sistema corpus-based è
memorizzata all’interno del corpus di riferimento
del sistema e viene acquisita dal sistema tramite
apprendimento statistico.
Il sistema è costruito per lavorare con la conoscenza
che trova nel corpus, indipendentemente dal
fatto che la conoscenza possa cambiare (ad es.
per un’altra lingua)
Approcci alla MT
La base di conoscenza nell’approccio corpusbased è il corpus stesso, possibilmente
annotato.
Il sistema, per scoprire il significato di parole e
frasi, accede al corpus dove trova l’effetto
dell’applicazione delle regole e le relative
frequenze.
Approcci alla MT
I primi sistemi sono tutti rule-based.
Successivamente si sono sviluppati sistemi
corpus-based.
Oggi prevale l’approccio corpus-based, ma la
maggior parte dei sistemi segue un approccio
ibrido in cui alcune parti di conoscenza sono
inglobate nelle regole, ed altre sono invece
apprese da corpora.
Approcci alla MT
I sistemi si differenziano in base al modo in cui
elaborano i dati di input per produrre l’output.
Storicamente sono stati proposti 3 approcci:
• Diretto
• Indiretto
– Interlingua
– Transfer
Approccio diretto
L’approccio diretto è stato adottato dai primi
sistemi, solitamente bilingui e monodirezionali.
L’analisi lessicale e sintattica del testo in LS è
limitata a quello che serve per identificare gli
equivalenti in LT generando un ordine corretto
delle parole.
Non esiste alcun passo intermedio, dato che
l’elaborazione del testo in LS porta direttamente
al testo in LT.
Approccio diretto
Approccio diretto
Analisi morfologica per riconoscere le forme
flesse ed i relativi lemmi
Accesso al dizionario
Nessuna analisi sintattica
Riordinamento dei termini tradotti in accordo
con quanto prescritto dalla LT
Il risultato è una traduzione di scarsa qualità il
cui output è sintatticamente simile all’input
(vedere translation shift).
Approccio indiretto: interlingua
L’approccio interlingua consiste nell’analisi del
testo in LS, sua traduzione in una interlingua,
traduzione dall’interlingua alla LT.
Si assume l’esistenza di una rappresentazione
indipendente da LS e da LT, e da tutte le lingue
naturali. In realtà è molto difficile formulare
una interlingua con queste caratteristiche,
anche per lingue simili tra loro.
Approccio indiretto: interlingua
La rappresentazione intermedia deve contenere
tutte le informazioni necessarie per generare il
testo in LT, ed è una rappresentazione astratta
del testo in LS.
Utile nei sistemi multilingui, ha anche il
vantaggio di consentire la traduzione da e
verso una stessa lingua (che serve per testare
il sistema).
Approccio indiretto: interlingua
Approccio indiretto: interlingua
Nel caso si voglia arricchire il sistema con una
nuova LS, basta sviluppare l’analisi che porta
da LS a interlingua.
Nel caso si voglia arricchire il sistema con una
nuova LT basta sviluppare la generazione di LT
a partire dall’interlingua.
Approccio indiretto: transfer
L’approccio transfer prevede 3 passi:
- la conversione del testo in LS in una
rappresentazione astratta R-LS orientata alle
caratteristiche di LS
- la conversione da R-LS ad una
rappresentazione astratta R-LT orientata a LT
- la conversione da R-LT a LT
Approccio indiretto: transfer
L’approccio transfer non prevede quindi
rappresentazioni indipendenti da LS e da LT:
R-LS dipende da LS e R-LT dipende da LT.
Nel caso si aggiungano delle lingue, occorre però
aggiungere tutti i relativi moduli di
elaborazione.
Approccio indiretto: transfer
Approcci alla MT
Nella pratica l’approccio transfer è sovente
preferito all’approccio interlingua:
- per la difficoltà di trovare una
rappresentazione indipendente da LS e LT
- per la difficoltà di analisi rivolta all’interlingua
e generazione dall’interlingua verso la LT
Problemi linguistici nella MT
I problemi linguistici sono essenzialmente
dovuti alla presenza di ambiguità nel
linguaggio naturale che sono di 4 tipi:
Lessicali
Strutturali
Contestuali
Pragmatico-situazionali
Problemi linguistici nella MT
In generale si osserva che raramente i
sistemi di MT fanno riferimento a particolari
teorie linguistiche.
Quando lo fanno sono sistemi piccoli e
costruiti allo scopo di testare qualche
teoria.
Problemi lessicali
Il lessico e la morfologia sono il primo livello che
deve essere trattato nell’analisi del testo da
tradurre, ma anche l’ultimo livello che viene
trattato nella generazione del corrispondente
testo in LT.
Tra i problemi da trattare:
la gestione del dizionario, il riconoscimento di
parole sconosciute, il trattamento delle multiword, e l’ambiguità.
Problemi lessicali
Ambiguità categoriale e semantica di termini
causano problemi soprattutto nella fase di
analisi (monolingue)
Es.
omografi: bank >banchina del fiume e istituto
bancario
polisemici: light > luminescenza, chiaro, leggero,
Problemi lessicali
Ambiguità traduttive si presentano quando una
parola può essere tradotta in modi differenti a
seconda del contesto (bilingue)
Es.
Stilistiche o di registro: domicile (fr) >home o
domicile (eng)
grammaticali: know >
conoscere/connaitre/kennen o
sapere/savoir/wissen
Problemi sintattici
Problemi sintattici, sovente in abbinamento con
quelli lessicali:
Es.
to know > connaitre, kennen (conoscenza di un
fatto)
savoir, wissen (avere una competenza)
I know the man – Je connais l’homme - Ich kenne
den Mann
I know what he is called – Je sais ce qu’il s’appelle –
Ich weiss wie er heisst
Problemi sintattici e contestuali
Problemi di risoluzione di anafore:
The soldiers killed the women. They were buried
next day.
Il pronome soggetto della seconda frase (They)
si riferisce a (the women).
Come fa il sistema di traduzione a risolvere
questa anafora e a capire che il riferimento
non è invece a The soldiers?
Problemi sintattici e contestuali
Problemi di risoluzione di anafore:
The soldiers killed the women. They were buried
next day.
La conoscenza del fatto che quello che si
seppellisce sono solitamente i morti, consente
di identificare “they” con “the women”.
Problemi sintattici e contestuali
Problemi di risoluzione di anafore:
The soldiers killed the women. They were buried
next day.
Se la traduzione ha come LT una lingua in cui la
parola che traduce soldiers non è dello stesso
genere della parola che traduce women, allora la
soluzione dell’anafora è fondamentale per la
traduzione.
Es. traducendo in francese (elles e non ils) o
italiano (esse invece di essi).
Problemi sintattici e contestuali
Problemi di conoscenza del mondo:
John al supermercato e mette una saponetta nel
suo cestino. Vede su uno scaffale una barretta
di cioccolato e sovrappensiero la mette in
tasca, ma quando arriva alla cassa arrossisce
e dice “Non intendevo rubarla”.
Come facciamo a costruire un sistema che
contenga tanta conoscenza da consentire di
identificare “la” (di rubarla) con “barretta”
invece che con “saponetta”?
Problemi sintattici e contestuali
Problemi di espressioni idiomatiche:
It rains cats and dogs
non può essere tradotto in Italiano con
Piovono gatti e cani
o in francese con
Il pleut chats and chiens
Espressioni idiomatiche
Il problema delle espressioni idiomatiche o
locutive è duplice:
- non può esistere una lista delle espressioni
per ogni lingua da trattare perchè esse non
formano una classe chiusa
- a seconda del contesto deve essere applicata
per queste espressioni una interpretazione
composizionale o non composizionale
Espressioni idiomatiche
Perchè le espressioni idiomatiche non formano
una classe chiusa?
- perchè l’idiomaticità non è identificabile
tramite criteri deterministici
- la percezione delle espressioni come
idiomatiche da parte dei parlanti è sfumata
Espressioni idiomatiche
Perchè le espressioni idiomatiche non formano
una classe chiusa?
- Es.: “Tutt’al più si può accennare a qualche
possibilità di sviluppo per le sedi fuori
dall’Italia”, “Non si tiene conto della storia della
Repubblica Italiana”.
Espressioni idiomatiche
E nei treebank le espressioni idiomatiche?
di solito sono segnalate, in modo da impedirne
successive analisi composizionali
In TUT si segnalano anche le differenze tra
espressioni più o meno composizionali
dividendole in 2 classi:
- Locuzioni rigide (come tira l’acqua al suo mulino)
con interpretazione non composizionale
- Locuzioni flessibili (come ha nulla a che fare con)
con interpretazione composizionale
Espressioni idiomatiche
Per distinguere le classi di espressioni rigide e
flessibili occorre:
- stabilire un criterio per distinguere le
espressioni rigide, che stanno nella prima
classe, da quelle flessibili, che stanno nella
seconda
- definire una rappresentazione differente per le
espressioni rigide e per quelle flessibili
Espressioni idiomatiche
Es. espressione rigida:
1 Tutt' (|TUTT'_AL_PIÙ| ADV MANNER
LOCUTION) [5;ADVB-RMOD-CONJTEXT]
2 al (|TUTT'_AL_PIÙ| ADV MANNER
LOCUTION) [1;CONTIN+LOCUT]
3 più (|TUTT'_AL_PIÙ| ADV MANNER
LOCUTION) [2;CONTIN+LOCUT]
Espressioni idiomatiche
Es. espressione flessibile:
... 3 tiene (TENERE VERB MAIN IND PRES
TRANS 3 SING) [0;TOP-VERB]
4 conto (CONTO NOUN COMMON M SING)
[3;VERB-OBJ*LOCUT]
Espressioni idiomatiche e MT
Tra i traduttori online più utilizzati:
SYSTRAN:
http://www.systranet.com/translate/
GOOGLE TRANSLATE:
https://translate.google.com/
Espressioni idiomatiche e MT
Come si comporta SYSTRAN con le espressioni
idiomatiche?
S: Si è salvato per il rotto della cuffia
T: It has been saved by the skin of teeth
S: It has been saved by the skin of teeth
T: È stato conservato dalla pelle dei denti
Espressioni idiomatiche e MT
Come si comporta SYSTRAN con le espressioni
idiomatiche?
S: Piove a dirotto
T: It rains excessively
S: It rains cats and dogs
T: Piove i gatti e i cani
Espressioni idiomatiche e MT
Come si comporta GOOGLE TRANSLATE con le
espressioni idiomatiche?
S: Si è salvato per il rotto della cuffia
T: You saved the skin of your teeth
S: You saved the skin of your teeth
T: È stato salvato il rotto della cuffia
Espressioni idiomatiche e MT
Come si comporta SYSTRAN con le espressioni
idiomatiche?
S: Piove a dirotto
T: Rains
S: It rains cats and dogs
T: Piove gatti e cani
Espressioni idiomatiche e MT
Come si comporta SYSTRAN con le espressioni
idiomatiche?
S: Piove a dirotto
T: Rains
S: It rains cats and dogs
T: Piove gatti e cani
MT e problemi
Perchè i sistemi di MT incontrano questi problemi?
Cette fille et jolie
Questa ragazza è abbastanza
Jolie > pretty > carino/abbastanza
Je pense que vous avez un president magnifique
Penso che tu abbia una bella sedia (ora CORRETTO!)
President > chair > presidente/sedia
MT e problemi
Perchè i sistemi di MT incontrano questi problemi?
Hai fatto un compito terrificante
Vous avez fait un travail formidable
Terrificante > terrific > formidable
(ora corretto you did a terrific job)
Ils pleut des cordes
It rains cats and dogs (ora corretto in It’s pouring)
Scarica

MTapprocci-problemi-2015 - Dipartimento di Informatica