Traduzione automatica
(1)
Cristina Bosco
Informatica applicata alla
comunicazione multimediale
2014-2015
Il memorandum di Weaver - 1949
Pochi anni dopo la comparsa dei primi computer e
la fine della II guerra mondiale, Warren Weaver
pubblica un memorandum, intitolato “On
translation”, in cui si descrivono in modo molto
ottimistico i possibili sviluppi per la MT.
Il suo ottimismo dipende dal successo ottenuto
nella decrittazione e dalle teorie sulla
comunicazione e crittografia elaborate in quel
periodo da Shannon.
Crittografia e decrittazione
Già a partire dall’antichità sono state applicate
tecniche di crittografia.
In modo più o meno sofisticato le tecniche di
crittografia comportano una riscrittura di un
documento sulla base di una chiave di
interpretazione.
Crittografare un messaggio significa renderlo
illeggibile a chi non possiede la chiave.
Crittografia e decrittazione
Esempio di messaggio crittografato:
Il cane mangia
Lm dbof nbohlb
12 3456 745814
Crittografia e decrittazione
Esempio di messaggio crittografato:
Il cane mangia
Lm dbof nbohlb
CHIAVE:
i=l;l=m;c=d;a=b;n=o;e=f;m=n;g=h
(sostituzione di ogni lettera con quella seguente
nell’alfabeto)
Crittografia e decrittazione
Esempio di messaggio crittografato:
Il cane mangia
12 3456 745814
CHIAVE:
i=1;l=2;c=3;a=4;n=5;e=6;m=7;g=8
(sostituzione di ogni lettera con un numero)
Crittografia e decrittazione
Le tecniche di decrittazione sono tentativi di
ricostruire la chiave di interpretazione sulla
base di esempi di messaggi crittografati.
Alla base di tali tecniche ci sono i dati statistici
relativi alla frequenza delle lettere e delle
parole nel linguaggio oggetto di crittografia.
Crittografia e decrittazione
Tecniche di decrittazione in senso lato sono
quelle utilizzate nello studio di linguaggi
antichi … la stele di Rosetta … il lineare B …
Come nella decrittazione di messaggi a chiave,
si rileva la presenza ricorrente di determinate
sequenze di simboli (regolarità statistiche),
riconosciute le quali si può formulare una
interpretazione del linguaggio.
Crittografia e decrittazione
Il lineare B è la lingua utilizzata dagli antichi
abitanti di Creta e di alcune zone della Grecia.
Scoperto negli scavi di Evans a Creta nel 1900,
rimase indecifrabile fin dopo la fine della
seconda guerra mondiale, e fu decifrato con
tecniche tipiche della decrittazione da Michael
Ventris nel 1952, mostrando che si trattava di
una forma arcaica di greco antico scritta con
caratteri differenti.
Crittografia e decrittazione
Tecniche di crittografia sono oggi molto
utilizzate in Internet, tutte le volte che un
messaggio contiene dati “sensibili”
appropriandosi dei quali si potrebbero
commettere reati, come frodi e furti.
Si tratta ad esempio del numero della carta di
credito nelle transazioni del commercio
elettronico, o delle credenziali degli utenti,
delle firme elettroniche.
Crittografia e decrittazione
Tecniche di crittografia sono state applicate in
modo sistematico per scopi bellici, fin
dall’antichità, ma soprattutto durante la II
guerra mondiale.
Alcuni storici attribuiscono il successo degli
alleati all’attività di decrittazione svolta dal
gruppo di scienziati di Bletchley Park.
Crittografia e decrittazione
Durante la II guerra mondiale i tedeschi
costruirono sofisticate macchine (Enigma) per
crittografare e decrittare i messaggi di
importanza strategica.
Una di queste macchine cadde però nelle mani
dell’esercito inglese.
Crittografia e decrittazione
Gli inglesi costruirono macchine per la
decrittazione in grado di provare in tempi
relativamente brevi molte possibili chiavi sui
messaggi intercettati.
E ovviamente trassero vantaggio dalla macchina
Enigma rubata ai tedeschi.
Tra gli scienziati di Bletchley Park, c’era anche
Alan Turing, oggi considerato come uno dei
pionieri dell’informatica.
I primi sistemi
I primi sistemi di MT, di cui parla Weaver nel
1949, sono ampi dizionari bilingui le cui entry
lessicali nel linguaggio sorgente (LS)
contenevano uno o più termini equivalenti nel
linguaggio target (LT).
Si trattava di traduzione parola per parola.
I precursori
Ma l’idea della MT nasce ben prima dell’avvento
dei computer e dei primi sistemi di cui parla
Weaver.
Già nel XVII secolo alcuni filosofi come Leibniz e
Cartesio discutevano di ‘linguaggi universali’
per facilitare il commercio e lo scambio di
conoscenza tra i popoli, e di ‘linguaggi logici’
che rappresentano un precedente per i
linguaggi di programmazione.
I precursori
All’inizio del XX secolo vengono costruite le
prime macchine per la traduzione ed i
primi ‘cervelli meccanici’, ad opera di due
studiosi indipendentemente:
George Artsouni
Petr Trojanskiy
I precursori
Nel 1933,
Georges Artsouni
ideò un “cervello meccanico”, un dispositivo per
trattare (archiviare, consultare e stampare)
informazioni, creato per scopi di crittografia,
ma utilizzabile per la traduzione e basato
sulla traduzione diretta parola per parola
(senza nessuna analisi linguistica
sottostante)
I precursori
Nel 1933,
Petr Petrovic Trojanskij
brevetta un modello più evoluto di macchina per
la traduzione che prevede la trasformazione
del testo in forma logica universale
(esperanto) prima di passare alla lingua di
destinazione e utilizza rudimentali forme di
analisi morfologica e sintattica
I precursori
L’importanza dei precursori sta nel fatto di aver
proposto i due modelli di traduzione che nella
storia della MT verranno costantemente
riproposti: parola per parola e basato su
interlingua.
I primi sistemi
Dopo i precursori arriva il successo della
crittografia, l’invenzione del computer, i primi
sistemi di MT … e il memorandum di Weaver.
Il memorandum suscita molto entusiasmo
acritico e lo stanziamento di fondi per la
ricerca sulla MT, soprattutto da parte del
governo USA.
Ma Weaver è un matematico e non coglie la
complessità del problema della traduzione.
I primi sistemi
Dalla fine degli anni ‘50 comincia a
diminuire l’entusiasmo per la MT, ma
cresce la consapevolezza dei problemi che
stavano dietro la MT che necessitava di:
- conoscenza linguistica
- conoscenza del mondo
- e per la quale le tecniche di crittografia
non erano adeguate
Crittografia?
Perchè non funzionano le tecniche di
crittografia?
Si basano su identificazione e sostituzione di
unità individuali
A B C D E F G H I J K L M N O
P Q R …
Z Y X W V U T S R Q P O N M L
K J I …
HELLO = SVOOL = HELLO
Crittografia?
Perchè non funzionano le tecniche di
crittografia?
Nel linguaggio le parole devono essere viste
nel contesto:
The | green | cars
Le | vert | voitures (invece di les
voitures vertes)
Gli anni ‘60
Fu presto chiaro che erano necessarie anche
regole per manipolare l’ordine delle parole
che poteva variare nella LT rispetto alla LS.
Ma le regole che servivano in abbinamento al
dizionario sembrava essere troppe e quasi
sempre ad hoc, a causa della grande varietà
strutturale e lessicale del linguaggio umano.
Gli anni ‘60
La soluzione era lavorare ad un altro livello di
astrazione, cioè fare analisi morfologica e
sintattica del testo.
Si sviluppano sistemi ispirati a varie teorie
linguistiche, prevalentemente chomskiane
basate su costituenti e trasformazioni.
Gli anni ’60: Georgetown
Per mantenere vivo l’ottimismo suscitato da
Weaver si svolse quello che è rimasto noto
come l’esperimento di Georgetown.
Nel 1954 l’IBM organizza con successo un
esperimento che consisteva nel tradurre dal
russo all’inglese 49 frasi (accuratamente
preparate) utilizzando 6 regole grammaticali e
250 item lessicali.
Critica della MT
Ma all’inizio degli anni ’60 l’ottimismo cala
grazie ad analisi sempre più oggettive sullo
stato dell’arte della MT, ed in particolare:
- Il survey pubblicato da J. Bar-Hillel
- Il rapporto ALPAC.
Critica della MT: Bar-Hillel
Nel 1960 Joshua Bar-Hillel pubblica un survey
dove dimostra che non è possibile la
traduzione completamente automatica di alta
qualità.
Bar-Hillel non si pronuncia contro la possibilità
pratica di realizzare la traduzione automatica,
ma contro la sua stessa possibilità teorica.
Secondo lui la traduzione non è un compito
difficile, ma impossibile.
Critica della MT: Bar-Hillel
Bar-Hillel utilizza in particolare un argomento
per dimostrare che la MT non è possibile:
è impossibile tradurre senza avere conoscenza
contestuale e del mondo, e un sistema di MT
non può avere questo tipo di conoscenza.
Critica della MT: Bar-Hillel
La sua dimostrazione si basa sulla frase
“The box was in the pen”
(un essere umano, ma non un sistema di MT, è
in grado di selezionare per la parola PEN il
significato ‘gabbia per animali’ invece che
‘oggetto per scrivere’ perché ha conoscenza
delle dimensioni di scatole e penne, cioè
conoscenza del mondo)
Critica della MT: Bar-Hillel
I traduttori umani utilizzano la loro conoscenza
del mondo per tradurre, prevalentemente in
modo inconsapevole, per risolvere le
ambiguità sintattiche e semantiche che le
macchine non sanno risolvere o risolvere
correttamente.
La MT è possibile solo se il testo da tradurre è
stato compreso, in modo appropriato dal
meccanismo di traduzione.
Critica della MT: Bar-Hillel
Il contesto da cui le argomentazioni di Bar-Hillel
provengono è quello dei primi analizzatori
sintattici che potevano produrre una grande
quantità di strutture alternative anche per
frasi molto semplici.
Oggi sappiamo che abbiamo bisogno di
conoscenza semantica per risolvere queste
ambiguità e che esistono modi di
rappresentare tale conoscenza … anche se
ancora oggi è difficile usarla nei sistemi.
Critica della MT: ALPAC
Nel 1966, il governo statunitense promuove uno
studio sistematico della attività legate alla MT
nel mondo accademico e industriale.
Il risultato è la pubblicazione del rapporto ALPAC
(Automatic Language Processing Advisory
Committee) che dimostra i limiti della MT e
motiva il taglio dei fondi dedicati alla MT del
decennio successivo.
Il rapporto ALPAC
Il titolo: Language and machines: computers in
translation and linguistics
• Il rapporto intendeva investigare non solo la
MT ma tutta l’area della linguistica
computazionale
• Ma, in quel momento storico, la maggior parte
dell’attività nell’ambito della linguistica
computazionale era dedicata alla MT
Il rapporto ALPAC
Perché continuare a lavorare nella MT?
• Per ALPAC l’impegno nella MT poteva essere
giustificato solo se la ricerca e sviluppo
correlati alla MT fossero stati in grado di
produrre, in breve tempo, una riduzione di
spesa o una buona prestazione o la
soddisfazione di una necessità operativa.
Il rapporto ALPAC
Le domande a cui il rapporto tenta di rispondere
sono:
• La MT può costare meno dei traduttori umani
impiegati dal governo?
• La MT può offrire traduzioni di qualità analoga
a quella offerta dai traduttori umani?
• Quanto del materiale tradotto è realmente
necessario tradurre?
Il rapporto ALPAC
La prospettiva nel rispondere a queste domande
è fortemente orientata a:
• Basarsi sulle necessità del governo e
dell’esercito americano
• Prendere in considerazione solo l’inglese e il
russo
• Non considerare le necessità di altri potenziali
utenti della MT e di altre lingue
Il rapporto ALPAC
I dati mostrati nel rapporto:
• Il 76% della produzione scientifica era in
lingua inglese, il 14% in russo
• Una conoscenza della lingua russa poteva
essere ottenuta in circa 200 ore
• I traduttori professionisti avevano un salario
molto inferiore a quello degli scienziati
impegnati nella MT e c’era ampia disponibilità
di traduttori professionisti
Il rapporto ALPAC
I dati mostrati nel rapporto:
• Erano oggetto di traduzione molti testi inutili
(meno del 30% degli articoli scientifici tradotti
da russo a inglese erano accettati per la
pubblicazione su riviste americane)
• L’utenza dei servizi di traduzione era
estremamente limitata (scienziati
prevalentemente)
Il rapporto ALPAC
Non c’era quindi nessuna emergenza su ampia
scala a cui la MT dovesse fare fronte.
“The problem is not to meet some nonexistent
need through nonexistent machine
translation. There are, however, several crucial
problems of translation. These are quality,
speed and cost.”
Il rapporto ALPAC
Quale era la qualità della MT?
• Non esisteva ancora un modo di valutarla
• Viene proposto nel rapporto ALPAC un
esperimento da cui risulta che la qualità
anche della traduzione umana era variabile,
ma comunque più elevata di quella offerta
dalla MT
Il rapporto ALPAC
Quale era la velocità della MT?
• Il sistema di MT più rapido traduceva 50
pagine in 15 giorni, tenendo conto della
necessità di post-editing
Il rapporto ALPAC
Quale era il costo della MT?
• Leggere un documento D tradotto da MT
richiedeva il doppio del tempo che quando D era
tradotto da un traduttore; se D aveva più di 20
lettori, conveniva applicare la traduzione umana
• Era meglio spendere per apprendere il russo o
per pagare meglio i traduttori che per la MT
• 20 milioni di dollari (in realtà 12-13) erano stati
investiti nella MT negli ultimi 10 anni
Il rapporto ALPAC
In conclusione lo stato della MT:
• La MT deve essere un mezzo per passare da
un testo in LS a uno in LT senza intervento
umano
• Non esisteva ne’ sarebbe esistito entro breve
tempo un simile sistema di MT
• Il post-editing richiesto dai sistemi di MT,
secondo la valutazione dei traduttori, era
lungo quanto una traduzione ex novo
Il rapporto ALPAC
Si auspicava pertanto:
• Lo sviluppo di sistemi di machine-aided (e non
human-aided) translation, più economici e
utili della MT: CAT
• Si riconosceva il contributo della MT allo
sviluppo della linguistica computazionale, ma
era quest’ultima che doveva essere
supportata economicamente e sviluppata, non
la MT
Scarica

MT+decritt-storia-2015