Modelli di Calcolo e Lingue
R. Basili
TAL - a.a. 2005-2006
Sommario
Motivazioni
Cenni di Linguistica
Alcune nozioni computazionali
Motivazioni
Un sistema di TAL fa riferimento a:
– Dati che rappresentano fenomeni linguistici
Astrazioni (o teorie) linguistiche
Formalismi o Codifiche
– Paradigmi (o astrazioni) del calcolo
Grammatiche e Automi
Algebre Logiche
Modelli quantitativi
Modelli induttivi
– Algoritmi per la analisi Lessicale, Grammaticale e
Semantica
Motivazioni (2)
Una tipica architettura del TAL
TAL: Una tipica architettura
testo
Lessico
Analisi Lessicale
Tokens+
features
Analisi Sintattica
Grammatica
Struttura
frase
Analisi Semantica
Modello del
mondo
Forma
Logica
An. Pragmatica / Applic.
Interpretazione/Azione
Modello della
applicazione
Motivazioni (3)
In questa sezione del programma ci
interessiamo a definire un vocabolario per
l’approfondimento (di alcuni) dei temi sopra
elencati
Elementi di Linguistica
Elementi di Informatica
Applicazioni
Modelli e Algoritmi
Modelli: Astrazioni e formalismi per esprimere
diversi tipi di strutture linguistiche.
– Automi (FSA, traduttori, modelli di markov)
– Sistemi formali di regole (grammatiche context-free,
sistemi di feature)
– Logica (calcolo dei predicati ed inferenza)
– Modelli Probabilistici di quelli sopra elencati
Algoritmi usati per manipolare le rappresentazioni
e creare altre strutture.
– Alg. Di Ricerca (A*, programmazione dinamica)
– Apprendimento Induttivo etc etc
Elementi di Linguistica
Livello morfologico, sintattico e semantico
La nozione di grammatica
Grammaticalità e significato
Fenomeni e Proprietà Grammaticali
Il Lessico
Linguistica: la prospettiva
Interna/Internalistica
Noam Chomsky, Syntactic Structures, 1957.
Linguistica interna: studio del linguaggio come
capacità cognitiva dell’individuo. Oggetto dello
studio è la dimensione psicologica e biologica del
linguaggio.
Oggetti di studio sono -la lingua come conoscenza
(lingua interna) -la “facoltà del linguaggio”
(Saussure) o l’ “istinto del linguaggio” (Darwin).
La linguistica interna classica: lo studio del
linguaggio come “specchio della mente” nella
filosofia razionalista.
Contributi della LI
La linguistica interna della seconda
metà del XX secolo ha introdotto
– modelli teorici precisi
– con un certo grado di profondità deduttiva
– verificabili empiricamente
Lo studio del linguaggio nello “stile
galileiano”.
Obbiettivi
Domande fondamentali del programma della
grammatica generativa, la linea di ricerca
principale della moderna linguistica interna:
1. Che cos’è la conoscenza della lingua materna?
(Competenza)
2. Come la si mette in opera nell’uso del linguaggio?
(Esecuzione/Performance)
3. Come la si acquisisce nell’infanzia? (Acquisizione
della facoltà di linguaggio)
4. Come è rappresentata fisicamente nel cervello?
CREATIVITA’ E RICORSIVITA’
La “creatività” dell’uso linguistico
normale come problema centrale
della linguistica interna
1. costante novità degli enunciati prodotti e
compresi
2. carattere non deterministico ma
appropriato del comportamento
linguistico del parlante.
Ricorsività
Qualunque parlante è in grado di capire e
produrre un numero illimitato di frasi
La conoscenza della lingua non è la
memorizzazione di una lista
Stima delle frasi possibili in francese per
L=10 parole: 1023 (M. Gross)
W. von Humboldt: la lingua fa un uso
infinito di mezzi finiti
Ricorsività: PdI
La conoscenza della lingua è conoscenza di un
sistema di regole che possono generare un numero
potenzialmente illimitato di frasi
Principio di Induzione (G. Peano):
1) 1 appartiene a N
2) se X appartiene a N, allora X + 1 appartiene a N
3) nient’altro appartiene a N
Es. 1
1+1
(1+1)+1
((1+1)+1)+1
………
Ricorsività e Linguaggio
Ricorsività: proprietà che hanno certe
regole formali di potersi riapplicare
indefinitamente sul loro stesso risultato
Esempi di ricorsività nelle lingue naturali
– Ho incontrato Gianni, Francesco, Piero,
Maria,….
– Mario ha risposto ala zia del cugino dello zio
del figlio di …
Ricorsività e Linguaggio (2)
– Il fratello [dell’amico [del cugino [di un collega [di….]]]]
– Credo [che Mario abbia detto [che la gente pensi [che
qualcuno tema [che…]]]]
– Ho incontrato [l’autore [che ha scritto [il libro [che ha
entusiasmato [la giuria [che ha assegnato [il premio
[che…..]]]]]]]]
La conoscenza della lingua è il possesso tacito di un
sistema di regole ricorsive che generano frasi
(grammatica generativa)
Grammatica e Sostituibilità
Piero ama Pina
La mamma nutre Piero
Il cane morde il gatto
N = {Piero,Pina, la mamma, il cane, il gatto}
V = {ama,nutre,morde}
: NxVxN oppure N V N
Grammatica e Sostituibilità
La formalizzazione
NVN
si legge “Ogni espressione che esprime la
sequenza di un elemento dell’insieme N di eun
elemento dell’insieme V e dell’elemento
dell’insieme N definisce un costituente valido
nell’insieme delle frasi “
Ha quindi un carattere
– descrittivo
– procedurale
Grammatica e Sostituibilità (2)
Vantaggi:
– Maggiore livello di astrazione
– Formalismo algebrico per controllare il dato
linguistico (empirico)
– Formalismo che esprime sistematicamente la
ricorsività, ad es.
NP Art NPA
NPA N | Adj NPA | NPA PP
Sostituibilità e Ricorsività
“Il primo figlio di Pino … “ =>
( (Il)Art ( (primo)Adj ( ((figlio)N)NPA (di Pino)PP )NPA )NPA )NP
( (Il)Art
( (primo)Adj
(
( (figlio)N )NPA
(di Pino)PP
)NPA
)NPA
)NP
Problemi e limitazioni
La soluzione iniziale non copre
– Piero e Pina amano la mamma
Questo per due motivazioni
– Lessicali: amano N
– Sintattiche: la coordinazione non e’ prevista dalla
ggrammatica
=> V = V {amano} ={ama,nutre,morde,amano}
=> N V N | N e N V N
Problemi e limitazioni
La nuova grammatica overgenera:
Infatti ritiene come ammissibili
– Pino e Anna ama la mamma
– Pino amano la mamma
Cio’ che non viene rappresentato e’ il numero e
l’accordo in numero tra i soggetti delle frasi ed il
verbo
Soluzioni
Associare agli elementi lessicali i loro tratti
(ad esempio genere e numero)
– Determinare quindi classi di elementi
grammaticali che sono caratterizzate dagli
stessi tratti (Nsing/Nplur, V1Sing/…/V3plur)
Restringere le regole della grammatica a
considerare solo le classi compatibili (
Nsing V3sing N )
Tratti linguistici
Sono espressi/definiti dal lessico
– V3sing ama, V3plur amano
Definiscono caratteristiche morfo-sintattiche degli
elementi di una lingua
Sono l’oggetto della analisi morfologica
Possono essere ambigui
– V1sing sia, V2sing sia, V3sing sia
DATI EMPIRICI
1. Corpus di produzioni naturali
2. Giudizi metalinguistici
3. Esperimenti di comprensione
(cronometria mentale,…)
4. Esperimenti di produzione (ripetizione,…)
5. Studio delle patologie (dello sviluppo,
acquisite…)
6. Tecniche di neuroimmagine (ERP, PET,
fMRI,…)
Grammaticalita’
(1)
(2)
(3)
(4)
(5)
(6)
(7)
La signora ha comprato il giornale
*Il ha giornale la comprato signora
*Signora comprare giornale
Colorless green ideas sleep furiously (N. Chomsky)
* Green sleep colorless furiously ideas
I pirotti carulizzano elatticamente (R.Carnap)
*carulizzano i elatticamente pirotti
La nozione di grammaticalità è distinta dalla nozione di “avere
un senso”: ci sono frasi agrammaticali a cui assegnamo
facilmente un senso (come (3)), e frasi grammaticali a cui non
possiamo assegnare un senso (come (6)), ma che
distinguiamo agevolmente da sequenze arbitrarie di parole
come (7).
Ambiguita’
(8) Gianni guardava la ragazza con il
binocolo (ambigua)
(9) Gianni la guardava con il binocolo (non
ambigua)
(10) Gianni conosceva la ragazza con il
binocolo (non amb.)
(15) Ogni uomo ama sua madre (ambigua)
(16) Sua madre ama ogni uomo (non
ambigua)
Sinonimia
(17) Gianni ha aiutato Piero
(18) Piero è stato aiutato da Gianni
(sinonima)
(19) Piero ha aiutato Gianni (non
sinonima)
Contraddittorieta’ E
Inappropriatezza
(21) # Gianni ha ucciso il cane, che però
non è morto
(22) # Ieri mattina uscirò alle sette
(…)
Modelli
Il linguaggio è suono con senso. Quindi
sapere una lingua vuol dire avere la
capacità di
1. rappresentarsi internamente i suoni
2. rappresentarsi internamente i sensi
3. associare rappresentazioni di suoni e di
sensi su un dominio illimitato.
Modelli (2)
I. approssimazione: I segni linguistici come
entità bifacciali.
Un primo passo è l’idea tradizionale che le
espressioni linguistiche sono entità a due facce.
Secondo Saussure i segni linguistici sono costituiti
da un significante e da un significato, associati
arbitrariamente.
Questo approccio consente la costruzione di teorie
sistematiche del lessico, ma non rende ancora
conto della “creatività”, della capacità di creare
infinite combinazioni di segni.
Modelli (3)
II. approssimazione: Lessico e sintassi.
Quindi, un modello della competenza linguistica
deve specificare almeno:
– a. Un lessico.
– b. Un sistema di computazioni mentali.
Vale a
dire, un sistema di regole mentali che “calcolino” strutture
mettendo insieme elementi del lessico per formare unità
via via più complesse.
– c. Interfacce: porte attraverso le quali il sistema mentale
per il linguaggio scambia informazioni con i sistemi
cognitivi non specificamente linguistici: i sistemi
articolatorio-percettivo e i sistemi di pensiero.
Modelli (4)
Quindi, sapere una lingua vuol dire possedere un
sistema di calcolo mentale che computa strutture,
rappresentazioni mentali di entità linguistiche: parole,
frasi, testi, ecc.
In questo modo di vedere le cose, il nucleo
computazionale del sistema è la sintassi ricorsiva, che
consente di generare infinite strutture.
L’idea della “mente computazionale” si è rivelata
esportabile ad altri ambiti della cognizione, le capacità
cognitive si sono rivelate accessibili allo studio come
capacità computazionali specifiche di certi domini:
linguaggio, ragionamento, visione, presa di decisioni,
controllo motorio, ecc. (modularità).
Modelli (5)
III. approssimazione: Livelli gerarchizzati di
analisi.
Un ulteriore raffinamento di questo modello
deve tener conto del fatto che anche il
lessico ha una suo struttura interna
esprimibile in termini di inventari e
computazioni; ritroviamo questa
articolazione su almeno tre livelli
gerarchizzati:
Livelli Linguistici
Fonologia
– Fonemi (unità minime con valore distintivo, costituite di tratti
distintivi): pari – Bari, fino – vino, cara – gara…
– Regole di combinazione dei fonemi: tre - *rte,…
Morfologia
– a. Morfemi (unità minime con significato autonomo)
– b. Regole di formazione delle parole
Sintassi
– a. Parole
– b. Regole di formazione dei sintagmi
Livelli Linguistici (2)
Semantica Si distribuisce sulla morfologia e la sintassi
• L’interpretazione semantica rispetta il principio di
composizionalità:
il significato di una unità di ordine superiore è funzione
dei significati dei suoi componenti di ordine inferiore
e della struttura
– [[in-[[evita-]-bil-]]-mente]
– [ Gianni [ aiuta Maria ]]
– [ Maria [ aiuta Gianni ]]
quindi, l’arbitrarietà del segno riguarda le entità atomiche
dotate di significato, i morfemi, non le entità complesse.
Livelli Linguistici (3)
Fonetica.
Lo studio delle proprietà fisiche e fisiologiche dei suoni
del linguaggio. Acustica Articolatoria
Pragmatica.
Lo studio dell’uso delle strutture linguistiche per la
comunicazione, l’interazione sociale, il “fare cose con le
parole” (Austin)
Sintesi
Un sistema di TAL gestisce dati (ed
algoritmi) basati su astrazioni (teorie)
linguistiche e su concetti informatici
I livelli linguistici principali (nella analisi delle
lingue scritte) sono
– Livello morfologico
– Livello sintattico
– Livello semantico
– Livello pragmatico
Sintesi (2)
Nel livello sintatico e’ stato introdotta la nozione di
– grammatica formale e
– grammatica a struttura sintagmatica
– Grammatiche a dipendenza
Le grammatiche a struttura sintagmatica
forniscono come risultato delle strutture dati dette
alberi (di derivazione)
Le grammatiche a dipendenze definiscono delle
strutture di dati dette grafi (alle dipendenze)
Sintesi (3)
Sono utili le nozioni di
– Tratti linguistici come le proprietà associabili ai sintagmi
individuali (es. Numero e genere) che determinano un
grado maggiore di astrazione e semplificano la
descrizione grammaticale
– Le funzioni grammaticali
Il lessico riunisce informazioni morfologiche,
grammaticali e semantiche delle parole individuali
Una catalogazione di tipo informatico del lessico
costituisce un dizionario elettronico
Sintesi (4)
Se un dizionario segue un formalismo
computazionale per la automazione di
decisioni linguistiche (ad es. la verifica della
concordanza in numero tra soggetto e
verbo) allora esso puo definirsi un lessico
computazionale
Alcuni esempi
– Un lessico grammaticale in Prolog
– Wordnet
Riferimenti Bibliografici
Lyons, Introduzione alla Linguistica Teorica,
II. Grammatica,
– Capitoli 4.1, 4.2, 4.3, 6.1, 6.2, 8.1