Modelli di Calcolo e Lingue
R. Basili
TAL - a.a. 2005-2006
Sommario
 Motivazioni
 Cenni di Linguistica
 Alcune nozioni computazionali
Motivazioni
 Un sistema di TAL fa riferimento a:
– Dati che rappresentano fenomeni linguistici
 Astrazioni (o teorie) linguistiche
 Formalismi o Codifiche
– Paradigmi (o astrazioni) del calcolo




Grammatiche e Automi
Algebre Logiche
Modelli quantitativi
Modelli induttivi
– Algoritmi per la analisi Lessicale, Grammaticale e
Semantica
Motivazioni (2)
 Una tipica architettura del TAL
TAL: Una tipica architettura
testo
Lessico
Analisi Lessicale
Tokens+
features
Analisi Sintattica
Grammatica
Struttura
frase
Analisi Semantica
Modello del
mondo
Forma
Logica
An. Pragmatica / Applic.
Interpretazione/Azione
Modello della
applicazione
Motivazioni (3)
 In questa sezione del programma ci
interessiamo a definire un vocabolario per
l’approfondimento (di alcuni) dei temi sopra
elencati
 Elementi di Linguistica
 Elementi di Informatica
 Applicazioni
Modelli e Algoritmi
 Modelli: Astrazioni e formalismi per esprimere
diversi tipi di strutture linguistiche.
– Automi (FSA, traduttori, modelli di markov)
– Sistemi formali di regole (grammatiche context-free,
sistemi di feature)
– Logica (calcolo dei predicati ed inferenza)
– Modelli Probabilistici di quelli sopra elencati
 Algoritmi usati per manipolare le rappresentazioni
e creare altre strutture.
– Alg. Di Ricerca (A*, programmazione dinamica)
– Apprendimento Induttivo etc etc
Elementi di Linguistica





Livello morfologico, sintattico e semantico
La nozione di grammatica
Grammaticalità e significato
Fenomeni e Proprietà Grammaticali
Il Lessico
Linguistica: la prospettiva
Interna/Internalistica
 Noam Chomsky, Syntactic Structures, 1957.
 Linguistica interna: studio del linguaggio come
capacità cognitiva dell’individuo. Oggetto dello
studio è la dimensione psicologica e biologica del
linguaggio.
 Oggetti di studio sono -la lingua come conoscenza
(lingua interna) -la “facoltà del linguaggio”
(Saussure) o l’ “istinto del linguaggio” (Darwin).
 La linguistica interna classica: lo studio del
linguaggio come “specchio della mente” nella
filosofia razionalista.
Contributi della LI
 La linguistica interna della seconda
metà del XX secolo ha introdotto
– modelli teorici precisi
– con un certo grado di profondità deduttiva
– verificabili empiricamente
 Lo studio del linguaggio nello “stile
galileiano”.
Obbiettivi

Domande fondamentali del programma della
grammatica generativa, la linea di ricerca
principale della moderna linguistica interna:
1. Che cos’è la conoscenza della lingua materna?
(Competenza)
2. Come la si mette in opera nell’uso del linguaggio?
(Esecuzione/Performance)
3. Come la si acquisisce nell’infanzia? (Acquisizione
della facoltà di linguaggio)
4. Come è rappresentata fisicamente nel cervello?
CREATIVITA’ E RICORSIVITA’
La “creatività” dell’uso linguistico
normale come problema centrale
della linguistica interna
1. costante novità degli enunciati prodotti e
compresi
2. carattere non deterministico ma
appropriato del comportamento
linguistico del parlante.
Ricorsività
 Qualunque parlante è in grado di capire e
produrre un numero illimitato di frasi
 La conoscenza della lingua non è la
memorizzazione di una lista
 Stima delle frasi possibili in francese per
L=10 parole: 1023 (M. Gross)
 W. von Humboldt: la lingua fa un uso
infinito di mezzi finiti
Ricorsività: PdI
 La conoscenza della lingua è conoscenza di un
sistema di regole che possono generare un numero
potenzialmente illimitato di frasi
 Principio di Induzione (G. Peano):
 1) 1 appartiene a N
 2) se X appartiene a N, allora X + 1 appartiene a N
 3) nient’altro appartiene a N
 Es. 1
1+1
(1+1)+1
((1+1)+1)+1
………
Ricorsività e Linguaggio
 Ricorsività: proprietà che hanno certe
regole formali di potersi riapplicare
indefinitamente sul loro stesso risultato
 Esempi di ricorsività nelle lingue naturali
– Ho incontrato Gianni, Francesco, Piero,
Maria,….
– Mario ha risposto ala zia del cugino dello zio
del figlio di …
Ricorsività e Linguaggio (2)
– Il fratello [dell’amico [del cugino [di un collega [di….]]]]
– Credo [che Mario abbia detto [che la gente pensi [che
qualcuno tema [che…]]]]
– Ho incontrato [l’autore [che ha scritto [il libro [che ha
entusiasmato [la giuria [che ha assegnato [il premio
[che…..]]]]]]]]
 La conoscenza della lingua è il possesso tacito di un
sistema di regole ricorsive che generano frasi
(grammatica generativa)
Grammatica e Sostituibilità
 Piero ama Pina
 La mamma nutre Piero
 Il cane morde il gatto
 N = {Piero,Pina, la mamma, il cane, il gatto}
 V = {ama,nutre,morde}
  : NxVxN oppure   N V N
Grammatica e Sostituibilità
 La formalizzazione
NVN
 si legge “Ogni espressione che esprime la
sequenza di un elemento dell’insieme N di eun
elemento dell’insieme V e dell’elemento
dell’insieme N definisce un costituente valido
nell’insieme delle frasi “
 Ha quindi un carattere
– descrittivo
– procedurale
Grammatica e Sostituibilità (2)
 Vantaggi:
– Maggiore livello di astrazione
– Formalismo algebrico per controllare il dato
linguistico (empirico)
– Formalismo che esprime sistematicamente la
ricorsività, ad es.
 NP  Art NPA
 NPA  N | Adj NPA | NPA PP
Sostituibilità e Ricorsività
 “Il primo figlio di Pino … “ =>
( (Il)Art ( (primo)Adj ( ((figlio)N)NPA (di Pino)PP )NPA )NPA )NP
( (Il)Art
( (primo)Adj
(
( (figlio)N )NPA
(di Pino)PP
)NPA
)NPA
)NP
Problemi e limitazioni
 La soluzione iniziale non copre
– Piero e Pina amano la mamma
 Questo per due motivazioni
– Lessicali: amano N
– Sintattiche: la coordinazione non e’ prevista dalla
ggrammatica
 => V = V  {amano} ={ama,nutre,morde,amano}
 =>   N V N | N e N V N
Problemi e limitazioni
 La nuova grammatica overgenera:
 Infatti ritiene come ammissibili
– Pino e Anna ama la mamma
– Pino amano la mamma
 Cio’ che non viene rappresentato e’ il numero e
l’accordo in numero tra i soggetti delle frasi ed il
verbo
Soluzioni
 Associare agli elementi lessicali i loro tratti
(ad esempio genere e numero)
– Determinare quindi classi di elementi
grammaticali che sono caratterizzate dagli
stessi tratti (Nsing/Nplur, V1Sing/…/V3plur)
 Restringere le regole della grammatica a
considerare solo le classi compatibili ( 
Nsing V3sing N )
Tratti linguistici
 Sono espressi/definiti dal lessico
– V3sing  ama, V3plur  amano
 Definiscono caratteristiche morfo-sintattiche degli
elementi di una lingua
 Sono l’oggetto della analisi morfologica
 Possono essere ambigui
– V1sing  sia, V2sing  sia, V3sing  sia
DATI EMPIRICI
 1. Corpus di produzioni naturali
 2. Giudizi metalinguistici
 3. Esperimenti di comprensione
(cronometria mentale,…)
 4. Esperimenti di produzione (ripetizione,…)
 5. Studio delle patologie (dello sviluppo,
acquisite…)
 6. Tecniche di neuroimmagine (ERP, PET,
fMRI,…)
Grammaticalita’
(1)
(2)
(3)
(4)
(5)
(6)
(7)
La signora ha comprato il giornale
*Il ha giornale la comprato signora
*Signora comprare giornale
Colorless green ideas sleep furiously (N. Chomsky)
* Green sleep colorless furiously ideas
I pirotti carulizzano elatticamente (R.Carnap)
*carulizzano i elatticamente pirotti
 La nozione di grammaticalità è distinta dalla nozione di “avere
un senso”: ci sono frasi agrammaticali a cui assegnamo
facilmente un senso (come (3)), e frasi grammaticali a cui non
possiamo assegnare un senso (come (6)), ma che
distinguiamo agevolmente da sequenze arbitrarie di parole
come (7).
Ambiguita’
 (8) Gianni guardava la ragazza con il
binocolo (ambigua)
 (9) Gianni la guardava con il binocolo (non
ambigua)
 (10) Gianni conosceva la ragazza con il
binocolo (non amb.)
 (15) Ogni uomo ama sua madre (ambigua)
 (16) Sua madre ama ogni uomo (non
ambigua)
Sinonimia
 (17) Gianni ha aiutato Piero
 (18) Piero è stato aiutato da Gianni
(sinonima)
 (19) Piero ha aiutato Gianni (non
sinonima)
Contraddittorieta’ E
Inappropriatezza
 (21) # Gianni ha ucciso il cane, che però
non è morto
 (22) # Ieri mattina uscirò alle sette
 (…)
Modelli

Il linguaggio è suono con senso. Quindi
sapere una lingua vuol dire avere la
capacità di
1. rappresentarsi internamente i suoni
2. rappresentarsi internamente i sensi
3. associare rappresentazioni di suoni e di
sensi su un dominio illimitato.
Modelli (2)
 I. approssimazione: I segni linguistici come
entità bifacciali.
 Un primo passo è l’idea tradizionale che le
espressioni linguistiche sono entità a due facce.
 Secondo Saussure i segni linguistici sono costituiti
da un significante e da un significato, associati
arbitrariamente.
 Questo approccio consente la costruzione di teorie
sistematiche del lessico, ma non rende ancora
conto della “creatività”, della capacità di creare
infinite combinazioni di segni.
Modelli (3)
 II. approssimazione: Lessico e sintassi.
 Quindi, un modello della competenza linguistica
deve specificare almeno:
– a. Un lessico.
– b. Un sistema di computazioni mentali.
Vale a
dire, un sistema di regole mentali che “calcolino” strutture
mettendo insieme elementi del lessico per formare unità
via via più complesse.
– c. Interfacce: porte attraverso le quali il sistema mentale
per il linguaggio scambia informazioni con i sistemi
cognitivi non specificamente linguistici: i sistemi
articolatorio-percettivo e i sistemi di pensiero.
Modelli (4)
 Quindi, sapere una lingua vuol dire possedere un
sistema di calcolo mentale che computa strutture,
rappresentazioni mentali di entità linguistiche: parole,
frasi, testi, ecc.
 In questo modo di vedere le cose, il nucleo
computazionale del sistema è la sintassi ricorsiva, che
consente di generare infinite strutture.
 L’idea della “mente computazionale” si è rivelata
esportabile ad altri ambiti della cognizione, le capacità
cognitive si sono rivelate accessibili allo studio come
capacità computazionali specifiche di certi domini:
linguaggio, ragionamento, visione, presa di decisioni,
controllo motorio, ecc. (modularità).
Modelli (5)
 III. approssimazione: Livelli gerarchizzati di
analisi.
 Un ulteriore raffinamento di questo modello
deve tener conto del fatto che anche il
lessico ha una suo struttura interna
esprimibile in termini di inventari e
computazioni; ritroviamo questa
articolazione su almeno tre livelli
gerarchizzati:
Livelli Linguistici
 Fonologia
– Fonemi (unità minime con valore distintivo, costituite di tratti
distintivi): pari – Bari, fino – vino, cara – gara…
– Regole di combinazione dei fonemi: tre - *rte,…
 Morfologia
– a. Morfemi (unità minime con significato autonomo)
– b. Regole di formazione delle parole
 Sintassi
– a. Parole
– b. Regole di formazione dei sintagmi
Livelli Linguistici (2)
Semantica Si distribuisce sulla morfologia e la sintassi
• L’interpretazione semantica rispetta il principio di
composizionalità:
il significato di una unità di ordine superiore è funzione
dei significati dei suoi componenti di ordine inferiore
e della struttura
– [[in-[[evita-]-bil-]]-mente]
– [ Gianni [ aiuta Maria ]]
– [ Maria [ aiuta Gianni ]]
 quindi, l’arbitrarietà del segno riguarda le entità atomiche
dotate di significato, i morfemi, non le entità complesse.
Livelli Linguistici (3)
 Fonetica.
Lo studio delle proprietà fisiche e fisiologiche dei suoni
del linguaggio. Acustica Articolatoria
 Pragmatica.
Lo studio dell’uso delle strutture linguistiche per la
comunicazione, l’interazione sociale, il “fare cose con le
parole” (Austin)
Sintesi
 Un sistema di TAL gestisce dati (ed
algoritmi) basati su astrazioni (teorie)
linguistiche e su concetti informatici
 I livelli linguistici principali (nella analisi delle
lingue scritte) sono
– Livello morfologico
– Livello sintattico
– Livello semantico
– Livello pragmatico
Sintesi (2)
 Nel livello sintatico e’ stato introdotta la nozione di
– grammatica formale e
– grammatica a struttura sintagmatica
– Grammatiche a dipendenza
 Le grammatiche a struttura sintagmatica
forniscono come risultato delle strutture dati dette
alberi (di derivazione)
 Le grammatiche a dipendenze definiscono delle
strutture di dati dette grafi (alle dipendenze)
Sintesi (3)
 Sono utili le nozioni di
– Tratti linguistici come le proprietà associabili ai sintagmi
individuali (es. Numero e genere) che determinano un
grado maggiore di astrazione e semplificano la
descrizione grammaticale
– Le funzioni grammaticali
 Il lessico riunisce informazioni morfologiche,
grammaticali e semantiche delle parole individuali
 Una catalogazione di tipo informatico del lessico
costituisce un dizionario elettronico
Sintesi (4)
 Se un dizionario segue un formalismo
computazionale per la automazione di
decisioni linguistiche (ad es. la verifica della
concordanza in numero tra soggetto e
verbo) allora esso puo definirsi un lessico
computazionale
 Alcuni esempi
– Un lessico grammaticale in Prolog
– Wordnet
Riferimenti Bibliografici
 Lyons, Introduzione alla Linguistica Teorica,
II. Grammatica,
– Capitoli 4.1, 4.2, 4.3, 6.1, 6.2, 8.1
Scarica

Lingue Naturali e Modelli di Calcolo