Modelli di Calcolo e Lingue R. Basili TAL - a.a. 2005-2006 Sommario Motivazioni Cenni di Linguistica Alcune nozioni computazionali Motivazioni Un sistema di TAL fa riferimento a: – Dati che rappresentano fenomeni linguistici Astrazioni (o teorie) linguistiche Formalismi o Codifiche – Paradigmi (o astrazioni) del calcolo Grammatiche e Automi Algebre Logiche Modelli quantitativi Modelli induttivi – Algoritmi per la analisi Lessicale, Grammaticale e Semantica Motivazioni (2) Una tipica architettura del TAL TAL: Una tipica architettura testo Lessico Analisi Lessicale Tokens+ features Analisi Sintattica Grammatica Struttura frase Analisi Semantica Modello del mondo Forma Logica An. Pragmatica / Applic. Interpretazione/Azione Modello della applicazione Motivazioni (3) In questa sezione del programma ci interessiamo a definire un vocabolario per l’approfondimento (di alcuni) dei temi sopra elencati Elementi di Linguistica Elementi di Informatica Applicazioni Modelli e Algoritmi Modelli: Astrazioni e formalismi per esprimere diversi tipi di strutture linguistiche. – Automi (FSA, traduttori, modelli di markov) – Sistemi formali di regole (grammatiche context-free, sistemi di feature) – Logica (calcolo dei predicati ed inferenza) – Modelli Probabilistici di quelli sopra elencati Algoritmi usati per manipolare le rappresentazioni e creare altre strutture. – Alg. Di Ricerca (A*, programmazione dinamica) – Apprendimento Induttivo etc etc Elementi di Linguistica Livello morfologico, sintattico e semantico La nozione di grammatica Grammaticalità e significato Fenomeni e Proprietà Grammaticali Il Lessico Linguistica: la prospettiva Interna/Internalistica Noam Chomsky, Syntactic Structures, 1957. Linguistica interna: studio del linguaggio come capacità cognitiva dell’individuo. Oggetto dello studio è la dimensione psicologica e biologica del linguaggio. Oggetti di studio sono -la lingua come conoscenza (lingua interna) -la “facoltà del linguaggio” (Saussure) o l’ “istinto del linguaggio” (Darwin). La linguistica interna classica: lo studio del linguaggio come “specchio della mente” nella filosofia razionalista. Contributi della LI La linguistica interna della seconda metà del XX secolo ha introdotto – modelli teorici precisi – con un certo grado di profondità deduttiva – verificabili empiricamente Lo studio del linguaggio nello “stile galileiano”. Obbiettivi Domande fondamentali del programma della grammatica generativa, la linea di ricerca principale della moderna linguistica interna: 1. Che cos’è la conoscenza della lingua materna? (Competenza) 2. Come la si mette in opera nell’uso del linguaggio? (Esecuzione/Performance) 3. Come la si acquisisce nell’infanzia? (Acquisizione della facoltà di linguaggio) 4. Come è rappresentata fisicamente nel cervello? CREATIVITA’ E RICORSIVITA’ La “creatività” dell’uso linguistico normale come problema centrale della linguistica interna 1. costante novità degli enunciati prodotti e compresi 2. carattere non deterministico ma appropriato del comportamento linguistico del parlante. Ricorsività Qualunque parlante è in grado di capire e produrre un numero illimitato di frasi La conoscenza della lingua non è la memorizzazione di una lista Stima delle frasi possibili in francese per L=10 parole: 1023 (M. Gross) W. von Humboldt: la lingua fa un uso infinito di mezzi finiti Ricorsività: PdI La conoscenza della lingua è conoscenza di un sistema di regole che possono generare un numero potenzialmente illimitato di frasi Principio di Induzione (G. Peano): 1) 1 appartiene a N 2) se X appartiene a N, allora X + 1 appartiene a N 3) nient’altro appartiene a N Es. 1 1+1 (1+1)+1 ((1+1)+1)+1 ……… Ricorsività e Linguaggio Ricorsività: proprietà che hanno certe regole formali di potersi riapplicare indefinitamente sul loro stesso risultato Esempi di ricorsività nelle lingue naturali – Ho incontrato Gianni, Francesco, Piero, Maria,…. – Mario ha risposto ala zia del cugino dello zio del figlio di … Ricorsività e Linguaggio (2) – Il fratello [dell’amico [del cugino [di un collega [di….]]]] – Credo [che Mario abbia detto [che la gente pensi [che qualcuno tema [che…]]]] – Ho incontrato [l’autore [che ha scritto [il libro [che ha entusiasmato [la giuria [che ha assegnato [il premio [che…..]]]]]]]] La conoscenza della lingua è il possesso tacito di un sistema di regole ricorsive che generano frasi (grammatica generativa) Grammatica e Sostituibilità Piero ama Pina La mamma nutre Piero Il cane morde il gatto N = {Piero,Pina, la mamma, il cane, il gatto} V = {ama,nutre,morde} : NxVxN oppure N V N Grammatica e Sostituibilità La formalizzazione NVN si legge “Ogni espressione che esprime la sequenza di un elemento dell’insieme N di eun elemento dell’insieme V e dell’elemento dell’insieme N definisce un costituente valido nell’insieme delle frasi “ Ha quindi un carattere – descrittivo – procedurale Grammatica e Sostituibilità (2) Vantaggi: – Maggiore livello di astrazione – Formalismo algebrico per controllare il dato linguistico (empirico) – Formalismo che esprime sistematicamente la ricorsività, ad es. NP Art NPA NPA N | Adj NPA | NPA PP Sostituibilità e Ricorsività “Il primo figlio di Pino … “ => ( (Il)Art ( (primo)Adj ( ((figlio)N)NPA (di Pino)PP )NPA )NPA )NP ( (Il)Art ( (primo)Adj ( ( (figlio)N )NPA (di Pino)PP )NPA )NPA )NP Problemi e limitazioni La soluzione iniziale non copre – Piero e Pina amano la mamma Questo per due motivazioni – Lessicali: amano N – Sintattiche: la coordinazione non e’ prevista dalla ggrammatica => V = V {amano} ={ama,nutre,morde,amano} => N V N | N e N V N Problemi e limitazioni La nuova grammatica overgenera: Infatti ritiene come ammissibili – Pino e Anna ama la mamma – Pino amano la mamma Cio’ che non viene rappresentato e’ il numero e l’accordo in numero tra i soggetti delle frasi ed il verbo Soluzioni Associare agli elementi lessicali i loro tratti (ad esempio genere e numero) – Determinare quindi classi di elementi grammaticali che sono caratterizzate dagli stessi tratti (Nsing/Nplur, V1Sing/…/V3plur) Restringere le regole della grammatica a considerare solo le classi compatibili ( Nsing V3sing N ) Tratti linguistici Sono espressi/definiti dal lessico – V3sing ama, V3plur amano Definiscono caratteristiche morfo-sintattiche degli elementi di una lingua Sono l’oggetto della analisi morfologica Possono essere ambigui – V1sing sia, V2sing sia, V3sing sia DATI EMPIRICI 1. Corpus di produzioni naturali 2. Giudizi metalinguistici 3. Esperimenti di comprensione (cronometria mentale,…) 4. Esperimenti di produzione (ripetizione,…) 5. Studio delle patologie (dello sviluppo, acquisite…) 6. Tecniche di neuroimmagine (ERP, PET, fMRI,…) Grammaticalita’ (1) (2) (3) (4) (5) (6) (7) La signora ha comprato il giornale *Il ha giornale la comprato signora *Signora comprare giornale Colorless green ideas sleep furiously (N. Chomsky) * Green sleep colorless furiously ideas I pirotti carulizzano elatticamente (R.Carnap) *carulizzano i elatticamente pirotti La nozione di grammaticalità è distinta dalla nozione di “avere un senso”: ci sono frasi agrammaticali a cui assegnamo facilmente un senso (come (3)), e frasi grammaticali a cui non possiamo assegnare un senso (come (6)), ma che distinguiamo agevolmente da sequenze arbitrarie di parole come (7). Ambiguita’ (8) Gianni guardava la ragazza con il binocolo (ambigua) (9) Gianni la guardava con il binocolo (non ambigua) (10) Gianni conosceva la ragazza con il binocolo (non amb.) (15) Ogni uomo ama sua madre (ambigua) (16) Sua madre ama ogni uomo (non ambigua) Sinonimia (17) Gianni ha aiutato Piero (18) Piero è stato aiutato da Gianni (sinonima) (19) Piero ha aiutato Gianni (non sinonima) Contraddittorieta’ E Inappropriatezza (21) # Gianni ha ucciso il cane, che però non è morto (22) # Ieri mattina uscirò alle sette (…) Modelli Il linguaggio è suono con senso. Quindi sapere una lingua vuol dire avere la capacità di 1. rappresentarsi internamente i suoni 2. rappresentarsi internamente i sensi 3. associare rappresentazioni di suoni e di sensi su un dominio illimitato. Modelli (2) I. approssimazione: I segni linguistici come entità bifacciali. Un primo passo è l’idea tradizionale che le espressioni linguistiche sono entità a due facce. Secondo Saussure i segni linguistici sono costituiti da un significante e da un significato, associati arbitrariamente. Questo approccio consente la costruzione di teorie sistematiche del lessico, ma non rende ancora conto della “creatività”, della capacità di creare infinite combinazioni di segni. Modelli (3) II. approssimazione: Lessico e sintassi. Quindi, un modello della competenza linguistica deve specificare almeno: – a. Un lessico. – b. Un sistema di computazioni mentali. Vale a dire, un sistema di regole mentali che “calcolino” strutture mettendo insieme elementi del lessico per formare unità via via più complesse. – c. Interfacce: porte attraverso le quali il sistema mentale per il linguaggio scambia informazioni con i sistemi cognitivi non specificamente linguistici: i sistemi articolatorio-percettivo e i sistemi di pensiero. Modelli (4) Quindi, sapere una lingua vuol dire possedere un sistema di calcolo mentale che computa strutture, rappresentazioni mentali di entità linguistiche: parole, frasi, testi, ecc. In questo modo di vedere le cose, il nucleo computazionale del sistema è la sintassi ricorsiva, che consente di generare infinite strutture. L’idea della “mente computazionale” si è rivelata esportabile ad altri ambiti della cognizione, le capacità cognitive si sono rivelate accessibili allo studio come capacità computazionali specifiche di certi domini: linguaggio, ragionamento, visione, presa di decisioni, controllo motorio, ecc. (modularità). Modelli (5) III. approssimazione: Livelli gerarchizzati di analisi. Un ulteriore raffinamento di questo modello deve tener conto del fatto che anche il lessico ha una suo struttura interna esprimibile in termini di inventari e computazioni; ritroviamo questa articolazione su almeno tre livelli gerarchizzati: Livelli Linguistici Fonologia – Fonemi (unità minime con valore distintivo, costituite di tratti distintivi): pari – Bari, fino – vino, cara – gara… – Regole di combinazione dei fonemi: tre - *rte,… Morfologia – a. Morfemi (unità minime con significato autonomo) – b. Regole di formazione delle parole Sintassi – a. Parole – b. Regole di formazione dei sintagmi Livelli Linguistici (2) Semantica Si distribuisce sulla morfologia e la sintassi • L’interpretazione semantica rispetta il principio di composizionalità: il significato di una unità di ordine superiore è funzione dei significati dei suoi componenti di ordine inferiore e della struttura – [[in-[[evita-]-bil-]]-mente] – [ Gianni [ aiuta Maria ]] – [ Maria [ aiuta Gianni ]] quindi, l’arbitrarietà del segno riguarda le entità atomiche dotate di significato, i morfemi, non le entità complesse. Livelli Linguistici (3) Fonetica. Lo studio delle proprietà fisiche e fisiologiche dei suoni del linguaggio. Acustica Articolatoria Pragmatica. Lo studio dell’uso delle strutture linguistiche per la comunicazione, l’interazione sociale, il “fare cose con le parole” (Austin) Sintesi Un sistema di TAL gestisce dati (ed algoritmi) basati su astrazioni (teorie) linguistiche e su concetti informatici I livelli linguistici principali (nella analisi delle lingue scritte) sono – Livello morfologico – Livello sintattico – Livello semantico – Livello pragmatico Sintesi (2) Nel livello sintatico e’ stato introdotta la nozione di – grammatica formale e – grammatica a struttura sintagmatica – Grammatiche a dipendenza Le grammatiche a struttura sintagmatica forniscono come risultato delle strutture dati dette alberi (di derivazione) Le grammatiche a dipendenze definiscono delle strutture di dati dette grafi (alle dipendenze) Sintesi (3) Sono utili le nozioni di – Tratti linguistici come le proprietà associabili ai sintagmi individuali (es. Numero e genere) che determinano un grado maggiore di astrazione e semplificano la descrizione grammaticale – Le funzioni grammaticali Il lessico riunisce informazioni morfologiche, grammaticali e semantiche delle parole individuali Una catalogazione di tipo informatico del lessico costituisce un dizionario elettronico Sintesi (4) Se un dizionario segue un formalismo computazionale per la automazione di decisioni linguistiche (ad es. la verifica della concordanza in numero tra soggetto e verbo) allora esso puo definirsi un lessico computazionale Alcuni esempi – Un lessico grammaticale in Prolog – Wordnet Riferimenti Bibliografici Lyons, Introduzione alla Linguistica Teorica, II. Grammatica, – Capitoli 4.1, 4.2, 4.3, 6.1, 6.2, 8.1