Complessità, linguaggio e computazione Alessandro Lenci Università di Pisa, Dipartimento di Linguistica Via Santa Maria, 36, 56100 Pisa, Italy [email protected] 27 settembre 2005 Sommario Sistemi dinamici complessi complessità, informazione e probabilità misurare la complessità proprietà emergenti il linguaggio come sistema complesso Reti neurali come sistemi dinamici complessi proprietà sintattiche emergenti Significato come sistema complesso Cosa è un sistema? Un sistema (dinamico) è un insieme di aspetti del mondo che mutano nel tempo lo stato di un sistema al tempo t1 è il modo in cui si presentano al tempo t1 gli aspetti che lo compongono l’insieme degli stati in cui può trovarsi il sistema è il suo spazio degli stati (state space) Il comportamento di un sistema è il cambiamento nel tempo del suo stato il comportamento di un sistema è una traiettoria nello spazio degli stati Lo spazio degli stati Stati del sistema = {s1, s2, s3, s4, …} s1 s4 s2 s3 Complessità e organizzazione Collier & Hooker 1999 La complessità di un sistema dipende dalla quantità di informazione necessaria per descrivere i suoi stati e il suo comportamento L’organizzazione di un sistema dipende dalle interdipendenze e correlazioni tra le sue componenti e dal loro grado di (non) linearità Complessità e organizzazione complessità organizzazione Sistemi semplici e poco organizzati Sistemi semplici e mediamente organizzati Sistemi complessi e poco organizzati Sistemi complessi e altamente organizzati gas cristalli esseri viventi sistemi cognitivi LINGUAGGIO Complessità e informazione Un oggetto complesso richiede più informazione per essere descritto La quantità di informazione necessaria per descrivere un sistema dipende da: la quantità dei suoi stati possibili la regolarità (predicibilità) delle sue dinamiche grado di “randomness” (casualità) del verificarsi dei suoi stati Incertezza e informazione L’informazione è la diminuzione dell’incertezza se un evento aleatorio si verifica, abbiamo ottenuto dell’informazione più un evento è incerto maggiore è l’informazione che otteniamo sapendo che si è verificato L’entropia è la misura della quantità di informazione o incertezza di una variabile casuale un sistema può essere descritto come una variabile casuale (W) gli stati possibili del sistema sono i valori della variabile a cui è associata una distribuzione di probabilità p ad ogni istante ti, p fornisce la probabilità che il sistema si trovi in un certo stato Incertezza e informazione L’entropia è una misura dell’incertezza di un sistema misura quanto è difficile predire qual è lo stato del sistema in un certo istante ti Da cosa dipende il grado di incertezza? numero di stati alternativi possibili lancio di un dato = 6 esiti possibili estrazione di una carta = 52 esiti possibili l’estrazione di una carta ha un maggior grado di incertezza!! distribuzione delle probabilità per ciascun stato se gli stati hanno probabilità uniforme è più difficile prevedere quale si verificherà in un dato momento (a parità del loro numero) cf. lancio di un dado non truccato vs. lancio di un dado in cui sappiamo che il 6 ha probabilità doppia di uscire degli altri numeri Entropia puntuale L’entropia è misurata in bits (cifre binarie) Supponiamo che ad ogni istante ti si debba trasmettere un messaggio per comunicare in quale stato si trova il sistema in ti che il messaggio debba essere in codice binario (una stringa di 0 e 1) Entropia puntuale (informazione) di uno stato numero di bits necessari per trasmettere (= descrivere) che il sistema si trova nello stato s h(s) log 2 p(s) Entropia In generale, un numero binario di n cifre può codificare al massimo 2n messaggi un numero binario di 2 cifre può codificare 4 messaggi diversi 00, 01, 10, 11 Se W ha n stati possibili (tutti equiprobabili), il numero di bits necessari per codificare uno stato è log2n h(s) = log2n se gli stati del sistema sono equiprobabili, p(s) = 1/n e n = 1/p(s) quindi, h(s) = log21/p(s) = - log2p(s) se W ha 1 stato possibile, h(s) = 0 bits se W ha 2 stati possibili, h(s) = 1 bits se W ha 4 stati possibili, h(s) = 2 bits Entropia del sistema h(W ) P(s) log sV (W ) 2 P( s) L’entropia di un variabile W è il numero medio di bits necessari per codificare i suoi stati possibili Se W ha n stati possibili equiprobabili l’entropia del sistema è uguale all’entropia puntuale W = 4 statiequiprobabili (p(s) = 1/4) h(W) = - (1/4*log21/4+1/4*log21/4+1/4*log21/4+1/4*log21/4) h(W) = - (1/4*(-2)+1/4*(-2)+1/4*(-2)+1/4*(-2)) h(W) = - (-1/2-1/2-1/2-1/2) = -(-2) = 2 bits (= log24) L’entropia aumenta col crescere del numero degli stati possibili W = 8 stati equiprobabili h(W) log28 = 3 bits Entropia W = estrazione di una parola da un testo (esiti non equiprobabili!!) V(W) = {il, cane, mangia, gatto} p(cane) = 1/4 P(il) = 1/2 P(mangia) = 1/8 P(gatto) = 1/8 h(W) = - (1/4*log21/4 + 1/2*log21/2 + 1/8*log21/8 + 1/8*log21/8) h(W) = - (0,25*(-2) + 0,5 * (-1) + 0,125 * (-3) + 0,125 * (-3)) h(W) = - (-0,5 - 0,5 - 0,375 – 0,375) = 1,75 bits L’entropia è il numero medio di bits necessri per descrivere gli stati del sistema L’entropia permette di stabilire il codice ottimale per descrivere un sistema gli stati più probabili (più frequenti) sono descritti usando messaggi più corti gli stati meno probabili sono descritti usando messaggi più lunghi Entropia A parità di numero di esiti possibili, meno è uniforme la distribuzione di probabilità e minore è l’entropia Entropia e organizzazione L’entropia aumenta con l’aumentare degli stati possibili di un sistema A parità di stati possibili l’entropia diminuisce se aumenta la struttura e l’organizzazione del sistema aumenta la predicibilità delle dinamiche del sistema entropia • Maggiore “ridondanza dell’informazione” • Regolarità nelle dinamiche del sistema • Esistenza di schemi e pattern ricorrenti nella sequenza degli stati, ecc. Sistemi organizzati L’organizzazione è la coordinazione e interrelazione delle parti di un sistema che ne rende possibile il funzionamento L’organizzazione richiede l’esistenza di “ridondanze” regolarità strutturali, vincoli, pattern ricorrenti, schematismi Un sistema organizzato non è un sistema massimamente complesso l’organizzazione strutturale riduce la complessità (entropia) del sistema Gli organismi viventi sono sistemi complessi altamente organizzati Sistemi auto-organizzati I sistemi auto-organizzati sono in grado di trovare in maniera autonoma stati di organizzazione (struttura) stabile L’organizzazione e le strutture (vincoli) del sistema sono proprietà emergenti che risultano dalle dinamiche non lineari tra gli elementi del sistema il sistema ha una macro-organizzazione che emerge come risultato delle dinamiche della sua microstruttura i vincoli emergenti sono nuovi rispetto ai vincoli microstrutturali Gli organismi viventi sono sistemi auto-organizzati autonomi, adattivi e anticipativi Auto-organizzazione organizzazione stipulata (B. MacWhinney) vs. organizzazione emergente sistemi distribuiti Proprietà emergenti la forma esagonale delle celle degli alveari (Bates 1999) Dinamiche lineari 50 40 30 20 y mx c 10 0 -15 -10 -5 0 5 10 15 -10 -20 -30 -40 -50 Le dinamiche del sistema sono additive il comportamento globale del sistema è solo la somma dei contributi di ciascun componente piccoli mutamenti producono piccoli effetti Dinamiche non lineari 1,2 1 1 y 1 ex 0,8 0,6 0,4 0,2 0 -15 -10 -5 0 5 10 15 Le dinamiche del sistema non sono additive Il risultato globale del sistema non è la semplice somma delle sue componenti piccoli mutamenti possono produrre grandi effetti Il linguaggio come sistema complesso Language is simply the result of a number of tweaks and twiddles each of which may in fact be quite minor, but which in the aggregate and through interaction yield what appears to be a radically new behavior Elman 1999 We define grammar as the class of possible solutions to the problem of mapping back and forth between a high-dimensional meaning space with universal properties and a low-dimensional channel that unfolds in time, heavily constrained by limits of information processing. […] This is a constrained satisfaction problem and also a dimension reduction problem. In problems like this complex solutions are likely to emerge that are not directly predictable from any individual component Bates e Goodman 1999 Il linguaggio come sistema complesso La grammatica è una proprietà emergente del sistema cognitivo, prodotto dell’interazione non lineare di un numero complesso di fattori interazionismo neurale elevata integrazione di tipi diversi di informazione cognitiva la grammatica è realizzata in reti di neuroni ad elevato grado di interconnessione sensomotoria, sintattica, semantica, pragmatica, ecc. interazionismo sociale la grammatica vive nella rete sociale delle interazioni comunicative Il linguaggio come sistema complesso continua Funzionalismo linguistico Approccio “usage base” all’acquisizione del linguaggio la conoscenza linguistica è acquisita attarverso processi generali di categorizzazione e schematizzazione cognitiva Epistemologia costruttivista / interazionista di tipo neopiagetiano La grammatica è un sistema intrinsecamente probabilistico effetti di frequenza, gradienza delle strutture grammaticali Superamento di alcune dicotomie tradizionali competenza vs. esecuzione lessico vs. grammatica rote learning vs. rule-base learning type vs. token Linguaggio e dinamiche non lineari “lexical burst” Bates e Goodman 1997 Linguaggio e dinamiche non lineari 100 90 % errori 80 70 60 50 40 30 1 2 3 tempo Curva a “U” 4 5 6 Pinker, Rumelhart, McClelland, Plunkett, Bowerman, ecc. Le reti neurali come sistemi complessi Una rete neurale è un sistema dinamico complesso la computazione è il risultato dell’interazione non lineare di un grande numero di neuroni la rete evolve il suo stato nel tempo fino a raggiungere uno stato stabile auto-organizza il suo comportamento in risposta agli stimoli esterni è sensibile alla distribuzione statistica degli input manifesta processi evolutivi non lineari produce proprietà di alto livello emergenti La computazione neurale unità di output unità di input unità nascoste aj wj netinput funzione di attivazione ai La computazione neurale Ogni unità ha un livello di attività (a), che varia durante la computazione tipicamente un valore reale tra 0 e 1 Le connessioni hanno un peso (un numero positivo o negativo) L’apprendimento della rete avviene modificando i pesi delle connessioni Le unità integrano l’input che ricevono dai livelli precedenti netinputi = j ajwij A ogni unità i è associata una funzione di attivazione che trasforma l’input ricevuto dalle unità precedenti in un livello di attività ai La computazione neurale La funzione di attivazione è tipicamente non lineare (sigmoide) La sintassi come proprietà emergente (Elman 1990) (31) unità di output (150) unità nascoste (31) unità di input (150) unità contestuali Simple Recurrent Network (SRN) rappresentano eventi che si susseguono nel tempo La sintassi come proprietà emergente Word Prediction Task a ogni istante ti, viene presentata una parola wi in una frase la rete deve imparare a produrre in output (predire) la parola wj che segue wi nella frase Codifica localistica dell’input ogni parola (tipo) è codificata come una sequenza di 31 bits, di cui solo uno è diverso da 0 La sintassi come proprietà emergente Le proprietà grammaticali emergono dalle rappresentazioni distribuite delle unità nascoste, come risultato dell’ auto-organizzazione della rete proprietà emergenti dalle regolarità statistiche (ridondanze) nelle sequenze delle parole La sintassi come proprietà emergente type vs. token La rappresentazione delle parole è intrinsecamente “context sensitive” The Context in Concepts evidence from cognitive psychology Conceptual representations are context-sensitive and context-dependent (Barsalou, Elman, McRae, et al.) Include situational (contextual) information settings, events, situations of use, etc. Highly “tuned” to specific contexts of use Different dimensions of a concept are activated in different contexts “Situation effects” occurs through a wide variety of cognitive tasks similarity judgement are highly context-dependent Towards a Context-Sensitive Lexicon Goal To apply computational techniques to bootstrap multidimensional and context-sensitive lexical representations Semantic properties of nouns will be acquired by inspecting a sufficiently large number of linguistic contexts distributionally-based methods for word meaning acquisition Lexical representations will be built out of context data Semantic Spaces Words can be represented as regions in n-dimensional semantic space Gärdenfors (2000) conceptual spaces as a framework for conceptual representations and cognitive semantics color semantic space hue red brown pink blue violet saturation brightness Carving the Semantic Space of Nouns The semantic space of nouns is usually characterized as a class taxonomy entity concrete_object animal abstraction location artifact The primacy of taxonomical structures in the noun system has radically been downgraded in recent cognitive psychology The organization of the conceptual space is greatly based on the roles that nouns have in events and situations thematic relatedness (Lin & Murphy 2001) Carving the Semantic Space of Nouns Nouns can be represented as regions in the space of events The events in which objects are involved provide the structuring dimensions to represent the semantics of nouns Two major criteria to structure the event space 1. the type of event in which objects occur 2. the roles of objects in events The Dimensions of the Event Space event classes 7 major event classes correspond to basic cognitive domains for events typical top classes in semantic lexicons (e.g. WordNet, SIMPLE) ACT dormire “to sleep”, bere “to drink”, lavorare “to work”, etc. CHANGE aprire “to open”, aumentare “to rise”, sciogliere “to melt”, etc. CREATION costruire “to build”, creare “to create”, fondare “to found”, etc. COGNITION pensare “to think”, vedere “to see”, leggere “to read”, etc. COMMUNICATION dire “to say”, dichiarare “to declare”, affermare “to affirm”, etc. POSSESSION dare “to give”, possedere “to possess”, comprare “to buy”, etc. SPACE arrivare “to arrive”, correre “to run”, abitare “to live”, etc. The Dimensions of the Event Space object roles in events Two basic roles of objects in events subject of event (S) e.g. The President read the report subject of COGNITION direct object of event (O) e.g. The President read the report subject of event event class direct object of COGNITION object of event <ACT, S> <ACT, O> <CHANGE, S> <CHANGE, O> <CREATION, S> <CREATION, O> <COGNITION, S> <COGNITION, O> <COMMUNICATION,S> <COMMUNICATION, O> <POSSESSION, S> <POSSESSION, O> <SPACE, S> <SPACE, O> The Dimensions of the Event Space Nouns are represented as regions in a 14-dimensional event semantic space <POSSESSION, O> newspaper dictionary book car <COGNITION, O> <COMMUNICATION, S> Locating Nouns in the Event Space from Corpus Distributions The position of a noun wrt a dimension <C, r> is statistically correlated with the number of verb types belonging to the event class C with which the noun occurs in a corpus with role r own: POSSESSION president verb read: COGNITION book buy: POSSESSION newspaper noun subj verb noun obj say: COMMUNICATION bank First Experiment Training set 25.000 triples <verb, noun, role> extracted from an Italian corpus (general and economic newspapers) <leggere, libro, o>, <correre, cavallo, s>, etc. automatic extraction with manual revision the verb in each triple has been assigned to one of the 7 event classes <leggere: COGNITION, libro, o>, <correre: SPACE, cavallo, s> the SIMPLE Italian lexicon acted as background lexical resource for verb class assignment First Experiment CLASS (Allegrini, Montemagni, Pirrelli 2000) distributionally-based machine learning method to estimate association scores between a noun and a verb similarity scores between two nouns The CLASS algorithm has been extended to compute the association score between nouns and event classes For each noun n, event class C and role r, we computed the association score AS(n, C, r) AS is estimated from the number of triples <v, n, r> in the training set, such that vC Putting Nouns into Semantic Spaces A noun is represented as a 14-dimension real-valued vector each value determines the position of the noun wrt to a certain semantic dimension in the event space libro "book" 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Ac t_ S Ac Ch t_O an g Ch e _S an ge _ Cr O ea t_ Cr S ea t_ O Co g_ S Co g Co _O m m Co _ S m m _ Po O ss _S Po ss _ Sp O ac e Sp _S ac e_ O libro Putting Nouns into Semantic Spaces A noun is represented as a 14-dimension real-valued vector each value determines the position of the noun wrt to a certain semantic dimension in the event space governo "government" 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Ac t_ S Ac Ch t_O an g Ch e _ an S ge _ Cr O ea t_ Cr S ea t_ O Co g_ S Co g Co _O m m Co _ S m m _ Po O ss _ Po S ss _ Sp O ac e Sp _S ac e_ O governo Putting Nouns into Semantic Spaces Similar nouns tend to share close regions in the semantic space 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 Ac t_ S Ac t Ch _O an ge _S Ch an ge _O Cr ea t_ Cr S ea t_ O Co g_ S Co g_ O Co m m _S Co m m _O Po ss _S Po ss _ Sp O ac e_ S Sp ac e_ O 0 banca governo bank government Putting Nouns into Semantic Spaces Less similar nouns are more distant in the semantic space 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 Ac t_ S Ac t Ch _O an ge _S Ch an ge _O Cr ea t_ Cr S ea t_ O Co g_ S Co g_ O Co m m _S Co m m _O Po ss _S Po ss _ Sp O ac e_ S Sp ac e_ O 0 libro governo book government Local Semantic Similarity Similarity relations between nouns change depending on the semantic dimension 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 Ac t_ S Ac Ch t_O an g Ch e _S an ge _ Cr O ea t_ Cr S ea t_ O Co g_ S Co g Co _O m m Co _ S m m _ Po O ss _S Po ss _ Sp O ac e Sp _S ac e_ O 0 idea libro idea book Local Semantic Similarity Similarity relations between nouns change depending on the semantic dimension 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 Ac t_ S Ac Ch t_O an g Ch e _ an S ge _ Cr O ea t Cr _S ea t_ O Co g_ S Co g Co _O m m Co _ S m m _ Po O ss _ Po S ss Sp _O ac e Sp _S ac e_ O 0 denaro libro money book Local Semantic Similarity the emergence of semantic dynamics “Time flies” space domain 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 Ac t_ S Ac t Ch _O an g Ch e _S an ge _O Cr ea t_ Cr S ea t_ O Co g_ S Co g_ O Co m m Co _ S m m _O Po ss _S Po ss _ Sp O ac e_ S Sp ac e_ O 0 tempo macchina time car, machine Local Semantic Similarity the emergence of semantic dynamics “Time is money” possession domain 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 Ac t_ S Ac t_ O Ch an ge _S Ch an ge _O Cr ea t_ S Cr ea t_ O Co g_ S Co g_ O Co m m _S Co m m _O Po ss _S Po ss _O Sp ac e_ S Sp ac e_ O 0 tempo denaro time money Local Semantic Similarity There is no global similarity space for nouns Each semantic dimension determines its own similarity space similar nouns tend to converge towards similar value distributions along particular semantic dimensions Experiment given a target noun n, find with CLASS the most similar nouns to n wrt a particular semantic dimension The similarity of two nouns ni and nk with respect to a given semantic dimensions <C, r> is estimated from the number of verb types belonging to C they share with role r Local Semantic Similarity Similarity spaces relative to specific semantic dimensions tempo “time” libro “book” <Space, S> <Possession, O> <Cognition,O> <Possession, O> acqua 0.0128054 macchina 0.0107913 paese 0.010286 strada 0.0102453 inflazione 0.00975182 casa 0.0127473 credito 0.010111 titolo 0.00946314 miliardo 0.00944679 lavoro 0.00931217 parola 0.0120119 situazione 0.0116718 problema 0.0116064 verita' 0.010701 ruolo 0.0104088 casa 0.0199175 denaro 0.0150771 quota 0.0149145 fiducia 0.012468 tempo 0.0119739 The Shape of Semantic Spaces Events determine similarity spaces for nouns that can not be easily mapped onto standard taxonomies libro “book” <leggere: COGNITION, o> “to read” <consultare: COGNITION, o> “to consult” musica 0.0016810800 domanda 0.0016467700 previsione 0.0014409200 carta 0.0014409200 pensiero 0.0012808200 numero 0.0012808200 norma 0.0012808200 contenuto 0.0012808200 discorso 0.0009606160 medico 0.0009546520 dizionario 0.0009466520 avvocato 0.0009424520 orologio 0.0002386630 Discrete vs. Continuous Representations The dimensions (e.g. POSSESSION, ACT, SPACE, etc.) structuring the semantic space “look like” traditional conceptual primitives, but they are radically different in standard representations these primitives are assigned to nouns in a dichotomic (YES/NO) way a noun n has OR (exclusive) has not a certain feature or conceptual function in the event space representations, semantic dimensions are assigned to nouns in a gradient, continuous way e.g. two nouns n1 and n2 can have the same feature POSSESSION but to different degrees Semantic Representations as Complex Objects It is possible to design semantic representations inherently context-dependent positions in the semantic space is determined and conditioned by the way words distribute in contexts multidimensional naturally polysemous polysemy emerges out of semantic representations (cf. also Elman 1995, 2004) semantic dynamics are directly related to the structure of representations Meanings as Emergent Systems Meanings are systems of dimensions that structure the semantic space organize (linguistic, but also sensory) contextual data distributional data alone are not enough!! guide and constrain semantic change Emerge out of usage distribution make explicit various types of lexical relations provide an explicit representation of word semantic content Searching for Semantic Spaces A research program for computational linguistics in cognitive semantics Investigating which semantic dimensions provide the best structure for the semantic space empirical verifications of models of conceptualization computational analysis as a probe into semantic organizations to explore and simulate dynamics in the lexicon Alcune conclusioni La complessità nel linguaggio significa funzionalismo alto parallelismo e integrazione di vincoli linguistici natura probabilistica l’uso comunicativo come radice della competenza linguistica superamento di dicotomie tipiche dei modelli classici (es. lessico vs. grammatica) integrazione di vincoli non specifici: cognitivi, biologici e sociali azione di vincoli sistemici