ELABORAZIONE DEL LINGUAGGIO
NATURALE
CONOSCENZA LESSICALE
WORDNET
SEMANTICA DISTRIBUZIONALE
CONOSCENZA LESSICALE
• Conoscenza sulle PAROLE di una lingua
• Una componente fondamentale della nostra
conoscenza linguistica
CHE INFORMAZIONI SONO
CONTENUTE NEL LESSICO
• Le FORME di una parola (ortografia e pronuncia)
• La loro STRUTTURA (da quali MORFEMI sono
composti)
• Informazioni GRAMMATICALI
• Esempi di USO
• ETIMOLOGIA
• Il SIGNIFICATO della parola (compresi sinonimi)
UN ESEMPIO DI VOCE IN DIZIONARIO
toad /təųd/ n.
1 any froglike amphibian of the family Bufonidae, esp. of
the genus Bufo, breeding in water but living chiefly on
land.
2 any of various similar tailless amphibians.
3 a repulsive or detestable person.
toadish adj.
[Old English tadige, tadde, tada, of unknown origin]
(COD 9)
FORME DI PAROLA
• PRONUNCIA
– Fonemi, oggigiorno solitamente IPA /təųd/
– Prosodia (accento)
• ORTOGRAFIA
– Sillabe
– Varianti
INFORMAZIONI GRAMMATICALI
• Morfologia
– Verbi: inflessioni
– Nomi: forma del plurale
• dito  dita
• Sintassi
– Parte del discorso (con restrizioni: awake predicative (the
baby is awake) ma non attributive (*the awake baby)
– Verbi: transitivo / intransitivo, quali tipi di preposizioni, etc.
COLLOCAZIONI
• Frasi fatte: Studente lavoratore,
padre padrone, governo ombra
• Preferenze d’uso:
– Il sostantivo vino tipicamente modificato dagli
aggettivi bianco e rosso (ma non giallo)
• (Inglese: Il sostantivo ban tipicamente modificato dagli
aggettivi total o complete, associato con il verbo
impose, etc.)
SIGNIFICATO
• Una delle funzioni piu’ importanti di un
dizionario e’ caratterizzare le ACCEZIONI di
una parola attraverso DEFINIZIONI
• Probabilmente l’aspetto piu’ difficile della
lessicografia
DUE TIPI DI SIGNIFICATO LESSICALE
• Significato DENOTAZIONALE: conoscenza sulla
‘parola in se’:
– Il CAVALLO e’ un ANIMALE dalla lunga criniera …
– (Il tipo di conoscenza tipicamente trovata nelle
definizioni)
• Significato COMPOSIZIONALE: conoscenza sul
come la parola si combina con altre parole
ESEMPI DI SIGNIFICATO
DENOTAZIONALE IN DIZIONARIO
contascàtti: Dispositivo installato a richiesta presso l’utente per
la documentazione del traffico telefonico
(Zingarelli 1995)
maneggevole: Che si puo’ maneggiare facilmente || Fig.
trattabile, arrendevole || T. mar. del vento, quando permette
l’esecuzione di qualsiasi manovra
(Palazzi-Folena, 1992)
TIPI DI TEORIE SEMANTICHE
• Teorie REFERENZIALI
• Teorie RELAZIONALI / STRUTTURALI
• Teorie COGNITIVE
– Teoria dei PROTOTIPI
VEDREMO CHE OGNUNA DI QUESTE TEORIE SVOLGE UNA
FUNZIONE ALL’INTERNO DI UN DIZIONARIO
TEORIE REFERENZIALI DEL
SIGNIFICATO
• Funzione principale delle parole: RIFERIRSI ad
oggetti nel mondo circostante
• Significato di SEDIA: le proprieta’ che ci
permettono di identificare una sedia quando
la vediamo
– Ha 4 gambe, uno schienale, una superficie piatta,
etc ..
• Portano a definizioni del tipo GENUS E
DIFFERENTIA
GENUS E DIFFERENTIA
GENUS
horse
noun
1 a solid-hoofed plant-eating domesticated mammal with a flowing mane and
tail, used for riding, racing, and to carry and pull loads
New Oxford Dictionary of English
DIFFERENTIAE
RETI SEMANTICHE
RETI SEMANTICHE: RISULTATI DALLA
PSICOLOGIA COGNITIVA
• Collins & Quillian, 1969: tempi per decidere se un
oggetto ha una certa proprieta’ aumentano a
seconda della ‘distanza’
– A canary is yellow
– A canary has feathers
– A canary eats food
LIMITI DELLA DEFINIZIONE VIA GENUS &
DIFFERENTIA
• Putnam:
– `faggio’ / `olmo’
– `diamante’ / `zircone’
• Jackson: happen vs occur vs befall vs transpire
– Everything is illuminated: `harmonize’ vs `agree’,
TEORIE RELAZIONALI DEL SIGNIFICATO
LESSICALE
• Le teorie RELAZIONALI ipotizzano che il
significato di una parola e’ stabilito dalle sue
RELAZIONI DI SIGNIFICATO con altre parole
• Sviluppate in ambito lessicografico
RELAZIONI SEMANTICHE
• Relazioni gia’ utilizzate in definizioni per Genus e
Differentia:
– IPERONIMIA:
• Garofano, rosa, margherita sono tutti iponimi di FIORE
– MERONIMIA
• Altre relazioni:
– SINONIMIA: quando due lemmi distinti hanno lo stesso
significato
• Spesso essenziale per definizioni / traduzioni (ETERONIMIA)
– ANTONIMIA: quando due lemmi hanno significati
CONTRARI
• Bello / brutto, amore / odio
MERONIMIA NELLE DEFINIZIONI
HYPERNYM
horse
noun
1 a solid-hoofed plant-eating domesticated mammal with a flowing mane and
tail, used for riding, racing, and to carry and pull loads
New Oxford Dictionary of English
PARTI
DEFINIZIONE PER SINONIMIA
miserable 1 very unhappy, wretched 2 causing misery 3 squalid 4
mean
unhappy 1 sad or depressed 2 unfortunate or wretched
wretched 1 miserable or unhappy 2 worthless
Collins Pocket English Dictionary (2000)
CIRCOLARITA
DEFINIZIONI PER ANTONIMIA
artificial not real
conventional not spontaneous or sincere or original
vacant not occupied
Concise Oxford Dictionary 9
WORDNET
• A lexical database created at Princeton
– Freely available for research from the Princeton site
– http://www.cogsci.princeton.edu/~wn/
• Information about a variety of SEMANTICAL RELATIONS
• Three sub-databases (supported by psychological research as
early as (Fillenbaum and Jones, 1965))
– NOUNs
– VERBS
– ADJECTIVES and ADVERBS
• Each database organized around SYNSETS
SYNSETS
• Senses (or `lexicalized concepts’) are represented in
WordNet by the set of words that can be used in AT
LEAST ONE CONTEXT to express that sense /
lexicalized concept: the SYNSET
• E.g.,
{chump, fish, fool, gull, mark, patsy, fall guy, sucker,
shlemiel, soft touch, mug}
(gloss: person who is gullible and easy to take
advantage of)
IL DATABASE DEI NOMI
• About 90,000 forms, 116,000 senses
• Relations:
hypernym
breakfast -> meal
hyponym
meal -> lunch
has-member
faculty -> professor
member-of
copilot -> crew
has-Part
table -> leg
part-of
course -> meal
antonym
leader -> follower
IPERNIMIA IN WORDNET
2 senses of robin
Sense 1
robin, redbreast, robin redbreast, Old World robin, Erithacus rubecola -(small Old World songbird with a reddish breast)
=> thrush -- (songbirds characteristically having brownish upper plumage with a spotted breast)
=> oscine, oscine bird -- (passerine bird having specialized vocal apparatus)
=> passerine, passeriform bird -(perching birds mostly small and living near the ground with feet having 4 toes arranged to allow for gripping th
e perch; most are songbirds; hatchlings are helpless)
=> bird -- (warm-blooded egglaying vertebrates characterized by feathers and forelimbs modified as wings)
=> vertebrate, craniate -(animals having a bony or cartilaginous skeleton with a segmented spinal column and a large brain enclosed in
a skull or cranium)
=> chordate -- (any animal of the phylum Chordata having a notochord or spinal column)
=> animal, animate being, beast, brute, creature, fauna -(a living organism characterized by voluntary movement)
=> organism, being -(a living thing that has (or can develop) the ability to act or function independently)
=> living thing, animate thing -- (a living (or once living) entity)
=> object, physical object -=> entity, physical thing --
MERONIMIA IN WORDNET
wn beak –holon
Holonyms of noun beak
1 of 3 senses of beak
Sense 2
beak, bill, neb, nib
PART OF: bird
VERBI
• About 10,000 forms, 20,000 senses
• Relations between verb meanings:
Hypernym
Troponym
Entails
Antonym
fly-> travel
Walk -> stroll
Snore -> sleep
Increase ->
decrease
RELAZIONI TRA SIGNIFICATI VERBALI
V1 ENTAILS V2
when Someone V1 (logically) entails Someone V2
- e.g., snore entails sleep
TROPONYMY
when To do V1 is To do V2 in some manner
- e.g., limp is a troponym of walk
AGGETTIVI & AVVERBI
• About 20,000 adjective forms, 30,000 senses
• 4,000 adverbs, 5600 senses
• Relations:
Antonym
Heavy <-> light
(adjective)
Antonym (adverb) Quickly <->
slowly
WORDNET IN NLTK
(Chapter 2.5)
>>> from nltk.corpus import wordnet as wn
>>> wn.synsets('motorcar')
[Synset('car.n.01')]
OBIEZIONI ALL’APPROCCIO SEMANTIC
NETWORK AL SIGNIFICATO
• Obiezioni filosofiche
– Wittgenstein, Putnam
• Obiezioni cognitiviste
WITTGENSTEIN: ‘GAME’
• What is common to all games?
– Are they all ‘amusing’?
• Cfr. chess
– Or is there always winning and losing?
• Counterex: child throwing his ball at the wall
– Look at the parts played by skill and luck
• “I can think of no better expression that FAMILY
RESEMBLANCE”
– ‘games form a family’
PUTNAM
• the term ‘lemon’ not definable by simply
conjoining its ‘definining characteristics’
yellow color / tart taste / a certain kind of peel
– Abnormal members (green lemon)
– Three legged tiger (Also: three-legged chair, see
below)
PROBLEMI EMPIRICI PER L’APPROCCIO
TASSONOMICO / RETI SEMANTICHE
• Typicality effects
– Is a tomato a vegetable or a fruit?
– ‘Is this art?’
• Failures of transitivity
– If A is a B and B is a C, is A a C?
‘Fuzzy’ or ‘graded’ categorization
• A necessary and sufficient definition should pick up
all the category members and none of the nonmembers
• But this is not what happens:
– Hampton (1979): no clear division between members and
non-members of 8 categories
• Kitchen utensils: SINK? SPONGE?
• Vegetables: TOMATOES? GOURDS?
• Agreement on typicality judgments
– (‘think of a fish, any fish’)
– Rosch (1975): very high correlation (.97) between
subjects’s typicality rankings for 10 categories
Typicality effects
• The ease with which people judge CATEGORY MEMBERSHIP
depends on typicality
– Rips, Shoben and Smith (1973): Fast to affirm that a robin is a bird; not
so fast to affirm that a chicken is a bird
– Posner & Keele: similarity to visual pattern
• Learning: typical items learned before atypical ones (Rosch
Simpson & Miller 1976)
– Learning is faster if subjects are taught on typical items
• Typicality affects speed of inference
– Rips 1975:
– Garrod & Sanford 1977: faster reading time for “The bird came in
through the front door” when ROBIN than when GOOSE
ALTERNATIVA: TEORIA DEI PROTOTIPI
• La teoria dominante dei concetti in Psicologia
e’ la teoria dei PROTOTIPI proposta da Rosch
negli anni ’70
La teoria in breve
• Manteniamo rappresentazioni dei concetti sulla base
delle loro ‘features’ (TRATTI)
• Per ogni classe di oggetti esistono dei rappresentanti
piu’ TIPICI
• Per decidere se un oggetto e’ una sedia od una
poltrona calcoliamo la SOMIGLIANZA tra questo
oggetto e la ‘tipica sedia’ e la ‘tipica poltrona’
FEATURE NORMS
• Psychologists have been collecting concept features
from subjects at least since Rosch and Mervis (1975)
• Different methodologies used (from free association
to very tightly controlled)
• Three such databases currently available
– Garrard et al (2001) - GA
– Vinson and Vigliocco (2004) - VV
– McRae et al (2005) – MCRA - the largest, also classified
SPEAKER-GENERATED FEATURES (VINSON AND
VIGLIOCCO)
CONCETTI COME ‘CLUSTER’
CHICKEN
GOOSE
ORIOLE
OSTRICH
ROBIN
What makes an item typical? Rosch &
Mervis 1975
•
Items are typical when they have HIGH FAMILY RESEMBLANCE with
members of the category:
–
–
–
•
Typical items have many of the attributes of members
Do not have properties of nonmembers
Irrespective of frequency: ORIOLE vs CHICKEN
Evidence 1: checked that subjects agree on typicality for several natural
categories
1.
2.
Asked subjects to list attributes (actually, check)
Weighed each attribute by how many items it occurred with within the
category
1.
3.
‘SCORE’ indicates how many common features
Found that score highly predictive of typicality (.84-.91)
Five most typical ‘furniture’ (CHAIR, SOFA, TABLE, DRESSER, DESK) have 13
features in common
Five least typical (CLOCK, PICTURE, CLOSET, VASE, TELEPHONE) had 2 attributes
in common
DEFINIZIONE PER TIPICALITA’
day of rest a day set aside from normal activity, typically, Sunday on
religious grounds
measles an infectious viral disease causing fever and a red rash,
typically occurring in childhood
Concise Oxford Dictionary
FEATURE NORMS & DIZIONARI
• Questi dati sui tratti tipici di concetti raccolti
da soggetti potrebbero essere utili per guidare
lo sviluppo di definizioni o delle relazioni
semantiche in un dizionario tipo WordNet
FEATURE NORMS PER ELDIT
• Un progetto congiunto European Academy
Bolzano / UniTN (CIMEC) per raccogliere
feature norms su parole in Italiano e Tedesco
METODI
• Dati raccolti da studenti nelle scuole di
Bolzano
– ~70 studenti di lingua madre Italiana e 70 di lingua
madre tedesca
• Raccolto dati su 50 concetti
RISULTATI
• ~200 paia concetto / attributo in comune tra
tutti e 70 i soggetti tedeschi ed altrettante per
gli Italiani
• Tipi di proprieta’ piu’ importanti:
– Iponimia ( il cane e’ un animale )
– Parte ( il cane ha le zampe)
– Qualita’ esterna ( le fragole sono rosse)
– Comportamento ( il cane abbaia )
CONOSCENZA COMPOSIZIONALE
• Dal punto di vista composizionale si possono
fare almeno due distinzioni :
– Tra PREDICATI ed ARGOMENTI
– Tra parole FUNZIONALI e parole ‘CONTENUTO’
PREDICATI ED ARGOMENTI
PREDICATO
Maria ha noleggiato una macchina
ARGOMENTI
PREDICATI ED ARGOMENTI
• Numeri diversi di argomenti:
– 0 (PIOVERE, NEVICARE)
– 1 (CADERE, NUOTARE)
– 2 (NOLEGGIARE, CONOSCERE)
– 3 (DARE, DEDICARE)
• Non solo predicati verbali
– Sono STANCO / AFFAMATO / CONTENTO / ….
PAROLE FUNZIONALI
• Molte parole (ed affissi!) di una lingua,
particolarmente quelle delle classi ‘chiuse’ (articoli,
preposizioni, connettori, verbi ausiliari) fanno parte
del ‘sistema della lingua’: esprimono aspetti
semantici che fanno parte della GRAMMATICA della
lingua stessa
• Maria E Giovanni HANNO noleggiato DUE macchine
RIFERIMENTI
• Fellbaum, C. (1998). WordNet: A Lexical
Database. MIT Press.
Scarica

slides - clic