INFORMATICA UMANISTICA D:
LESSICOGRAFIA E COMPUTER
Rappresentazioni vettoriali del
significato
Teorie computazionali
dell’acquisizione lessicale
METODI COMPUTAZIONALI PER LA
SCOPERTA DI SIGNIFICATI

La prossima frontiera nell’uso degli
strumenti informatici per la
lessicografia e’ il loro uso per



produrre definizioni
scoprire accezioni
Annotare corpora automaticamente con il
significato delle parole
ACQUISIZIONE LESSICALE

I modelli informatici di acquisizione
lessicale si basano su due idee:


Che il significato delle parole e’ un vettore
multidimensionale
Che il significato delle parole viene dato
dal contesto in cui appaiono
CONCETTI COME ‘CLUSTER’
CHICKEN
GOOSE
ORIOLE
OSTRICH
ROBIN
LESSICOGRAFIA: SIGNIFICATI
COME CONTESTI
“Thy shall know a word by the company it
keeps” (Firth)
SIGNIFICATI COME
CONTESTI
The breezes are soft, the waves lap gently and the fronds of
the PALM trees sway lazily.
Cycads, the most popular of which is the Sago PALM, are
doll-sized versions of California's famous long-necked
PALMS, with stubby trunks and fern-like fronds.
whack, whack, whack his hand made vigorous spanking
gestures on his left PALM.
The PALMs of his hands are sweaty
RAPPRESENTAZIONI VETTORIALI DEL
SIGNIFICATO
GATTO
animato
CANE
pelliccia
SGOMBRO
acquatico
CLUSTERING DI CONCETTI
Year
Day
Van
Month
Joy
Car
Love
Airplane
Fear
COSTRUZIONE DI VETTORI LESSICALI A
PARTIRE DA CONTESTI

Per costruire il vettore C(w) per la
parola w,
1.
2.
Scandire ogni testo del corpus
Ogni volta che si incontra w,
incrementare tutte le celle di C(w) che
corrispondono a parole che si trovano in
prossimita’ di w, entro una finestra di
dimensioni prestabilite
COSTRUZIONE DI VETTORI
DI PAROLE DA CONTESTI

Dato il corpus:
1.
2.
3.
John ate a banana.
John ate an apple.
John drove a lorry.
john
ate
drove
banana
apple
lorry
john
0
2
1
1
1
1
ate
2
0
0
1
1
0
drove
1
0
0
0
0
1
banana
1
1
0
0
0
0
apple
1
1
0
0
0
0
lorry
1
0
1
0
0
0
ESEMPIO DI INFORMAZIONI CHE SI
POSSONO ESTRARRE DA CONTESTI
Speaker-generated
features:
Matching Features Collected
Using Our Text Patterns – (with
frequency)
red (20)
red (5), colour (5), color (1)
fruit (18)
fruit (5)
sweet (13)
sweetness (8)
has seeds (12)
seeds (6), seed (2)
grows (10)
growth (1), ripening (10)
small (6)
size (19)
taste (6)
taste (6), flavor (6), flavour (2)
food (5)
nutrition (1)
from garden (5)
cultivation (7), harvest (6), harvester (2)
juice (5)
juice (10), juices (3)
dessert (3)
sweetness (8)
eat (3)
nutrition (1)
VARIAZIONI

I metodi proposti nella letteratura
differiscono per quel che riguarda




Le dimensioni della finestra
Se gli elementi del vettore sono ‘pesati’ o
meno
Se ogni parola viene considerata come
dimensione
Se viene applicata riduzione di
dimensionalita’
VARIANTE: USO DI
MODIFICATORI

…. The Soviet cosmonaut …. The American astronaut …. The
red American car …. The old red truck … the spacewalking
cosmonaut … the full Moon …
cosmonaut
astronaut
moon car
truck
Soviet
1
0
0
1
1
American
0
1
0
1
1
spacewalking
1
1
0
0
0
red
0
0
0
1
1
full
0
0
1
0
0
old
0
0
0
1
1
MISURE GEOMETRICHE DI
SOMIGLIANZA

Euclidean distance:
d

n


Cosine:
cos( ) 
Manhattan Metric:
 x  y 
n
i 1
2
i
x yi
i 1 i
2
x
i1 i
n
2
y
i1 i
n
d  i 1 xi  yi
n
i
PLAUSIBILITA’ COGNITIVA DI
QUESTI MODELLI

I modelli basati sugli spazi vettoriali sono
stati utilizzati per predirre il comportamento
in tasks che includono




Identificazione di sinonimi (Landauer & Dumais
1997)
Categorizzazione (Burgess & Lund 1997)
Semantic priming (Lowe 2000, Vigliocco et al
2004)
Errori nella sostituzione di parole (Vigliocco et al
2004)
IDENTIFICAZIONE DI
SINONIMI: IL TASK TOEFL
IDENTIFICAZIONE DI
SINONIMI: IL TASK TOEFL
UMANI E MACCHINE AL
TOEFL
MODELLI PIU’ COMPLESSI

I modelli proposti piu’ di recente vanno
oltre i modelli appena visti nel senso di


Cercare di utilizzare una versione piu’
complessa di ‘contesto’ che tiene conto
della struttura sintattica degli enunciati
Cercare di estrarre da testi relazioni
SEMANTICHE ed utilizzare quelle per la
caratterizzazione delle parole
MODELLI VETTORIALI BASATI
SULLA SINTASSI
attacked
subj
obj
fox
attacked
fox
dog
<subj,fox>
<det,the>
<det,the>
<obj,dog>
<mod,red>
<mod,lazy>
dog
det
mod
det
mod
the
red
the
lazy
E.g., Grefenstette, 1994; Lin, 1998; Curran and Moens, 2002
VETTORI SINTATTICI
GREFENSTETTE, LIN,
LAPATA & PADO: LE
RELAZIONI
GRAMMATICALI
FUNZIONANO MEGLIO
DELLE PAROLE PER
CARATTERIZZARE I
CONCETTI
SEXTANT
(Grefenstette, 1992, 1994)
It was concluded that the carcinoembryonic antigens represent
cellular constituents which are repressed during the course of
differentiation the normal digestive system epithelium and
reappear in the corresponding malignant cells by a process of
derepressive dedifferentiation
antigen carcinoembryonic-ADJ
antigen repress-DOBJ
antigen represent-SUBJ
constituent cellular-ADJ
constituent represent-DOBJ
course repress-IOBJ
……..
SEXTANT: MISURA DI
SOMIGLIANZA
DOG
dog pet-DOBJ
dog eat-SUBJ
dog shaggy-ADJ
dog brown-ADJ
dog leash-NN
Jaccard:
CAT
cat pet-DOBJ
cat pet-DOBJ
cat hairy-ADJ
cat leash-NN
Count Attributes shared by A and B
Count Unique attributes possessed by A and B
Count {leash - NN, pet - DOBJ}
2

Count {brown - ADJ, eat - SUBJ, hairy - ADJ, leash - NN, pet - DOBJ, shaggy - ADJ} 6
MODELLI VETTORIALI
BASATI SULLA SEMANTICA

Questi modelli cercano di identificare
nel testo relazioni semantiche e di
usarle per caratterizzare i significati dei
concetti
HEARST 1992, 1998: USING
PATTERNS TO EXTRACT ISA LINKS


Intuition: certain constructions typically
used to express certain types of
semantic relations
E.g., for ISA:



The seabass IS A fish
Swimming, running AND OTHER
activities
Vehicles such as cars, trucks and bikes
TEXT PATTERNS FOR
HYPONYMY EXTRACTION
HEARST 1998:
NP {, NP}* {,} or other NP
bruises …… broken bones, and other INJURIES
HYPONYM (bruise, injury)
EVALUATION: 55.46% precision wrt WordNet
Cimiano and Wenderoth 2005


Extract from text the information about
concepts specified by Pustejovsky’s
Generative Lexicon theory
Evaluation: human judgments
PUSTEJOVSKY’S GENERATIVE
LEXICON

Pustejovsky (1991, 1995): lexical entries
have a QUALIA STRUCTURE consisting of
four ‘roles’


FORMAL role: what type of object it is (shape,
color, ….)
CONSTITUTIVE role: what it consists of (parts,
stuff, etc.)



E.g., for books, chapters, index, paper ….
TELIC role: what is the purpose of the object
(e.g., for books, READING)
AGENTIVE role: how the object was created
(e.g., for books, WRITING)
EXAMPLE: QS FOR “KNIFE”
CIMIANO AND
WENDEROTH’S APPROACH
PATTERNS FOR THE
CONSTITUTIVE ROLE
GOOD EXAMPLES
PROBLEMS
PATTERNS FOR THE
FORMAL ROLE
PATTERNS FOR THE
AGENTIVE ROLE
PATTERNS FOR THE TELIC
ROLE
SCOPERTA DI ACCEZIONI
The breezes are soft, the waves lap gently and the fronds of
the PALM trees sway lazily.
<breeze, frond,gently,lap,lazy,soft, sway, tree,wave>
Cycads, the most popular of which is the Sago PALM, are
doll-sized versions of California's famous long-necked
PALMS, with stubby trunks and fern-like fronds.
<California,cycad,doll-sized,famous,frond,popular,Sago,…>
whack, whack, whack his hand made vigorous spanking
gestures on his left PALM.
The PALMs of his hands are sweaty
DISAMBIGUAZIONE DEI
SIGNIFICATI
Corton has been involved
in the design,
manufacture and
installation of horse
stalls and horse-related
equipment like external
doors, shutters and
accessories.
Sense 1: horse, Equus caballus -- (solid-hoofed
herbivorous quadruped domesticated since
prehistoric times)
Sense 2: horse -- (a padded gymnastic apparatus
on legs)
Sense 3: cavalry, horse cavalry, horse -- (troops
trained to fight on horseback: "500 horse led the
attack")
Sense 4: sawhorse, horse, sawbuck, buck -- (a
framework for holding wood that is being sawed)
Sense 5: knight, horse -- (a chessman in the
shape of a horse's head; can move two squares
horizontally and one vertically (or vice versa))
Sense 6: heroin, diacetyl morphine, H, horse,
junk, scag, shit, smack -- (a morphine
derivative)
DISAMBIGUAZIONE DEI
SIGNIFICATI
<contextfile concordance="brown">
<context filename="br-h15" paras="yes">
…..
<wf cmd="ignore" pos="IN">in</wf>
<wf cmd="done" pos="NN" lemma="fig" wnsn="1" lexsn="1:10:00::">fig.</wf>
<wf cmd="done" pos="NN" lemma="6" wnsn="1“ lexsn="1:23:00::">6</wf>
<punc>)</punc>
<wf cmd="done" pos="VBP" ot="notag">are</wf>
<wf cmd="done" pos="VB" lemma="slip" wnsn="3" lexsn="2:38:00::">slipped</wf>
<wf cmd="ignore" pos="IN">into</wf>
<wf cmd="done" pos="NN" lemma="place" wnsn="9" lexsn="1:15:05::">place</wf>
<wf cmd="ignore" pos="IN">across</wf>
<wf cmd="ignore" pos="DT">the</wf>
<wf cmd="done" pos="NN" lemma="roof" wnsn="1" lexsn="1:06:00::">roof</wf>
<wf cmd="done" pos="NN" lemma="beam" wnsn="2" lexsn="1:06:00::">beams</wf>
<punc>,</punc>
ANNUNCI DI FINE CORSO

Appelli sessione estiva:



9 Giugno
2 Luglio
TIROCINI PRESSO IL CENTRO
MENTE / CERVELLO DISPONIBILI!!


clic.cimec.unitn.it
Chiedere a me o Marco Baroni
Scarica

Acquisizione lessicale