ELABORAZIONE DEL
LINGUAGGIO NATURALE
CONOSCENZA LESSICALE 1:
PAROLE, PARTI DEL DISCORSO
INFORMAZIONI LESSICALI
•
•
•
•
Proprieta’ foniche / grafiche
Informazioni sintattiche (parti del discorso)
Informazioni morfologiche
Significato (lezioni successive)
QUALI SONO LE ‘PAROLE’ DI UNA
LINGUA?
= quante parole ha una lingua?
= che lemmi ci devono essere in un
dizionario?
QUALI SONO LE PAROLE DI UNA
LINGUA?
• 25 lemmi dal Concise Oxford Dictionary:
–
–
–
–
–
–
–
wannabe,
want, wanting, wanton, wapentake, wapiti,
War.,
war, waratah,
war baby,
warble1, warble2,
warble fly, warbler, warby, war chest, war crime, war cry,
ward,
– -ward
JACKSON: TRE SENSI DI ‘WORD’
(‘PAROLA’)
• ORTHOGRAPHIC WORD: una sequenza di
lettere circondata da spazi
• PHONEMIC WORD: una sequenza di suoni
(fonemi)
• LEXEME: una unita’ del lessico, a cui puo’
corrispondere una voce distinta in un
dizionario
DEFINIZIONE TRADIZIONALE DI
PAROLA
La parola e’ “cio che si trova tra due
spazi bianchi”
QUALI SONO LE PAROLE DI UNA
LINGUA?
• 25 lemmi dal Concise Oxford Dictionary:
–
–
–
–
–
–
–
wannabe,
want, wanting, wanton, wapentake, wapiti,
War.,
war, waratah,
war baby,
warble1, warble2,
warble fly, warbler, warby, war chest, war crime, war cry,
ward,
– -ward
PAROLE E FORME DI PAROLA
• want (ma non wanted)
– sings, sang, sung  sing
• Italiano:
– mangerò, mangeresti, mangerai mangiare
– nero, nera, neri, nere  nero
–= 7 forme di parola, 2 parole
FORME DI CITAZIONE
• Un dizionario riporta le FORME DI CITAZIONE
(= LEMMI) delle parole
• Convenzioni diverse a seconda della lingua:
– Italiano: infinito (AMARE)
• Inglese: TO LOVE
– Latino: prima persona presente singolare (AMO)
OMONIMI
• warble1, warble2 : due PAROLE, stessa FORMA
(OMONIMI)
– Italiano: diligenza, tara, (botte, pesca …)
PRIMO CRITERIO DI IDENTIFICAZIONE :
• Si hanno parole distinte quando si abbiano
CONCETTI diversi
– Vedi sotto, morfemi
PAROLE: FORME FONEMICHE E
GRAFICHE
• La definizione di parola “cio’ che si trova tra
due spazi bianchi” e’ puramente
ORTOGRAFICA
• Ogni parola ha DUE forme:
– i SUONI (FONEMI) che la compongono
– e il modo in cui viene rappresentata graficamente
(GRAFIA)
PAROLE E LA LORO GRAFIA
• La nostra `immagine’ delle parole (e la loro
posizione in un dizionario, cartaceo od
elettronico) spesso dipende dalla grafia usata
– La grafia pero’ cambia di continuo: lengaio 
linguaggio, dinaro  denaro
• Occorre anche ricordare che lo scritto segue il
parlato, e che non sempre la corrispondenza
e’ perfetta
INGLESE:
• HOMOGRAPHS
– read, read, read
– tear / tear
– bow, refuse, wind
• HOMOPHONES:
– bare / bear, pale / pail, stake / steak
– Mary / merry / marry (alcuni dialetti Americani)
ITALIANO
• La grafia delle parole Italiane non e’ cambiata
molto dagli inizi del Cinquecento (prime
edizioni a stampa, e.g., edizione del Petrarca
curata da Bembo e stampata da Manuzio nel
1515)
• Ma per secoli l’ortografia non corrispondeva
alla pronuncia
DUE ESEMPI DI CAMBIAMENTO DI
GRAFIA
• V=U
– Vocabolario della Crusca, 1612:
• VATICINARE
• VBBIA
• VDITORE
– (Crusca 1738: V  U, ordine invariato)
• H
– Vocabolario della Crusca, 1612:
• HUMILE
GRAFEMI E FONEMI
mela
m'me:la
bello
'bɛ:llo
bene
ieri
'bɛ:ne
'jɛ:ri
In Italiano ci sono 21 grafemi (+ 5) ma 30 fonemi
QUALI SONO LE PAROLE DI UNA
LINGUA?
• 25 lemmi dal Concise Oxford Dictionary:
–
–
–
–
–
–
–
wannabe,
want, wanting, wanton, wapentake, wapiti,
War.,
war, waratah,
war baby,
warble1, warble2,
warble fly, warbler, warby, war chest, war crime, war cry,
ward,
– -ward
UNA FORMA, DUE PAROLE
• CONTRAZIONI:
– Wannabe
• gonna, gimme …
• CLITICI:
– COMPRALO
– SCRIVIMI
DUE FORME, UNA PAROLA
• Parole POLIREMATICHE o COMPLESSE (Inglese:
MULTIWORDS)
• RIFLESSIVI:
– sedersi (Mario si sedette)
• Inglese  sit (Mario sat)
• PAROLE IDIOMATICHE
– palla al piede, vuotare il sacco, tavola rotonda
• ‘WEAK VERBS’
– avere paura
• COMPOSTI: sci alpinismo, fuori servizio
PAROLE POLIREMATICHE IN INGLESE
• PHRASAL VERBS: break up, calm down, find out, give
in, look over, pass out, show up, take off …..
• COMPOUNDS:
– war baby, war chest, war crime, war cry, war dance
– bell and whistles, rock and roll, bow and scrape, nip and
tuck ….
– IN TEDESCO:
Donaudampfschiffahrtgesellschaftkapitänwitwe
DA FORME POLIREMATICHE A
COMPOSTI
– salvavita / tritacarne / dopolavoro / benestante
PAROLA = LESSEMA
• Marello:
– “il termine PAROLA … [indica una] unita’ linguistica
a cui sono associati una funzione grammaticale ed
un significato, separata graficamente dalle altre da
spazi e dotata di coesione interna, per cui non si
possono inserire altri elementi al suo interno, ne’
si puo’ mutare l’ordine degli elementi che la
costituiscono”
RICORDIAMO ALCUNE DEFINIZIONI
• PAROLA (Inglese WORD): elemento linguistico (= unita’ del
‘lessico mentale’, LESSEMA)
• FORME DI PAROLA (Inglese WORD-FORM):
– Ortografica
– Fonetica
• LEMMA
– La FORMA DI CITAZIONE di una parola in un dizionario, associata con
una VOCE (Inglese LEXICAL ENTRY)
– Spesso si usa il termine lemma per indicare la parola (rapporto 1:1)
USO DI CORPORA PER L’IDENTIFICAZIONE
DELLE PAROLE
Where did the Encarta Concise English Dictionary’s
editors find the information on which to base their
definitions? The Bloomsbury Corpus of World English,
which now has over 150 million words, provided the
main evidence. We amplified this with a tailored
reading programme in science, technology, business,
and other key areas in order to find evidence of word
use in varied fields. Lastly we used the Internet as a
research source.
Introduzione a ECED (citata da Jackson, p. 167)
ANALISI LESSICOGRAFICA DI TESTI
• Identificazione delle (FORME DI) PAROLA
– e delle loro parti del discorso
– Calcolo delle loro frequenze
• Costruzione di CONCORDANZE
– liste ordinate di parole che si trovano in un testo con il
contesto
• Identificazione di COLLOCAZIONI
– “broken twig”
L’IDENTIFICAZIONE DEI LEMMI NEI TESTI VIA
COMPUTER
• TOKENIZZAZIONE
• LEMMATIZZAZIONE
• CLASSIFICAZIONE GRAMMATICALE
TOKENIZZAZIONE
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. |
C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO | . |
ALCUNI PROBLEMI CON IL PUNTO
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
IL SIG. ROSSI TELEFONÓ A CASA.
U.S.A.
9.45
WWW.GOOGLE.IT
MAIUSCOLE E MINUSCOLE
Rossi / rossi
Ciliegia / ciliegia
FORME POLIREMATICHE
(= TOKEN COMPLESSI)
• Vuotare il sacco, tagliare la corda, di rado,
fuori servizio, ad hoc
– War baby
• Los Angeles, La Spezia
– GU L 161 del 26.6.1999
QUANTE PAROLE CI SONO IN UN TESTO?
ITALIANO E LATINO
il ragazzo
puer
ha dato
dedit
una rosa
rosam
a Maria
Mariae
Altre lingue senza articoli / particelle:
lingue slave (Ceco), Cinese, …
RESTRIZIONI SULLE POSIZIONI DELLE
PAROLE
• La ragazza lesse rapidamente il libro
– *Ragazza la lesse rapidamente il libro
– *La ragazza lesse il rapidamente libro
• Inglese: *The Sue quickly read the book
• Sottocategorie:
– *La ragazza arrivo’ il libro
– conigliera, baleniera, teiera, ma: *virtuiera, *pazienzera
CATEGORIE LESSICALI
(PARTI DEL DISCORSO)
•
•
•
•
•
•
•
•
•
NOMI (tavolo, Simona)
VERBI (camminare, mangiare, colpire)
AGGETTIVI (rosso, rapido)
AVVERBI (probabilmente, subito)
PRONOMI (io, lui, ci)
ARTICOLI (il, la, un)
PREPOSIZIONI (di, a, con)
CONGIUNZIONI (e, ma, o)
[Italiano]: INTERIEZIONI (ahi! )
ALCUNE DISTINZIONI
• PARTI DEL DISCORSO VARIABILI / INVARIABILI
– L’uomo cammina / camminava
• PARTI DEL DISCORSO APERTE / CHIUSE
– Aperte: nomi, verbi, aggettivi, avverbi
– Chiuse: articoli, pronomi, preposizioni,
congiunzioni
CATEGORIE UNIVERSALI?
• Il nome ed il verbo non mancano in nessuna
lingua
• L’articolo manca in molte lingue (Latino, lingue
slave, Cinese)
• Avverbio?
CATEGORIE LESSICALI E DIZIONARI
• Un dizionario tipicamente identifica tutte le
parti del discorso che una certa forma di
parola puo’ essere usata per esprimere, e
solitamente associa voci diverse con ogni
parte
– warble1, warble2
• Italiano: legge, letto, affetto, porto, pianta …
ZINGARELLI INTERATTIVO: LEGGE1
1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei
cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere
legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più
organica A norma, a termini di legge, secondo ciò che la legge prescrive.
2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è
uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a
essa soggetto Dettar legge, imporre a tutti la propria volontà.
3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge,
specialista nella scienza giuridica.
4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i
rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della
stessa: in nome della legge, aprite!
5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della
società.
6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura.
7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le
leggi della matematica, della fisica.
ZINGARELLI INTERATTIVO: LEGGE2
leggere
v. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto)
1 Riconoscere dai segni della scrittura le parole e comprenderne il significato:
imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi
alla lettura: trascorro gran parte della giornata leggendo.
2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita;
leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul
destino di qc. basandosi sulle linee della mano.
3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano
erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim.
secondo particolari criteri: leggere un film in chiave ironica.
4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.
USO DI CORPORA PER LA CLASSIFICAZIONE
GRAMMATICALE
• In molti dei corpora piu’ recenti (a partire dal Brown
corpus), e particolarmente in quelli usati per la
lessicografia, i token vengono classificati con la loro
parte di discorso
– Brown corpus: fatto a mano
– BNC, LIP: fatto automaticamente
• Queste informazioni possono essere usate per
associare parti del discorso ai lemmi
IL BROWN CORPUS
• Il primo corpus in formato elettronico
moderno (Francis and Kucera, 1961)
• 500 testi, ognuno 2 000 parole
• Analisi SINCRONICA dell’Inglese Americano:
testi di 15 generi (fantascienza, romanzi,
articoli scientifici, reportage a stampa)
• Annotata la parte del discorso di tutte le
parole (87 classi)
IL British National Corpus (BNC)
• Creato tra il 1991 ed il 1994 da un consorzio diretto
da Oxford University Press
• Circa 100 milioni di parole
• Classificazione grammaticale automatica usando il
classificatore CLAWS (parti corrette a mano
successivamente)
• http://www.hcu.ox.ac.uk/BNC
CLASSIFICAZIONE GRAMMATICALE: BROWN
CORPUS
Television/NN has/HVZ yet/RB to/TO work/VB
out/RP a/AT living/RBG arrangement/NN with/IN
jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT
medium/NN more/QL as/CS an/AT uneasy/JJ
guest/NN than/CS as/CS a/AT relaxed/VBN
member/NN of/IN the/AT family/NN ./.
AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE
• Molte forme di parola possono essere
associate con parti del discorso diverse:
– STATO sia sostantivo (LO STATO ITALIANO) che
verbo (NON SONO STATO IO)
AMBIGUITA’ NELLA CLASSIFICAZIONE
GRAMMATICALE
The
man
still
saw
her
AT
NN
NN
NN
PPO
VB
VB
VBD
PP$
RB
STATISTICHE SULL’AMBIGUITA’ NEL B.C.
Unambiguous (1tag) 35,340
Ambiguous (2-7 tags) 4,100
2 tags
3,760
3 tags
264
4 tags
61
5 tags
12
6 tags
2
7 tags
1 (“still”)
METODI PER LA CLASSIFICAZIONE
GRAMMATICALE AUTOMATICA
• Prevalentemente STATISTICI
• Combinano:
– Informazioni sulla FREQUENZA di una parola
– Con informazioni sul CONTESTO (specialmente
parole precedenti)
– E sulla sua MORFOLOGIA (specialmente per parole
sconosciute)
• POBILARE
I MORFEMI
• Le parole non sono necessariamente
‘atomiche’, ma (in Italiano almeno) si possono
quasi sempre scomporre in unita’ piu’ piccole:
i MORFEMI
• Un MORFEMA e’ “la minima unita’ linguistica
dotata di un significato proprio”
DUE ESEMPI
BOYS
BOY
`essere umano, non
adulto, sesso maschile’
+
-S
`plurale’
DUE ESEMPI
REPURIFICARE
RE-
`ripetizione’
+
PUR-
+
`privo di contaminanti’
-IFICARE
`rendere’
STRUTTURA DELLE PAROLE
• INGLESE: RADICE + AFFISSI
– RADICE (boy)
– AFFISSI (-s in boy+s)
• ITALIANO: TEMA + AFFISSI
– RADICE (ragazz-)
– TEMA (radice + vocale tematica – e.g., ragazzo)
– AFFISSI (-i in ragazz+i)
AFFISSI
• La modificazione delle parole avviene in due modi
principali: `attaccando’ un AFFISSO ad un morfema; o
giustapponendo due morfemi
• Tre tipi di affissi:
– PREFISSI: RE- + PURIFICARE  REPURIFICARE
– SUFFISSI: PUR- + - IFICARE  PURIFICARE
– INFISSI: CANT- + -ICCH- + IARE  CANTICCHIARE
TRE TIPI DI MODIFICAZIONE
• FLESSIONE
• DERIVAZIONE
• COMPOSIZIONE
FLESSIONE
• Processo che AGGIUNGE alla radice / tema
informazione semantica ‘grammaticalizzata’
(tipicamente via suffissi):
–
–
–
–
–
GENERE: bello  bella
NUMERO: bello belli
CASO (Latino, Tedesco): rosa rosam
TEMPO: ama amava
PERSONA: amo / ami / ama
DERIVAZIONE
• Processo che produce NUOVE parole
aggiungendo al tema prefissi, suffissi ed infissi
– PREFISSI: RE- + PURIFICARE  REPURIFICARE
– SUFFISSI: PUR- + - IFICARE  PURIFICARE
– INFISSI: CANT- + -ICCH- + IARE  CANTICCHIARE
SUFFISSI ALTERATIVI
• Indicano dimensioni ridotte o segnalano
l’informalita’ della situazione
– casetta
– cenetta / sposini
• Tipici dell’italiano
CONVERSIONE
• Il processo di derivazione puo’ produrre parole la cui
categoria lessicale (parte del discorso) e’ diversa da
quella della parola originale.
–
–
–
–
N  V: magnete  magnetizzare
A  V: attivo  attivare
N  A  V: centro  centrale  centralizzare
A  N  V: giusto  giustizia  giustiziare
• In Italiano (ma non in Inglese): sostantivazione
dell’aggettivo (povero / il povero)
COMPOSIZIONE
• La composizione forma nuove parole a partire
da parole esistenti
– CAPO+STAZIONE CAPOSTAZIONE
– SALVA+VITA  SALVAVITA
– PAST- + ASCIUTTA  PASTASCIUTTA
LEMMATIZZAZIONE AUTOMATICA
DARGLIELO
XELDA: DEMO ONLINE
• Analisi morfologica in 14 lingue
PER RIASSUMERE:
• NOZIONI DI BASE DI MORFOLOGIA:
– PARTI DEL DISCORSO
– MORFEMA
– FLESSIONE, DERIVAZIONE, COMPOSIZIONE
Scarica

slides - clic