07/03/2012
Lez. 9
LE CONCORDANZE
• È l’elenco delle parole contenute in un testo,
ordinate alfabeticamente e accompagnate da
alcuni riferimenti che ne rendono possibile il
ritrovamento nell’originale
• Si devono selezionare le parole da espungere o
da includere; la concordanza di tutte le parole di
un testo è un retaggio della forma cartacea di
questa operazione
• Si deve definire la dimensione del contesto
• Si possono usare gli operatori standard per le
concordanze “specifiche”
Gli spogli lessicali
Parte seconda
07/03/12
I caratteri jolly
• Sono simboli che sostituiscono un
carattere o un insieme di caratteri
• MS-DOS li ha ereditato dai sistemi Unix
(con molte limitazioni)
• ? = un carattere qualsiasi
• * = più caratteri qualsiasi
CONCORDANZE - 2
• Le forme di output delle concordanze
dei moderni programmi sono di due tipi:
Kwic e Kwoc
• Kwic (Key Word In Context): le forme
vengono allineate a partire da una
stessa colonna di stampa
• Kwoc (Key Word Out of Context): le
forme si trovano esternamente, come
esponente
Il formato KWIC
• Le forme possono essere centrate,
allineate a destra oppure a sinistra per
aumentare la leggibilità
• Il cotesto è breve (una riga, in genere)
• I riferimenti di mappatura del testo si
trovano ad inizio riga (possono variare a
seconda della codifica)
Esempio tratto da La patente di Luigi Pirandello
Programma TACT
1
07/03/2012
Il formato KWOC
• La parola chiave si trova esternemante,
come esponente
• È sostanzialmente un indice al quale
viene associata una riga di cotesto
• È particolarmente indicato per contesti
ampi, sviluppati su più righe
Esempio tratto da La patente di Luigi Pirandello
Programma TACT
Funzioni delle concordanze
• Osservare i diversi usi di una parola
• Esaminare i diversi contesti (semantico,
sintattico, testuale)
• Analizzare la regolarità con la quale una
parola è accompagnata ad altre nel suo
cotesto
Indici di rilievo che studieremo
• Token
• Rapporto T/t
• Type
• Rapporto t/T (TTR)
• Hapax legomena
• Frequenza assoluta
• Hapax dislegomena
• Frequenza relativa
• Deviazione standard
• Frequenza cumulativa
• Costante di Zipf
• Coefficiente di Variazione
• Z-score
• Range
• Indice di Kurtosis
• Media
• Caratteristica di Herdann
• …
Cos’è Tapor
TAPoR
• Si tratta di un analizzatore testuale che
•
Text Analysis Portal for Research
•
•
•
prevede 3 set di strumenti per
altrettante tipologie di file testuali
File di testo semplice (plain text)
File HTML
File XML
Il progetto nasce come collaborazione
tra 6 università
2
07/03/2012
Le 6 università canadesi
• McMaster University
• University of Alberta
• Université de Montreal
• University of New Brunswick
• University of Toronto
• University of Victoria
Un problema spinoso
• Il formato dei file riconosciuti da un
analizzatore testuale è vario e non
standard
• Generalmente si tratta di file con
estensione TXT (plain text)
• Tact legge solo formati MS-DOS, TAPoR
tutte le tipologie di plain text
Salvare il file
• È consigliabile salvare il file come “testo normale
.txt”, in formato Unicode UTF-8
Selezionare l’opzione “inserisci
interruzioni di riga” con
separatore “solo ritorno a capo”
Il programma si
può occupare da
solo di sostituire
i caratteri non
presenti nelle
tabelle Ascii a
256 caratteri
I caratteri non
compatibili tra il set
utilizzato da Office e
le tabelle Ascii
vengono segnalati in
rosso. Un segnale di
attenzione mette
l’utente in allarme.
3
07/03/2012
Lista di frequenze
Muoversi in Tapor
Concordanza
Collocazioni
• Tre tipologie di testi analizzabili (TXT,
HTML, XML)
• Diversi strumenti per le diverse tipologie
• Su file lunghi le operazioni possono
richiedere molto tempo,
dipendentemente dalla macchina e dalla
connessione a Internet
Collocazioni dx/sx
Clusters
Estrattore di date
Distribuzione
BOX DI SELEZIONE PER L’OPZIONE “LIST WORDS”
Analisi plain text: gli strumenti
Qui si inserisce il file .txt
da analizzare
1. List words (elencazione delle parole):
elenca tutte le parole presenti nel
testo, ordinandole in 4 modi
(alfabetico diretto ed inverso, di
frequenza, di ordine di comparsa)
2. Find text (ricerca del testo): è lo
strumento di concordanza per cercare
parole, frasi o righe di testo (NON è
case sensitive)
Selezionare l’opzione “All words”
per ottenere la lista di frequenze
completa
Accertarsi di lasciare selezionata
l’opzione di “ordinamento per
frequenza”
Flaggare la casella per
visualizzare i risultati in una nuova
scheda del browser
Tasto per avviare l’elaborazione
I punti
interrogativi
aprono
altrettante
finestre di
aiuto
contestuale
BOX DI SELEZIONE PER L’OPZIONE “LIST WORDS”
RISULTATO INTERROGAZIONE SUL 1 CAP. “PROMESSI SPOSI”
4
07/03/2012
ORDINAMENTO ALFABETICO
RISULTATO INTERROGAZIONE 1 NOVELLA DECAMERON
Stop word list
• È una lista di parole che verranno escluse
dall’analisi
• Normalmente sono numeri e “parole vuote”
(con l’eccezione dell’analisi per clusters)
• Articoli, congiunzioni, proposizioni, singoli
caratteri sono inutili ai fini della ricerca, e
potrebbero causare anche errori nella
pertinenza delle ricerche
STRUMENTO “FIND TEXT” - CONCORDANZA
CONCORDANZA PER LA PAROLA “ABBONDIO”
5
07/03/2012
L’INDICE
• Può essere considerato un caso
particolare di concordanza senza
contesto
• È una lista delle parole contenute in un
testo (o corpus) accompagnata dai
riferimenti ai luoghi in cui è possibile
rintracciare le singole parole
• In genere è ordinato alfabeticamente in
forma ascendente (A-Z)
Pro e Contro
• Nel modo lemmatizzato il vantaggio è la
facilità di consultazione, lo svantaggio è
la distanza che si crea tra il lemma e la
parola (rischio di perdita di
informazione).
• Nel modo non-lemmatizzato il vantaggio
è la perfetta aderenza dello spoglio con
le parole usate nel testo, lo svantaggio
una difficoltà di consultazione.
L’indice lemmatizzato
• Si tratta di una variazione dell’indice
classico
• È sostanzialmente un piccolo
vocabolario dell’opera in analisi, nel
senso proprio del termine
• Come il suo progenitore in genere è
ordinato alfabeticamente in forma
ascendente (A-Z)
La lemmatizzazione
• Le forme che otteniamo dalle liste viste
finora sono per lo più “flesse”
• Ci sono quindi vari tempi dei verbi,
maschili e femminili, singolare e plurale,
enclitiche, e così via
• Lemmatizzare significa riportare le diverse
forme sotto un unico lemma (entrata di
vocabolario) e ricostruire quindi un
dizionario del testo
Lessici di frequenza
• Sono delle liste lemmatizzate
organizzate in ordine di frequenza
decrescente
• In genere applicati a grandi corpora
testuali
• Servono ad individuare le principali
fasce d’uso dei lessemi
• Didattica delle lingue, lessicologia
statistica, dizionari macchina
Bibliografia
• Chiari, Isabella, Introduzione alla
linguistica computazionale, Laterza, Bari
2007
• Lenci, A., Montemagni, S., Pirrelli V.,
Testo e computer. Elementi di
linguistica computazionale, Roma,
Carocci 2005
6
Scarica

Diapositiva 1