07/03/2012 Lez. 9 LE CONCORDANZE • È l’elenco delle parole contenute in un testo, ordinate alfabeticamente e accompagnate da alcuni riferimenti che ne rendono possibile il ritrovamento nell’originale • Si devono selezionare le parole da espungere o da includere; la concordanza di tutte le parole di un testo è un retaggio della forma cartacea di questa operazione • Si deve definire la dimensione del contesto • Si possono usare gli operatori standard per le concordanze “specifiche” Gli spogli lessicali Parte seconda 07/03/12 I caratteri jolly • Sono simboli che sostituiscono un carattere o un insieme di caratteri • MS-DOS li ha ereditato dai sistemi Unix (con molte limitazioni) • ? = un carattere qualsiasi • * = più caratteri qualsiasi CONCORDANZE - 2 • Le forme di output delle concordanze dei moderni programmi sono di due tipi: Kwic e Kwoc • Kwic (Key Word In Context): le forme vengono allineate a partire da una stessa colonna di stampa • Kwoc (Key Word Out of Context): le forme si trovano esternamente, come esponente Il formato KWIC • Le forme possono essere centrate, allineate a destra oppure a sinistra per aumentare la leggibilità • Il cotesto è breve (una riga, in genere) • I riferimenti di mappatura del testo si trovano ad inizio riga (possono variare a seconda della codifica) Esempio tratto da La patente di Luigi Pirandello Programma TACT 1 07/03/2012 Il formato KWOC • La parola chiave si trova esternemante, come esponente • È sostanzialmente un indice al quale viene associata una riga di cotesto • È particolarmente indicato per contesti ampi, sviluppati su più righe Esempio tratto da La patente di Luigi Pirandello Programma TACT Funzioni delle concordanze • Osservare i diversi usi di una parola • Esaminare i diversi contesti (semantico, sintattico, testuale) • Analizzare la regolarità con la quale una parola è accompagnata ad altre nel suo cotesto Indici di rilievo che studieremo • Token • Rapporto T/t • Type • Rapporto t/T (TTR) • Hapax legomena • Frequenza assoluta • Hapax dislegomena • Frequenza relativa • Deviazione standard • Frequenza cumulativa • Costante di Zipf • Coefficiente di Variazione • Z-score • Range • Indice di Kurtosis • Media • Caratteristica di Herdann • … Cos’è Tapor TAPoR • Si tratta di un analizzatore testuale che • Text Analysis Portal for Research • • • prevede 3 set di strumenti per altrettante tipologie di file testuali File di testo semplice (plain text) File HTML File XML Il progetto nasce come collaborazione tra 6 università 2 07/03/2012 Le 6 università canadesi • McMaster University • University of Alberta • Université de Montreal • University of New Brunswick • University of Toronto • University of Victoria Un problema spinoso • Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard • Generalmente si tratta di file con estensione TXT (plain text) • Tact legge solo formati MS-DOS, TAPoR tutte le tipologie di plain text Salvare il file • È consigliabile salvare il file come “testo normale .txt”, in formato Unicode UTF-8 Selezionare l’opzione “inserisci interruzioni di riga” con separatore “solo ritorno a capo” Il programma si può occupare da solo di sostituire i caratteri non presenti nelle tabelle Ascii a 256 caratteri I caratteri non compatibili tra il set utilizzato da Office e le tabelle Ascii vengono segnalati in rosso. Un segnale di attenzione mette l’utente in allarme. 3 07/03/2012 Lista di frequenze Muoversi in Tapor Concordanza Collocazioni • Tre tipologie di testi analizzabili (TXT, HTML, XML) • Diversi strumenti per le diverse tipologie • Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a Internet Collocazioni dx/sx Clusters Estrattore di date Distribuzione BOX DI SELEZIONE PER L’OPZIONE “LIST WORDS” Analisi plain text: gli strumenti Qui si inserisce il file .txt da analizzare 1. List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa) 2. Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo (NON è case sensitive) Selezionare l’opzione “All words” per ottenere la lista di frequenze completa Accertarsi di lasciare selezionata l’opzione di “ordinamento per frequenza” Flaggare la casella per visualizzare i risultati in una nuova scheda del browser Tasto per avviare l’elaborazione I punti interrogativi aprono altrettante finestre di aiuto contestuale BOX DI SELEZIONE PER L’OPZIONE “LIST WORDS” RISULTATO INTERROGAZIONE SUL 1 CAP. “PROMESSI SPOSI” 4 07/03/2012 ORDINAMENTO ALFABETICO RISULTATO INTERROGAZIONE 1 NOVELLA DECAMERON Stop word list • È una lista di parole che verranno escluse dall’analisi • Normalmente sono numeri e “parole vuote” (con l’eccezione dell’analisi per clusters) • Articoli, congiunzioni, proposizioni, singoli caratteri sono inutili ai fini della ricerca, e potrebbero causare anche errori nella pertinenza delle ricerche STRUMENTO “FIND TEXT” - CONCORDANZA CONCORDANZA PER LA PAROLA “ABBONDIO” 5 07/03/2012 L’INDICE • Può essere considerato un caso particolare di concordanza senza contesto • È una lista delle parole contenute in un testo (o corpus) accompagnata dai riferimenti ai luoghi in cui è possibile rintracciare le singole parole • In genere è ordinato alfabeticamente in forma ascendente (A-Z) Pro e Contro • Nel modo lemmatizzato il vantaggio è la facilità di consultazione, lo svantaggio è la distanza che si crea tra il lemma e la parola (rischio di perdita di informazione). • Nel modo non-lemmatizzato il vantaggio è la perfetta aderenza dello spoglio con le parole usate nel testo, lo svantaggio una difficoltà di consultazione. L’indice lemmatizzato • Si tratta di una variazione dell’indice classico • È sostanzialmente un piccolo vocabolario dell’opera in analisi, nel senso proprio del termine • Come il suo progenitore in genere è ordinato alfabeticamente in forma ascendente (A-Z) La lemmatizzazione • Le forme che otteniamo dalle liste viste finora sono per lo più “flesse” • Ci sono quindi vari tempi dei verbi, maschili e femminili, singolare e plurale, enclitiche, e così via • Lemmatizzare significa riportare le diverse forme sotto un unico lemma (entrata di vocabolario) e ricostruire quindi un dizionario del testo Lessici di frequenza • Sono delle liste lemmatizzate organizzate in ordine di frequenza decrescente • In genere applicati a grandi corpora testuali • Servono ad individuare le principali fasce d’uso dei lessemi • Didattica delle lingue, lessicologia statistica, dizionari macchina Bibliografia • Chiari, Isabella, Introduzione alla linguistica computazionale, Laterza, Bari 2007 • Lenci, A., Montemagni, S., Pirrelli V., Testo e computer. Elementi di linguistica computazionale, Roma, Carocci 2005 6