TAPoR Text Analysis Portal for Research Cos’è Tapor • Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali • File di testo semplice (plain text) • File HTML • File XML • Il progetto nasce come collaborazione tra 6 università Le 6 università • • • • • • McMaster University University of Alberta Université de Montreal University of New Brunswick University of Toronto University of Victoria Un problema spinoso • Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard • Generalmente si tratta di file con estensione TXT (plain text) • Tact legge formati MS-DOS, TAPoR formati US-ASCII, UNICODE. Salvare il testo • I valori ASCII standard sono quelli fra 0 e 127, cioè i valori ottenibili con 7 bit) • L'ASCII standard è uguale fra le diverse lingue e le diverse macchine (mac, unix, win...) per i valori fra 32 e 127, rappresentando lettere dell'alfabeto inglese, numeri e alcuni caratteri speciali • quelli fra 0 e 31 sono riservati ai diversi sistemi operativi. Salvare il testo • I bit vengono aumentati a 8 e si ebbe in tal modo il cosiddetto ASCII esteso, che nelle varie versioni internazionali ospitava tutti quei caratteri non presenti nell'ASCII a 7 bit • Particolarmente usato è ISO-LATIN 1, che contiene i caratteri principali delle lingue occidentali e anglosassoni con alfabeti latini Muoversi in Tapor • Tre tipologie di testi analizzabili (TXT, HTML, XML) • Diversi strumenti per le diverse tipologie • Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a internet Analisi plain text: gli strumenti 1. List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa) 2. Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo BOX DI SELEZIONE PER L’OPZIONE “LIST WORDS” RISULTATO INTERROGAZIONE SULLE “RIME” DELL’ANGIOLIERI ORDINAMENTO PER FREQUENZA STRUMENTO “FIND TEXT” - CONCORDANZA CONCORDANZA PER LA PAROLA “AMORE” Analisi plain text: gli strumenti 3. Co-occurence (co-occorrenza): cerca le ricorrenze di due parole vicine tra loro, a distanza specificata 4. Collocation (collocazione): vengono restituite le parole che precedono e seguono immediatamente la parola data. Ordinamento alfabetico, per frequenza e per Z-score STRUMENTO “CO-OCCORENCE” CO-OCCORRENZA “AMORE”/”CUORE” CO-OCCORRENZA “AMORE”/”DOLORE” Analisi plain text: gli strumenti 5. Tokenize (divisione in token): divide il testo in parti, usando come separatore un “token” specificato (una parola, uno spazio, un elemento, ecc) 6. Fixed phrase (frase fissata): viene estratta la frase che contiene una parola data calcolata in base alla lunghezza del contesto voluta Analisi plain text: gli strumenti 7. Date finder (estrattore di date): trova nel testo tutti i formati data possibili e li restituisce insieme al contesto 8. Summarizer 9. Comparator 10. Distribution 11. Speech Tagger La distribuzione DISTRIBUZIONE FORMA “GIUSTIZIA” – “LA PATENTE”, L. PIRANDELLO Alcuni indici di rilievo • • • • • • • • Token Type Hapax legomena Hapax dislegomena Deviazione standard Z-score Indice di Kurtosis Caratteristica di Herdann • • • • • • • • • • • • • • • • • • • Number of Types = 1325 Number of Tokens = 3018 Type/Token ratio = 0.439 Token/Type ratio = 2.278 Hapax Legomena = 932 Hapax Dislegomena = 193 Hapax Legomena/Dislegomena ratio = 4.8290 Hapax Legomena/Number of Types = 0.7034 Hapax Legomena/Number of Tokens = 0.3088 Hapax Legomena cubed/Types squared = 461.1221 Variance ( S.D. squared ) = 39.6977 Standard Deviation (S.D.) = 6.3006 Coefficient of skewness = 14.4959 Coefficient of kurtosis = 278.5743 Herdan's characteristic = 0.0760 Yule's characteristic = 652.5240 Carroll TTR (Types / Sqrt of 2 X Tokens) = 17.0546 Most Frequent word "e" occurred 150 times repeat rate (Tokens / frequency most frequent word) = 20.1200 Le statistiche di base 1021= types 2632= tokens 708= hapax legomena 148= hapax dislegomena Links • http://tapor.humanities.mcmaster.ca/home. html • http://taporware.mcmaster.ca