TAPoR
Text Analysis Portal for Research
Cos’è Tapor
• Si tratta di un analizzatore testuale che
prevede 3 set di strumenti per altrettante
tipologie di file testuali
• File di testo semplice (plain text)
• File HTML
• File XML
• Il progetto nasce come collaborazione tra
6 università
Le 6 università
•
•
•
•
•
•
McMaster University
University of Alberta
Université de Montreal
University of New Brunswick
University of Toronto
University of Victoria
Un problema spinoso
• Il formato dei file riconosciuti da un
analizzatore testuale è vario e non
standard
• Generalmente si tratta di file con
estensione TXT (plain text)
• Tact legge formati MS-DOS, TAPoR
formati US-ASCII, UNICODE.
Salvare il testo
• I valori ASCII standard sono quelli fra 0 e
127, cioè i valori ottenibili con 7 bit)
• L'ASCII standard è uguale fra le diverse
lingue e le diverse macchine (mac, unix,
win...) per i valori fra 32 e 127,
rappresentando lettere dell'alfabeto
inglese, numeri e alcuni caratteri speciali
• quelli fra 0 e 31 sono riservati ai diversi
sistemi operativi.
Salvare il testo
• I bit vengono aumentati a 8 e si ebbe in tal
modo il cosiddetto ASCII esteso, che nelle
varie versioni internazionali ospitava tutti
quei caratteri non presenti nell'ASCII a 7
bit
• Particolarmente usato è ISO-LATIN 1, che
contiene i caratteri principali delle lingue
occidentali e anglosassoni con alfabeti
latini
Muoversi in Tapor
• Tre tipologie di testi analizzabili (TXT,
HTML, XML)
• Diversi strumenti per le diverse tipologie
• Su file lunghi le operazioni possono
richiedere molto tempo, dipendentemente
dalla macchina e dalla connessione a
internet
Analisi plain text: gli strumenti
1. List words (elencazione delle parole):
elenca tutte le parole presenti nel testo,
ordinandole in 4 modi (alfabetico diretto
ed inverso, di frequenza, di ordine di
comparsa)
2. Find text (ricerca del testo): è lo
strumento di concordanza per cercare
parole, frasi o righe di testo
BOX DI SELEZIONE PER L’OPZIONE “LIST WORDS”
RISULTATO INTERROGAZIONE SULLE “RIME” DELL’ANGIOLIERI
ORDINAMENTO PER FREQUENZA
STRUMENTO “FIND TEXT” - CONCORDANZA
CONCORDANZA PER LA PAROLA “AMORE”
Analisi plain text: gli strumenti
3. Co-occurence (co-occorrenza): cerca le
ricorrenze di due parole vicine tra loro, a
distanza specificata
4. Collocation (collocazione): vengono
restituite le parole che precedono e
seguono immediatamente la parola data.
Ordinamento alfabetico, per frequenza e
per Z-score
STRUMENTO “CO-OCCORENCE”
CO-OCCORRENZA “AMORE”/”CUORE”
CO-OCCORRENZA “AMORE”/”DOLORE”
Analisi plain text: gli strumenti
5. Tokenize (divisione in token): divide il
testo in parti, usando come separatore
un “token” specificato (una parola, uno
spazio, un elemento, ecc)
6. Fixed phrase (frase fissata): viene
estratta la frase che contiene una parola
data calcolata in base alla lunghezza del
contesto voluta
Analisi plain text: gli strumenti
7. Date finder (estrattore di date): trova nel
testo tutti i formati data possibili e li
restituisce insieme al contesto
8. Summarizer
9. Comparator
10. Distribution
11. Speech Tagger
La distribuzione
DISTRIBUZIONE FORMA “GIUSTIZIA” – “LA PATENTE”, L. PIRANDELLO
Alcuni indici di rilievo
•
•
•
•
•
•
•
•
Token
Type
Hapax legomena
Hapax dislegomena
Deviazione standard
Z-score
Indice di Kurtosis
Caratteristica di Herdann
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Number of Types = 1325
Number of Tokens = 3018
Type/Token ratio =
0.439
Token/Type ratio =
2.278
Hapax Legomena =
932
Hapax Dislegomena =
193
Hapax Legomena/Dislegomena ratio = 4.8290
Hapax Legomena/Number of Types = 0.7034
Hapax Legomena/Number of Tokens = 0.3088
Hapax Legomena cubed/Types squared = 461.1221
Variance ( S.D. squared )
= 39.6977
Standard Deviation (S.D.)
= 6.3006
Coefficient of skewness
= 14.4959
Coefficient of kurtosis
= 278.5743
Herdan's characteristic
= 0.0760
Yule's characteristic
= 652.5240
Carroll TTR (Types / Sqrt of 2 X Tokens) = 17.0546
Most Frequent word "e" occurred 150 times
repeat rate (Tokens / frequency most frequent word) =
20.1200
Le statistiche di base
1021= types
2632= tokens
708= hapax legomena
148= hapax dislegomena
Links
• http://tapor.humanities.mcmaster.ca/home.
html
• http://taporware.mcmaster.ca
Scarica

TAPoR