INFORMATICA
UMANISTICA B
INFORMAZIONE NON
STRUTTURATA:
ARCHIVI DI TESTI
ARCHIVI DI IMMAGINI
CONTENUTI DI QUESTA
LEZIONE





Informazione non strutturata
Archivi di testi e Information retrieval
Il modello vettoriale di ricerca informazioni
Espressioni regolari
Archivi di immagini ed image retrieval
INFORMATICA ED ARCHIVI

Una delle funzioni principali dell’informatica e’
la creazione ed utilizzo di archivi elettronici:



Di testi
Di immagini
Questi archivi contengono informazione NON
STRUTTURATA nel senso che non e’
organizzata secondo un modello concettuale
predefinito, a differenza delle basi di dati
ARCHIVI ELETTRONICI

Collezioni di testi:





Articoli scientifici: e.g., ACL Archive
http://ucrel.lancs.ac.uk/acl/
Libri:
 Project Gutenberg: http://www.gutenberg.org/
 LiberLiber: http://www.liberliber.it/
 Google Books: http://books.google.it/
Collezioni di documenti storici
Il Web (da cercare via Google)
Collezioni di immagini:


http://www.iccrom.org/eng/lib/photo.htm
Il Web (da cercare via Google Image)
DATI NON STRUTTURATI (TESTI)
E STRUTTURATI (DB) NEL 1996
160
140
120
100
Unstructured
Structured
80
60
40
20
0
Data volume
Market Cap
Lucido di Hinrich Schuetze
5
DATI NON STRUTTURATI (TESTI)
E STRUTTURATI (DB) NEL 2006
160
140
120
100
Unstructured
Structured
80
60
40
20
0
Data volume
Market Cap
Lucido di Hinrich Schuetze
6
ALCUNI USI DI QUESTI
ARCHIVI



Per chi fa ricerca: facilitano la
DISTRIBUZIONE di documenti e/o articoli
Facilitano anche la RICERCA di documenti
rilevanti
Permettono di condurre analisi


Dell’uso del linguaggio (analisi linguistica /
letteraria / storica)
Storiche / filosofiche / etc.
RICERCA DI TESTI: RUDIMENTI DI
INFORMATION RETRIEVAL



Information retrieval e’ il nome dell’area
dell’Informatica che si occupa del ritrovamento di
documenti
Idea fondamentale: estrarre automaticamente dai
testi informazioni (INDICI) che ne permettano il
ritrovamento
Richiede metodi per



INDICIZZARE i documenti
Analizzare la ‘query’
Cercare i documenti piu’ rilevanti alla query
DOCUMENTI COME INSIEME DI
PAROLE
INDEX
DOCUMENT
broad tech stock rally may
signal trend - traders.
technology stocks rallied on
tuesday, with gains scored
broadly across many sectors,
amid what some traders
called a recovery from recent
doldrums.
broad
may
rally
rallied
signal
stock
stocks
tech
technology
traders
traders
trend
RICERCA DI ARCHIVI
TESTUALI: GOOGLE



Il Web e’ un enorme archivio elettronico che
contiene sia documenti quanto informazioni
di ogni tipo
Usato estesamente nelle aree umanistiche
per facilitare l’accesso a documenti
I motori di ricerca come Google permettono
di ritrovare documenti rilevanti usando
PAROLE CHIAVE (KEYWORDS)
RICERCA AVANZATA IN
GOOGLE
Immagini digitali
“immagini digitali”
albergo Trento OR Rovereto
RICERCA AVANZATA IN
GOOGLE: OR
albergo Trento OR Rovereto
RICERCA AVANZATA IN
GOOGLE: albergo Trento OR Rovereto
–”Hotel Verona”
RICERCA AVANZATA IN
GOOGLE
Enrico Salerno
Enrico * Salerno
+la morte +e +la fanciulla
ESPRESSIONI REGOLARI


Le espressioni per la ricerca avanzata in
Google sono una versione semplificata di un
linguaggio per la ricerca chiamato
ESPRESSIONI REGOLARI
Le espressioni regolari sono alla base delle
capacita’ di analisi dei testi in linguaggi di
programmazione come Java o Perl (e nel
motore di ricerca Google)
ESPRESSIONI REGOLARI
/agnolotti|ravioli/
/a[b|bb]ecedario/
/ab+ecedario/
ESPRESSIONI REGOLARI
/[0-9]+/
\d, \w, \s
/[^246]/
USI DI ESPRESSIONI REGOLARI:
TROVARE GLI INDIRIZZI DI POSTA
ELETTRONICA
[email protected],
[email protected], [email protected]
Ma non: asmith, @mactech.com,
a@a
^([a-zA-Z0-9_\-\.]+)@((\[[0-9]{1,3}\.[09]{1,3}\.[0-9]{1,3}\.)|(([a-zA-Z0-9\]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$
INDICI E RITROVAMENTO
Antony and Cleopatra
Julius Caesar
The Tempest
Hamlet
Othello
Macbeth
Antony
1
1
0
0
0
1
Brutus
1
1
0
1
0
0
Caesar
1
1
0
1
1
1
Calpurnia
0
1
0
0
0
0
Cleopatra
1
0
0
0
0
0
mercy
1
0
1
1
1
1
worser
1
0
1
1
1
0
Brutus AND Caesar but NOT
Calpurnia
1 if play contains
word, 0 otherwise
SOMIGLIANZA IN UNO SPAZIO
VETTORIALE
d j * qk
cos  
d j qk
dj
θ
qk
N
  
sim  qk , d j  


w
w j ,i
i 1 wk2,i

i 1
N
k ,i
N
2
w
i 1 j ,i
ALTRI MODI PER ‘STRUTTURARE’
DATI NON STRUTTURATI


Per certi tipi di informazione altri modi di
strutturazione sono piu’ appropriati
Molta ricerca corrente si occupa del problema
di estrarre automaticamente informazioni che
permettano di strutturare diversamente i testi
RICERCA PER ENTITA’
ORGANIZZAZIONE
TEMPORALE
LIVEMEMORIES
ANALISI LESSICOGRAFICA
DEI TESTI

Tipi di analisi:




Applicazioni:




Concordanze
Frequenze
Collocazioni
Lessicografia
Analisi dello stile
Identificazione degli autori
(Vedi anche modulo D)
ANALISI LESSICOGRAFICA DI
TESTI




Identificazione delle parole che occorrono in
un testo
Costruzione di INDICI
Calcolo delle loro FREQUENZE
Costruzione di CONCORDANZE


liste ordinate di parole che si trovano in un testo
con il contesto
Identificazione di COLLOCAZIONI

“corpo contundente”
CONCORDANZE
1
2
3
4
5
6
7
1,
2,
5,
8,
12,
13,
15,
1
1
2
1
3
6
1
|
|
|
|
|
|
|
uomini, sono stati e sono o repubbliche o principati. È principati
indrieto el ragionare delle repubbliche, perché altra volta ne ragionai
assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore
dove si trattassi delle repubbliche. Questi sono quando, o per
vede a' principi soli e repubbliche armate fare progressi grandissimi,
Alessandro Magno, e come molte repubbliche e principi si sono armati
molti si sono immaginati repubbliche e principati che non si
COLLOCAZIONI
COLLOCAZIONE: sequenza di due o piu’
parole caratterizzate da un forte legame di
associazione
NOTTE FONDA, LUNA PIENA,
ALTA STAGIONE,
CORPO CONTUNDENTE
TIPI DI COLLOCAZIONI



TERMINI TECNICI: sistema operativo, corte
d’Assise
VERBO SUPPORTO: fare attenzione,
prendersi un caffe’, dar manforte
COSTRUZIONI IDIOMATICHE: tagliar la
corda, tirare le cuoia
PER SAPERNE DI PIU’…

Modulo D
ANALISI STILISTICA AL
COMPUTER


Analisi dello stile di uno scrittore
Esempi:



“corpo contundente”: tipico burocratese
“broken twig” in James Fenimore Cooper
Uso dei colori (specialmente rosso) in “Red
Badge of Courage”
IDENTIFICAZIONE DI AUTORI

Identificazione dell’autore di testi storici / testi
anonimi



Autori dei libri della Bibbia
Autori dei Federalist Papers
Autore di “Primary Colors”
ARCHIVI NON TESTUALI:
IMMAGINI & MULTIMEDIA




Applicazioni: beni culturali, archeologia, storia
dell’arte, film ….
Archivi di immagini
Ricerca di immagini
Analisi statistica di immagini
IMAGE RETRIEVAL

Ricerca di immagini:


Usando didascalie od indici costruiti a mano
(LABELS)
Usando indici derivati automaticamente
RITROVAMENTO DI IMMAGINI
USANDO DIDASCALIE
CONTENT-BASED IMAGE
RETRIEVAL

Estraendo automaticamente tratti dall’immagine
(CONTENT-BASED IMAGE RETRIEVAL)



Ricerca usando immagini ‘simili’
Vettori di tratti visivi (colore, etc)
Esempi:



Retrievr
 http://labs.systemone.at/retrievr
Image Miner (Uni Bremen / IBM)
VIPER (Universita’ di Ginevra) http://viper.unige.ch/
CONTENT-BASED IMAGE
RETRIEVAL
RISULTATI
CREAZIONE DI ARCHIVI DI
TESTI

La creazione di un archivio di testi richiede
l’uso di una grande varieta’ di tecniche
informatiche:




Possibilmente SCANNERIZZAZIONE
‘Ripulitura’
Trasformazione in un formato STANDARD (XML /
TEI)
Sviluppo di metodi di RICERCA
BIBLIOTECHE DIGITALI


Sempre piu’ spesso archivi, biblioteche e
musei utilizzano tecniche per la
digitalizzazione e la preservazione di
documenti in formato digitale
Biblioteche digitali vanno oltre archivi di testi
ed immagini in quanto documenti contengono
METADATI che forniscono informazioni
bibliografiche e collegamenti
DIGITALIZZAZIONE E
CONSERVAZIONE


Ora che la memoria sta
diventando sempre piu’
economica, e con lo
sviluppo di metodi piu’
sofisticati di
scannerizzazione delle
immagini, e’ pensabile
creare versioni elettroniche
di documenti antichi e fragili
per permetterne l’accesso
senza danneggiarli
Esempio: progetti della
British Library
PRINCIPALI AREE DI RICERCA
NELLE BIBLIOTECHE DIGITALI


Preservazione digitale
Metadati:



Text Encoding Initiative (prossima lezione)
DUBLIN CORE
Infrastruttura:

Open Archival Information System (OAIS)
RIASSUNTO DELLE IDEE
PRINCIPALI


Modello vettoriale per la ricerca di
informazioni non-strutturate
Espressioni regolari (e versione semplificata
per Google)
LETTURE ED
APPROFONDIMENTI


Tomasi, capitoli 7 e 9
Google search:

Google search basics:
http://www.google.com/support/websearch/bin/answer.py?answer=136861



http://en.wikipedia.org/wiki/Google_search
GriseldaOnline: http://www.griseldaonline.it/
Robert Harris, The Personal Computer as a
tool for literary analysis
Scarica

Search ed Information Retrieval