Capitolo III.
Memorizzazione e ricerca
nel mondo digitale
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
1
Prima parte
Accesso e conservazione
nella digitalizzazione
Dalla carta ai bit
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
2
La trasformazione
dell’informazione digitale
• Si dice che trasformi il modo di imparare, il
modo di comunicare, anche il modo di pensare
• Ma cambia anche il modo di catalogare le
risorse, il modo di reperirle e il modo di
interagire con esse
• Cambia il modo di conservare e accedere a
informazioni, reperti, immagini, suoni, il
patrimonio culturale
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
3
Le caratteristiche dell’info digitale
• FLESSIBILITÀ: è possibile modificarla facilmente, senza
traccia di cancellatura o cambiamento
• RIPRODUCIBILITÀ: è possibile realizzare un numero
infinito di copie dal file digitale senza usurarlo
• RICERCABILITÀ: è possibile fare ricerche approfondite
anche incrociate su fonti diverse
• MACCHINA-DIPENDENZA: per la fruizione è necessario
l’uso di una macchina adeguatamente programmata
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
4
Digitalizzazione
tra accesso e conservazione
• La digitalizzazione garantisce l’accesso a
distanza e alcuni strumenti di ricerca
(dipende da come viene effettuata)
• Ma presenta molti problemi rispetto alla
conservazione delle informazioni rispetto
alla garanzia di integrità e autenticità
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
5
I fattori di minaccia
per la longevità delle informazioni
– I supporti
– Le macchine lettrici dei supporti
– La codifica
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
6
Supporti dei dati digitali
• Storicamente i supporti resistevano finché non
interveniva un agente esterno a distruggerli
• Nel caso dei supporti digitali vale il contrario:
se non si agisce per preservarli, si
danneggiano irrimediabilmente
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
7
Lettori dei dati digitali
• L’invecchiamento delle macchine preposte alla lettura dei
dati digitali può presentare veri rischi per la conservazione
del materiale
• Se in linea teorica è possibile trasferire i dati digitali su un
nuovo supporto per il quale essi sono leggibili, in pratica è
molto difficile organizzare il trasferimento di questi dati in
mancanza di una macchina per la lettura in funzione
• La situazione è aggravata dalle scelte del mercato HW/SW,
che spinge per il continuo rinnovamento di lettori e supporti
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
8
Mantenere i dati codificati
in un formato leggibile
• Due metodi principali:
– la continua ricodifica da una configurazione sw/hw a
quella più nuova
– la creazione di un software in grado di emulare formati sw
obsoleti
• In tutti i casi, nonostante la migrazione di SW non
proprietari, come l’ASCII, avvenga in modo corretto,
di solito non viene prodotto lo stesso file da cui si
era partiti
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
9
Strumenti di codifica che minacciano
integrità, autenticità e longevità
• Compressione
• Criptaggio
• Interrelazione
• Custodia
• Traduzione
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
10
Compressione e criptaggio
• La compressione può avvenire senza perdite o con perdite.
– Per esempio: in un formato molto comune come JPEG (compressione
con perdite) si eliminano alcune caratteristiche dell’immagine
indistinguibile all’occhio umano, ma potenzialmente utili al trattamento
meccanico
– La compressione con o senza perdite aggiunge un livello di
complessità alla codifica
• Il criptaggio dei dati per il commercio elettronico aumenta la
complessità della codifica, adottando SW spesso proprietari
che non aderiscono agli standard condivisi
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
11
Interrelazione dei dati e longevità
• L’integrazione del lavoro di codifica prevede
l’inclusione di vari file, interni o esterni al proprio sito
• L’opportunità offerta dall’integrazione è limitata dai
rischi dei collegamenti non più attivi a causa anche
solo di una semplice ristrutturazione del contenuto
del sito richiamato
• Si pone il problema dell’eventuale duplicazione dei
contenuti richiamati attraverso un link, ma questo
apre questioni di copyright e di semplice opportunità
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
12
Custodia e traduzione dei dati
• Chi dovrebbe custodire dati nati digitali come
corrispondenza, varianti letterarie o
scientifiche?
• Come preservare l’autenticità dei file in
presenza di continui atti di refresh per salvare
i dati?
• Come garantire l’integrità e che cosa vuol dire
l’identità dell’informazione digitale, dovendo
continuamente ritradurre i dati in nuovi formati
e nuovi ambienti?
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
13
Vantaggi e svantaggi
dell’accesso digitale
VANTAGGI
SVANTAGGI
• Il contenuto richiesto si può
mostrare senza l’intervento
umano
• Le informazioni si possono
reperire a distanza
• La qualità della digitalizzazione è
tale da sostituire gli originali in
quasi tutte le situazioni
• La ricerca full-text e quella
incrociata su diverse collezioni è
una grande opportunità per
l’utente
• Gli altissimi costi dei processi di
digitalizzazione
• I mutamenti tecnologici possono
vanificare gli sforzi per la
conservazione del materiale in
poco tempo
• L’invecchiamento dei supporti
• L’obsolescenza delle codifiche
• Mancanza di garanzie per la
permanenza e la stabilità del
contenuto
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
14
Internet in sintesi
• È una rete che evolve basandosi su necessità locali e decisioni distribuite
• È costituita da molte reti distinte e interconnesse, come WNET, vBNS,
Abilene ecc.
• Nessuna istituzione o multinazionale controlla più di una piccola porzione
• È impresa impossibile produrre una mappa centralizzata
• È in continua evoluzione in modo incontrollato
È PIÙ SIMILE A UN ECOSISTEMA
CHE A UN DISPOSITIVO LOGICO
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
15
Seconda parte
La topologia del web
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
16
P. Baran e il primo progetto di Internet
• Il progetto di Internet era stato concepito alla fine
degli anni ’50 da Paul Baran della Rand Corporation,
ma venne rifiutato perché per trasmettere i dati era
previsto di inviare le informazioni a pacchetti,
rendendo così necessario il passaggio dalla rete
analogica a quella digitale
• AT&T che avrebbe dovuto realizzare la rete si rifiutò,
sia per l’investimento, sia per il rischio di
competizione che avrebbe creato
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
17
I modelli di rete per Baran
www.rand.org/publications/RM/baran.list.html
Centralizzata
Decentralizzata
Distribuita
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
18
Reti casuali e reti sociali
• Nelle reti casuali tutti i nodi hanno lo stesso
numero di link
• Le reti sociali sono invece dotate di alcuni
nodi, i cosiddetti hubs o connettori, che
sono molto più interconnessi degli altri,
cosicché ci sono pochi gradi di separazione
con gli altri nodi della rete
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
19
Milgram e lo small world problem
• Nel 1967 lo psicologo sociale Stanley Milgram, professore a
Harvard pubblicò i suoi studi su quanto è piccolo il mondo
• L’esperimento consisteva nel cercare di capire quanto ci
metteva una lettera ad arrivare a destinazione inviandola a
persone scelte a caso e con la preghiera di spedirla solo a
qualcuno che si conosceva su base personale
• Il risultato fu che in media c’erano 6 passaggi dal primo invio
all’arrivo a destinazione
• La teoria è nota al grande pubblico per un film uscito negli
anni ’90 dal titolo “6 gradi di separazione”
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
20
La distanza tra i nodi della rete
• Esistono 19 gradi di separazione in media tra i link,
secondo un recente risultato
• Il fenomeno degli Hub vuol dire che esistono alcuni nodi
particolarmente interconnessi con tutto e altri nodi per nulla
interconnessi
• Se tutti i nodi della rete si trovano alla stessa distanza dagli
altri, devo saper scegliere la strada da imboccare, per
trovare quello che cerco
• E inoltre la misura media della distanza dei nodi non rende
conto della struttura topologica della rete…
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
21
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
22
L’equilibrio precario
nella crescita di Internet
• È evidente che i nodi della rete sono collegati tra loro
per scelte di tipo economico
• Per modellare la rete è necessario prendere in
considerazione 3 fattori:
– i collegamenti preferenziali a nodi più attrezzati
– la dipendenza dalla distanza
– la struttura a frattale dei nodi che riproduce la densità della
popolazione (studiata in particolare per i router in US)
• Se uno di questi tre fattori prendesse il sopravvento,
metterebbe in discussione l’attuale struttura topologica
della rete
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
23
I rischi di attacco a Internet
• La grande integrazione della rete, mista alla presenza di
nodi hub, che centralizzano gran parte dei link, rende la
rete molto solida rispetto ai malfunzionamenti (come un
ecosistema)
• Il rischio di attacchi mirati ai nodi centrali, però, potrebbe
esserle letale
• Disabilitare alcuni nodi centrali forse non sarebbe
sufficiente di per sé a fare a pezzi la rete, ma le rotture a
cascata degli altri nodi, causate dalla reindirizzamento del
traffico verso nodi più piccoli, probabilmente farebbe il resto
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
24
Parte Terza
Non solo information retrieval
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
25
Strumenti di ricerca
• Strumenti basati su indici per soggetto (es.
Yahoo, About.com, Looksmart)
• Strumenti di ricerca di argomento specifico
(es. Internet Public Library, PAW)
• Strumenti di ricerca a testo integrale (es.
Altavista, Excite, Infoseek)
• Strumenti di ricerca per estrazione (es.
Lycos, Hotbot, Google, Alltheweb )
• Strumenti di metaricerca (es. Metacrawler,
Vivisimo)
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
26
OPAC e Virtual Library
• OPAC = Online Public Access Catalogue
– È possibile salvare le ricerche sul proprio disco,
spedirsi i risultati della ricerca ecc.
• Archivi e data base
– Documenti di vario genere e in formati diversi (HTML,
RTF, DOC, PDF, .asp ecc.)
• Biblioteca digitale
– Vera e propria biblioteca di “testi” codificati secondo
standard uniformi
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
27
Cercare informazioni sul web
• Web “di superficie”: 5 miliardi di documenti
• Web “profondo”: oltre 500 miliardi di documenti
• Ma oscillano fra 800 milioni e 3 miliardi quelli
indicizzati dai motori di ricerca
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
28
“Surface Web”
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
29
“Deep Web”
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
30
Cercare informazioni sul Web 2
• Come fare per migliorare la ricerca?
– Uso delle funzioni avanzate di ricerca
– Consultazione delle meta-risorse
– Motori specializzati per contenuto e/o
per tipologia di file
– Monitoraggio e controllo dei motori
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
31
Funzioni avanzate: operatori booleani
Operatore Simbolo
Azione
AND
&
Ricerca documenti che contengono parole o frasi
specifiche. Es. educazione AND creatività
OR
|
Ricerca documenti che contengono almeno una
delle due parole
NOT
!
Esclude il secondo termine dalla ricerca. Es.
educazione NOT creatività
NEAR
~
Ricercherà documenti che contengano parole e
frasi specificate per un numero non superiore a
dieci parole per parte. Es. educazione nella scuola
media NEAR uso dei media nella scuola
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
32
Searching for the WWW (1998)
• Nell’articolo, Lawrence e Giles si proponevano di
dimostrare la credibilità dei motori di ricerca (MR)
attraverso un robot, in grado di analizzare i risultati
di un’interrogazione, paragonando i MR
• Il risultato fu invece una stima della grandezza del
web
• HotBot, all’epoca il maggiore MR in termini di pagine
“catalogate”, analizzava soltanto il 34% del web
dell’epoca, che fu stimato intorno a 320 milioni di
documenti
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
33
I continenti di una rete orientata
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
34
La crescita del web e dei MR
• Attualmente Google indicizza 2,5-3 miliardi di documenti, ma
rimane sempre molto indietro rispetto alla crescita costante
della rete
• Da ogni pagina, infatti si può raggiungere solo il 24% dei
documenti collegati (vedi la topografia dei continenti del web)
• Per questo i MR permettono a chiunque di sottomettere le
URL della sua risorsa, sperano così che i crawler,
cominciando da un punto periferico della rete, possano
trovare documenti nuovi, mai esplorati prima, da indicizzare
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
35
Altri difetti dei MR
• Il problema della freschezza delle informazioni: più
è grande il repository, più si rischia di utilizzare
informazioni vecchie (i crawler ci mettono del tempo
per effettuare l’intero viaggio)
• La mancanza di capacità di indicizzare documenti e
informazioni che non siano scritti in HTML. Per
esempio: i database sono ignorati dai motori di
ricerca, a meno che questi non si interfaccino con
una metastruttura XML
• Il ruolo commerciale dei MR (modelli di business
che si basano sul pagamento di un buon ranking da
parte dei siti)
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
36
I fattori del successo
di Google e PageRank
• Un grandissimo repository di documenti (2,5-3
miliardi) strutturati attraverso un indice inverso e un
buon tasso di aggiornamento delle risorse
• PageRank ha un algoritmo che attribuisce un
punteggio a ogni documento, indicizzato sulla base
di quanto è citato dal web, e trasferisce parte della
sua autorità ai nodi che cita
• PageRank tiene conto della struttura relazionale del
web e attribuisce autorità al contenuto di un nodo
per il fatto di essere un hub del web
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
37
I rischi di Google
• Risultati in cui si privilegiano i contenuti degli hub, che sono a loro
volta commerciali
• Privilegi per le risorse della maggioranza linguistica (inglese su tutti,
spagnolo su italiano ecc.)
• Risultati che escludono risorse nuove (e perciò poco annodate col
resto della rete) e risorse marginali (appartenenti a comunità isolate
o che hanno approcci non in mainstream)
• Sfruttamento dell’algoritmo (già in corso) con la costruzione di risorse
ad hoc vuote da collegare ad arte alle pagine da pubblicizzare: le
bolle di visibilità
• Oltre ai soliti problemi della limitatezza del repository rispetto al deep
web (e topologia dei continenti) comuni a tutti i MR
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
38
Le attività della ricerca
• Scoperta Ricerca per keyword, metodi per esaminare
dati strutturati e non strutturati, meccanismi di ranking
flessibili, analisi e confronto di risultati provenienti da più
query differenti
• Organizzazione del contenuto Classificazione
automatica, machine-learning o guidata, di documenti in un
corpus, mappatura tematica, generazione di tassonomie
• Gestione sociale delle conoscenze Ranking
continuo e adattivo dei documenti, sulla base del loro
successo sociale in un gruppo di interessi affini,
reperimento degli esperti in un settore
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
39
Agenti e intelligenza sociale?
• Il sapere è un prodotto collettivo
• La conoscenza nasce dalla distribuzione di competenze
e informazioni
• È impossibile prevederne lo sviluppo perché è creativo,
complesso, dinamico e capace di apprendimento.
• Il sistema è perfettamente in grado (come l’ecosistema)
di assorbire gli errori senza rifletterli nei risultati
• Prevede l’interazione con l’ambiente e gli altri agenti
sociali in modo non strutturato
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
40
Problemi aperti
• La ricerca sul web è un’attività troppo complicata per
usare solo tecniche di information retrieval
• La struttura del web ha impatto sull’efficacia dei
metodi di ricerca adottati
• Il problema delle minoranze e la “bolla della visibilità”
• Il ruolo degli agenti intelligenti: fuoco
sull’apprendimento, più che sul web semantico, che
funziona agendo sulla struttura del web
• Una serie di problemi aperti di pertinenza delle
scienze cognitive...
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
41
Link utili
•
•
•
•
•
•
•
•
•
Virtual library http://vlib.org
Internet navigation tools http://riceinfo.rice.edu/Internet/
Search engine watch http://searchenginewatch.com
Internet Archive http://www.archive.org
Search engine showdown http://www.notess.com/search/
Metacrawler http://www.metacrawler.com
Beaucoup http://www.beaucoup.com/
Vivisimo http://vivisimo.com
Open Directory Project: http://dmoz.org/Reference/Libraries
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
42
Scarica

Memorizzazione e ricerca nel mondo digitale