SAPERI STORICI E NUOVE TECNOLOGIE
Università degli Studi di Napoli “Federico II”
Dipartimento di discipline storiche
“Ettore Lepore”
NICOLA MADONNA
Il recupero dell’informazione in rete
Sommario della lezione
1.
2.
3.
4.
5.
Information retrieval: alcuni concetti di
base
L’informazione in Rete:
a) Caratteristiche di Internet
b) Tipologia dell’informazione in Rete
La ricerca di informazione strutturata
Ricerca libera nel Web
Tra sogno e realtà: gli agenti e il web
semantico
20 aprile 2004
Sommario
2
Information retrieval


È l’ insieme delle tecniche utilizzate
per il recupero mirato
dell’informazione.
Il recupero dell’informazione si può
considerare come parte dei processi
generali di comunicazione.
20 aprile 2004
Information retrieval
4
Un modello del processo
di comunicazione
Secondo il modello di Shannon e Weaver* il
processo di comunicazione si può descrivere
così:
una fonte esprime un messaggio che deve
essere trasmesso a un ricevente; per
rendere possibile la trasmissione attraverso
un canale selezionato il messaggio deve
essere codificato e poi decodificato prima di
poter essere compreso dal ricevente.
* C.E. Shannon, W. Weaver, La teoria matematica delle
comunicazioni, Milano, Etas, 1983
20 aprile 2004
Information retrieval
5
Due fenomeni importanti
Rumore: un’interferenza che influisce
sulla fedeltà della comunicazione tra fonte
e ricevente; nel nostro caso è rumore il
recupero di documenti non rilevanti nella
risposta a una richiesta.
 Feedback: possibilità di correggere o
chiarire subito il messaggio tra fonte e
ricevente; il feedback riduce perciò gli
effetti del rumore e garantisce un grado
ottimale nella comunicazione.

20 aprile 2004
Information retrieval
6
Ricerca di tipo “euristico”
 Si definisce euristico il tipo di ricerca che attiva
un meccanismo di feedback. Si tratta sempre di
ricerche di tipo “attivo” in cui il ricevente può a
sua volta divenire fonte, codificando un
messaggio in forma di richiesta e definire in
modo più preciso il tipo di informazione
ricercato.
 Elemento fondamentale di questo tipo di ricerca
è l’interazione tra l’utente e i risultati e la
possibilità di modificare la strategia di ricerca.
20 aprile 2004
Information retrieval
7
Ricerca in Rete
Data l’enorme quantità di informazione
presente in Rete, sarebbe auspicabile
una preventiva selezione e
organizzazione, in modo da ottenere
sempre e solo ciò che è pertinente ad
una data richiesta: cioè una
disseminazione selettiva
dell’informazione.
20 aprile 2004
Information retrieval
8
Ricerca efficace
Il problema principale della
ricerca in Internet è riuscire
a recuperare il maggior
numero di documenti
pertinenti tra quelli esistenti.
Il rischio più grande non è
trovare poco materiale bensì
recuperare una massa
ingestibile di informazioni di
cui solo una parte pertinente
all'oggetto della ricerca.
20 aprile 2004
Information retrieval
9
Richiamo e precisione
Uno dei concetti fondamentali dell’information
retrieval è quello del rapporto inverso tra
richiamo e precisione:
il richiamo misura la capacità di recuperare tutti i
documenti pertinenti (ovvero considerati rilevanti
rispetto all’obiettivo della ricerca) presenti
nell’archivio interrogato;
la precisione (o rilevanza) misura la capacità di
recuperare soltanto i documenti pertinenti.

Per una ricerca efficace occorre trovare il
compromesso ottimale tra richiamo e precisione
20 aprile 2004
Information retrieval
10
Futility point
Punto di inefficacia della ricerca Web
(Futility point): 20 documenti da vagliare.
E' provato che oltre questo numero
normalmente i risultati non sono pertinenti.
Se si trovano pochi documenti (es. qualche
decina) possono essere selezionati
manualmente; se si trovano molti documenti
(oltre il centinaio), occorre raffinare la ricerca
rendendola più specifica.
20 aprile 2004
Information retrieval
11
Prime conclusioni
 Il
grado di precisione e di richiamo sono
influenzati dal tipo di ricerca, generale o
specifica.
 La precisione è inoltre un fattore soggettivo
(dipende dal bagaglio culturale di chi effettua
una ricerca).
 In genere si privilegia il richiamo.
 In definitiva, risulta impossibile indicare una
strategia di ricerca che consenta di recuperare
in un sol colpo tutti e solo i documenti pertinenti
contenuti in un archivio di dati.
20 aprile 2004
Information retrieval
12
Internet e WWW
 Internet è la “rete delle reti” nata nel 1982 che
consente la connessione fra reti grazie al protocollo
TCP/IP (Transmission Control Protocol/Internet
Protocol), standard che sta alla base dello sviluppo
di Internet consentendo a computer di diverse reti
di comunicare tra loro.
 Www (World Wide Web) è l’insieme delle risorse
di Internet raggiungibili tramite il protocollo http
(Hyper Text Transport Protocol) utilizzato dal server
web per trasferire informazioni ai browser.
20 aprile 2004
Le caratteristiche del Web
14
Cosa è
e cosa non è Internet




Internet è in primo luogo uno strumento di
comunicazione e di scambio di informazioni.
Internet è una immensa risorsa di
informazioni, ma non è il deposito universale
della conoscenza umana.
Internet non può mai costituire l’unica fonte
informativa di una ricerca scientifica seria.
Internet non integra e organizza da sé
l’informazione fornita.
20 aprile 2004
Le caratteristiche del Web
15
Le risorse in Internet
Filmati
OPAC
Archivi di dati
Pagine
web
Programmi,
testi
Documenti
sonori
Fotografie,
immagini
Periodici
elettronici
20 aprile 2004
E-book
Indici, repertori
Le caratteristiche del Web
16
Gli indirizzi delle
risorse in Internet
URL (Uniform Resource Locator) = sono dei
puntatori universali che indicano in modo univoco
qualsiasi risorsa Internet (siti, posta elettronica,
archivi via Telnet). Es. di Url:
http ://
Protocollo
usato
per lo
scambio
dei dati
20 aprile 2004
sib04.unina.it
Indirizzo
della
risorsa
:22
Porta logica
utilizzata per quel
servizio dal server
che lo fornisce
(quasi sempre di
default)
Le caratteristiche del Web
17
Caratteristiche
dell’informazione in Internet

Fluidità esterna

(alcune risorse web non si
lasciano facilmente
ricondurre al concetto di
testo; es.: chat, newsgroup,
ecc.).
(nascita, morte, migrazione
e/o cambiamenti di siti o
pagine web).

Fossilizzazione
(link morti, documenti
superati da versioni più
recenti, ecc.).

Fluidità interna
(risorse, spesso molto
articolate, in continua
evoluzione).
20 aprile 2004
Detestualizzazione

Disintermediazione
(passaggio diretto del testo,
dall’autore al
lettore:vantaggi e pericoli).

Omogeneizzazione
(difficile discernere la qualità
di un documento sul web dal
solo “aspetto esterno”).
Le caratteristiche del Web
18
Il web invisibile
Con l’espressione invisible web si indicavano
quelle risorse del tutto impenetrabili ai motori di
ricerca: testi in formato pdf, risorse interne a
database, o file difficilmente identificabili e
classificabili quali file di immagine, audio e video.
Tutte queste risorse stanno diventando meno
invisibili grazie all’evoluzione dei motori di ricerca.
Ma la continua crescita del Www e le scelte
commerciali delle aziende che gestiscono i motori
stanno peggiorando la situazione, così una buona
parte del Web continua a risultare oggi di fatto
irraggiungibile e quindi invisibile.
20 aprile 2004
Le caratteristiche del Web
19
Una ricerca
sullo stato del Web
Secondo la Inktomi, uno dei più importanti produttori
di sistemi per motori di ricerca, il 25% dei documenti
presenti nel Www è irrilevante e un altro 25% ha
interesse solo per un numero molto ristretto di
persone; ciò spiega perché manca la voglia di
indicizzare “proprio tutto”: l’obiettivo è quello di
selezionare nel mare magnum solo le risorse più
interessanti per gli utenti, cercando comunque di dare
maggior peso alle informazioni “locali”. Ancor più
grave il problema dei tempi di aggiornamento dei
link: Inktomi nel 2001 era sceso ad un mese, ancora
però un periodo troppo lungo per chi cerca ad es.
informazioni d’attualità.
20 aprile 2004
Le caratteristiche del Web
20
La teoria del papillon
Secondo una ricerca
condotta da Ibm, Altavista e
Compaq, nota come
progetto Clever (1999),
pare che il web sia diviso in
4 sezioni non molto ben
connesse tra loro (teoria
del papillon): un nucleo di
siti molto connessi (30% del
totale), delle pagine di
origine (24%), delle pagine
di arrivo (24%) e delle
pagine disconnesse (22%).
20 aprile 2004
Le caratteristiche del Web
21
Pay for placement
Il «pay for placement» è un meccanismo che sta
prendendo sempre più piede per cui un’azienda paga
per garantirsi una buona posizione nella lista ottenuta
dalla ricerca con determinate parole chiave: ciò
favorisce i siti delle aziende commerciali a discapito di
siti non profit o comunque privi di finanziamento.
A tal proposito non sempre i motori di ricerca
dichiarano la propria politica rispetto a queste
soluzioni. Google vende non i risultati, ma solo dei
banner pubblicitari che compaiono associati a certe
parole di ricerca, dichiarando di non piegarsi alla logica
del pay for placement.
20 aprile 2004
Le caratteristiche del Web
22
Ordine e disordine
L’informazione presente in Rete è di due tipi:
 informazione ordinata, cioè
strutturata: è in genere puntuale e
affidabile ma non è integrata nel web ed
è perciò ricercabile con maggiore fatica
 informazione disordinata, cioè non
strutturata: la ricerca avviene con gli
strumenti di navigazione noti, ma poi
occorre valutarne l’affidabilità
20 aprile 2004
L'informazione strutturata
24
Informazione strutturata
L’esempio migliore di informazione
strutturata è dato dalle basi di dati:



opac, metaopac, multiopac
elenchi, cataloghi
archivi di dati o banche dati
20 aprile 2004
L'informazione strutturata
25
La ricerca su basi di dati
Informazioni necessarie:

come è strutturata la base dati

come sono organizzati i record presenti:
quali campi, quali convenzioni di
schedatura, quali standard applicati, uso
di abbreviazioni, uso di thesaurus, quali
tipi di ricerca previsti, ecc.

grado di affidabilità

stato di aggiornamento
20 aprile 2004
L'informazione strutturata
26
Linguaggi di
interrogazione
Esistono numerosi linguaggi di interrogazione:
 Il più diffuso nella maggior parte delle
banche dati è quello degli operatori logici che
derivano dall'algebra di Boole e vengono
impiegati dai calcolatori per compiere
moltissime operazioni.
 Molto diffusi anche gli operatori relazionali e
gli operatori di prossimità.
 Da non dimenticare, infine, i cosiddetti
caratteri jolly.
20 aprile 2004
L'informazione strutturata
27
Gli operatori logici
(o booleani)




AND o + (intersezione): si usa per rintracciare i
record che soddisfano entrambi i criteri richiesti.
OR (unione): si usa per rintracciare i record che
soddisfano almeno uno dei criteri richiesti.
NOT o AND NOT (complemento): si usa per
rintracciare i record che soddisfano un
determinato criterio escludendo quelli che però ne
soddisfano un altro.
XOR o NOR (esclusione): si usa per rintracciare i
record che soddisfano esclusivamente uno solo dei
criteri richiesti.
20 aprile 2004
L'informazione strutturata
28
Operatori relazionali
In alcuni Opac è possibile utilizzare anche degli
operatori relazionali, che permettono di richiedere
che il contenuto di un campo sia maggiore (>),
minore (<) oppure uguale (=) ad un valore
specificato.
Questi operatori si applicano tipicamente alle date
ed altri campi numerici; altrimenti assumono il
significato di "precedente/successivo nell'ordine
alfabetico a -".
20 aprile 2004
L'informazione strutturata
29
Operatori di prossimità
Gli operatori di prossimità sono una versione più precisa degli
operatori AND e NOT: permettono infatti di richiedere che le
parole in questione non solo siano (o non siano) presenti nello
stesso record, ma si trovino ad una determinata distanza fra
loro ed eventualmente in un determinato ordine.
Gli operatori di prossimità disponibili variano a seconda degli
Opac, ma perlopiù permettono di:



cercare due parole adiacenti e nell'ordine dato (l'operatore è
spesso scritto ADJ oppure WITH);
cercare due parole adiacenti in qualsiasi ordine (spesso scritto
NEAR)
cercare due parole presenti all'interno dello stesso campo
(spesso scritto SAME).
20 aprile 2004
L'informazione strutturata
30
Combinare gli operatori
Gli operatori logici si possono combinare,
creando stringhe di ricerca anche complesse
per particolari esigenze. In questo caso
occorre fare attenzione all'ordine con cui
vengono eseguite le operazioni logiche;
secondo la gerarchia standard, l'ordine di
priorità dovrebbe essere NOT, AND, OR, ma in
realtà non tutti gli Opac seguono questa
regola: perciò il sistema più sicuro è utilizzare
le parentesi.
20 aprile 2004
L'informazione strutturata
31
I caratteri jolly
I cosiddetti caratteri jolly sono dei simboli che possono
corrispondere a qualsiasi carattere, oppure a una sequenza di
caratteri di qualsiasi lunghezza. Anche nei simboli usati come
caratteri jolly gli Opac variano molto (ciò rende necessario
leggere di volta in volta le relative istruzioni).
Ecco i casi in cui si usano:


troncamento: è un modo per evitare di dover digitare lunghe
sequenze di termini alternativi aventi una stessa radice, separati
dall'operatore OR (carattere jolly usato: asterisco, dollaro, due
punti, o altro).
mascheramento: si sostituisce un determinato numero di
caratteri all’interno della parola (carattere jolly usato: soprattutto
asterisco, o punto interrogativo).
20 aprile 2004
L'informazione strutturata
32
La ricerca bibliografica
Opac
Opac collettivi integrati
Opac collettivi cumulati
Meta-Opac
Multi-Opac
[Vedi appunti della lezione di Antonella De Robbio del 16
marzo]
Suggerimento bibliografico: F. Metitieri, R. Ridi, Biblioteche
in rete : istruzioni per l’uso, Roma-Bari, 2002 (16,00 €)
20 aprile 2004
L'informazione strutturata
33
La ricerca di mail,
indirizzi, numeri di telefono
Mail:
MESA (Meta Email Search Agent)
http://mesa.rrzn.uni-hannover.de
Mailory (per l’Italia, realizzato da TIN)
http://mailory.tin.it
Indirizzi e numeri di telefono:
http://www.pronto.it
http://elenco.libero.it
http://paginebianche.virgilio.it
http://paginegialle.virgilio.it
20 aprile 2004
L'informazione strutturata
34
La ricerca di programmi
Software shareware:
1.
programma mirato: cercare il sito
della casa produttrice e scaricare da lì
la versione ‘demo’ o ‘trial’;
2.
ricerca di un certo tipo di programma:
http://shareware.cnet.com
http://download.com.com
http://www.tucows.com
20 aprile 2004
L'informazione strutturata
35
Ricerca libera sul Web
Il web si espande a ritmi
esponenziali
(si parla di 5 o 6 miliardi
di pagine web, ma il dato
è in costante crescita)
Information overload:
è l’eccesso di
informazione che non si
riesce più a
padroneggiare.
20 aprile 2004
L'informazione non strutturata
37
Due problemi
20 aprile 2004
L'informazione non strutturata
38
Qualche elemento
per la valutazione
Per valutare l’affidabilità di un’informazione
trovata in Rete occorre valutare l’affidabilità
del sito che la ospita; in particolare, si
dovrebbe sempre cercare di capire chi ha
immesso in Rete quella particolare pagina, in
quale contesto e a quali fini.
Un consiglio: risalire sempre alla home page
del sito che ospita l’informazione trovata.
20 aprile 2004
L'informazione non strutturata
39
Reperire l’informazione
Gli strumenti a disposizione sono ormai di molti tipi,
ma gli utenti tendono a usarli senza troppe distinzioni
confondendo le loro potenzialità. Ecco, in ordine di
specializzazione crescente, le principali tipologie di
indici oggi disponibili:
1)
2)
3)
4)
5)
6)
Portali
Indici web per parola
Indici web per argomento
Meta-indici
Indici web per parola limitati a una disciplina
Virtual reference desk
20 aprile 2004
L'informazione non strutturata
40
1. Portali
Molto utilizzati dagli utenti meno esperti e poco
adatti ai professionisti della ricerca in Internet, i
portali si candidano a costituire il sito di
riferimento dei navigatori non solo per la ricerca di
informazioni ma anche per ogni altra attività
effettuabile in rete (acquisti in linea, prenotazioni
di servizi, ecc.).
Includono quasi sempre una directory per
argomento molto orientata alle necessità della vita
quotidiana, un motore di ricerca sviluppato in
proprio o mutuato dai maggiori, e un insieme dei
più svariati servizi.
20 aprile 2004
L'informazione non strutturata
41
Esempio di portali
Esempi italiani:
Ciaoweb, http://www.ciaoweb.it

Jumpy, http://www.jumpy.it

Kataweb, http://www.kataweb.it

Supereva, http://www.supereva.it

Virgilio, http://www.virgilio.it
Ormai si tende a dividerli in portali «orizzontali» (cioè
generali) e «verticali» (cioè specializzati, talora denominati
anche «vortali»).
Altri tipi di portali: e-commerce, di contenuto, B2B,
broadband, multiaccesso, mobili di 2a o 3a generazione,
ecc.

20 aprile 2004
L'informazione non strutturata
42
2. Indici web per parola
Meglio noti come motori di ricerca o search engine.
Grazie ad alcuni programmi raccolgono automaticamente
in grandi archivi e permettono di individuare tutte le
occorrenze di uno o più termini presenti in una buona
parte delle pagine web mondiali o di un singolo Stato.
Purtroppo, i risultati trovati non sono sempre pertinenti,
nonostante il perfezionamento continuo di questi strumenti
di ricerca.
Il maggior problema consiste nel far individuare
automaticamente a un programma, senza l’intervento di
catalogatori umani, omonimie, sinonimie e più in generale
il contenuto semantico delle pagine web.
20 aprile 2004
L'informazione non strutturata
43
Alcuni motori di ricerca
I maggiori motori di ricerca internazionali:
 Google, http://www.google.com
(il più usato al mondo: 200 milioni di richieste al
giorno)
 Alltheweb, http://www.alltheweb.com
(il più recente ancorché in rapido sviluppo)
 Altavista, http://www.altavista.com
(dotato di numerose opzioni per affinare la ricerca)
 Hotbot, http://www.hotbot.com
 Lycos, http://www.lycos.com
20 aprile 2004
L'informazione non strutturata
44
e inoltre …
Da segnalare inoltre:




Northern light, http://www.northernlight.com
Excite, http://www.excite.com
Go.com, http://www.go.com
Overture, http://www.overture.com
Alcuni di questi motori permettono di rintracciare
altre pagine web contenenti una certa
percentuale di parole uguali a quelle delle pagine
già trovate (“ricerca per concetto” o “per
somiglianza”).
20 aprile 2004
L'informazione non strutturata
45
infine…
Ci sono poi motori studiati per rispondere a
domande poste in linguaggio naturale (in inglese):
es. Ask Jeeves http://www.ask.com
In questo caso a ogni interrogazione viene fornita
sempre una sola risposta e non una lista di indirizzi.
Nel webspace italiano da segnalare:




20 aprile 2004
Arianna, http://arianna.libero.it
Il Trovatore, http://www.iltrovatore.it
Janas, http://www.tiscali.it
Supereva, http://www.supereva.it
L'informazione non strutturata
46
3. Indici web
per argomento
Sono costruiti da personale specializzato che
indicizza e ordina alcune pagine Web in base al
soggetto, scartando quelle meno interessanti e
talvolta aggiungendo un breve riassunto e una
valutazione: ciò migliora la qualità, fa diminuire il
rumore, ma ovviamente per problemi di costi gli
archivi sono di gran lunga più piccoli di quelli usati
dai motori, costruiti automaticamente.
Va però ricordato che i motori per parola rintracciano
singole pagine (che solo talvolta costituiscono la
home page di un sito o di una risorsa), mentre le
directory per argomento si focalizzano sui siti o
comunque su unità informative compiute.
20 aprile 2004
L'informazione non strutturata
47
Alcune directories





Yahoo: http://www.yahoo.com
(basato sul lavoro di un centinaio di redattori
professionisti)
Open directory: http://dmoz.org (basato sulle
segnalazioni di decine di migliaia di volontari)
Looksmart: http://www.looksmart.com
About: http://www.about.com (diviso in circa 700
aree tematiche diverse, ognuna affidata ad un
esperto volontario)
In italiano:
Supereva: http://www.supereva.it
20 aprile 2004
L'informazione non strutturata
48
4. Meta-indici
Permettono l’accesso (talvolta anche l’interrogazione, non
sempre contemporanea) a un certo numero di indici e repertori
primari come quelli finora elencati. In alcuni casi è possibile
scegliere se impostare la ricerca direttamente dalla pagina del
meta-indice oppure se collegarsi prima a quella dell’indice
primario.
Alcuni meta-indici permettono di immettere una sola volta i
termini di ricerca, lasciando al software il compito di ripetere
l’interrogazione su tutti gli indici selezionati e di produrre una
risposta cumulativa; il risultato è «sporco», cieco rispetto alle
peculiarità dei vari archivi e delle relative tecniche di
interrogazione, ma la rapidità e la potenza di questi strumenti li
rende comunque interessanti.
Possono essere suddivisi in tre sottocategorie: gli indici di indici, i
multi indici e i veri e propri meta-indici in senso stretto.
20 aprile 2004
L'informazione non strutturata
49
4a) Indici di indici
Sono in realtà dei repertori di indici
(semplici liste di link a indici), qualche
volta ampiamente commentati.
Es.: http://riceinfo.rice.edu/Internet
della Rice University
http://www.searchenginewatch.com
http://www.motoridiricerca.it
http://www.notess.com/search
20 aprile 2004
L'informazione non strutturata
50
4b) Multindici
Si tratta di pagine con diversi form per
la ricerca su vari indici, interrogabili solo
uno alla volta.
Alcuni esempi:
http://www.webtaxi.com
http://www.humnet.unipi.it/motoridiricerca.html
20 aprile 2004
L'informazione non strutturata
51
4c) Meta-indici
in senso stretto
In questo caso un’unica maschera di ricerca
permette l’interrogazione cumulativa di vari indici
contemporaneamente. Talora i risultati vengono
«schiacciati» eliminando le ripetizioni e vengono
ordinati in base alla supposta rilevanza rispetto alla
richiesta oppure ad altri criteri.
Es.: http://www.metacrawler.com
http://vivisimo.com
(raggruppa per voci i risultati suddividendoli in
cartelle etichettate con nomi che ne indicano il
contenuto: “clusterizzazione”).
20 aprile 2004
L'informazione non strutturata
52
Altri siti di metaricerche






Fagan Finder: http://www.faganfinder.com
(comprende un’ampia selezione di strumenti di
ricerca, di metaricerca e di reference; offre anche
un buon “metatraduttore automatico”)
Ithaki: http://www.ithaki.net
(dà la possibilità di effettuare metaricerche limitate
ad una specifica area geografica)
ProFusion: http://www.profusion.com
Fazzle: http://www.searchonline.info
Ixquick: http://ixquick.com
Kartoo: http://www.kartoo.com
20 aprile 2004
L'informazione non strutturata
53
5. Indici web per parola
limitati a una disciplina
Nati di recente, sono degli ibridi fra le due categorie
precedenti, delle quali cercano di unire i pregi:
applicano la potenza «cieca» dei motori di ricerca
esclusivamente a un gruppo di siti dedicati a una
particolare disciplina o argomento e indicizzati da
personale specializzato.
Es.:
Argos, http://argos.evansville.edu
(per argomenti che riguardano la storia classica
e medievale)
Hippias, http://hippias.evansville.edu
(per ricerche di filosofia)
Entrambi sono attualmente in fase di revisione e non utilizzabili.
20 aprile 2004
L'informazione non strutturata
54
6. Virtual reference
desk (Vrd)
Queste metarisorse raccolgono, ordinano e
talvolta valutano e commentano le principali
fonti informative e i più utili strumenti di
ricerca disponibili in rete, relativamente a
una determinata disciplina o argomento
(Vrd specializzati) o a Internet in generale
(Vrd generali).
20 aprile 2004
L'informazione non strutturata
55
Esempi di Vrd
Es. per bibliotecari:

http://www.burioni.it/forum/ridi/home.htm

http://www.cultura.regione.toscana.it/bibl/ref/index.htm

http://www.disma-it.com/VRD.html
Es. per umanisti:

http://lettere1.lett.unitn.it/lavori/carl.htm

http://www.rassegna.unibo.it/index.html

http://www.unimc.it/web_9900/Casb/virtual_library/umanis/virtual3_umani
stico.htm

http://www.unifi.it/biblio/scienzesociali/servizi/reference04.htm
Es per storici:

http://www.storiaonline.org/desk
Per le risorse web:

http://www.iue.it/LIB/external/internet.html

http://www.biblioteca.cologno-monzese.mi.it/servizi_di_informazione
20 aprile 2004
L'informazione non strutturata
56
Ricerche nella ‘blogosfera’
Negli ultimi anni è esploso il fenomeno dei
siti weblog (o blog): si tratta di siti
prevalentemente (ma non necessariamente)
personali, costruiti a partire da ‘articoli’
(post) organizzati cronologicamente, con in
testa i più recenti. Il mondo dei weblog ha
creato uno spazio condiviso (la
blogosfera), popolato da utenti che si
scambiano informazioni, le
approfondiscono, le discutono
collaborativamente.
20 aprile 2004
L'informazione non strutturata
57
Varia tipologia dei weblog
I weblog si differenziano per tipologia di
contenuti, lunghezza dei post, strumenti
tecnici utilizzati.
Per quanto riguarda i contenuti è possibili
distinguere:
 weblog di rassegna e segnalazione
 weblog di commento
 weblog di narrazione
 weblog di progetto
20 aprile 2004
L'informazione non strutturata
58
Weblog e giornalismo
La caratteristica di inserire link a siti o risorse di
interesse, nonché quella di gestire commenti al
proprio articolo, rendono la blogosfera una vera e
propria ragnatela di riferimenti incrociati.
Questa natura fortemente reticolare fa dei weblog
uno strumento potente di “public opinion”, còlto fin
da subito dal mondo giornalistico, di professionisti
e non. Esistono ormai numerosi weblog che
costituiscono una fonte informativa diretta e
strumenti di comunicazione insostituibili per
movimenti dalla natura spesso transnazionale
(guerra in Iraq, mondo no-global, America latina,
Paesi africani, ecc.)
20 aprile 2004
L'informazione non strutturata
59
Gli indici della blogosfera
Esiste una gran quantità di indici e directory che mappano
la blogosfera (ma solo i weblog):
Eatonweb, http://portal.eatonweb.com
Blogwise, http://www.blogwise.com
Tuttavia si è ancora molto indietro nella catalogazione
semantica dei post; un esempio di “aggregatore
semantico” è
BlogAggregator, http://www.bookcafe.net/blog/aggregator/
Infine i popularity index individuano le notizie di volta in
volta più discusse nella blogosfera; permettono inoltre di
costruire le classifiche dei weblog più popolari, la
costellazione di appartenenza di un weblog (cioè l’insieme
dei weblog che lo citano e ne sono citati), ecc.
20 aprile 2004
L'informazione non strutturata
60
Indici web personalizzabili
Mirano a rintracciare autonomamente
tutte le risorse di interesse per
l’utilizzatore, sulla base della preventiva
definizione di un accurato «profilo di
ricerca».
Es. piuttosto semplici:
MyYahoo! (http://www.my.yahoo.com)
My Excite (http://www.my.excite.com)
20 aprile 2004
Tra sogno e realtà
62
Gli agenti di ricerca
Si tratta di programmi che svolgono, a intervalli
prefissati, ricerche anche molto complesse, e che
hanno la capacità di “reagire” autonomamente ai
risultati ottenuti (ad esempio filtrandoli attraverso
criteri preimpostati e difficilmente eseguibili
direttamente sul motore di ricerca).
Ne esistono di molti tipi (in versioni gratuite o a a
pagamento); una rassegna si può trovare in alcuni
siti specializzati:



BotSpot, http://www.botspot.com
BotKnowledge, http://www.botknowledge.com
Agentland, http://www.agentland.com
20 aprile 2004
Tra sogno e realtà
63
Un ottimo agente
Un ottimo esempio di agente software è Copernic Agent
(http://www.copernic.com), esistente in 3 versioni: Basic
(gratuita), Personal (circa 30 €), Professional (circa 80 €).
La Professional è in grado di interrogare per noi oltre
1000 strumenti di ricerca (tra motori di ricerca e risorse
informative di vario tipo, incluse le maggiori librerie in
rete) divisi in 120 categorie relative sia all’argomento che
all’area geografica. Gli ambiti sono i più vari: fonti
giornalistiche, bibliografiche, cinematografiche, musicali,
immagini audio e video.
Un programma con caratteristiche simili è BullsEye
(http://www.intelliseek.com) la cui versione professionale
costa 199 $.
20 aprile 2004
Tra sogno e realtà
64
Web-based searchbots
Sono agenti software ospitati su server esterni,
utilizzabili pertanto via web. È forse in assoluto il
settore destinato alla maggiore espansione, vista
anche la possibilità di farli lavorare mentre il
nostro pc è disconnesso.
Questi agenti svolgono le ricerche che noi
preimpostiamo, utilizzando la posta elettronica
per informarci sui risultati ottenuti.
Un es. è Tracerlock (http://www.tracerlock.com)
il cui costo è di 4 $ al mese.
20 aprile 2004
Tra sogno e realtà
65
Web semantico …
Il sogno del Web Semantico è ancora lungi dal
realizzarsi. Il progetto consiste nell’associare alle
molteplici risorse disponibili in Rete una descrizione
formale del loro significato.
Per ottenere ciò occorre che ogni singola risorsa
venga identificata in modo univoco nel web (URI:
Universal Resource Identifier), e che il suo contenuto
sia descritto da metadata espressi in un linguaggio
comprensibile anche alle macchine, sia dal punto di
vista sintattico che semantico; perciò è stato
pensato l’RDF (Resource Description Framework)
metalinguaggio dichiarativo basato su XML.
20 aprile 2004
Tra sogno e realtà
66
… e motori
di ricerca semantici
Occorre poi specificare le relazioni concettuali
soggiacenti a tali descrizioni: perciò è stato ideato il
sistema delle ontologie formali.
Solo a questo punto è possibile utilizzare sistemi di
deduzione logica automatica o euristica (motori
inferenziali) per elaborare tale informazione semantica.
Oltre a evidenti difficoltà pratiche, questo sogno si
scontra contro una evidenza: non può essere realizzato
in modo centralizzato, ma solo se vi collaborerà l’intera
comunità dei creatori e degli utenti delle risorse di rete.
20 aprile 2004
Tra sogno e realtà
67
Scaricare
SAPERI STORICI E NUOVE TECNOLOGIE Università degli Studi di

SAPERI STORICI E NUOVE TECNOLOGIE Università degli Studi di

Presentazione in PPT commissione

Neatec

domani e` gia` qui