SAPERI STORICI E NUOVE TECNOLOGIE Università degli Studi di Napoli “Federico II” Dipartimento di discipline storiche “Ettore Lepore” NICOLA MADONNA Il recupero dell’informazione in rete Sommario della lezione 1. 2. 3. 4. 5. Information retrieval: alcuni concetti di base L’informazione in Rete: a) Caratteristiche di Internet b) Tipologia dell’informazione in Rete La ricerca di informazione strutturata Ricerca libera nel Web Tra sogno e realtà: gli agenti e il web semantico 20 aprile 2004 Sommario 2 Information retrieval È l’ insieme delle tecniche utilizzate per il recupero mirato dell’informazione. Il recupero dell’informazione si può considerare come parte dei processi generali di comunicazione. 20 aprile 2004 Information retrieval 4 Un modello del processo di comunicazione Secondo il modello di Shannon e Weaver* il processo di comunicazione si può descrivere così: una fonte esprime un messaggio che deve essere trasmesso a un ricevente; per rendere possibile la trasmissione attraverso un canale selezionato il messaggio deve essere codificato e poi decodificato prima di poter essere compreso dal ricevente. * C.E. Shannon, W. Weaver, La teoria matematica delle comunicazioni, Milano, Etas, 1983 20 aprile 2004 Information retrieval 5 Due fenomeni importanti Rumore: un’interferenza che influisce sulla fedeltà della comunicazione tra fonte e ricevente; nel nostro caso è rumore il recupero di documenti non rilevanti nella risposta a una richiesta. Feedback: possibilità di correggere o chiarire subito il messaggio tra fonte e ricevente; il feedback riduce perciò gli effetti del rumore e garantisce un grado ottimale nella comunicazione. 20 aprile 2004 Information retrieval 6 Ricerca di tipo “euristico” Si definisce euristico il tipo di ricerca che attiva un meccanismo di feedback. Si tratta sempre di ricerche di tipo “attivo” in cui il ricevente può a sua volta divenire fonte, codificando un messaggio in forma di richiesta e definire in modo più preciso il tipo di informazione ricercato. Elemento fondamentale di questo tipo di ricerca è l’interazione tra l’utente e i risultati e la possibilità di modificare la strategia di ricerca. 20 aprile 2004 Information retrieval 7 Ricerca in Rete Data l’enorme quantità di informazione presente in Rete, sarebbe auspicabile una preventiva selezione e organizzazione, in modo da ottenere sempre e solo ciò che è pertinente ad una data richiesta: cioè una disseminazione selettiva dell’informazione. 20 aprile 2004 Information retrieval 8 Ricerca efficace Il problema principale della ricerca in Internet è riuscire a recuperare il maggior numero di documenti pertinenti tra quelli esistenti. Il rischio più grande non è trovare poco materiale bensì recuperare una massa ingestibile di informazioni di cui solo una parte pertinente all'oggetto della ricerca. 20 aprile 2004 Information retrieval 9 Richiamo e precisione Uno dei concetti fondamentali dell’information retrieval è quello del rapporto inverso tra richiamo e precisione: il richiamo misura la capacità di recuperare tutti i documenti pertinenti (ovvero considerati rilevanti rispetto all’obiettivo della ricerca) presenti nell’archivio interrogato; la precisione (o rilevanza) misura la capacità di recuperare soltanto i documenti pertinenti. Per una ricerca efficace occorre trovare il compromesso ottimale tra richiamo e precisione 20 aprile 2004 Information retrieval 10 Futility point Punto di inefficacia della ricerca Web (Futility point): 20 documenti da vagliare. E' provato che oltre questo numero normalmente i risultati non sono pertinenti. Se si trovano pochi documenti (es. qualche decina) possono essere selezionati manualmente; se si trovano molti documenti (oltre il centinaio), occorre raffinare la ricerca rendendola più specifica. 20 aprile 2004 Information retrieval 11 Prime conclusioni Il grado di precisione e di richiamo sono influenzati dal tipo di ricerca, generale o specifica. La precisione è inoltre un fattore soggettivo (dipende dal bagaglio culturale di chi effettua una ricerca). In genere si privilegia il richiamo. In definitiva, risulta impossibile indicare una strategia di ricerca che consenta di recuperare in un sol colpo tutti e solo i documenti pertinenti contenuti in un archivio di dati. 20 aprile 2004 Information retrieval 12 Internet e WWW Internet è la “rete delle reti” nata nel 1982 che consente la connessione fra reti grazie al protocollo TCP/IP (Transmission Control Protocol/Internet Protocol), standard che sta alla base dello sviluppo di Internet consentendo a computer di diverse reti di comunicare tra loro. Www (World Wide Web) è l’insieme delle risorse di Internet raggiungibili tramite il protocollo http (Hyper Text Transport Protocol) utilizzato dal server web per trasferire informazioni ai browser. 20 aprile 2004 Le caratteristiche del Web 14 Cosa è e cosa non è Internet Internet è in primo luogo uno strumento di comunicazione e di scambio di informazioni. Internet è una immensa risorsa di informazioni, ma non è il deposito universale della conoscenza umana. Internet non può mai costituire l’unica fonte informativa di una ricerca scientifica seria. Internet non integra e organizza da sé l’informazione fornita. 20 aprile 2004 Le caratteristiche del Web 15 Le risorse in Internet Filmati OPAC Archivi di dati Pagine web Programmi, testi Documenti sonori Fotografie, immagini Periodici elettronici 20 aprile 2004 E-book Indici, repertori Le caratteristiche del Web 16 Gli indirizzi delle risorse in Internet URL (Uniform Resource Locator) = sono dei puntatori universali che indicano in modo univoco qualsiasi risorsa Internet (siti, posta elettronica, archivi via Telnet). Es. di Url: http :// Protocollo usato per lo scambio dei dati 20 aprile 2004 sib04.unina.it Indirizzo della risorsa :22 Porta logica utilizzata per quel servizio dal server che lo fornisce (quasi sempre di default) Le caratteristiche del Web 17 Caratteristiche dell’informazione in Internet Fluidità esterna (alcune risorse web non si lasciano facilmente ricondurre al concetto di testo; es.: chat, newsgroup, ecc.). (nascita, morte, migrazione e/o cambiamenti di siti o pagine web). Fossilizzazione (link morti, documenti superati da versioni più recenti, ecc.). Fluidità interna (risorse, spesso molto articolate, in continua evoluzione). 20 aprile 2004 Detestualizzazione Disintermediazione (passaggio diretto del testo, dall’autore al lettore:vantaggi e pericoli). Omogeneizzazione (difficile discernere la qualità di un documento sul web dal solo “aspetto esterno”). Le caratteristiche del Web 18 Il web invisibile Con l’espressione invisible web si indicavano quelle risorse del tutto impenetrabili ai motori di ricerca: testi in formato pdf, risorse interne a database, o file difficilmente identificabili e classificabili quali file di immagine, audio e video. Tutte queste risorse stanno diventando meno invisibili grazie all’evoluzione dei motori di ricerca. Ma la continua crescita del Www e le scelte commerciali delle aziende che gestiscono i motori stanno peggiorando la situazione, così una buona parte del Web continua a risultare oggi di fatto irraggiungibile e quindi invisibile. 20 aprile 2004 Le caratteristiche del Web 19 Una ricerca sullo stato del Web Secondo la Inktomi, uno dei più importanti produttori di sistemi per motori di ricerca, il 25% dei documenti presenti nel Www è irrilevante e un altro 25% ha interesse solo per un numero molto ristretto di persone; ciò spiega perché manca la voglia di indicizzare “proprio tutto”: l’obiettivo è quello di selezionare nel mare magnum solo le risorse più interessanti per gli utenti, cercando comunque di dare maggior peso alle informazioni “locali”. Ancor più grave il problema dei tempi di aggiornamento dei link: Inktomi nel 2001 era sceso ad un mese, ancora però un periodo troppo lungo per chi cerca ad es. informazioni d’attualità. 20 aprile 2004 Le caratteristiche del Web 20 La teoria del papillon Secondo una ricerca condotta da Ibm, Altavista e Compaq, nota come progetto Clever (1999), pare che il web sia diviso in 4 sezioni non molto ben connesse tra loro (teoria del papillon): un nucleo di siti molto connessi (30% del totale), delle pagine di origine (24%), delle pagine di arrivo (24%) e delle pagine disconnesse (22%). 20 aprile 2004 Le caratteristiche del Web 21 Pay for placement Il «pay for placement» è un meccanismo che sta prendendo sempre più piede per cui un’azienda paga per garantirsi una buona posizione nella lista ottenuta dalla ricerca con determinate parole chiave: ciò favorisce i siti delle aziende commerciali a discapito di siti non profit o comunque privi di finanziamento. A tal proposito non sempre i motori di ricerca dichiarano la propria politica rispetto a queste soluzioni. Google vende non i risultati, ma solo dei banner pubblicitari che compaiono associati a certe parole di ricerca, dichiarando di non piegarsi alla logica del pay for placement. 20 aprile 2004 Le caratteristiche del Web 22 Ordine e disordine L’informazione presente in Rete è di due tipi: informazione ordinata, cioè strutturata: è in genere puntuale e affidabile ma non è integrata nel web ed è perciò ricercabile con maggiore fatica informazione disordinata, cioè non strutturata: la ricerca avviene con gli strumenti di navigazione noti, ma poi occorre valutarne l’affidabilità 20 aprile 2004 L'informazione strutturata 24 Informazione strutturata L’esempio migliore di informazione strutturata è dato dalle basi di dati: opac, metaopac, multiopac elenchi, cataloghi archivi di dati o banche dati 20 aprile 2004 L'informazione strutturata 25 La ricerca su basi di dati Informazioni necessarie: come è strutturata la base dati come sono organizzati i record presenti: quali campi, quali convenzioni di schedatura, quali standard applicati, uso di abbreviazioni, uso di thesaurus, quali tipi di ricerca previsti, ecc. grado di affidabilità stato di aggiornamento 20 aprile 2004 L'informazione strutturata 26 Linguaggi di interrogazione Esistono numerosi linguaggi di interrogazione: Il più diffuso nella maggior parte delle banche dati è quello degli operatori logici che derivano dall'algebra di Boole e vengono impiegati dai calcolatori per compiere moltissime operazioni. Molto diffusi anche gli operatori relazionali e gli operatori di prossimità. Da non dimenticare, infine, i cosiddetti caratteri jolly. 20 aprile 2004 L'informazione strutturata 27 Gli operatori logici (o booleani) AND o + (intersezione): si usa per rintracciare i record che soddisfano entrambi i criteri richiesti. OR (unione): si usa per rintracciare i record che soddisfano almeno uno dei criteri richiesti. NOT o AND NOT (complemento): si usa per rintracciare i record che soddisfano un determinato criterio escludendo quelli che però ne soddisfano un altro. XOR o NOR (esclusione): si usa per rintracciare i record che soddisfano esclusivamente uno solo dei criteri richiesti. 20 aprile 2004 L'informazione strutturata 28 Operatori relazionali In alcuni Opac è possibile utilizzare anche degli operatori relazionali, che permettono di richiedere che il contenuto di un campo sia maggiore (>), minore (<) oppure uguale (=) ad un valore specificato. Questi operatori si applicano tipicamente alle date ed altri campi numerici; altrimenti assumono il significato di "precedente/successivo nell'ordine alfabetico a -". 20 aprile 2004 L'informazione strutturata 29 Operatori di prossimità Gli operatori di prossimità sono una versione più precisa degli operatori AND e NOT: permettono infatti di richiedere che le parole in questione non solo siano (o non siano) presenti nello stesso record, ma si trovino ad una determinata distanza fra loro ed eventualmente in un determinato ordine. Gli operatori di prossimità disponibili variano a seconda degli Opac, ma perlopiù permettono di: cercare due parole adiacenti e nell'ordine dato (l'operatore è spesso scritto ADJ oppure WITH); cercare due parole adiacenti in qualsiasi ordine (spesso scritto NEAR) cercare due parole presenti all'interno dello stesso campo (spesso scritto SAME). 20 aprile 2004 L'informazione strutturata 30 Combinare gli operatori Gli operatori logici si possono combinare, creando stringhe di ricerca anche complesse per particolari esigenze. In questo caso occorre fare attenzione all'ordine con cui vengono eseguite le operazioni logiche; secondo la gerarchia standard, l'ordine di priorità dovrebbe essere NOT, AND, OR, ma in realtà non tutti gli Opac seguono questa regola: perciò il sistema più sicuro è utilizzare le parentesi. 20 aprile 2004 L'informazione strutturata 31 I caratteri jolly I cosiddetti caratteri jolly sono dei simboli che possono corrispondere a qualsiasi carattere, oppure a una sequenza di caratteri di qualsiasi lunghezza. Anche nei simboli usati come caratteri jolly gli Opac variano molto (ciò rende necessario leggere di volta in volta le relative istruzioni). Ecco i casi in cui si usano: troncamento: è un modo per evitare di dover digitare lunghe sequenze di termini alternativi aventi una stessa radice, separati dall'operatore OR (carattere jolly usato: asterisco, dollaro, due punti, o altro). mascheramento: si sostituisce un determinato numero di caratteri all’interno della parola (carattere jolly usato: soprattutto asterisco, o punto interrogativo). 20 aprile 2004 L'informazione strutturata 32 La ricerca bibliografica Opac Opac collettivi integrati Opac collettivi cumulati Meta-Opac Multi-Opac [Vedi appunti della lezione di Antonella De Robbio del 16 marzo] Suggerimento bibliografico: F. Metitieri, R. Ridi, Biblioteche in rete : istruzioni per l’uso, Roma-Bari, 2002 (16,00 €) 20 aprile 2004 L'informazione strutturata 33 La ricerca di mail, indirizzi, numeri di telefono Mail: MESA (Meta Email Search Agent) http://mesa.rrzn.uni-hannover.de Mailory (per l’Italia, realizzato da TIN) http://mailory.tin.it Indirizzi e numeri di telefono: http://www.pronto.it http://elenco.libero.it http://paginebianche.virgilio.it http://paginegialle.virgilio.it 20 aprile 2004 L'informazione strutturata 34 La ricerca di programmi Software shareware: 1. programma mirato: cercare il sito della casa produttrice e scaricare da lì la versione ‘demo’ o ‘trial’; 2. ricerca di un certo tipo di programma: http://shareware.cnet.com http://download.com.com http://www.tucows.com 20 aprile 2004 L'informazione strutturata 35 Ricerca libera sul Web Il web si espande a ritmi esponenziali (si parla di 5 o 6 miliardi di pagine web, ma il dato è in costante crescita) Information overload: è l’eccesso di informazione che non si riesce più a padroneggiare. 20 aprile 2004 L'informazione non strutturata 37 Due problemi 20 aprile 2004 L'informazione non strutturata 38 Qualche elemento per la valutazione Per valutare l’affidabilità di un’informazione trovata in Rete occorre valutare l’affidabilità del sito che la ospita; in particolare, si dovrebbe sempre cercare di capire chi ha immesso in Rete quella particolare pagina, in quale contesto e a quali fini. Un consiglio: risalire sempre alla home page del sito che ospita l’informazione trovata. 20 aprile 2004 L'informazione non strutturata 39 Reperire l’informazione Gli strumenti a disposizione sono ormai di molti tipi, ma gli utenti tendono a usarli senza troppe distinzioni confondendo le loro potenzialità. Ecco, in ordine di specializzazione crescente, le principali tipologie di indici oggi disponibili: 1) 2) 3) 4) 5) 6) Portali Indici web per parola Indici web per argomento Meta-indici Indici web per parola limitati a una disciplina Virtual reference desk 20 aprile 2004 L'informazione non strutturata 40 1. Portali Molto utilizzati dagli utenti meno esperti e poco adatti ai professionisti della ricerca in Internet, i portali si candidano a costituire il sito di riferimento dei navigatori non solo per la ricerca di informazioni ma anche per ogni altra attività effettuabile in rete (acquisti in linea, prenotazioni di servizi, ecc.). Includono quasi sempre una directory per argomento molto orientata alle necessità della vita quotidiana, un motore di ricerca sviluppato in proprio o mutuato dai maggiori, e un insieme dei più svariati servizi. 20 aprile 2004 L'informazione non strutturata 41 Esempio di portali Esempi italiani: Ciaoweb, http://www.ciaoweb.it Jumpy, http://www.jumpy.it Kataweb, http://www.kataweb.it Supereva, http://www.supereva.it Virgilio, http://www.virgilio.it Ormai si tende a dividerli in portali «orizzontali» (cioè generali) e «verticali» (cioè specializzati, talora denominati anche «vortali»). Altri tipi di portali: e-commerce, di contenuto, B2B, broadband, multiaccesso, mobili di 2a o 3a generazione, ecc. 20 aprile 2004 L'informazione non strutturata 42 2. Indici web per parola Meglio noti come motori di ricerca o search engine. Grazie ad alcuni programmi raccolgono automaticamente in grandi archivi e permettono di individuare tutte le occorrenze di uno o più termini presenti in una buona parte delle pagine web mondiali o di un singolo Stato. Purtroppo, i risultati trovati non sono sempre pertinenti, nonostante il perfezionamento continuo di questi strumenti di ricerca. Il maggior problema consiste nel far individuare automaticamente a un programma, senza l’intervento di catalogatori umani, omonimie, sinonimie e più in generale il contenuto semantico delle pagine web. 20 aprile 2004 L'informazione non strutturata 43 Alcuni motori di ricerca I maggiori motori di ricerca internazionali: Google, http://www.google.com (il più usato al mondo: 200 milioni di richieste al giorno) Alltheweb, http://www.alltheweb.com (il più recente ancorché in rapido sviluppo) Altavista, http://www.altavista.com (dotato di numerose opzioni per affinare la ricerca) Hotbot, http://www.hotbot.com Lycos, http://www.lycos.com 20 aprile 2004 L'informazione non strutturata 44 e inoltre … Da segnalare inoltre: Northern light, http://www.northernlight.com Excite, http://www.excite.com Go.com, http://www.go.com Overture, http://www.overture.com Alcuni di questi motori permettono di rintracciare altre pagine web contenenti una certa percentuale di parole uguali a quelle delle pagine già trovate (“ricerca per concetto” o “per somiglianza”). 20 aprile 2004 L'informazione non strutturata 45 infine… Ci sono poi motori studiati per rispondere a domande poste in linguaggio naturale (in inglese): es. Ask Jeeves http://www.ask.com In questo caso a ogni interrogazione viene fornita sempre una sola risposta e non una lista di indirizzi. Nel webspace italiano da segnalare: 20 aprile 2004 Arianna, http://arianna.libero.it Il Trovatore, http://www.iltrovatore.it Janas, http://www.tiscali.it Supereva, http://www.supereva.it L'informazione non strutturata 46 3. Indici web per argomento Sono costruiti da personale specializzato che indicizza e ordina alcune pagine Web in base al soggetto, scartando quelle meno interessanti e talvolta aggiungendo un breve riassunto e una valutazione: ciò migliora la qualità, fa diminuire il rumore, ma ovviamente per problemi di costi gli archivi sono di gran lunga più piccoli di quelli usati dai motori, costruiti automaticamente. Va però ricordato che i motori per parola rintracciano singole pagine (che solo talvolta costituiscono la home page di un sito o di una risorsa), mentre le directory per argomento si focalizzano sui siti o comunque su unità informative compiute. 20 aprile 2004 L'informazione non strutturata 47 Alcune directories Yahoo: http://www.yahoo.com (basato sul lavoro di un centinaio di redattori professionisti) Open directory: http://dmoz.org (basato sulle segnalazioni di decine di migliaia di volontari) Looksmart: http://www.looksmart.com About: http://www.about.com (diviso in circa 700 aree tematiche diverse, ognuna affidata ad un esperto volontario) In italiano: Supereva: http://www.supereva.it 20 aprile 2004 L'informazione non strutturata 48 4. Meta-indici Permettono l’accesso (talvolta anche l’interrogazione, non sempre contemporanea) a un certo numero di indici e repertori primari come quelli finora elencati. In alcuni casi è possibile scegliere se impostare la ricerca direttamente dalla pagina del meta-indice oppure se collegarsi prima a quella dell’indice primario. Alcuni meta-indici permettono di immettere una sola volta i termini di ricerca, lasciando al software il compito di ripetere l’interrogazione su tutti gli indici selezionati e di produrre una risposta cumulativa; il risultato è «sporco», cieco rispetto alle peculiarità dei vari archivi e delle relative tecniche di interrogazione, ma la rapidità e la potenza di questi strumenti li rende comunque interessanti. Possono essere suddivisi in tre sottocategorie: gli indici di indici, i multi indici e i veri e propri meta-indici in senso stretto. 20 aprile 2004 L'informazione non strutturata 49 4a) Indici di indici Sono in realtà dei repertori di indici (semplici liste di link a indici), qualche volta ampiamente commentati. Es.: http://riceinfo.rice.edu/Internet della Rice University http://www.searchenginewatch.com http://www.motoridiricerca.it http://www.notess.com/search 20 aprile 2004 L'informazione non strutturata 50 4b) Multindici Si tratta di pagine con diversi form per la ricerca su vari indici, interrogabili solo uno alla volta. Alcuni esempi: http://www.webtaxi.com http://www.humnet.unipi.it/motoridiricerca.html 20 aprile 2004 L'informazione non strutturata 51 4c) Meta-indici in senso stretto In questo caso un’unica maschera di ricerca permette l’interrogazione cumulativa di vari indici contemporaneamente. Talora i risultati vengono «schiacciati» eliminando le ripetizioni e vengono ordinati in base alla supposta rilevanza rispetto alla richiesta oppure ad altri criteri. Es.: http://www.metacrawler.com http://vivisimo.com (raggruppa per voci i risultati suddividendoli in cartelle etichettate con nomi che ne indicano il contenuto: “clusterizzazione”). 20 aprile 2004 L'informazione non strutturata 52 Altri siti di metaricerche Fagan Finder: http://www.faganfinder.com (comprende un’ampia selezione di strumenti di ricerca, di metaricerca e di reference; offre anche un buon “metatraduttore automatico”) Ithaki: http://www.ithaki.net (dà la possibilità di effettuare metaricerche limitate ad una specifica area geografica) ProFusion: http://www.profusion.com Fazzle: http://www.searchonline.info Ixquick: http://ixquick.com Kartoo: http://www.kartoo.com 20 aprile 2004 L'informazione non strutturata 53 5. Indici web per parola limitati a una disciplina Nati di recente, sono degli ibridi fra le due categorie precedenti, delle quali cercano di unire i pregi: applicano la potenza «cieca» dei motori di ricerca esclusivamente a un gruppo di siti dedicati a una particolare disciplina o argomento e indicizzati da personale specializzato. Es.: Argos, http://argos.evansville.edu (per argomenti che riguardano la storia classica e medievale) Hippias, http://hippias.evansville.edu (per ricerche di filosofia) Entrambi sono attualmente in fase di revisione e non utilizzabili. 20 aprile 2004 L'informazione non strutturata 54 6. Virtual reference desk (Vrd) Queste metarisorse raccolgono, ordinano e talvolta valutano e commentano le principali fonti informative e i più utili strumenti di ricerca disponibili in rete, relativamente a una determinata disciplina o argomento (Vrd specializzati) o a Internet in generale (Vrd generali). 20 aprile 2004 L'informazione non strutturata 55 Esempi di Vrd Es. per bibliotecari: http://www.burioni.it/forum/ridi/home.htm http://www.cultura.regione.toscana.it/bibl/ref/index.htm http://www.disma-it.com/VRD.html Es. per umanisti: http://lettere1.lett.unitn.it/lavori/carl.htm http://www.rassegna.unibo.it/index.html http://www.unimc.it/web_9900/Casb/virtual_library/umanis/virtual3_umani stico.htm http://www.unifi.it/biblio/scienzesociali/servizi/reference04.htm Es per storici: http://www.storiaonline.org/desk Per le risorse web: http://www.iue.it/LIB/external/internet.html http://www.biblioteca.cologno-monzese.mi.it/servizi_di_informazione 20 aprile 2004 L'informazione non strutturata 56 Ricerche nella ‘blogosfera’ Negli ultimi anni è esploso il fenomeno dei siti weblog (o blog): si tratta di siti prevalentemente (ma non necessariamente) personali, costruiti a partire da ‘articoli’ (post) organizzati cronologicamente, con in testa i più recenti. Il mondo dei weblog ha creato uno spazio condiviso (la blogosfera), popolato da utenti che si scambiano informazioni, le approfondiscono, le discutono collaborativamente. 20 aprile 2004 L'informazione non strutturata 57 Varia tipologia dei weblog I weblog si differenziano per tipologia di contenuti, lunghezza dei post, strumenti tecnici utilizzati. Per quanto riguarda i contenuti è possibili distinguere: weblog di rassegna e segnalazione weblog di commento weblog di narrazione weblog di progetto 20 aprile 2004 L'informazione non strutturata 58 Weblog e giornalismo La caratteristica di inserire link a siti o risorse di interesse, nonché quella di gestire commenti al proprio articolo, rendono la blogosfera una vera e propria ragnatela di riferimenti incrociati. Questa natura fortemente reticolare fa dei weblog uno strumento potente di “public opinion”, còlto fin da subito dal mondo giornalistico, di professionisti e non. Esistono ormai numerosi weblog che costituiscono una fonte informativa diretta e strumenti di comunicazione insostituibili per movimenti dalla natura spesso transnazionale (guerra in Iraq, mondo no-global, America latina, Paesi africani, ecc.) 20 aprile 2004 L'informazione non strutturata 59 Gli indici della blogosfera Esiste una gran quantità di indici e directory che mappano la blogosfera (ma solo i weblog): Eatonweb, http://portal.eatonweb.com Blogwise, http://www.blogwise.com Tuttavia si è ancora molto indietro nella catalogazione semantica dei post; un esempio di “aggregatore semantico” è BlogAggregator, http://www.bookcafe.net/blog/aggregator/ Infine i popularity index individuano le notizie di volta in volta più discusse nella blogosfera; permettono inoltre di costruire le classifiche dei weblog più popolari, la costellazione di appartenenza di un weblog (cioè l’insieme dei weblog che lo citano e ne sono citati), ecc. 20 aprile 2004 L'informazione non strutturata 60 Indici web personalizzabili Mirano a rintracciare autonomamente tutte le risorse di interesse per l’utilizzatore, sulla base della preventiva definizione di un accurato «profilo di ricerca». Es. piuttosto semplici: MyYahoo! (http://www.my.yahoo.com) My Excite (http://www.my.excite.com) 20 aprile 2004 Tra sogno e realtà 62 Gli agenti di ricerca Si tratta di programmi che svolgono, a intervalli prefissati, ricerche anche molto complesse, e che hanno la capacità di “reagire” autonomamente ai risultati ottenuti (ad esempio filtrandoli attraverso criteri preimpostati e difficilmente eseguibili direttamente sul motore di ricerca). Ne esistono di molti tipi (in versioni gratuite o a a pagamento); una rassegna si può trovare in alcuni siti specializzati: BotSpot, http://www.botspot.com BotKnowledge, http://www.botknowledge.com Agentland, http://www.agentland.com 20 aprile 2004 Tra sogno e realtà 63 Un ottimo agente Un ottimo esempio di agente software è Copernic Agent (http://www.copernic.com), esistente in 3 versioni: Basic (gratuita), Personal (circa 30 €), Professional (circa 80 €). La Professional è in grado di interrogare per noi oltre 1000 strumenti di ricerca (tra motori di ricerca e risorse informative di vario tipo, incluse le maggiori librerie in rete) divisi in 120 categorie relative sia all’argomento che all’area geografica. Gli ambiti sono i più vari: fonti giornalistiche, bibliografiche, cinematografiche, musicali, immagini audio e video. Un programma con caratteristiche simili è BullsEye (http://www.intelliseek.com) la cui versione professionale costa 199 $. 20 aprile 2004 Tra sogno e realtà 64 Web-based searchbots Sono agenti software ospitati su server esterni, utilizzabili pertanto via web. È forse in assoluto il settore destinato alla maggiore espansione, vista anche la possibilità di farli lavorare mentre il nostro pc è disconnesso. Questi agenti svolgono le ricerche che noi preimpostiamo, utilizzando la posta elettronica per informarci sui risultati ottenuti. Un es. è Tracerlock (http://www.tracerlock.com) il cui costo è di 4 $ al mese. 20 aprile 2004 Tra sogno e realtà 65 Web semantico … Il sogno del Web Semantico è ancora lungi dal realizzarsi. Il progetto consiste nell’associare alle molteplici risorse disponibili in Rete una descrizione formale del loro significato. Per ottenere ciò occorre che ogni singola risorsa venga identificata in modo univoco nel web (URI: Universal Resource Identifier), e che il suo contenuto sia descritto da metadata espressi in un linguaggio comprensibile anche alle macchine, sia dal punto di vista sintattico che semantico; perciò è stato pensato l’RDF (Resource Description Framework) metalinguaggio dichiarativo basato su XML. 20 aprile 2004 Tra sogno e realtà 66 … e motori di ricerca semantici Occorre poi specificare le relazioni concettuali soggiacenti a tali descrizioni: perciò è stato ideato il sistema delle ontologie formali. Solo a questo punto è possibile utilizzare sistemi di deduzione logica automatica o euristica (motori inferenziali) per elaborare tale informazione semantica. Oltre a evidenti difficoltà pratiche, questo sogno si scontra contro una evidenza: non può essere realizzato in modo centralizzato, ma solo se vi collaborerà l’intera comunità dei creatori e degli utenti delle risorse di rete. 20 aprile 2004 Tra sogno e realtà 67