Capitolo III. Memorizzazione e ricerca nel mondo digitale Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Prima parte Accesso e conservazione nella digitalizzazione Dalla carta ai bit Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 2 La trasformazione dell’informazione digitale • Si dice che trasformi il modo di imparare, il modo di comunicare, anche il modo di pensare • Ma cambia anche il modo di catalogare le risorse, il modo di reperirle e il modo di interagire con esse • Cambia il modo di conservare e accedere a informazioni, reperti, immagini, suoni, il patrimonio culturale Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 3 Le caratteristiche dell’info digitale • FLESSIBILITÀ: è possibile modificarla facilmente, senza traccia di cancellatura o cambiamento • RIPRODUCIBILITÀ: è possibile realizzare un numero infinito di copie dal file digitale senza usurarlo • RICERCABILITÀ: è possibile fare ricerche approfondite anche incrociate su fonti diverse • MACCHINA-DIPENDENZA: per la fruizione è necessario l’uso di una macchina adeguatamente programmata Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 4 Digitalizzazione tra accesso e conservazione • La digitalizzazione garantisce l’accesso a distanza e alcuni strumenti di ricerca (dipende da come viene effettuata) • Ma presenta molti problemi rispetto alla conservazione delle informazioni rispetto alla garanzia di integrità e autenticità Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 5 I fattori di minaccia per la longevità delle informazioni – I supporti – Le macchine lettrici dei supporti – La codifica Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 6 Supporti dei dati digitali • Storicamente i supporti resistevano finché non interveniva un agente esterno a distruggerli • Nel caso dei supporti digitali vale il contrario: se non si agisce per preservarli, si danneggiano irrimediabilmente Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 7 Lettori dei dati digitali • L’invecchiamento delle macchine preposte alla lettura dei dati digitali può presentare veri rischi per la conservazione del materiale • Se in linea teorica è possibile trasferire i dati digitali su un nuovo supporto per il quale essi sono leggibili, in pratica è molto difficile organizzare il trasferimento di questi dati in mancanza di una macchina per la lettura in funzione • La situazione è aggravata dalle scelte del mercato HW/SW, che spinge per il continuo rinnovamento di lettori e supporti Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 8 Mantenere i dati codificati in un formato leggibile • Due metodi principali: – la continua ricodifica da una configurazione sw/hw a quella più nuova – la creazione di un software in grado di emulare formati sw obsoleti • In tutti i casi, nonostante la migrazione di SW non proprietari, come l’ASCII, avvenga in modo corretto, di solito non viene prodotto lo stesso file da cui si era partiti Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 9 Strumenti di codifica che minacciano integrità, autenticità e longevità • Compressione • Criptaggio • Interrelazione • Custodia • Traduzione Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 10 Compressione e criptaggio • La compressione può avvenire senza perdite o con perdite. – Per esempio: in un formato molto comune come JPEG (compressione con perdite) si eliminano alcune caratteristiche dell’immagine indistinguibile all’occhio umano, ma potenzialmente utili al trattamento meccanico – La compressione con o senza perdite aggiunge un livello di complessità alla codifica • Il criptaggio dei dati per il commercio elettronico aumenta la complessità della codifica, adottando SW spesso proprietari che non aderiscono agli standard condivisi Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 11 Interrelazione dei dati e longevità • L’integrazione del lavoro di codifica prevede l’inclusione di vari file, interni o esterni al proprio sito • L’opportunità offerta dall’integrazione è limitata dai rischi dei collegamenti non più attivi a causa anche solo di una semplice ristrutturazione del contenuto del sito richiamato • Si pone il problema dell’eventuale duplicazione dei contenuti richiamati attraverso un link, ma questo apre questioni di copyright e di semplice opportunità Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 12 Custodia e traduzione dei dati • Chi dovrebbe custodire dati nati digitali come corrispondenza, varianti letterarie o scientifiche? • Come preservare l’autenticità dei file in presenza di continui atti di refresh per salvare i dati? • Come garantire l’integrità e che cosa vuol dire l’identità dell’informazione digitale, dovendo continuamente ritradurre i dati in nuovi formati e nuovi ambienti? Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 13 Vantaggi e svantaggi dell’accesso digitale VANTAGGI SVANTAGGI • Il contenuto richiesto si può mostrare senza l’intervento umano • Le informazioni si possono reperire a distanza • La qualità della digitalizzazione è tale da sostituire gli originali in quasi tutte le situazioni • La ricerca full-text e quella incrociata su diverse collezioni è una grande opportunità per l’utente • Gli altissimi costi dei processi di digitalizzazione • I mutamenti tecnologici possono vanificare gli sforzi per la conservazione del materiale in poco tempo • L’invecchiamento dei supporti • L’obsolescenza delle codifiche • Mancanza di garanzie per la permanenza e la stabilità del contenuto Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 14 Internet in sintesi • È una rete che evolve basandosi su necessità locali e decisioni distribuite • È costituita da molte reti distinte e interconnesse, come WNET, vBNS, Abilene ecc. • Nessuna istituzione o multinazionale controlla più di una piccola porzione • È impresa impossibile produrre una mappa centralizzata • È in continua evoluzione in modo incontrollato È PIÙ SIMILE A UN ECOSISTEMA CHE A UN DISPOSITIVO LOGICO Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 15 Seconda parte La topologia del web Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 16 P. Baran e il primo progetto di Internet • Il progetto di Internet era stato concepito alla fine degli anni ’50 da Paul Baran della Rand Corporation, ma venne rifiutato perché per trasmettere i dati era previsto di inviare le informazioni a pacchetti, rendendo così necessario il passaggio dalla rete analogica a quella digitale • AT&T che avrebbe dovuto realizzare la rete si rifiutò, sia per l’investimento, sia per il rischio di competizione che avrebbe creato Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 17 I modelli di rete per Baran www.rand.org/publications/RM/baran.list.html Centralizzata Decentralizzata Distribuita Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 18 Reti casuali e reti sociali • Nelle reti casuali tutti i nodi hanno lo stesso numero di link • Le reti sociali sono invece dotate di alcuni nodi, i cosiddetti hubs o connettori, che sono molto più interconnessi degli altri, cosicché ci sono pochi gradi di separazione con gli altri nodi della rete Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 19 Milgram e lo small world problem • Nel 1967 lo psicologo sociale Stanley Milgram, professore a Harvard pubblicò i suoi studi su quanto è piccolo il mondo • L’esperimento consisteva nel cercare di capire quanto ci metteva una lettera ad arrivare a destinazione inviandola a persone scelte a caso e con la preghiera di spedirla solo a qualcuno che si conosceva su base personale • Il risultato fu che in media c’erano 6 passaggi dal primo invio all’arrivo a destinazione • La teoria è nota al grande pubblico per un film uscito negli anni ’90 dal titolo “6 gradi di separazione” Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 20 La distanza tra i nodi della rete • Esistono 19 gradi di separazione in media tra i link, secondo un recente risultato • Il fenomeno degli Hub vuol dire che esistono alcuni nodi particolarmente interconnessi con tutto e altri nodi per nulla interconnessi • Se tutti i nodi della rete si trovano alla stessa distanza dagli altri, devo saper scegliere la strada da imboccare, per trovare quello che cerco • E inoltre la misura media della distanza dei nodi non rende conto della struttura topologica della rete… Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 21 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 22 L’equilibrio precario nella crescita di Internet • È evidente che i nodi della rete sono collegati tra loro per scelte di tipo economico • Per modellare la rete è necessario prendere in considerazione 3 fattori: – i collegamenti preferenziali a nodi più attrezzati – la dipendenza dalla distanza – la struttura a frattale dei nodi che riproduce la densità della popolazione (studiata in particolare per i router in US) • Se uno di questi tre fattori prendesse il sopravvento, metterebbe in discussione l’attuale struttura topologica della rete Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 23 I rischi di attacco a Internet • La grande integrazione della rete, mista alla presenza di nodi hub, che centralizzano gran parte dei link, rende la rete molto solida rispetto ai malfunzionamenti (come un ecosistema) • Il rischio di attacchi mirati ai nodi centrali, però, potrebbe esserle letale • Disabilitare alcuni nodi centrali forse non sarebbe sufficiente di per sé a fare a pezzi la rete, ma le rotture a cascata degli altri nodi, causate dalla reindirizzamento del traffico verso nodi più piccoli, probabilmente farebbe il resto Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 24 Parte Terza Non solo information retrieval Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 25 Strumenti di ricerca • Strumenti basati su indici per soggetto (es. Yahoo, About.com, Looksmart) • Strumenti di ricerca di argomento specifico (es. Internet Public Library, PAW) • Strumenti di ricerca a testo integrale (es. Altavista, Excite, Infoseek) • Strumenti di ricerca per estrazione (es. Lycos, Hotbot, Google, Alltheweb ) • Strumenti di metaricerca (es. Metacrawler, Vivisimo) Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 26 OPAC e Virtual Library • OPAC = Online Public Access Catalogue – È possibile salvare le ricerche sul proprio disco, spedirsi i risultati della ricerca ecc. • Archivi e data base – Documenti di vario genere e in formati diversi (HTML, RTF, DOC, PDF, .asp ecc.) • Biblioteca digitale – Vera e propria biblioteca di “testi” codificati secondo standard uniformi Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 27 Cercare informazioni sul web • Web “di superficie”: 5 miliardi di documenti • Web “profondo”: oltre 500 miliardi di documenti • Ma oscillano fra 800 milioni e 3 miliardi quelli indicizzati dai motori di ricerca Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 28 “Surface Web” Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 29 “Deep Web” Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 30 Cercare informazioni sul Web 2 • Come fare per migliorare la ricerca? – Uso delle funzioni avanzate di ricerca – Consultazione delle meta-risorse – Motori specializzati per contenuto e/o per tipologia di file – Monitoraggio e controllo dei motori Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 31 Funzioni avanzate: operatori booleani Operatore Simbolo Azione AND & Ricerca documenti che contengono parole o frasi specifiche. Es. educazione AND creatività OR | Ricerca documenti che contengono almeno una delle due parole NOT ! Esclude il secondo termine dalla ricerca. Es. educazione NOT creatività NEAR ~ Ricercherà documenti che contengano parole e frasi specificate per un numero non superiore a dieci parole per parte. Es. educazione nella scuola media NEAR uso dei media nella scuola Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 32 Searching for the WWW (1998) • Nell’articolo, Lawrence e Giles si proponevano di dimostrare la credibilità dei motori di ricerca (MR) attraverso un robot, in grado di analizzare i risultati di un’interrogazione, paragonando i MR • Il risultato fu invece una stima della grandezza del web • HotBot, all’epoca il maggiore MR in termini di pagine “catalogate”, analizzava soltanto il 34% del web dell’epoca, che fu stimato intorno a 320 milioni di documenti Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 33 I continenti di una rete orientata Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 34 La crescita del web e dei MR • Attualmente Google indicizza 2,5-3 miliardi di documenti, ma rimane sempre molto indietro rispetto alla crescita costante della rete • Da ogni pagina, infatti si può raggiungere solo il 24% dei documenti collegati (vedi la topografia dei continenti del web) • Per questo i MR permettono a chiunque di sottomettere le URL della sua risorsa, sperano così che i crawler, cominciando da un punto periferico della rete, possano trovare documenti nuovi, mai esplorati prima, da indicizzare Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 35 Altri difetti dei MR • Il problema della freschezza delle informazioni: più è grande il repository, più si rischia di utilizzare informazioni vecchie (i crawler ci mettono del tempo per effettuare l’intero viaggio) • La mancanza di capacità di indicizzare documenti e informazioni che non siano scritti in HTML. Per esempio: i database sono ignorati dai motori di ricerca, a meno che questi non si interfaccino con una metastruttura XML • Il ruolo commerciale dei MR (modelli di business che si basano sul pagamento di un buon ranking da parte dei siti) Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 36 I fattori del successo di Google e PageRank • Un grandissimo repository di documenti (2,5-3 miliardi) strutturati attraverso un indice inverso e un buon tasso di aggiornamento delle risorse • PageRank ha un algoritmo che attribuisce un punteggio a ogni documento, indicizzato sulla base di quanto è citato dal web, e trasferisce parte della sua autorità ai nodi che cita • PageRank tiene conto della struttura relazionale del web e attribuisce autorità al contenuto di un nodo per il fatto di essere un hub del web Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 37 I rischi di Google • Risultati in cui si privilegiano i contenuti degli hub, che sono a loro volta commerciali • Privilegi per le risorse della maggioranza linguistica (inglese su tutti, spagnolo su italiano ecc.) • Risultati che escludono risorse nuove (e perciò poco annodate col resto della rete) e risorse marginali (appartenenti a comunità isolate o che hanno approcci non in mainstream) • Sfruttamento dell’algoritmo (già in corso) con la costruzione di risorse ad hoc vuote da collegare ad arte alle pagine da pubblicizzare: le bolle di visibilità • Oltre ai soliti problemi della limitatezza del repository rispetto al deep web (e topologia dei continenti) comuni a tutti i MR Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 38 Le attività della ricerca • Scoperta Ricerca per keyword, metodi per esaminare dati strutturati e non strutturati, meccanismi di ranking flessibili, analisi e confronto di risultati provenienti da più query differenti • Organizzazione del contenuto Classificazione automatica, machine-learning o guidata, di documenti in un corpus, mappatura tematica, generazione di tassonomie • Gestione sociale delle conoscenze Ranking continuo e adattivo dei documenti, sulla base del loro successo sociale in un gruppo di interessi affini, reperimento degli esperti in un settore Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 39 Agenti e intelligenza sociale? • Il sapere è un prodotto collettivo • La conoscenza nasce dalla distribuzione di competenze e informazioni • È impossibile prevederne lo sviluppo perché è creativo, complesso, dinamico e capace di apprendimento. • Il sistema è perfettamente in grado (come l’ecosistema) di assorbire gli errori senza rifletterli nei risultati • Prevede l’interazione con l’ambiente e gli altri agenti sociali in modo non strutturato Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 40 Problemi aperti • La ricerca sul web è un’attività troppo complicata per usare solo tecniche di information retrieval • La struttura del web ha impatto sull’efficacia dei metodi di ricerca adottati • Il problema delle minoranze e la “bolla della visibilità” • Il ruolo degli agenti intelligenti: fuoco sull’apprendimento, più che sul web semantico, che funziona agendo sulla struttura del web • Una serie di problemi aperti di pertinenza delle scienze cognitive... Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 41 Link utili • • • • • • • • • Virtual library http://vlib.org Internet navigation tools http://riceinfo.rice.edu/Internet/ Search engine watch http://searchenginewatch.com Internet Archive http://www.archive.org Search engine showdown http://www.notess.com/search/ Metacrawler http://www.metacrawler.com Beaucoup http://www.beaucoup.com/ Vivisimo http://vivisimo.com Open Directory Project: http://dmoz.org/Reference/Libraries Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 42