IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web Internet come “rete informativa”: uno schema Le fonti di informazione La “rete” Le risorse informative Gli utenti La rete Internet: alcuni caratteri distintivi – facilità d’accesso (per fonti e utenti) – varie modalità di accesso (rete dati, telefonica, satellite,…) – costi (relativamente) modesti – protocolli standard largamente diffusi – dimensione in continua espansione e potenzialmente “illimitata” – struttura non gerarchica – “link”ipertestuali – struttura “peer-to-peer” – ambiente dinamico e “ricco” – configurazione e struttura facilmente modificabile – supporto multimediale (informazioni “ricche”; elaborazioni) – varietà dei canali di comunicazione – possibile bidirezionalità – one to one, one to many, many to many, ecc. Fonti e risorse di informazione su Internet • estrema eterogeneità delle fonti (istituzioni, aziende, singoli individui, ….) • estrema varietà delle informazioni (come contenuti, formati, ….) • collegamenti multidimensionali, multilivello, ridondanti (il “deep Web”) • assenza di censura/controllo • facilità di “aggiornamento” • varie modalità di fornitura (es: informazioni protette, a pagamento, libere, etc.) Il “deep Web” • Il livello più “interno” dell’informazione reperibile in Internet e/o tramite il World Wide Web: – i database e le banche dati accessibili da Internet – i file interni dei server – ecc. Fonte: Brightplanet Utenti delle informazioni su Internet • estrema eterogeneità dei fabbisogni informativi – tra utenti diversi – per lo stesso utente • diverse modalità di accesso – tempi, costi, disponibilità • numero crescente di “non specialisti” Come reperire informazione? I motori di ricerca e i relativi problemi Information Retrieval “classico” I MOTORI DI RICERCA I problemi dei motori di ricerca • difficoltà di reperimento • mancanza di catalogazione – struttura non gerarchica – elevato dinamismo – mancanza di controllo d’accesso • varietà di formati • varietà di livelli (il “deep Web”) QUINDI il problema della COPERTURA INSUFFICIENTE NESSUNO > 40% di pagine Web coperte (fonte: The Industry Standard) Altri problemi dei motori di ricerca • modalità di ricerca troppo semplici • • • • analisi delle ricorrenze non sufficiente insufficiente gestione dei “link” insufficiente gestione della varietà di formati insufficiente gestione della lingua • difficoltà di ricerca da parte dell’utente • nell’esplicitare/formalizzare il bisogno informativo • nella messa a punto della “strategia di ricerca” • per l’assenza di procedure “ottimali” o standard • i motori di ricerca sono cambiati • come funzionano “veramente” • il problema dei siti sponsorizzati Un ulteriore problema • problemi di qualità/affidabilità – – – – grado di “aggiornamento” della pagina mancanza di controllo reputazione dei siti …. …. o certificazione dei siti? Altri problemi dei motori di ricerca • modalità di ricerca troppo semplici • • • • analisi delle ricorrenze insufficiente gestione dei “link” insufficiente gestione della varietà di formati insufficiente gestione della lingua • problemi di qualità/affidabilità • grado di “aggiornamento” della pagina • reputazione/certificazione dei siti, delle pagine • difficoltà di ricerca da parte dell’utente • nell’esplicitare/formalizzare il bisogno informativo • nella messa a punto della “strategia di ricerca” • per l’assenza di procedure “ottimali” o standard Se i motori di ricerca non risolvono il problema, cosa si può fare? • La risposta tecnologica? – – – – analisi del linguaggio naturale agenti “intelligenti” di ricerca il “semantic Web” ... • Al momento non sembra la soluzione QUINDI? Strategie (diverse) dei motori di ricerca • Specializzazione (es. “www.scirus.com”) • integrazione (es. google) • o ancora sponsorizzazione • …. MOTORI DI RICERCA COME “OPERATORI BUSINESS” (INTERMEDIARI INFORMATIVI) Strumenti di ricerca, ossia: Intermediari informativi Le fonti di informazione La “rete” Le risorse informative Gli utenti Gli intermediari informativi • Funzione chiave: facilitare l’interazione domanda-offerta di informazione – rendere visibile delle risorse/fonti di informazione – facilitare il reperimento da parte degli utenti • Intermediari come operatori business • Varietà di situazioni varietà di operatori – – – – in relazione alla classe di utenti (specializzazione, competenze, lingua, …. in relazione alla copertura in relazione alle prestazioni richieste( velocità, precisione, affidabilità …) in relazione al “costo” di intermediazione • Catene di intermediari Varietà di intermediari informativi: esempi • • • • • • • • • • • • motori di ricerca (www.google.com) --> Ricerca libera “generalista” nel Web metamotori (www.mamma.com) ---> Ricerca “superficiale” ma tramite diversi motori di ricerca directory (www.yahoo.com) --> Ricerca all’interno di elenchi preclassificati Portali istituzionali (www.istat.it) --> Fornitura specifica di informazioni “ufficiali” Portali specializzati (www.2night.it) --> informazione su argomenti specifici Portali di settore (“vortal” - www.paginetessili.it) --> informazione economica settoriale Cybermall (es. www.mrprice.it) --> informazioni commerciali su prodotti, ecc. “Yellow page” e altri elenchi (www.paginegialle.it, www.whowhere.com) --> elenchi di nominativi, email, ecc. (USA) Siti di comparazione (o “shopbot” - www.kelkoo.com): informazione comparativa di prodotti Banche dati bibliografiche (v. ad es. www.cab.unipd.it): documentazione e pubblicazioni editori online (es. www.ilsole24ore.com): informazione di fonte giornalistica servizi con operatore (es. www.profinder.it ): ricerca “assistita” Intermediari informativi: comparazione interazione automazione motori portali editori online servizi con operatore affidabilità La capacità dell’utente • Information literacy: imparare a cercare su Internet • Oggi: – utenti sempre più vari – non competenti del mezzo Internet – approccio di ricerca “intuitivo” Impostare una ricerca: elementi 1. Il quesito, l’oggetto, l’obiettivo della ricerca (“cosa” e “perché”) Il tempo e la capacità di chi cerca La qualità delle risposte 2. 3. • Adeguatezza agli obiettivi/domande di ricerca • • • • Completezza – esaustività oppure: focalizzazione Affidabilità/autorevolezza della fonte; possibili modalità di verifica Grado di aggiornamento Quali strumenti per quali ricerche? • La navigazione diretta – necessario conoscere in anticipo l’indirizzo • pre-selezione da altre fonti (non in rete) • metodo “snowball” • come reperire all’interno del sito? » NAVIGAZIONE LIBERA » MOTORI DI RICERCA INTERNI – Siti “autorevoli”? Ufficiali? • Motori di ricerca – google, ecc. – – – – ricerca “banale” (analisi delle ricorrenze); come scegliere le parole chiave? Servizi aggiuntivi (es. traduzioni, cache) fonti integrate (mappe, foto, news, libri, …) siti sponsor? • Directory (yahoo) • Esaustive? • siti sponsor Quali strumenti per quali ricerche? (2) • Metamotori • motori di motori (es.: mamma; metacrawler) • stesse problematiche dei motori, con un’estensione della copertura • Portali • ricerca specifica e delimitata. Adeguatezza alla ricerca? • problema affidabilità del servizio • Servizi specifici (es. yellow page, shopbot, ecc. • • • • Quale copertura? Adeguatezza alla ricerca? Come sono classificate le informazioni? Sono sponsorizzati? Come si effettua la ricerca? • Editori online • stessi limiti dei quotidiani su carta (fonte secondaria, problema affidabilità,..) Approcci alla ricerca: il “browsing” QUESITO/OBIETTIVO DI RICERCA RICERCA SU UN MOTORE VALUTAZIONE (RAPIDA) DEI RISULTATI NAVIGAZIONE OUTPUT OUTPUT Approcci alla ricerca: il “berry picking” QUESITO/OBIETTIVO DI RICERCA RICERCA (su vari strumenti); NAVIGAZIONE VALUTAZIONE (RAPIDA) DEI RISULTATI OUTPUT Approcci alla ricerca: il “searching” QUESITO/OBIETTIVO DI RICERCA IMPOSTAZIONE: - identificazione del problema e del contesto cognitivo - identificazione e scelta di concetti, nozioni, parole chiave - scelta degli strumenti di ricerca più opportuni RICERCA (su vari strumenti) COMPARAZIONE E VALUTAZIONE DEI RISULTATI OUTPUT COME RENDERE VISIBILI LE PROPRIE PAGINE? • Conoscendo il funzionamento dei motori di ricerca – Ad es.: includere le parole che si vuole siano indicizzate; ripetere più volte le parole (si deve ragionare sul modo di cercare degli utenti nel motore di ricerca) – Evitando di mettere le informazioni chiave nelle sotto-sottosotto pagine • “Pagando” per una migliore collocazione • Ricorrendo ad altri servizi (es. banner o link in “siti di traffico”)