IL PROBLEMA DELLA RICERCA DI
INFORMAZIONI
su Internet e sul web
Internet come “rete informativa”:
uno schema
Le fonti di
informazione
La “rete”
Le risorse informative
Gli utenti
La rete Internet: alcuni caratteri distintivi
– facilità d’accesso (per fonti e utenti)
– varie modalità di accesso (rete dati, telefonica, satellite,…)
– costi (relativamente) modesti
– protocolli standard largamente diffusi
– dimensione in continua espansione
e potenzialmente “illimitata”
– struttura non gerarchica
– “link”ipertestuali
– struttura “peer-to-peer”
– ambiente dinamico e “ricco”
– configurazione e struttura facilmente modificabile
– supporto multimediale (informazioni “ricche”; elaborazioni)
– varietà dei canali di comunicazione
– possibile bidirezionalità
– one to one, one to many, many to many, ecc.
Fonti e risorse di informazione su Internet
• estrema eterogeneità delle fonti (istituzioni, aziende,
singoli individui, ….)
• estrema varietà delle informazioni (come contenuti,
formati, ….)
• collegamenti multidimensionali, multilivello,
ridondanti (il “deep Web”)
• assenza di censura/controllo
• facilità di “aggiornamento”
• varie modalità di fornitura (es: informazioni protette, a
pagamento, libere, etc.)
Il “deep Web”
• Il livello più “interno” dell’informazione reperibile
in Internet e/o tramite il World Wide Web:
– i database e le banche dati accessibili da Internet
– i file interni dei server
– ecc.
Fonte: Brightplanet
Utenti delle informazioni su Internet
• estrema eterogeneità dei fabbisogni informativi
– tra utenti diversi
– per lo stesso utente
• diverse modalità di accesso
– tempi, costi, disponibilità
• numero crescente di “non specialisti”
Come reperire informazione?
I motori di ricerca e i relativi problemi
Information Retrieval “classico”
I MOTORI DI RICERCA
I problemi dei motori di ricerca
• difficoltà di reperimento
• mancanza di catalogazione
– struttura non gerarchica
– elevato dinamismo
– mancanza di controllo d’accesso
• varietà di formati
• varietà di livelli (il “deep Web”)
QUINDI
il problema della COPERTURA INSUFFICIENTE
NESSUNO > 40% di pagine Web coperte (fonte: The Industry Standard)
Altri problemi dei motori di ricerca
• modalità di ricerca troppo semplici
•
•
•
•
analisi delle ricorrenze non sufficiente
insufficiente gestione dei “link”
insufficiente gestione della varietà di formati
insufficiente gestione della lingua
• difficoltà di ricerca da parte dell’utente
• nell’esplicitare/formalizzare il bisogno informativo
• nella messa a punto della “strategia di ricerca”
• per l’assenza di procedure “ottimali” o standard
• i motori di ricerca sono cambiati
• come funzionano “veramente”
• il problema dei siti sponsorizzati
Un ulteriore problema
• problemi di qualità/affidabilità
–
–
–
–
grado di “aggiornamento” della pagina
mancanza di controllo
reputazione dei siti ….
…. o certificazione dei siti?
Altri problemi dei motori di ricerca
• modalità di ricerca troppo semplici
•
•
•
•
analisi delle ricorrenze
insufficiente gestione dei “link”
insufficiente gestione della varietà di formati
insufficiente gestione della lingua
• problemi di qualità/affidabilità
• grado di “aggiornamento” della pagina
• reputazione/certificazione dei siti, delle pagine
• difficoltà di ricerca da parte dell’utente
• nell’esplicitare/formalizzare il bisogno informativo
• nella messa a punto della “strategia di ricerca”
• per l’assenza di procedure “ottimali” o standard
Se i motori di ricerca non risolvono il
problema, cosa si può fare?
• La risposta tecnologica?
–
–
–
–
analisi del linguaggio naturale
agenti “intelligenti” di ricerca
il “semantic Web”
...
• Al momento non sembra la soluzione
QUINDI?
Strategie (diverse) dei motori di ricerca
• Specializzazione (es. “www.scirus.com”)
• integrazione (es. google)
• o ancora sponsorizzazione
• ….
MOTORI DI RICERCA COME
“OPERATORI BUSINESS”
(INTERMEDIARI INFORMATIVI)
Strumenti di ricerca, ossia:
Intermediari informativi
Le fonti di
informazione
La “rete”
Le risorse informative
Gli utenti
Gli intermediari informativi
• Funzione chiave: facilitare l’interazione domanda-offerta di
informazione
– rendere visibile delle risorse/fonti di informazione
– facilitare il reperimento da parte degli utenti
• Intermediari come operatori business
• Varietà di situazioni  varietà di operatori
–
–
–
–
in relazione alla classe di utenti (specializzazione, competenze, lingua, ….
in relazione alla copertura
in relazione alle prestazioni richieste( velocità, precisione, affidabilità …)
in relazione al “costo” di intermediazione
• Catene di intermediari
Varietà di intermediari informativi: esempi
•
•
•
•
•
•
•
•
•
•
•
•
motori di ricerca (www.google.com) --> Ricerca libera “generalista” nel Web
metamotori (www.mamma.com) ---> Ricerca “superficiale” ma tramite diversi motori di
ricerca
directory (www.yahoo.com) --> Ricerca all’interno di elenchi preclassificati
Portali istituzionali (www.istat.it) --> Fornitura specifica di informazioni “ufficiali”
Portali specializzati (www.2night.it) --> informazione su argomenti specifici
Portali di settore (“vortal” - www.paginetessili.it) --> informazione economica settoriale
Cybermall (es. www.mrprice.it) --> informazioni commerciali su prodotti, ecc.
“Yellow page” e altri elenchi (www.paginegialle.it, www.whowhere.com)
--> elenchi di nominativi, email, ecc. (USA)
Siti di comparazione (o “shopbot” - www.kelkoo.com): informazione comparativa di
prodotti
Banche dati bibliografiche (v. ad es. www.cab.unipd.it): documentazione e pubblicazioni
editori online (es. www.ilsole24ore.com): informazione di fonte giornalistica
servizi con operatore (es. www.profinder.it ): ricerca “assistita”
Intermediari informativi: comparazione
interazione automazione
motori
portali
editori online
servizi con
operatore
affidabilità
La capacità dell’utente
• Information literacy: imparare a cercare su
Internet
• Oggi:
– utenti sempre più vari
– non competenti del mezzo Internet
– approccio di ricerca “intuitivo”
Impostare una ricerca: elementi
1.
Il quesito, l’oggetto, l’obiettivo della ricerca (“cosa” e
“perché”)
Il tempo e la capacità di chi cerca
La qualità delle risposte
2.
3.
•
Adeguatezza agli obiettivi/domande di ricerca
•
•
•
•
Completezza – esaustività
oppure: focalizzazione
Affidabilità/autorevolezza della fonte; possibili modalità di
verifica
Grado di aggiornamento
Quali strumenti per quali ricerche?
• La navigazione diretta
– necessario conoscere in anticipo l’indirizzo
• pre-selezione da altre fonti (non in rete)
• metodo “snowball”
• come reperire all’interno del sito?
» NAVIGAZIONE LIBERA
» MOTORI DI RICERCA INTERNI
– Siti “autorevoli”? Ufficiali?
• Motori di ricerca
– google, ecc.
–
–
–
–
ricerca “banale” (analisi delle ricorrenze); come scegliere le parole chiave?
Servizi aggiuntivi (es. traduzioni, cache)
fonti integrate (mappe, foto, news, libri, …)
siti sponsor?
• Directory (yahoo)
• Esaustive?
• siti sponsor
Quali strumenti per quali ricerche? (2)
• Metamotori
• motori di motori (es.: mamma; metacrawler)
• stesse problematiche dei motori, con un’estensione della copertura
• Portali
• ricerca specifica e delimitata. Adeguatezza alla ricerca?
• problema affidabilità del servizio
• Servizi specifici (es. yellow page, shopbot, ecc.
•
•
•
•
Quale copertura? Adeguatezza alla ricerca?
Come sono classificate le informazioni?
Sono sponsorizzati?
Come si effettua la ricerca?
• Editori online
• stessi limiti dei quotidiani su carta (fonte secondaria, problema affidabilità,..)
Approcci alla ricerca: il “browsing”
QUESITO/OBIETTIVO DI RICERCA
RICERCA SU UN MOTORE
VALUTAZIONE (RAPIDA)
DEI RISULTATI
NAVIGAZIONE
OUTPUT
OUTPUT
Approcci alla ricerca: il “berry picking”
QUESITO/OBIETTIVO DI RICERCA
RICERCA (su vari strumenti); NAVIGAZIONE
VALUTAZIONE (RAPIDA)
DEI RISULTATI
OUTPUT
Approcci alla ricerca: il “searching”
QUESITO/OBIETTIVO DI RICERCA
IMPOSTAZIONE:
- identificazione del problema e del contesto cognitivo
- identificazione e scelta di concetti, nozioni, parole chiave
- scelta degli strumenti di ricerca più opportuni
RICERCA (su vari strumenti)
COMPARAZIONE E
VALUTAZIONE DEI RISULTATI
OUTPUT
COME RENDERE VISIBILI LE
PROPRIE PAGINE?
• Conoscendo il funzionamento dei motori di ricerca
– Ad es.: includere le parole che si vuole siano indicizzate;
ripetere più volte le parole (si deve ragionare sul modo di
cercare degli utenti nel motore di ricerca)
– Evitando di mettere le informazioni chiave nelle sotto-sottosotto pagine
• “Pagando” per una migliore collocazione
• Ricorrendo ad altri servizi (es. banner o link in “siti di
traffico”)
Scarica

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI