Cercare e organizzare
Teresa Numerico
[email protected]
1
Menone e il dilemma della conoscenza
• MENONE: Ma come cercherai, o Socrate, quello che ignori
pienamente? E, delle cose che ignori quale ti proporrai di
cercare? e se per avventura ti imbattessi in quella, come
t’accorgerai che quella che non conosci è proprio quella
che cerchi?
• SOCRATE: Intendo che vuoi dire, Menone; in che
disputazione mi metti! Vuoi dire che nessuno può cercare
ciò che sa, né ciò che non sa: perché, ciò che sa non lo
dovrebbe cercare, perché lo sa; né ciò che non sa, perché
non saprebbe quello che deve cercare.
Platone Menone 80d-81a
La ricerca di conoscenza secondo Descartes
• At verò in omni quaestione, quamvis aliquid
debeat esse incognitum, alioqui enim frustra
quaererentur, oportet tamen hoc ipsum certis
conditionibus ita esse
Regula XIII, Regulae ad directionem ingenii
La legge dell'archivio
• L'archivio è anzitutto la legge di ciò che può essere detto, il
sistema che governa l'apparizione degli enunciati
• Ma l'archivio è anche ciò che fa sì che tutte queste cose dette
non si ammucchino all'infinito in una moltitudine amorfa, […]
ma che si raggruppino in figure distinte, si compongano le une
con le altre secondo molteplici rapporti
• È evidente che non si può descrivere esaurientemente
l'archivio di una società, di una cultura, di una civiltà
Foucault M.(1980) L’archeologia del sapere, Rizzoli, Milano, p.173-174
“La violenza dell’archivio” secondo Derrida
• Ogni archivio è istitutivo e conservativo, rivoluzionario e
tradizionale
• Conserva, preserva, salva ma in un modo innaturale:
costruendo la legge da rispettare nella conservazione
• Non c’è archivio senza un luogo in cui può essere consegnato, senza una tecnica di ripetizione, e senza una
certa esteriorità. Non c’è archivio senza un di-fuori
• Ogni archivio lavora a priori contro se stesso
J. Derrida Archive Fever, University of Chicago Press, 1998: 712 passim
Un diverso modello di ricerca: social Serendipity
•
•
Serendipity: “the faculty of making
fortunate discoveries by accident”
Il nome nasce secondo Horace Walpole
(1754) da un racconto The three Princes of
Serendip (Sri Lanka): as their highnesses
traveled, they were always making
discoveries, by accidents and sagacity, of
things which they were not in quest of....
I motori di ricerca tra tecnica ed etica
• Problemi tecnologici
– La completezza e la freschezza delle informazioni
– La libertà di accesso alle informazioni: tutte le
pagine sono uguali per gli algoritmi di
ordinamento?
• Problemi etici
– La privacy nella ricerca sul web
– I rischi di censura
Gli elementi di un motore di ricerca
Fonte: Langville Meyer 2006: 11
Le 3 parti di un SE
1. Il crawl: la navigazione dei crawler o spider
nel web che acquisisce tutti i contenuti delle
pagine e segue la navigazione attraverso i
link
2. Il sistema di indicizzazione
3. Il sistema di risposta alle query degli utenti
L'ordine dei link e la libertà di info
• Gli algoritmi di ranking sono essenziali per i motori di ricerca
xké mettono ordine nella lista di link di risposta a una query
• Google ha avuto successo a causa del suo algoritmo PageRank
(PR) che attribuisce autorevolezza alle pagine sulla base di
quanto sono linkate da altre pagine autorevoli
• L'autorevolezza è una nozione ricorsiva e numerica per PR: +
una pagina è connessa + è autorevole, + è autorevole,
maggiore è il peso del suo link verso un'altra pagina
Fonte: Barabási 2002
Il ruolo degli hub nelle reti
• Nelle reti casuali tutti i nodi hanno circa lo stesso numero di link.
• Le reti sociali sono invece dotate di alcuni nodi cosiddetti hub o
connettori che sono molto più interconnessi degli altri e
permettono che ci siano pochi gradi di separazione tra gli altri
nodi della rete.
•
Sono gli hub che dominano le reti e le fanno apparire come
piccoli mondi. E sono loro che creano i collegamenti brevi tra tutti
i nodi
•
Se ci sono 6 gradi di separazione media tra i nodi di una rete, la
separazione da un hub per qualunque nodo è spesso solo 1 o 2
Il web frammentato
• Facendo una ricerca sulla qualità dei risultati dei motori di
ricerca si scoprì che ogni motore di ricerca non riesce a coprire
più di un quarto di tutto il web
• Inoltre Andrei Broder nel 1999 esaminando un campione di
circa un quinto della rete dell’epoca stabilì che trattandosi di
una rete orientata essa era costituita di sottoreti solo
parzialmente interconnesse tra loro
• Questo vale non solo per il web, ma per tutte le reti orientate
(i cui link non sono reversibili)
I continenti di una rete orientata
Fonte: Barabási 2002
Freschezza delle informazioni
• LE PAGINE PIU' LONGEVE RISCHIANO DI
ESSERE MEGLIO INDICIZZATE DI QUELLE PIU'
RECENTI
Proteggere le minoranze nel Web
NON E' DETTO CHE LE INFORMAZIONI MEGLIO
CONNESSE SIANO ANCHE LE PIU' ATTENDIBILI
I motori e lo spam
• Spam boosting (rilevanza)
• Spam hiding (rilevanza)
• Link spam (autorevolezza)
Link spam: le farm
Gbook
Gbook
Gbook
Honey
Pot
Target
Xchange
Directory
Xchange
Xchange
Xchange
Xchange
Xchange
Xchange
La slide è opera di Mathan Rochlitz
Xchange
I difetti tecnici dei MR
• Il problema della freschezza delle informazioni, più è grande il repository più
si rischia di utilizzare informazioni vecchie (i crawler, ci mettono del tempo
per effettuare l’intero viaggio)
• La mancanza di capacità di indicizzare documenti e informazioni che siano
scritte usando diversi linguaggi di codifica, per esempio i Database sono
ignorati dai motori di ricerca a meno che questi non si interfaccino con una
metastruttura XML
• La bassa cucina dell’analisi linguistica che viene fatta per analizzare il
contenuto delle pagine
• Il suggerimento delle query che orienta non solo la risposta, ma anche la
formulazione della domanda
Cosa non va socio-filosoficamente?
• Sono scatole nere con in input le nostre interrogazioni e in
output la lista ordinata dei link in risposta alla query, senza
fornire dettagli su come l’abbiano definita
• Non proteggono le minoranze culturali: chi ha più link vince la
guerra della visibilità
• Sono cognitivamente pregiudiziali: cercano di indovinare le
intenzioni dell’utente e rispondono a tono
• Detengono un enorme potere sulla costruzione della
conoscenza e lo amministrano a fini commerciali
Esercizi
• Trova i dettagli della politica di censura di internet in Cina o,
comunque, un report dettagliato e affidabile sull’argomento
• Trova l’analisi più recente sulla condizione del giornalismo
americano, con particolare riguardo alle scelte economiche
dei fruitori
• C’e’ un recente (2008) rapporto delle relazioni con internet
dei giornali americani. Cercalo
• Trova i dati sulla pubblicità sulla stampa in italia di febbr.
2010
• Trova i dati medi di Repubblica, Corriere e La Stampa di
diffusione e vendita tra dicembre 2008 e dicembre 2009
Un approfondimento sui problemi sociopolitico-filosofici dei motori
Valutazione, censura, privacy e
controllo
L’aspetto cognitivo del
controllo della rosa
epistemica associata ad
ogni interrogazione
Google Book Search
Possibile per google
Sostituire tutto questo?
Che conseguenze
avrebbe?
Copyright e la
privatizzazione
della conoscenza
Comportamento informativo del ricercatore del futuro (gen 2008)
• Ricerca di informazione orizzontale
• Comportamento da scoiattolo
• Autorità e fiducia sono basate sui marchi favoriti (e.g. Google etc.)
• Digital literacy e information literacy non vanno di pari passo
• L’information literacy dipende molto da educazione e altri fattori sociali
Ricerca segnalata in Metitieri 2009 http://www.bl.uk/news/pdf/googlegen.pdf
Motori di ricerca e privacy
Motori di ricerca e censura
Motori di ricerca e net neutrality
Motori di ricerca e nuovi territori
•
•
•
•
•
Youtube
Google book search
Google scholar
Google maps
Google cultural institute
http://www.google.com/culturalinstitute/abo
ut/
Motori di ricerca e memoria
• Memoria totale
• Abuso di ricordi sugli individui: l’idea di poter
indefinitamente ricordare, trattenere, e rendere
pubblica quanta più informazione sia possibile
(Vaidhyanathan, 2012, 179)
• Personalizzazione della ricerca: filter bubble: la
customizzazione significa che google manderà più
risultati che riguardano il luogo dove vivi, gli
interessi, le ossessioni, I feticci e I punti di vista
(Vaidhyanathan, 2012, 183)
L’università di Google
• La disponibilità di tutti questi dati senza la
relativa capacità critica viene chiamata da Tara
Brabazon operational literacy (code breakers
of complex multimedia works)
• All’opposto c’è la critical literacy la capacità di
giudicare e distinguere tra parti di
informazione e sintetizzarli in un nuovo lavoro
coerente (Vaidhyanathan 2012, 191)
Copyright e altro
• Il ruolo di Google come mediatore, filtro e editore
della cultura e dell’informazione cresce sempre
più
• Il ruolo del motere di ricerca si estende ben al di
là del campo fangoso della legge sul copyright.
Per comprendere questi problemi e ciò che
possiamo fare a questo proposito abbiamo
bisogno di cercare ancora nella natura e negli
effetti della googlizzazione della conoscenza
Vaidhyanathan 2011, 173
Googlare i geni (2005)
•
•
•
•
•
•
Craig Venter (CEO di Celera Genomics) Sergey Brin (cofondatore Google) e
Ryan Phelan (CEO di DNA Direct)si riunirono a cena nel febbraio del 2005
per dare vita al progetto di googlare i propri geni
La sfida, dopo aver creato la sequenza dei geni, analizzare tutti questi dati
Ci troviamo alla confluenza di scienza, tecnologia dell’informazione,
capitale privato
Ma che vuol dire esattamente capire cose su di sé mentre cambiano in
tempo reale?
Che significa pensare che i dati sul proprio genoma forniscano le
informazioni necessarie alla propria guarigione? O alla cura? O
all’intervento preventivo per evitare che la malattia si manifesti?
E’ impossibile sottovalutare l’influenza psicologica del genoma di Venter e
la sua forza simbolica
Nowotny, Testa, 2012, 53-55
I geni come testo
• Venter spiega che “una collezione immpressionante di
grandi insiemi di geni, insieme con le condizioni ambientali,
è quello che determina la nostra vita”
• Ma nell’articolo si PLoS biology compare solo la mappa
lineare e non una rete probabilistica
• Questa rappresentazione è compatibile con l’epoca digitale
che compara stringhe di tutto quello, e solo di quello che
può essere digitalizzato
• La visione anarchica e apparentemente democratica di
scienziati e gente comune che cercano sul web il significato
della loro unicità genetica è molto superficiale
Nowotny, Testa, 2012, 56-57
Heather Dewey-Hagborg
• ARTIST create portraits of strangers using dna in
discarded hair
http://www.designboom.com/technology/heath
er-dewey-hagborg-creates-3d-portraits-usingdna/
Che fare?
• Chiedere maggiore trasparenza della scatola
nera
• Formare le giovani generazioni all’information
literacy
• Sviluppare tecnologie alternative ai MR
• Essere consapevoli di rischi e opportunità dei
diversi strumenti di ricerca disponibili
Azioni di resistenza
• Essere creativi e non comunicativi
• Chiudere gli strumenti di comunicazione (ogni
tanto)
• Vivere senza lasciare (troppe) tracce digitali
• Non giudicare le persone e il mondo solo in
relazione alla loro rappresentazione digitale
• Dimenticare o distruggere le memorie digitali
Altre cose da fare
• La variazione è un fattore chiave per la trasmissione della
conoscenza e della cultura
– Variazione vs standardizzazione?
– Supportare le diverse tecnologie di ricerca (e.g. P2P search dynamic
strategies), semantica, visuale, sociale etc.
• Cross-generation information literacy e educazione
• Stabilire fiducia e autorevolezza controllando una
molteplicità di fonti attraverso uno sforzo cross mediale
Alcuni strumenti di ricerca ;-) sulla ricerca
Epic 2015
• http://www.albinoblacksheep.com/flash/epic
• Le tappe principali di epic 2015 in italiano
http://blog.mytech.it/index.php/2006/11/27/epic-2015/
• Una traduzione del primo epic 2014 in Italiano
http://nextmedia.blogspot.com/2004/12/le-mie-previsioniper-i-prossimi-10.html
Per saperne di più: link
• Un sito per controllare Google e le sue attività (non molto aggiornato)
www.google-watch.org
• La privacy policy di Google http://www.google.com/privacypolicy.html
• Una comparazione delle query filtrate su Google.cn fino a prima
dell’attuale crisi di rapporti china-google http://opennet.net/google_china
• Opennetinitiative si propone di monitorare tutti i paesi in cui si attuano
politiche di filtraggio della rete
http://www.opennetinitiative.net/
• Electronic privacy information center http://www.epic.org/
• Il Blog di John Battelle http://battellemedia.com/
Informazioni su motori e metamotori di ricerca
• Meta-Search Engines
– http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/MetaSearc
h.html
• Wikipedia
– http://en.wikipedia.org/wiki/Metasearch_engine
• Il Blog di John Battelle sui motori di ricerca
– http://battellemedia.com/
• Guida ai motori di ricerca
– http://searchenginewatch.com/
• Motoridiricerca
– http://www.motoridiricerca.it/
– http://www.motoridiricerca.it/mappa-motori.htm
Strumenti di ricerca specializzati
• LexisNexis: Raccolta di informazioni giuridiche
– http://www.lexisnexis.com/
• Answers.com offre risposte provenienti da dizionari,
enciclopedie ecc., ecc.
– http://www.answers.com/
– http://answers.yahoo.com/
• Globalspec: the engineering search engine
– http://www.globalspec.com/
• Internet movie database, il database del cinema mondiale
– http://www.imdb.com
Il web 2.0
• Il web 2.0 secondo l’antropologo americano
Michael Wesch
http://www.youtube.com/watch?v=6gmP4nk
0EOE&eurl=
Social bookmarking
•
•
•
•
•
http://www.blinklist.com/
http://delicious.com/
http://boingboing.net
http://digg.com
…. Per maggiori dettagli c’è la pagina di
Wikipedia list of social software…
Altri strumenti interessanti per la ricerca
• Social library http://www.librarything.com/
• Free Dictionary http://www.wiktionary.org/
• Wikisource, fonti opensource
http://en.wikisource.org/wiki/Main_Page
• http://www.arxiv.org/ un archivio di articoli scientifici
opensource
• L’archivio delle risorse di internet
http://www.archive.org/index.php
• Virtual library http://vlib.org
Top 25 web 2.0 search engines
• http://oedb.org/library/features/top-25web20-search-engines
Multimedia searching
•
•
•
•
•
•
•
•
VideoSurf http://www.videosurf.com/
Blinkx http://www.blinkx.com/
Retrievr http://labs.systemone.at/retrievr/
Oneriot http://www.oneriot.com/
Google audio indexing http://labs.google.com/gaudi
Pixsy http://www.pixsy.com/
Liveplasma http://www.liveplasma.com/
Vdoogle http://vdoogle.com/
Sistemi di visualizzazione e altri motori
• Kartoo http://www.kartoo.net/eng/index.html
• Ujiko
http://ujiko.com/v2a/flash.php?langue=en
• Touchgraph
http://www.touchgraph.com/TGGoogleBrows
er.html
• Exalead il motore francese che offre varie
opportunità di ricerca
http://www.exalead.com
Metamotori e altri strumenti gestiti da esperti
•
•
•
•
•
•
•
•
•
•
Powerset http://www.powerset.com/
Kosmic http://www.kosmix.com
Clusty http://clusty.com/
Ixquick http://ixquick.com/
Grokker http://grokker.com/
Chacha http://www.chacha.com/
Deepdyve http://www.deepdyve.com/
Freebase http://www.freebase.com
Wolfram Alpha http://wolframalpha.com
Volunia http://launch.volunia.com/
Alcune risorse fornite dalle biblioteche
• La directory del Librarians’ Internet Index http://lii.org
• Infomine una biblioteca virtuale di risorse digitali per studenti
e docenti http://infomine.ucr.edu
• Il catalogo di tutti gli opac online http://www.worldcat.org
• Il catalogo del Sistema bibliotecario nazionale
http://www.internetculturale.it/moduli/opac/opac.jsp
Per saperne di più
•
•
•
•
•
•
•
•
•
•
Barabási A.L. et al. (2001) “Parasitic Computing”, Nature 412:894-897
Barabási A.L. (2002) Linked, Perseus Publishing, Cambridge (MA); trad. it. Link, Einaudi,
Torino, 2004.
Battelle J. (2006) Google e gli altri, Raffaello Cortina, Milano.
Bawa M., Manku G. and Raghavan P. (2003) “SETS: Search Enhanced by Topic Segmentation”,
in Proc. of the 26th Intl. ACM Conf. on Research and Development in Information Retrieval
(SIGIR), URL: http://citeseer.ist.psu.edu/bawa03sets.html.
Gori M. and Numerico T. (2003) “Social Networks and web minorities”, Cognitive System
Research, vol. 4: 355-364.
p Lawrence S. and Giles C.L. (1998) “Searching for the World Wide Web”, Science (3 Apr) 280:
98-100.
Numerico T., Bowen J. P. and Filippini-Fantoni S. (2005) “Search Engines and On-line Museum
Access on the Web”, Museum and the Web,
Raghavan P. (2002) “Information retrieval for enterprise content” Upgrade Vol. III No.3:5-8.
().
Sherman C. & Price G. (2001) The invisible web, Information today, Inc. Medford, New Jersey.
Witten I., Gori M., Numerico T. (2007) Web Dragons: inside the myths of search engines,
Morgan Kaufmann, Los Angeles
Per saperne di più/2
•
•
•
•
•
•
•
•
Deleuze G. (1990) Pourparlers, Les éditions de Minuit, Paris.
Derrida J. (1998) Archive Fever, University of Chicago Press, Chicago.
Descartes R. (2000) Regole per la guida dell’intelligenza, Bompiani, Milano
Foucault M. (1969/1980) L’archeologie du savoir, Gallimard, Paris; trad. it.
Archeologia del sapere, Rizzoli, Milano, 1980.
Langville A.W. Meyer C.D. (2006): Google’s PageRank and Beyond, Princeton Univ.
Press, Princeton.
Licklider J.C.R. (1965): Libraries of the future, The MIT Press, Cambridge, MA.
Numerico T., Fiormonte D., Tomasi F. (2010) l’umanista digitale, Il Mulino, Bologna.
ULC (University College London)(2008) Information behaviour of the researcher of
the future, 11 January, http://www.bl.uk/news/pdf/googlegen.pdf
Scarica

motori_Di_ricerca - Scienze della Comunicazione