Bibliografia. Sistemi di recupero dell’informazione Teoria e tecniche della catalogazione e classificazione Presentazioni, “informazione”, quanta infomazione? ricerca1info Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006 OGGI • Presentazioni (già visto) • Presentazione del corso (già visto) • Che cosa si intende con “informazione”? • Quanta informazione? 2 OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? 3 Presentazioni: docente • Elisa GRIGNANI • www2.unipr.it/~grignani/EGhome/eg.htm • Studi: • laurea in lettere, Università di Pavia • perfezionamento in biblioteconomia, Università di Parma • MLIS, University of California, Berkeley • Ricerca: • Classificazioni bibliografiche, sistemi di recupero dell’informazione, società bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia delle biblioteche sec. XVII. • Didattica: • Teoria e tecniche della catalogazione e classificazione, Bibliografia, Biblioteconomia 4 Presentazioni: studenti • • • • • • • Nome e cognome: ... Corso di laurea: ... Anno di iscrizione: ... e-mail: ... Aree di interesse o di competenza: ... Cosa vi aspettate da questo corso? ... Per quanti crediti lo seguite? … 5 Per iscrivervi a questo corso: • Andate nel sito www.nicenet.org • “join a class” • inserite in modo completo i dati richiesti: in particolare, come prima cosa, l’USERNAME e la PASSWORD che intendete utilizzare; il codice da indicare come “class key” è: OZ39495B83; il nome della classe è Biblio • “log in” usando USERNAME / PASSWORD: come prima esercitazione, dovete inviarmi compilato (“turn it online”) il modulo “Presentazioni: studenti”. 6 OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? 7 Due temi principali Recupero dell’informazione e il processo di ricerca Rappresentazione / organizzazione dell’informazione 8 Due temi principali • Come trovare risorse informative, ed oggetti che veicolano informazione, appropriate rispetto alle esigenze nostre o di altri Ricerca (Modulo A) • Come descrivere le risorse informative, e gli oggetti che veicolano informazione, in modo che possano essere efficacemente trovati ed utilizzati da chi ne ha bisogno Catalogazione (Modulo B) 9 Ricerca – Modulo A Recupero dell’informazione e processo di ricerca ALCUNI ARGOMENTI: - che cosa si intende con informazione? - dati / informazione / conoscenza / sapere - quanta informazione? - teoria matematica dell’informazione - ciclo di vita dell’informazione - processo di ricerca - sistemi di recupero dell’informazione (IR) - valutazione IR - bibliografie e cataloghi come sistemi IR - ricerca in OPAC - elementi di ricerca web - stili di citazione bibliografica - ... 10 Catalogazione – Modulo B Rappresentazione / organizzazione dell’informazione ALCUNI ARGOMENTI: - perchè organizzare l’informazione? - metadati - cataloghi - requisiti funzionali per le registrazioni biblio - descrizione bibliografica - accessi formali e semantici - authority file - programmi per la catalogazione automatizza - ... 11 Goals and Objectives • Modulo A - Ricerca – Risultati: – Obiettivi: • Modulo B - Catalogazione – Risultati: – Obiettivi: 12 Esercitazioni, letture ed esame • Circa 4 esercitazioni per modulo • 1 presentazione in classe (anche in piccolo gruppo; raccomandato l’utilizzo di PowerPoint) • Letture indicate di volta in volta • Esame finale 13 Orario lezioni, esercitazioni e ricevimento • Lezioni: – Aula H; lun., mart.: 10:30-12:00, merc.: 14:15-15:45 • Esercitazioni: – in orario da concordare • Materiali lezioni ed esercitazioni: – <www2.unipr.it/~grignani/EGhome/eg.htm> – <www.nicenet.org> • Ricevimento: – mart. 15:00-16:00, merc. 9:00-10:00, Sezione beni librari (Via D’Azeglio, 85) • e-mail: – [email protected] 14 Calendario lezioni • I semestre: – Modulo A: 19 sett. - 29 ott. 2005 – Modulo B: 10 nov. - 22 dic. – Modulo C: 9 gen. - 28 gen. 2006 15 OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? 16 Che cosa si intende con “informazione”? (forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità, informatica (“information automatique”, 1962) ... • Non c’è una unica definizione “corretta” • Può essere d’interesse sociologico, linguistico, filosofico, informatico, giornalistico … • Definizione d’uso: – “notizie o fatti su qualche cosa” • Oxford English Dictionary – information: informing, telling; thing told, knowledge, items of knowledge, news – knowledge: knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known 17 Che cosa si intende con informazione? • Correlare dati a un contesto (“interpretazione situazionale”) • dati informazione conoscenza • Richiede una comunità interpretante • Ogni informazione dipende dal contesto da cui proviene • Può essere registrata, immagazzinata, trasmessa (anche in forma fisica: p.e. i fossili) • Deve essere registrata • E’ una registrazione di qualcosa che può essere riutilizzato • E’ una necessità / è una comodità 18 Che tipi di informazione? • Testo – Libri, periodici, WWW, pubblicità, appunti … – A stampa / manoscritta • • • • • • • Film Fotografie, altre immagini TV, Radio Telefono Database … Quanta informazione? 19 Perché organizzare l’informazione? • E’ una questione di scala: – Usare metodi e categorie personali per organizzare la nostra raccolta di libri o di CD sembra funzionare … – Ma come organizzare una raccolta di dimensione 10, 100, 1000 … volte più grande? 20 OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? 21 Quanta informazione? Produzione libri a stampa: alcuni dati storici • Sec. XV Europa 45.000 ed. fonte: ISTC • Sec. XVI Italia 50.000 ed. fonte: EDIT • a. 60.000 ed. fonte: IE • 2003 Italia (ca. 160 ed. al giorno) • ma quanta informazione su altri supporti? 22 How much information is there? Dati tratti da How much information di Hal Varian e Peter Lyman <http://www.sims.berkeley.edu/research/projects/ how-much-info-2003/> Information • Stored Information (physical media) – – – – Print Film Optical Magnetic • Communicated (channels) – – – – Internet Broadcast Phone Mail 24 Unità di misura How big is an Exabyte? (R. Williams, Data Power of Ten) Kilobyte (KB) 1000 bytes o 103 bytes 2 KB: 1 pagina datt. Megabyte (MB) 106 bytes 1 MB: 1 floppy disk 3.5 5 MB: tutto Shakespeare 100 MB: 1 metro di libri 500 MB: 1 CD-ROM Gigabyte (GB) 109 bytes Terabyte (TB) 1012 bytes 1 TB: 50.000 alberi 130 TB: collezione a stampa della Library of Congress Petabyte (PB) 1015 bytes Exabyte (EB) 1018 bytes 2 EB: tutta l'informazione generata nel 1999 25 Table 1.1: How Big is an Exabyte? Kilobyte (KB) 1,000 bytes OR 103bytes 2 Kilobytes: A Typewritten page. 100 Kilobytes: A low-resolution photograph. Megabyte (MB) 1,000,000 bytes OR 106 bytes 1 Megabyte: A small novel OR a 3.5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound. 100 Megabytes: 1 meter of shelved books. 500 Megabytes: A CD-ROM. Gigabyte (GB) 1,000,000,000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. 100 Gigabytes: A library floor of academic journals. Terabyte (TB) 1,000,000,000,000 bytes OR 1012 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress. 400 Terabytes: National Climactic Data Center (NOAA) database. Petabyte (PB) 1,000,000,000,000,000 bytes OR 10 15 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries. 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material. Exabyte (EB) 1,000,000,000,000,000,000 bytes OR 1018 bytes 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings. 26 Summary of findings 1. Print, film, magnetic, and optical storage media produced about 5 exabytes of new information in 2002. Ninety-two percent of the new information was stored on magnetic media, mostly in hard disks. 2. We estimate that the amount of new information stored on paper, film, magnetic, and optical media has about doubled in the last three years. 3. Information flows through electronic channels -- telephone, radio, TV, and the Internet -- contained almost 18 exabytes of new information in 2002, three and a half times more than is recorded in storage media. Ninety eight percent of this total is the information sent and received in telephone calls - including both voice and data on both fixed lines and wireless. • Radio took 38 years to get 50 M listeners, TV took 13 years, the Net took 4 years... 27 Print • Annual Production (1999) – – – – – Books 968,735 = 8 Terabytes (compressed image) Newspapers 22643 = 25 Terabytes Journals 40000 = 2 Terabytes Magazines 80000 = 10 Terabytes Office Documents 195 Terabytes – TOTAL 240 Terabytes (1200 scanned, 24 text) 28 Print • Library of Congress Printed book collection – About 18 Million books = About 130 Terabytes (compressed image) – For all of LC we should also assume • • • • • 13M photographs, 5MB each = 65 TB 4M maps, say 200 TB 500K files, 1GB each = 500 TB 3.5M sound recordings, ~2000 TB Grand total: 3 petabytes (~3000 terabytes) 29 Film and Image • Annual Production (1999) – Movies = 16 Terabytes (Commercial Production of about 4000 films) – Photographs = 410 Petabytes – X-Rays = 17.2 Petabytes 30 Optical Media • Annual Production (1999) – CDD-Music 90,000 items = 58 TB – CD-ROM 1,000 items = 3 TB – DVD-Video 5,000 items = 22 TB – TOTAL 83 TB (total compressed 29 TB) 31 Magnetic Media • Annual Production (1999) – – – – – Audio Tape 184,200,000 = 184.2 Petabytes Video Tape 355,000,000 = 1420 Floppy disks = 0.07 Removable disks = 1.69 Hard Disks = 500 32 Table 1.2: Worldwide production of original information, if stored digitally, in terabytes circa 2002. Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed. Storage Medium 2002 Terab ytes Upper Estim ate 2002 Terab ytes Lower Estim ate 19992000 Upper Estim ate 19992000 Lower Estim ate % Chan ge Uppe r Esti mate s 1,634 327 1,200 240 36% Film 420,25 4 76,69 431,69 0 58,209 -3% Magnetic 51871 30 3,416, 230 2,779, 760 2,073, 760 87% 103 51 81 29 28% 5,609, 121 3,416, 281 3,212, 731 2,132, 238 74.5 % Paper Optical TOTAL: Source: How much information 2003 33 Internet Hosts (000s) 1989-2006 1000000 900000 800000 700000 600000 500000 400000 300000 200000 hosts 100000 0 2005 2003 2001 1999 1997 1995 1993 1991 1989 Source: Vint Cerf 34 Users on the Internet (1999) • CAN/US - 90.65M • Europe - 40.09M • Asia/Pac - 26.97M • Latin Am - 5.29M • Africa - 1.14M • Mid-east - 0.88 M --------------------------• Total - 165M CAN/US Europe Asia/Pac Latin Am Africa Mid East Source: Vint Cerf 35 2002: Around the world about 600 million people have access to the Internet, about 30% of them in North America. World Distribution of Internet Users (in millions) Africa 6.31 Asia Pacific 187.24 Europe 190.91 Middle East Canada and USA Latin America 5.12 182.67 33.35 36 37 According to Nielsen/NetRatings, the average Internet user in 2002 spended 11 hours and 24 minutes online per month; the average user in the United States more than twice that amount of time online: 25 hours and 25 minutes at home and 74 hours and 26 minutes at work. In the United States, Internet access is used to send email (52%), get news (32%), use a search engine to find information (29%), surf the web (23%), do research for work (19%), check the weather (17%) or send an instant message (14%) (Source: Pew Internet and American Life Project). 38 Language Distribution of Web Content English German Chinese Italian Malay Portuguese Danish Finnish Polish Norwegian Greek Croatian Thai Arabic Others & Unknown Japanese French Spanish Swedish Korean Dutch Czech Russian Hungarian Estonian Bulgarian Basque Turkish Albanian Source: Jack Xu: Excite 39 Language Distribution on a 634 Million Web Pages Corpus Language English Japanese German French Chinese Spanish Italian Swedish Malay Korean Portuguese Dutch Danish Czech Finnish Russian Polish Hungarian Norwegian Estonian Greek Bulgarian Croatian Basque Thai Turkish Arabic Albanian Others & Unknown Tota l Number of Docs 453,685,690 43,271,080 32,253,563 11,107,994 9,642,450 6,965,560 5,638,827 4,392,709 3,619,227 3,200,762 3,014,294 2,745,610 1,911,677 1,428,385 1,312,932 1,150,127 952,716 760,162 607,211 456,613 393,360 392,777 310,237 258,074 99,691 81,218 38,167 17,779 44,561,062 634,269,953 Percentage 71.5288% 6.8222% 5.0851% 1.7513% 1.5202% 1.0982% 0.8890% 0.6926% 0.5706% 0.5046% 0.4752% 0.4329% 0.3014% 0.2252% 0.2070% 0.1813% 0.1502% 0.1198% 0.0957% 0.0720% 0.0620% 0.0619% 0.0489% 0.0407% 0.0157% 0.0128% 0.0060% 0.0028% 7.0256% 100% 40 Information Overload • “The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all.” (W.H. Auden) Cerchiamo l’espressione “information overload” in <www.google.it>. Quanti risultati otteniamo? 41 Prossimamente • Ancora sull’informazione 42