Teoria e tecniche della catalogazione e classificazione Presentazioni, “informazione”, quanta infomazione? ricerca1intro Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005 Ringrazio il prof. Ray Larson, School of Information Management & Systems, University of California Berkeley, per avermi messo a disposizione i materiali delle sue lezioni OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? T&T 2004/05 2 OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? T&T 2004/05 3 Presentazioni: docente • Elisa GRIGNANI • www2.unipr.it/~grignani/EGhome/eg.htm • Studi: • laurea in lettere, Università di Pavia • perfezionamento in biblioteconomia, Università di Parma • MLIS, University of California, Berkeley • Ricerca: • Classificazioni bibliografiche, sistemi di recupero dell’informazione, società bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia delle biblioteche sec. XVII e XVIII. • Didattica: • Teoria e tecniche della catalogazione e classificazione, Storia e tecniche della catalogazione e classificazione, Bibliografia, Informatica documentale. T&T 2004/05 4 Presentazioni: studenti • • • • • • • Nome e cognome: ... Corso di laurea: ... Anno di iscrizione: ... e-mail: ... Aree di interesse o di competenza: ... Cosa vi aspettate da questo corso? ... Per quanti crediti lo seguite? … T&T 2004/05 5 Per iscrivervi a questo corso: • Andate nel sito www.nicenet.org • “join a class” • inserite in modo completo i dati richiesti: in particolare, come prima cosa, l’USERNAME e la PASSWORD che intendete utilizzare; il codice da indicare come “class key” è: TZ07ZZ9B49; il nome della classe è BibCat • “log in” usando USERNAME / PASSWORD: come prima esercitazione, dovete inviarmi compilato (“turn it online”) il modulo “Presentazioni: studenti”. T&T 2004/05 6 OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? T&T 2004/05 7 Due temi principali Recupero dell’informazione e il processo di ricerca Rappresentazione / organizzazione dell’informazione T&T 2004/05 8 Due temi principali • Come trovare risorse informative, ed oggetti che veicolano informazione, appropriate rispetto alle esigenze nostre o di altri Ricerca (Modulo A) • Come descrivere e correlare le risorse informative, e gli oggetti che veicolano informazione, in modo che possano essere efficacemente trovati ed utilizzati da chi ne ha bisogno Catalogazione (Modulo B) T&T 2004/05 9 Ricerca – Modulo A Recupero dell’informazione e processo di ricerca ALCUNI ARGOMENTI: - che cosa si intende con informazione? - dati / informazione / conoscenza / sapere - quanta informazione? - teoria matematica dell’informazione - ciclo di vita dell’informazione - processo di ricerca - sistemi di recupero dell’informazione (IR) - valutazione IR - bibliografie e cataloghi come sistemi IR - ricerca in OPAC - elementi di ricerca web - stili di citazione bibliografica ... T&T -2004/05 10 Catalogazione – Modulo B Rappresentazione / organizzazione dell’informazione ALCUNI ARGOMENTI: - perchè organizzare l’informazione? - metadati - cataloghi - requisiti funzionali per le registrazioni biblio - descrizione bibliografica - accessi formali e semantici - authority file - programmi per la catalogazione automatizza - ... T&T 2004/05 11 Esercitazioni, letture ed esame • Circa 4 esercitazioni per modulo • Almeno 1 presentazione in classe (anche in piccolo gruppo; raccomandato l’utilizzo di PowerPoint) • Letture indicate di volta in volta • Esame finale T&T 2004/05 12 Orario lezioni, esercitazioni e ricevimento • Lezioni: – Aula H; lun., mart.: 10:30-12:00, merc.: 14:15-15:45 • Esercitazioni: – in orario da concordare • Materiali lezioni ed esercitazioni: – <www2.unipr.it/~grignani/EGhome/eg.htm> – <www.nicenet.org> • Ricevimento: – mart. 15:00-16:00, merc. 9:00-10:00, Sezione beni librari (Via D’Azeglio, 85) • e-mail: – [email protected] T&T 2004/05 13 OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? T&T 2004/05 14 Che cosa si intende con “informazione”? (forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità, informatica (“information automatique”, 1962) ... • Non c’è una unica definizione “corretta” • Può essere d’interesse sociologico, linguistico, filosofico, informatico, giornalistico … • Definizione d’uso: – “notizie o fatti su qualche cosa” • Oxford English Dictionary – information: informing, telling; thing told, knowledge, items of knowledge, news – knowledge: knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known T&T 2004/05 15 Altra (!) esercitazione Cercate su un dizionario della lingua italiana le definizioni di “informazione” e “comunicazione” e procuratevi una riproduzione delle pagine (su cui trascriverete gli estremi bibliografici – autore, titolo, editore, anno di pubblicazione – del dizionario consultato). Preparatevi a presentare le voci e a discuterne insieme mercoledì p.v. T&T 2004/05 16 Che cosa si intende con informazione? • Correlare dati a un contesto (“interpretazione situazionale”) • dati informazione conoscenza • Richiede una comunità interpretante • Ogni informazione dipende dal contesto da cui proviene • Può essere registrata, immagazzinata, trasmessa (anche in forma fisica: p.e. i fossili) • Deve essere registrata • E’ una registrazione di qualcosa che può essere riutilizzato • E’ una necessità / è una comodità T&T 2004/05 17 Che tipi di informazione? • Testo – Libri, periodici, WWW, pubblicità, appunti … – A stampa / manoscritta • • • • • • • Film Fotografie, altre immagini TV, Radio Telefono Database … Quanta informazione? T&T 2004/05 18 Perché organizzare l’informazione? • E’ una questione di scala: – Usare metodi e categorie personali per organizzare la nostra raccolta di libri o di CD sembra funzionare … – Ma come organizzare una raccolta di dimensione 10, 100, 1000 … volte più grande? T&T 2004/05 19 OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? T&T 2004/05 20 Quanta informazione? Produzione libri a stampa: alcuni dati storici Sec. XV Europa 45.000 ed. fonte: ISTC Sec. XVI Italia 50.000 ed. fonte: EDIT a. 2003 60.000 ed. fonte: IE Italia (ca. 160 ed. al giorno) ma quanta informazione su altri supporti? T&T 2004/05 21 How much information is there? Dati tratti da How much information di Hal Varian e Peter Lyman <www.sims.berkeley.edu/how-much-info> Information • Stored Information (physical media) – – – – • Communicated (channels) – – – – Print Film Optical Magnetic T&T 2004/05 Internet Broadcast Phone Mail 23 Unità di misura How big is an Exabyte? (R. Williams, Data Power of Ten) Kilobyte (KB) 1000 bytes o 103 bytes 2 KB: 1 pagina datt. Megabyte (MB) 106 bytes 1 MB: 1 floppy disk 3.5 5 MB: tutto Shakespeare 100 MB: 1 metro di libri 500 MB: 1 CD-ROM Gigabyte (GB) 109 bytes Terabyte (TB) 1012 bytes 1 TB: 50.000 alberi 130 TB: collezione a stampa della Library of Congress Petabyte (PB) 1015 bytes Exabyte (EB) 1018 bytes 2 EB: tutta l'informazione generata nel 1999 T&T 2004/05 24 Print • Annual Production (1999) – – – – – Books 968,735 = 8 Terabytes (compressed image) Newspapers 22643 = 25 Terabytes Journals 40000 = 2 Terabytes Magazines 80000 = 10 Terabytes Office Documents 195 Terabytes – TOTAL 240 Terabytes (1200 scanned, 24 text) T&T 2004/05 25 Print • Library of Congress Printed book collection – About 18 Million books = About 130 Terabytes (compressed image) – For all of LC we should also assume • • • • • 13M photographs, 5MB each = 65 TB 4M maps, say 200 TB 500K files, 1GB each = 500 TB 3.5M sound recordings, ~2000 TB Grand total: 3 petabytes (~3000 terabytes) T&T 2004/05 26 Film and Image • Annual Production (1999) – Movies = 16 Terabytes (Commercial Production of about 4000 films) – Photographs = 410 Petabytes – X-Rays = 17.2 Petabytes T&T 2004/05 27 Optical Media • Annual Production (1999) – CDD-Music 90,000 items = 58 TB – CD-ROM 1,000 items = 3 TB – DVD-Video 5,000 items = 22 TB – TOTAL 83 TB (total compressed 29 TB) T&T 2004/05 28 Magnetic Media • Annual Production (1999) – – – – – Audio Tape 184,200,000 = 184.2 Petabytes Video Tape 355,000,000 = 1420 Floppy disks = 0.07 Removable disks = 1.69 Hard Disks = 500 T&T 2004/05 29 Table 1.2: Worldwide production of original information, if stored digitally, in terabytes circa 2002. Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed. Storage Medium 2002 Terab ytes Upper Estim ate 2002 Terab ytes Lower Estim ate 19992000 Upper Estim ate 19992000 Lower Estim ate % Chan ge Uppe r Esti mate s 1,634 327 1,200 240 36% Film 420,25 4 76,69 431,69 0 58,209 -3% Magnetic 51871 30 3,416, 230 2,779, 760 2,073, 760 87% 103 51 81 29 28% 5,609, 121 3,416, 281 3,212, 731 2,132, 238 74.5 % Paper Optical TOTAL: Source: How much information 2003 T&T 2004/05 30 Currently... 1. 2. 3. • Print, film, magnetic, and optical storage media produced about 5 exabytes of new information in 2002. Ninety-two percent of the new information was stored on magnetic media, mostly in hard disks. We estimate that the amount of new information stored on paper, film, magnetic, and optical media has about doubled in the last three years. Information flows through electronic channels -- telephone, radio, TV, and the Internet -- contained almost 18 exabytes of new information in 2002, three and a half times more than is recorded in storage media. Ninety eight percent of this total is the information sent and received in telephone calls - including both voice and data on both fixed lines and wireless. Radio took 38 years to get 50 M listeners, TV took 13 years, the Net took 4 years... T&T 2004/05 31 Internet Hosts (000s) 1989-2006 1000000 900000 800000 700000 600000 500000 400000 300000 200000 hosts 100000 0 2005 2003 2001 1999 1997 1995 1993 1991 1989 T&T 2004/05 Source: Vint Cerf 32 Users on the Internet - May 1999 • CAN/US - 90.65M • Europe - 40.09M • Asia/Pac - 26.97M • Latin Am - 5.29M • Africa - 1.14M • Mid-east - 0.88 M --------------------------• Total - 165M CAN/US Europe Asia/Pac Latin Am Africa Mid East Source: Vint Cerf T&T 2004/05 33 Language Distribution of Web Content English German Chinese Italian Malay Portuguese Danish Finnish Polish Norwegian Greek Croatian Thai Arabic Others & Unknown Japanese French Spanish Swedish Korean Dutch Czech Russian Hungarian Estonian Bulgarian Basque Turkish Albanian Source: Jack Xu: Excite T&T 2004/05 34 Language Distribution on a 634 Million Web Pages Corpus Language English Japanese German French Chinese Spanish Italian Swedish Malay Korean Portuguese Dutch Danish Czech Finnish Russian Polish Hungarian Norwegian Estonian Greek Bulgarian Croatian Basque Thai Turkish Arabic Albanian Others & Unknown Tota l Number of Docs 453,685,690 43,271,080 32,253,563 11,107,994 9,642,450 6,965,560 5,638,827 4,392,709 3,619,227 3,200,762 3,014,294 2,745,610 1,911,677 1,428,385 1,312,932 1,150,127 952,716 760,162 607,211 456,613 393,360 392,777 310,237 258,074 99,691 81,218 38,167 17,779 44,561,062 634,269,953 T&T 2004/05 Percentage 71.5288% 6.8222% 5.0851% 1.7513% 1.5202% 1.0982% 0.8890% 0.6926% 0.5706% 0.5046% 0.4752% 0.4329% 0.3014% 0.2252% 0.2070% 0.1813% 0.1502% 0.1198% 0.0957% 0.0720% 0.0620% 0.0619% 0.0489% 0.0407% 0.0157% 0.0128% 0.0060% 0.0028% 7.0256% 100% 35 Information Overload • “The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all.” (W.H. Auden) T&T 2004/05 36 Sources on Information, Computer, and Network Use • http://www.sims.berkeley.edu/emc/ • http://www.cs.cmu.edu/afs/cs.cmu.edu/user/bam/ www/numbers.html – Statistical snippets extracted from the news • http://www.wcom.com/about_the_company/cerfs_ up/ – Vint Cerf’s pages • http://www.firstmonday.dk/issues/issue3_10/coffm an/index.html – The size and growth rate of the Internet by K.G. Coffman and Andrew Odlyzko T&T 2004/05 37 Prossimamente • Ancora sull’informazione T&T 2004/05 38