Bibliografia. Sistemi di recupero dell’informazione
Teoria e tecniche
della catalogazione e classificazione
Presentazioni, “informazione”, quanta infomazione?
ricerca1info
Prof.ssa Elisa Grignani
Università degli studi di Parma
aa. 2005/2006
OGGI
• Presentazioni (già visto)
• Presentazione del corso (già visto)
• Che cosa si intende con “informazione”?
• Quanta informazione?
2
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
3
Presentazioni: docente
• Elisa GRIGNANI
•
www2.unipr.it/~grignani/EGhome/eg.htm
• Studi:
• laurea in lettere, Università di Pavia
• perfezionamento in biblioteconomia, Università di Parma
• MLIS, University of California, Berkeley
• Ricerca:
• Classificazioni bibliografiche, sistemi di recupero dell’informazione, società
bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia
delle biblioteche sec. XVII.
• Didattica:
• Teoria e tecniche della catalogazione e classificazione, Bibliografia,
Biblioteconomia
4
Presentazioni: studenti
•
•
•
•
•
•
•
Nome e cognome: ...
Corso di laurea: ...
Anno di iscrizione: ...
e-mail: ...
Aree di interesse o di competenza: ...
Cosa vi aspettate da questo corso? ...
Per quanti crediti lo seguite? …
5
Per iscrivervi a questo corso:
• Andate nel sito www.nicenet.org
• “join a class”
• inserite in modo completo i dati richiesti: in particolare,
come prima cosa, l’USERNAME e la PASSWORD che
intendete utilizzare; il codice da indicare come “class key”
è: OZ39495B83; il nome della classe è Biblio
• “log in” usando USERNAME / PASSWORD: come prima
esercitazione, dovete inviarmi compilato (“turn it online”)
il modulo “Presentazioni: studenti”.
6
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
7
Due temi principali
Recupero
dell’informazione
e il processo di ricerca
Rappresentazione /
organizzazione
dell’informazione
8
Due temi principali
• Come trovare risorse informative, ed oggetti che
veicolano informazione, appropriate rispetto alle
esigenze nostre o di altri
Ricerca (Modulo A)
• Come descrivere le risorse informative, e gli
oggetti che veicolano informazione, in modo che
possano essere efficacemente trovati ed utilizzati
da chi ne ha bisogno
Catalogazione (Modulo B)
9
Ricerca – Modulo A
Recupero
dell’informazione e
processo di ricerca
ALCUNI ARGOMENTI:
- che cosa si intende con informazione?
- dati / informazione / conoscenza / sapere
- quanta informazione?
- teoria matematica dell’informazione
- ciclo di vita dell’informazione
- processo di ricerca
- sistemi di recupero dell’informazione (IR)
- valutazione IR
- bibliografie e cataloghi come sistemi IR
- ricerca in OPAC
- elementi di ricerca web
- stili di citazione bibliografica
- ...
10
Catalogazione – Modulo B
Rappresentazione /
organizzazione
dell’informazione
ALCUNI ARGOMENTI:
- perchè organizzare l’informazione?
- metadati
- cataloghi
- requisiti funzionali per le registrazioni biblio
- descrizione bibliografica
- accessi formali e semantici
- authority file
- programmi per la catalogazione automatizza
- ...
11
Goals and Objectives
• Modulo A - Ricerca
– Risultati:
– Obiettivi:
• Modulo B - Catalogazione
– Risultati:
– Obiettivi:
12
Esercitazioni, letture ed esame
• Circa 4 esercitazioni per modulo
• 1 presentazione in classe (anche in piccolo gruppo;
raccomandato l’utilizzo di PowerPoint)
• Letture indicate di volta in volta
• Esame finale
13
Orario lezioni, esercitazioni e
ricevimento
• Lezioni:
– Aula H; lun., mart.: 10:30-12:00, merc.: 14:15-15:45
• Esercitazioni:
– in orario da concordare
• Materiali lezioni ed esercitazioni:
– <www2.unipr.it/~grignani/EGhome/eg.htm>
– <www.nicenet.org>
• Ricevimento:
– mart. 15:00-16:00, merc. 9:00-10:00, Sezione beni
librari (Via D’Azeglio, 85)
• e-mail:
– [email protected]
14
Calendario lezioni
• I semestre:
– Modulo A: 19 sett. - 29 ott. 2005
– Modulo B: 10 nov. - 22 dic.
– Modulo C: 9 gen. - 28 gen. 2006
15
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
16
Che cosa si intende con
“informazione”?
(forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità,
informatica (“information automatique”, 1962) ...
• Non c’è una unica definizione “corretta”
• Può essere d’interesse sociologico, linguistico, filosofico,
informatico, giornalistico …
• Definizione d’uso:
– “notizie o fatti su qualche cosa”
• Oxford English Dictionary
– information: informing, telling; thing told, knowledge, items of knowledge, news
– knowledge: knowing familiarity gained by experience; person’s range of
information; a theoretical or practical understanding of; the sum of what is known
17
Che cosa si intende con
informazione?
• Correlare dati a un
contesto (“interpretazione
situazionale”)
• dati informazione
conoscenza
• Richiede una comunità
interpretante
• Ogni informazione
dipende dal contesto da
cui proviene
• Può essere registrata,
immagazzinata, trasmessa
(anche in forma fisica: p.e.
i fossili)
• Deve essere registrata
• E’ una registrazione di
qualcosa che può essere
riutilizzato
• E’ una necessità / è una
comodità
18
Che tipi di informazione?
• Testo
– Libri, periodici, WWW, pubblicità, appunti …
– A stampa / manoscritta
•
•
•
•
•
•
•
Film
Fotografie, altre immagini
TV, Radio
Telefono
Database
…
Quanta informazione?
19
Perché organizzare
l’informazione?
• E’ una questione di scala:
– Usare metodi e categorie personali per
organizzare la nostra raccolta di libri o di CD
sembra funzionare …
– Ma come organizzare una raccolta di
dimensione 10, 100, 1000 … volte più grande?
20
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
21
Quanta informazione?
Produzione libri a stampa: alcuni dati storici
• Sec. XV
Europa 45.000 ed. fonte: ISTC
• Sec. XVI Italia
50.000 ed. fonte: EDIT
• a.
60.000 ed. fonte: IE
•
2003 Italia
(ca. 160 ed. al giorno)
• ma quanta informazione su altri supporti?
22
How much information is there?
Dati tratti da How much information
di Hal Varian e Peter Lyman
<http://www.sims.berkeley.edu/research/projects/
how-much-info-2003/>
Information
• Stored Information
(physical media)
–
–
–
–
Print
Film
Optical
Magnetic
• Communicated
(channels)
–
–
–
–
Internet
Broadcast
Phone
Mail
24
Unità di misura
How big is an Exabyte? (R. Williams, Data Power of Ten)
Kilobyte (KB)
1000 bytes o 103 bytes
2 KB: 1 pagina datt.
Megabyte (MB)
106 bytes
1 MB: 1 floppy disk 3.5
5 MB: tutto Shakespeare
100 MB: 1 metro di libri
500 MB: 1 CD-ROM
Gigabyte (GB)
109 bytes
Terabyte (TB)
1012 bytes
1 TB: 50.000 alberi
130 TB: collezione a stampa
della Library of Congress
Petabyte (PB)
1015 bytes
Exabyte (EB)
1018 bytes
2 EB: tutta l'informazione
generata nel 1999
25
Table 1.1: How Big is an Exabyte?
Kilobyte (KB)
1,000 bytes OR 103bytes
2 Kilobytes: A Typewritten page.
100 Kilobytes: A low-resolution photograph.
Megabyte (MB)
1,000,000 bytes OR 106 bytes
1 Megabyte: A small novel OR a 3.5 inch floppy disk.
2 Megabytes: A high-resolution photograph.
5 Megabytes: The complete works of Shakespeare.
10 Megabytes: A minute of high-fidelity sound.
100 Megabytes: 1 meter of shelved books.
500 Megabytes: A CD-ROM.
Gigabyte (GB)
1,000,000,000 bytes OR 109 bytes
1 Gigabyte: a pickup truck filled with books.
20 Gigabytes: A good collection of the works of Beethoven.
100 Gigabytes: A library floor of academic journals.
Terabyte (TB)
1,000,000,000,000 bytes OR 1012 bytes
1 Terabyte: 50000 trees made into paper and printed.
2 Terabytes: An academic research library.
10 Terabytes: The print collections of the U.S. Library of Congress.
400 Terabytes: National Climactic Data Center (NOAA) database.
Petabyte (PB)
1,000,000,000,000,000 bytes OR 10 15 bytes
1 Petabyte: 3 years of EOS data (2001).
2 Petabytes: All U.S. academic research libraries.
20 Petabytes: Production of hard-disk drives in 1995.
200 Petabytes: All printed material.
Exabyte (EB)
1,000,000,000,000,000,000 bytes OR 1018 bytes
2 Exabytes: Total volume of information generated in 1999.
5 Exabytes: All words ever spoken by human beings.
26
Summary of findings
1.
Print, film, magnetic, and optical storage media produced about 5 exabytes of
new information in 2002. Ninety-two percent of the new information was
stored on magnetic media, mostly in hard disks.
2.
We estimate that the amount of new information stored on paper, film,
magnetic, and optical media has about doubled in the last three years.
3.
Information flows through electronic channels -- telephone, radio, TV, and the
Internet -- contained almost 18 exabytes of new information in 2002, three and
a half times more than is recorded in storage media. Ninety eight percent of
this total is the information sent and received in telephone calls - including
both voice and data on both fixed lines and wireless.
•
Radio took 38 years to get 50 M listeners, TV took 13 years, the Net took 4 years...
27
Print
• Annual Production (1999)
–
–
–
–
–
Books
968,735 =
8 Terabytes (compressed image)
Newspapers
22643 = 25 Terabytes
Journals
40000 =
2 Terabytes
Magazines
80000 = 10 Terabytes
Office Documents
195 Terabytes
– TOTAL 240 Terabytes (1200 scanned, 24 text)
28
Print
• Library of Congress Printed book collection
– About 18 Million books = About 130 Terabytes
(compressed image)
– For all of LC we should also assume
•
•
•
•
•
13M photographs, 5MB each = 65 TB
4M maps, say 200 TB
500K files, 1GB each = 500 TB
3.5M sound recordings, ~2000 TB
Grand total: 3 petabytes (~3000 terabytes)
29
Film and Image
• Annual Production (1999)
– Movies = 16 Terabytes (Commercial Production of
about 4000 films)
– Photographs = 410 Petabytes
– X-Rays = 17.2 Petabytes
30
Optical Media
• Annual Production (1999)
– CDD-Music 90,000 items = 58 TB
– CD-ROM 1,000 items
= 3 TB
– DVD-Video 5,000 items = 22 TB
– TOTAL
83 TB (total compressed 29 TB)
31
Magnetic Media
• Annual Production (1999)
–
–
–
–
–
Audio Tape 184,200,000 = 184.2 Petabytes
Video Tape 355,000,000 = 1420
Floppy disks
= 0.07
Removable disks
= 1.69
Hard Disks
= 500
32
Table 1.2: Worldwide production of original information, if stored digitally, in terabytes circa 2002.
Upper estimates assume information is digitally scanned, lower estimates assume digital content has
been compressed.
Storage Medium
2002
Terab
ytes
Upper
Estim
ate
2002
Terab
ytes
Lower
Estim
ate
19992000
Upper
Estim
ate
19992000
Lower
Estim
ate
%
Chan
ge
Uppe
r
Esti
mate
s
1,634
327
1,200
240
36%
Film
420,25
4
76,69
431,69
0
58,209
-3%
Magnetic
51871
30
3,416,
230
2,779,
760
2,073,
760
87%
103
51
81
29
28%
5,609,
121
3,416,
281
3,212,
731
2,132,
238
74.5
%
Paper
Optical
TOTAL:
Source: How much information 2003
33
Internet Hosts (000s) 1989-2006
1000000
900000
800000
700000
600000
500000
400000
300000
200000
hosts
100000
0
2005
2003
2001
1999
1997
1995
1993
1991
1989
Source: Vint Cerf
34
Users on the Internet (1999)
• CAN/US - 90.65M
• Europe - 40.09M
• Asia/Pac - 26.97M
• Latin Am - 5.29M
• Africa - 1.14M
• Mid-east - 0.88 M
--------------------------• Total - 165M
CAN/US
Europe
Asia/Pac
Latin Am
Africa
Mid East
Source: Vint Cerf
35
2002: Around the world about 600 million people have access to the Internet, about 30% of them in
North America.
World Distribution of Internet Users (in millions)
Africa
6.31
Asia Pacific
187.24
Europe
190.91
Middle East
Canada and USA
Latin America
5.12
182.67
33.35
36
37
According to Nielsen/NetRatings, the average Internet user in 2002
spended 11 hours and 24 minutes online per month; the average user in
the United States more than twice that amount of time online: 25 hours
and 25 minutes at home and 74 hours and 26 minutes at work. In the
United States, Internet access is used to send email (52%), get news
(32%), use a search engine to find information (29%), surf the web
(23%), do research for work (19%), check the weather (17%) or send an
instant message (14%) (Source: Pew Internet and American Life
Project).
38
Language Distribution of Web Content
English
German
Chinese
Italian
Malay
Portuguese
Danish
Finnish
Polish
Norwegian
Greek
Croatian
Thai
Arabic
Others & Unknown
Japanese
French
Spanish
Swedish
Korean
Dutch
Czech
Russian
Hungarian
Estonian
Bulgarian
Basque
Turkish
Albanian
Source: Jack Xu: Excite
39
Language Distribution on a 634 Million Web Pages Corpus
Language
English
Japanese
German
French
Chinese
Spanish
Italian
Swedish
Malay
Korean
Portuguese
Dutch
Danish
Czech
Finnish
Russian
Polish
Hungarian
Norwegian
Estonian
Greek
Bulgarian
Croatian
Basque
Thai
Turkish
Arabic
Albanian
Others & Unknown
Tota l
Number of Docs
453,685,690
43,271,080
32,253,563
11,107,994
9,642,450
6,965,560
5,638,827
4,392,709
3,619,227
3,200,762
3,014,294
2,745,610
1,911,677
1,428,385
1,312,932
1,150,127
952,716
760,162
607,211
456,613
393,360
392,777
310,237
258,074
99,691
81,218
38,167
17,779
44,561,062
634,269,953
Percentage
71.5288%
6.8222%
5.0851%
1.7513%
1.5202%
1.0982%
0.8890%
0.6926%
0.5706%
0.5046%
0.4752%
0.4329%
0.3014%
0.2252%
0.2070%
0.1813%
0.1502%
0.1198%
0.0957%
0.0720%
0.0620%
0.0619%
0.0489%
0.0407%
0.0157%
0.0128%
0.0060%
0.0028%
7.0256%
100%
40
Information Overload
• “The greatest problem of today is how to
teach people to ignore the irrelevant, how to
refuse to know things, before they are
suffocated. For too many facts are as bad as
none at all.” (W.H. Auden)
Cerchiamo l’espressione “information overload” in <www.google.it>.
Quanti risultati otteniamo?
41
Prossimamente
• Ancora sull’informazione
42
Scarica

Quanta informazione? - Università degli Studi di Parma