Teoria e tecniche della
catalogazione e classificazione
Presentazioni, “informazione”, quanta infomazione?
ricerca1intro
Prof.ssa Elisa Grignani
Università degli studi di Parma
aa. 2004/2005
Ringrazio il prof. Ray Larson,
School of Information Management & Systems,
University of California Berkeley,
per avermi messo a disposizione i materiali delle sue lezioni
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
T&T 2004/05
2
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
T&T 2004/05
3
Presentazioni: docente
• Elisa GRIGNANI
•
www2.unipr.it/~grignani/EGhome/eg.htm
• Studi:
• laurea in lettere, Università di Pavia
• perfezionamento in biblioteconomia, Università di Parma
• MLIS, University of California, Berkeley
• Ricerca:
• Classificazioni bibliografiche, sistemi di recupero dell’informazione, società
bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia
delle biblioteche sec. XVII e XVIII.
• Didattica:
• Teoria e tecniche della catalogazione e classificazione, Storia e tecniche della
catalogazione e classificazione, Bibliografia, Informatica documentale.
T&T 2004/05
4
Presentazioni: studenti
•
•
•
•
•
•
•
Nome e cognome: ...
Corso di laurea: ...
Anno di iscrizione: ...
e-mail: ...
Aree di interesse o di competenza: ...
Cosa vi aspettate da questo corso? ...
Per quanti crediti lo seguite? …
T&T 2004/05
5
Per iscrivervi a questo corso:
• Andate nel sito www.nicenet.org
• “join a class”
• inserite in modo completo i dati richiesti: in particolare,
come prima cosa, l’USERNAME e la PASSWORD che
intendete utilizzare; il codice da indicare come “class key”
è: TZ07ZZ9B49; il nome della classe è BibCat
• “log in” usando USERNAME / PASSWORD: come prima
esercitazione, dovete inviarmi compilato (“turn it online”)
il modulo “Presentazioni: studenti”.
T&T 2004/05
6
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
T&T 2004/05
7
Due temi principali
Recupero
dell’informazione
e il processo di ricerca
Rappresentazione /
organizzazione
dell’informazione
T&T 2004/05
8
Due temi principali
• Come trovare risorse informative, ed oggetti che
veicolano informazione, appropriate rispetto alle
esigenze nostre o di altri
Ricerca (Modulo A)
• Come descrivere e correlare le risorse informative,
e gli oggetti che veicolano informazione, in modo
che possano essere efficacemente trovati ed
utilizzati da chi ne ha bisogno
Catalogazione (Modulo B)
T&T 2004/05
9
Ricerca – Modulo A
Recupero
dell’informazione e
processo di ricerca
ALCUNI ARGOMENTI:
- che cosa si intende con informazione?
- dati / informazione / conoscenza / sapere
- quanta informazione?
- teoria matematica dell’informazione
- ciclo di vita dell’informazione
- processo di ricerca
- sistemi di recupero dell’informazione (IR)
- valutazione IR
- bibliografie e cataloghi come sistemi IR
- ricerca in OPAC
- elementi di ricerca web
- stili di citazione bibliografica
...
T&T -2004/05
10
Catalogazione – Modulo B
Rappresentazione /
organizzazione
dell’informazione
ALCUNI ARGOMENTI:
- perchè organizzare l’informazione?
- metadati
- cataloghi
- requisiti funzionali per le registrazioni biblio
- descrizione bibliografica
- accessi formali e semantici
- authority file
- programmi per la catalogazione automatizza
- ...
T&T 2004/05
11
Esercitazioni, letture ed esame
• Circa 4 esercitazioni per modulo
• Almeno 1 presentazione in classe (anche in
piccolo gruppo; raccomandato l’utilizzo di PowerPoint)
• Letture indicate di volta in volta
• Esame finale
T&T 2004/05
12
Orario lezioni, esercitazioni e
ricevimento
• Lezioni:
– Aula H; lun., mart.: 10:30-12:00, merc.: 14:15-15:45
• Esercitazioni:
– in orario da concordare
• Materiali lezioni ed esercitazioni:
– <www2.unipr.it/~grignani/EGhome/eg.htm>
– <www.nicenet.org>
• Ricevimento:
– mart. 15:00-16:00, merc. 9:00-10:00, Sezione beni
librari (Via D’Azeglio, 85)
• e-mail:
– [email protected]
T&T 2004/05
13
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
T&T 2004/05
14
Che cosa si intende con
“informazione”?
(forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità,
informatica (“information automatique”, 1962) ...
• Non c’è una unica definizione “corretta”
• Può essere d’interesse sociologico, linguistico, filosofico,
informatico, giornalistico …
• Definizione d’uso:
– “notizie o fatti su qualche cosa”
• Oxford English Dictionary
– information: informing, telling; thing told, knowledge, items of knowledge, news
– knowledge: knowing familiarity gained by experience; person’s range of
information; a theoretical or practical understanding of; the sum of what is known
T&T 2004/05
15
Altra (!) esercitazione
Cercate su un dizionario della lingua italiana le
definizioni di “informazione” e “comunicazione” e
procuratevi una riproduzione delle pagine (su cui
trascriverete gli estremi bibliografici – autore,
titolo, editore, anno di pubblicazione – del
dizionario consultato).
Preparatevi a presentare le voci e a discuterne
insieme mercoledì p.v.
T&T 2004/05
16
Che cosa si intende con
informazione?
• Correlare dati a un
contesto (“interpretazione
situazionale”)
• dati informazione
conoscenza
• Richiede una comunità
interpretante
• Ogni informazione
dipende dal contesto da
cui proviene
• Può essere registrata,
immagazzinata, trasmessa
(anche in forma fisica: p.e.
i fossili)
• Deve essere registrata
• E’ una registrazione di
qualcosa che può essere
riutilizzato
• E’ una necessità / è una
comodità
T&T 2004/05
17
Che tipi di informazione?
• Testo
– Libri, periodici, WWW, pubblicità, appunti …
– A stampa / manoscritta
•
•
•
•
•
•
•
Film
Fotografie, altre immagini
TV, Radio
Telefono
Database
…
Quanta informazione?
T&T 2004/05
18
Perché organizzare
l’informazione?
• E’ una questione di scala:
– Usare metodi e categorie personali per
organizzare la nostra raccolta di libri o di CD
sembra funzionare …
– Ma come organizzare una raccolta di
dimensione 10, 100, 1000 … volte più grande?
T&T 2004/05
19
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
T&T 2004/05
20
Quanta informazione?
Produzione libri a stampa: alcuni dati storici
Sec. XV
Europa
45.000 ed. fonte: ISTC
Sec. XVI Italia
50.000 ed. fonte: EDIT
a. 2003
60.000 ed. fonte: IE
Italia
(ca. 160 ed. al giorno)
ma quanta informazione su altri supporti?
T&T 2004/05
21
How much information is there?
Dati tratti da How much information
di Hal Varian e Peter Lyman
<www.sims.berkeley.edu/how-much-info>
Information
• Stored Information
(physical media)
–
–
–
–
• Communicated
(channels)
–
–
–
–
Print
Film
Optical
Magnetic
T&T 2004/05
Internet
Broadcast
Phone
Mail
23
Unità di misura
How big is an Exabyte? (R. Williams, Data Power of Ten)
Kilobyte (KB)
1000 bytes o 103 bytes
2 KB: 1 pagina datt.
Megabyte (MB)
106 bytes
1 MB: 1 floppy disk 3.5
5 MB: tutto Shakespeare
100 MB: 1 metro di libri
500 MB: 1 CD-ROM
Gigabyte (GB)
109 bytes
Terabyte (TB)
1012 bytes
1 TB: 50.000 alberi
130 TB: collezione a stampa
della Library of Congress
Petabyte (PB)
1015 bytes
Exabyte (EB)
1018 bytes
2 EB: tutta l'informazione
generata nel 1999
T&T 2004/05
24
Print
• Annual Production (1999)
–
–
–
–
–
Books
968,735 =
8 Terabytes (compressed image)
Newspapers
22643 = 25 Terabytes
Journals
40000 =
2 Terabytes
Magazines
80000 = 10 Terabytes
Office Documents
195 Terabytes
– TOTAL 240 Terabytes (1200 scanned, 24 text)
T&T 2004/05
25
Print
• Library of Congress Printed book collection
– About 18 Million books = About 130 Terabytes
(compressed image)
– For all of LC we should also assume
•
•
•
•
•
13M photographs, 5MB each = 65 TB
4M maps, say 200 TB
500K files, 1GB each = 500 TB
3.5M sound recordings, ~2000 TB
Grand total: 3 petabytes (~3000 terabytes)
T&T 2004/05
26
Film and Image
• Annual Production (1999)
– Movies = 16 Terabytes (Commercial Production of
about 4000 films)
– Photographs = 410 Petabytes
– X-Rays = 17.2 Petabytes
T&T 2004/05
27
Optical Media
• Annual Production (1999)
– CDD-Music 90,000 items = 58 TB
– CD-ROM 1,000 items
= 3 TB
– DVD-Video 5,000 items = 22 TB
– TOTAL
83 TB (total compressed 29 TB)
T&T 2004/05
28
Magnetic Media
• Annual Production (1999)
–
–
–
–
–
Audio Tape 184,200,000 = 184.2 Petabytes
Video Tape 355,000,000 = 1420
Floppy disks
= 0.07
Removable disks
= 1.69
Hard Disks
= 500
T&T 2004/05
29
Table 1.2: Worldwide production of original information, if stored digitally, in terabytes circa 2002.
Upper estimates assume information is digitally scanned, lower estimates assume digital content has
been compressed.
Storage Medium
2002
Terab
ytes
Upper
Estim
ate
2002
Terab
ytes
Lower
Estim
ate
19992000
Upper
Estim
ate
19992000
Lower
Estim
ate
%
Chan
ge
Uppe
r
Esti
mate
s
1,634
327
1,200
240
36%
Film
420,25
4
76,69
431,69
0
58,209
-3%
Magnetic
51871
30
3,416,
230
2,779,
760
2,073,
760
87%
103
51
81
29
28%
5,609,
121
3,416,
281
3,212,
731
2,132,
238
74.5
%
Paper
Optical
TOTAL:
Source: How much information 2003
T&T 2004/05
30
Currently...
1.
2.
3.
•
Print, film, magnetic, and optical storage media produced about
5 exabytes of new information in 2002. Ninety-two percent of
the new information was stored on magnetic media, mostly in
hard disks.
We estimate that the amount of new information stored on
paper, film, magnetic, and optical media has about doubled in
the last three years.
Information flows through electronic channels -- telephone,
radio, TV, and the Internet -- contained almost 18 exabytes of
new information in 2002, three and a half times more than is
recorded in storage media. Ninety eight percent of this total is
the information sent and received in telephone calls - including
both voice and data on both fixed lines and wireless.
Radio took 38 years to get 50 M listeners, TV took 13 years, the Net
took 4 years...
T&T 2004/05
31
Internet Hosts (000s) 1989-2006
1000000
900000
800000
700000
600000
500000
400000
300000
200000
hosts
100000
0
2005
2003
2001
1999
1997
1995
1993
1991
1989
T&T 2004/05
Source: Vint Cerf
32
Users on the Internet - May 1999
• CAN/US - 90.65M
• Europe - 40.09M
• Asia/Pac - 26.97M
• Latin Am - 5.29M
• Africa - 1.14M
• Mid-east - 0.88 M
--------------------------• Total - 165M
CAN/US
Europe
Asia/Pac
Latin Am
Africa
Mid East
Source: Vint Cerf
T&T 2004/05
33
Language Distribution of Web Content
English
German
Chinese
Italian
Malay
Portuguese
Danish
Finnish
Polish
Norwegian
Greek
Croatian
Thai
Arabic
Others & Unknown
Japanese
French
Spanish
Swedish
Korean
Dutch
Czech
Russian
Hungarian
Estonian
Bulgarian
Basque
Turkish
Albanian
Source: Jack Xu: Excite
T&T 2004/05
34
Language Distribution on a 634 Million Web Pages Corpus
Language
English
Japanese
German
French
Chinese
Spanish
Italian
Swedish
Malay
Korean
Portuguese
Dutch
Danish
Czech
Finnish
Russian
Polish
Hungarian
Norwegian
Estonian
Greek
Bulgarian
Croatian
Basque
Thai
Turkish
Arabic
Albanian
Others & Unknown
Tota l
Number of Docs
453,685,690
43,271,080
32,253,563
11,107,994
9,642,450
6,965,560
5,638,827
4,392,709
3,619,227
3,200,762
3,014,294
2,745,610
1,911,677
1,428,385
1,312,932
1,150,127
952,716
760,162
607,211
456,613
393,360
392,777
310,237
258,074
99,691
81,218
38,167
17,779
44,561,062
634,269,953
T&T 2004/05
Percentage
71.5288%
6.8222%
5.0851%
1.7513%
1.5202%
1.0982%
0.8890%
0.6926%
0.5706%
0.5046%
0.4752%
0.4329%
0.3014%
0.2252%
0.2070%
0.1813%
0.1502%
0.1198%
0.0957%
0.0720%
0.0620%
0.0619%
0.0489%
0.0407%
0.0157%
0.0128%
0.0060%
0.0028%
7.0256%
100%
35
Information Overload
• “The greatest problem of today is how to
teach people to ignore the irrelevant, how to
refuse to know things, before they are
suffocated. For too many facts are as bad as
none at all.” (W.H. Auden)
T&T 2004/05
36
Sources on Information,
Computer, and Network Use
• http://www.sims.berkeley.edu/emc/
• http://www.cs.cmu.edu/afs/cs.cmu.edu/user/bam/
www/numbers.html
– Statistical snippets extracted from the news
• http://www.wcom.com/about_the_company/cerfs_
up/
– Vint Cerf’s pages
• http://www.firstmonday.dk/issues/issue3_10/coffm
an/index.html
– The size and growth rate of the Internet by K.G.
Coffman and Andrew Odlyzko
T&T 2004/05
37
Prossimamente
• Ancora sull’informazione
T&T 2004/05
38
Scarica

Visualizza/apri