BIBLIOMETRIA E ANALISI
DELLE CITAZIONI
Nicola De Bellis
([email protected])
Università Ca' Foscari, Venezia, 1/12/2009
INDICE ARGOMENTI
1
2
DEFINIZIONE DELLA DISCIPLINA
E UN PO’ DI STORIA
L’ATTREZZO DI LAVORO:
SCIENCE CITATION INDEX
3
BASI FILOSOFICHE
4
BASI MATEMATICHE
5
APPLICAZIONI [1] CARTOGRAFIA
DELLA SCIENZA
6
APPLICAZIONI [2] VALUTAZIONE
DELLA RICERCA
7
8
APPLICAZIONI [3] WEBMETRICA
CONCLUSIONI
1
DEFINIZIONE DELLA
DISCIPLINA E UN PO’ DI
STORIA
DI COSA PARLIAMO
Una metodologia d’indagine storico-sociale
che, al pari di tante altre, si basa su documenti
(cartacei o digitali) ma, a differenza delle altre:
[1] non guarda al contenuto (significato,
messaggio, interpretazione);
[2] punta ad estrapolare le relazioni quantitative
tra i documenti e tra gli elementi che li
compongono (parole, link bibliografici, autori,
istituzioni, etc.).
DI COSA PARLIAMO
[3] si concentra in prevalenza sull’analisi quantitativa
delle citazioni bibliografiche ricavate dagli
articoli di riviste scientifiche (scienze naturali e
biomediche), quindi perviene a conclusioni che si
suppone valide solo per le discipline che
utilizzano l’articolo (scientific paper) come
strumento principale di comunicazione scientifica
(non è il caso delle discipline umanistiche e
storico-sociali).
REFERENCE & CITATION
L’attenzione accordata alle citazioni
bibliografiche a scapito di altri
aspetti quantificabili presuppone che
si abbia ben chiara la differenza tra
riferimento bibliografico
(reference) e citazione bibliografica
(citation).
ESEMPIO [1]
A cita B in un
riferimento
bibliografico R
A
B
Dal punto di vista di A, l’entità R è un riferimento
bibliografico (reference)
Dal punto di vista di B, l’entità R è una citazione
bibliografica (citation)
ESEMPIO [2]
A
A1
A2
A3
B
Il documento (quindi l’autore)
B riceve 4 citazioni, ovvero 4
riferimenti bibliografici di
autori diversi puntano a B
ESEMPIO [3]
C
A
A1
C1
A2
C2
C3
A3
B
Se aggiungo altri link
citazionali ottengo una rete
bibliografica che può essere
analizzata con metodi
matematici
IPOTESI
Se si assume che A, A1, A2, A3,... non
stiano barando, ovvero citano B in
bibliografia perché B ha fornito un
supporto (di qualsiasi tipo: concetto,
argomento, risultato sperimentale,
equazione, etc.) alle loro scoperte, allora
si può affermare che ...
INDICATORI
... le citazioni documentano delle
connessioni intellettuali tra
documenti (e autori) ed il conteggio
delle citazioni rivela l’intensità di
tali connessioni intellettuali.
In termini equivalenti: il numero di
citazioni ricevute da un documento
fornisce un indicatore del suo
impatto cognitivo.
CONFUSIONE TERMINOLOGICA
Esistono molti termini riferiti alle aree di
ricerca che utilizzano questa
metodologia:
bibliometria, scientometria,
informetrica, webmetrica,
cybermetrica, netmetrica ...
BIBLIOMETRIA SCIENTOMETRIA
 BIBLIOMETRIA: applicazione della
matematica e di metodi statistici ai prodotti
della comunicazione (testi, libri, articoli,
bibliografie).
 SCIENTOMETRIA: applicazione della
matematica e dei metodi statistici ai prodotti
della comunicazione scientifica e tecnologica
finalizzata ad accertare il contributo relativo di
scienziati, istituzioni, nazioni al progresso delle
conoscenze.
INFORMETRICA WEBMETRICA
 INFORMETRICA: studio degli aspetti
quantitativi dell’informazione in qualunque
forma (non solo informazione registrata in libri,
articoli, etc.) e presso qualunque gruppo sociale
(non solo scienziati).
 WEBMETRICA (CYBERMETRICA,
NETMETRICA): estensione dei metodi bibliosciento-informetrici ai flussi informativi che si
materializzano sulla rete Internet (non solo
Web, ma anche posta elettronica, ftp, reti p2p).
ORIGINI
 TEORIA MATEMATICA DEL CALCOLO
DELLE PROBABILITA’ (metà XVII secolo):
forma il nucleo della statistica inferenziale che, a
partire dalla seconda metà del XIX secolo, viene
applicata anche al di fuori delle scienze esatte
(biologia, studi sociologici, etc.)
 BIBLIOGRAFIA STATISTICA (fine XIX
secolo): analisi quantitativa delle bibliografie
finalizzata a documentare il progresso scientifico
o ad assistere i bibliotecari nelle politiche di
sviluppo delle collezioni.
DOCUMENTARE IL PROGRESSO
1917: i britannici Francis J. Cole e Nellie B. Eales
applicano l’analisi quantitativa alla letteratura
prodotta, tra il 1543 ed il 1860, nel campo
dell’anatomia comparata. Ci sono già le premesse
di ogni futura indagine bibliometrica:
 RIDUZIONISMO: lo studio del progresso
scientifico si riduce allo studio delle pubblicazioni.
 CONSAPEVOLEZZA DEI LIMITI: la qualità
della ricerca non va confusa con la quantità di
pubblicazioni.
ASSISTERE I BIBLIOTECARI
1927: presso il college di Pomona, i coniugi Gross
stilano una classifica di periodici sulla base del
numero di citazioni ricevute in un’annata del
Journal of the American Chemical Society:
 EQUIVALENZA QUALITA’ = NUMERO DI
CITAZIONI;
 FATTORE “IMMEDIATEZZA”: a parità di
punteggio, sono preferibili le riviste che ricevono
più citazioni per gli articoli più recenti.
LA SVOLTA
L’analisi quantitativa dei documenti e delle
bibliografie è rimasta un’attività
estemporanea fino a quando ...
... non si sono create le condizioni storiche che
hanno reso le misure della comunicazione
scientifica desiderabili da un punto di vista
politico. Ciò è accaduto, a partire dalla fine
della II Guerra Mondiale, in America ed in
Europa (ma non in Italia).
BIG SCIENCE
 Consapevolezza che scienza e tecnologia possono
essere controllate, manipolate e orientate verso
obiettivi specifici per favorire la crescita economica.
 La scienza diventa “Big Science”: il governo e
l’industria finanziano la ricerca pura e applicata
nell’ambito di progetti internazionali su larga scala
(Manhattan, Hubble, Human Genome Project, etc..).
 Necessità di strumenti più raffinati di controllo
della letteratura scientifica e al tempo stesso di
sistemi di valutazione della ricerca meno legati a
gruppi di interesse locali.
LA SOLUZIONE
Nei primi anni ’60, EUGENE GARFIELD,
fondatore dell’Institute for Scientific
Information (ISI) a Filadelfia, rende popolare
tra i genetisti del National Institutes of Health
un oggetto nato per facilitare le ricerche
bibliografiche: lo SCIENCE CITATION
INDEX (SCI). Si tratta di un indice
citazionale, ovvero di un repertorio costruito
attraverso due operazioni concettualmente
semplici ...
SCIENCE CITATION INDEX (1964-)
[1] Si sceglie un certo numero di riviste
internazionali e si catalogano in modo
analitico, articolo per articolo, tutti i
documenti citati nelle note e nelle bibliografie
finali;
[2] si inverte la lista così ottenuta in modo da
poter risalire da un particolare documento a
tutti gli articoli delle riviste di partenza che
lo hanno citato. Diventano così possibili tre
operazioni (di interesse non solo bibliografico).
[1] INFORMATION RETRIEVAL
Utilizzare un documento rilevante “per
me” allo scopo di recuperare altri
documenti scritti da autori che, al pari di
me, hanno giudicato rilevante lo stesso
contributo e perciò hanno deciso di
citarlo in bibliografia (citazione
bibliografica come strumento di
information retrieval).
[2] LEGAMI INTELLETTUALI
Identificare i legami intellettuali tra autori
citanti ed autori citati, quindi identificare
documenti e autori chiave di un settore
d’indagine e costruire una mappa
bibliometrica dei confini tra discipline,
specialità, fronti di ricerca (citazione
bibliografica come strumento di analisi
sociologica e di mappatura della scienza).
[3] IMPATTO
Stimare, in termini di numero di
citazioni ricevute, l’impatto esercitato
da documenti, autori, istituzioni su
un’area di ricerca (citazione
bibliografica come strumento di
valutazione della ricerca). Ecco
perché lo SCI è diventato il principale
attrezzo di lavoro della bibliometria.
2
L’ATTREZZO DI LAVORO: LO
SCIENCE CITATION INDEX
(SCI)
ISI THOMSON
Nel 1992 l’ISI è acquistata dalla multinazionale
canadese Thomson Reuters e lo Science Citation
Index, assieme alle altre creature di Garfield
ovvero Social Sciences Citation Index (SSCI),
Arts & Humanities Citation Index (A&HCI),
Current Contents (CC), entra a far parte della
piattaforma commerciale ISI Web of Knowledge
(www.isiwebofknowledge.com/).
RICERCHE PER CITAZIONE
Partendo dal record di un documento
(libro, articolo, relazione di convegno,
etc.) ...
... risalgo a tutti gli articoli di un certo
numero di riviste internazionali
preselezionate... CHE LO HANNO
CITATO IN BIBLIOGRAFIA
Ricerca
tradizionale per
parola chiave
Database
bibliografico
2004
paper
1957
paper
Indice di
citazioni
1987
paper
1996
paper
1982
paper
Ricerca per citazione
(Cited Reference Search)
2003
paper
1993
paper
1982
paper
1957
paper
1996
paper
ESEMPIO
Proviamo a cercare gli
articoli che hanno
citato:
In questo caso il titolo e le
parole chiave non servono.
I canali di ricerca sono:
Autore, Rivista, Anno
Freemantle N, Cleland J, Young P, Mason
J, Harrison J. Beta Blockade after
myocardial infarction: systematic review
and meta regression analysis. BMJ. 1999
Jun 26;318(7200):1730-7.
Inserisco i termini
corrispondenti ai tre canali di
ricerca negli appositi campi
della Cited Reference Search
(attenzione alle abbreviazioni)
Dal numero di pagina iniziale
dell’articolo risalgo al record
da visualizzare
Il pannello sulla destra mi dà
un quadro riassuntivo del
numero di citazioni. Cliccando
su VIEW ALL 406 CITING
ARTICLES visualizzo l’elenco
completo degli articoli citanti
Ottengo infine la lista degli
articoli (pubblicati in riviste
indicizzate dallo SCI) che hanno
citato l’articolo di partenza
BIBLIOGRAFIA PER CITAZIONI

Molti dei titoli trovati con questo sistema avranno
affinità di contenuto con l'articolo di partenza (nel
nostro esempio la percentuale è alta perché … si
tratta di un argomento molto ben definito …ma
anche perché … [lo vedremo in seguito]).

Alcuni dei titoli invece avranno scarsa o nessuna
affinità di contenuto con l'articolo iniziale in
quanto esistono diversi motivi per citare (non
tutti prevedibili: spesso si cita senza aver letto).
DIFETTO
Una ricerca per citazioni è in genere
meno precisa di una ricerca per
soggetti e parole chiave (esistono tante
ragioni per citare e la citazione può
riferirsi anche ad un concetto
marginale trattato nel documento
citato), tuttavia può rivelarsi molto
utile quando ...
QUANDO USARE LO SCI
 si ha in mano un articolo perfettamente centrato
sull'argomento della propria ricerca e si vuole risalire
velocemente ad altri articoli più recenti di
argomento affine;
 per la particolarità dell'argomento, la bibliografia
ricavata da database non-citazionali è scarsa o nulla;
 la ricerca ha un'impostazione interdisciplinare e le
fonti potrebbero essere indicizzate in database di
area diversa.
SPESSO SI DIMENTICA CHE...
A differenza di un database
convenzionale, un indice di
citazioni non ha limiti
cronologici prestabiliti: trovo
anche le opere di Copernico e
Galilei (se qualcuno li ha
citati).
IL VERO PROBLEMA
Il vero problema è la quantità e qualità delle fonti
(riviste) selezionate per costruire il repertorio.
Quando decido di indicizzare solo articoli di un
certo numero di riviste internazionali faccio una
scelta di campo molto precisa dando per scontato
che:
 le riviste selezionate sono un campione
rappresentativo della produzione scientifica della
comunità di studiosi;
 l’articolo di rivista è il principale strumento di
comunicazione adottato dagli studiosi (chiaramente
falso per le scienze sociali e umane ma non solo).
DOMANDA
Come vengono selezionate le fonti
(riviste) per l’indicizzazione delle
citazioni? Come faccio ad essere
sicuro che il conteggio rispecchi
fedelmente l’impatto citazionale
complessivo di un autore sulla
comunità scientifica? Si possono
utilizzare database diversi dallo SCI?
CRITERI DI SELEZIONE
 QUALITATIVI: giudizio di un comitato di esperti,
reputazione scientifica dell'editore e del comitato di
redazione; formato dei dati bibliografici predisposto
alla codifica e all'elaborazione computerizzata; rispetto
di alcuni standard editoriali di base (puntualità dei
fascicoli, accuratezza e completezza dei dati
bibliografici, inclusione di indici e abstract in lingua
inglese);
 QUANTITATIVI: impatto citazionale della rivista
lungo un certo arco di tempo (Impact Factor).
NON-ISI JOURNALS
Fonti alternative (o complementari) allo SCI per il
conteggio delle citazioni:
 SCOPUS di Elsevier;
 GOOGLE SCHOLAR;
 INDICI CITAZIONALI DISCIPLINARI: ad es.
Chemical Abstract Service (CAS); SPIRES HEP
database; MathSciNet;
 SISTEMI SPERIMENTALI DI HARVESTING
DELLA LETTERATURA SCIENTIFICA
ONLINE: CiteBase, CiteSeer.
3
BASI FILOSOFICHE
CONTRIBUTI FONDAMENTALI
 JOHN DESMOND BERNAL (1901-1971) e la
scienza come sistema materiale di relazioni sociali e
simboliche.
 ROBERT K. MERTON (1910-2003) e la
concezione normativa della scienza.
 EUGENE GARFIELD (1925-) & HENRY
SMALL (1941-) e le citazioni bibliografiche come
simboli di concetti (concept symbols).
 DEREK J. DE SOLLA PRICE (1922-1983) e la
scienza come sistema “termodinamico” governato da
leggi matematiche.
BERNAL
La scienza ed il metodo scientifico, sebbene
rappresentino il fondamento di ogni conoscenza
umana valida, non sono il frutto di “pura
speculazione” ma attività sociali e socialmente
controllabili. E’ possibile pertanto monitorare (e
accelerare) il progresso scientifico mediante
un’analisi quantitativa dei prodotti dell’attività di
ricerca (letteratura scientifica) ed una pianificazione
accurata degli obiettivi
MA …
RIVOLUZIONE
… MA per fare questo serve una rivoluzione nel
sistema della comunicazione scientifica:
 ABOLIZIONE DEI PERIODICI: troppi, mal
gestiti in funzione di interessi privati (da editori e
società scientifiche), e male indicizzati (dai servizi
di abstracting & indexing);
 CREAZIONE DI UN UNICO CENTRO o di una
rete di centri interconnessi (clearinghouses) per la
raccolta, catalogazione e disseminazione “mirata”
della letteratura tecnico-scientifica (oggi si
chiamerebbero repositories).
MERTON
L’attività di ricerca scientifica è governata da norme
universali di condotta che guidano lo scienziato
nella scoperta di verità ...
 ... non soggettive ma ispirate da criteri universali e
impersonali di valutazione (universalism);
 ... non destinate a rimanere segrete ma a diventare
beni “pubblici”, fatto salvo il diritto del ricercatore
ad essere ricompensato (communism).
L’ETICA DELLO SCIENZIATO
 ... non viziate da interessi economici o personali
ma disinteressate (disinterestedness);
 ... logicamente coerenti e verificate o verificabili
sulla base dell’esperienza dalla comunità dei pari
(organized skepticism).
Queste norme consentono di raffigurare la ricerca
scientifica come un’attività lineare, perfettamente
coerente ed omogenea in tutte le sue fasi …
Onoreficenze, premi, carriera
Ricompensa
Peer Reviewing e citazioni
(“atomi di peer reviewing”)
Verifica e approvazione
Articoli, report,
relazioni
Comunicazione dei risultati
Fase “creativa”
della scoperta
Ricerca
GARFIELD & SMALL
Al di là della motivazione psicologica per
citare un dato documento, nel momento in
cui lo cito mi riferisco implicitamente ad
un concetto in esso contenuto (idea,
esperimento, metodo, formula, equazione,
etc.). In questo senso la citazione è il
simbolo di quel concetto per l’autore che la
effettua.
CITAZIONI COME SIMBOLI CONDIVISI
Lo stesso documento può essere invocato da
autori diversi per riferirsi a concetti diversi, ma
se gli autori appartengono alla stessa specialità
e condividono regole di condotta (Merton),
linguaggio, obiettivi e metodologie di ricerca,
è assai verosimile che essi citino lo stesso
documento per riferirsi allo stesso concetto.
Per questa via si arriva ad affermare che ...
IL LINGUAGGIO DELLE CITAZIONI
 ... le citazioni sono componenti elementari di un
linguaggio simbolico altamente specializzato ed in
costante evoluzione attraverso il quale gli scienziati
dialogano con la tradizione;
 ... un indice di citazioni equivale ad un indice di
concetti scientifici (un’enciclopedia), quindi può
essere usato sia per la ricerca bibliografica che per
ricostruire la rete di connessioni simboliche e
sociali tra autori citanti ed autori citati.
PRICE
“Why should we not turn the tools of science on
science itself? Why not measure and generalize, make
hypotheses, and derive conclusions? [...] My approach
will be to deal statistically, in a not very
mathematical fashion, with general problems of the
shape and size of science and the ground rules
governing growth and behavior of science-in-the-large
[...] The method to be used is similar to that of
thermodynamics, in which is discussed the behavior
of a gas under various conditions of temperature and
pressure.”
UNICITA’ DELLA SCIENZA
 La scienza si differenzia da altre attività intellettuali
perché utilizza criteri “oggettivi” e “condivisi” nello
studio dei fenomeni naturali.
 In virtù di tale oggettività essa ha acquisito, a partire
dalla fine del XIX secolo, un carattere cumulativo.
 Oggettività e crescita cumulativa si riflettono nella
assoluta centralità della letteratura scientifica per il
progresso delle conoscenze e la definizione dello
status sociale degli scienziati al punto che ...
RIDUZIONISMO
... in ultima analisi la scienza si identifica con la
letteratura scientifica pubblicata; uno scienziato
non si riconosce dal fatto che ha ricevuto una certa
formazione o lavora in un'istituzione etichettata
come “scientifica”, bensì dal fatto che, almeno una
volta nella sua vita, ha pubblicato un contributo
letto e approvato dalla comunità dei colleghi. Di
conseguenza ...
INDICATORI
... le analisi quantitative della letteratura
pubblicata, in particolare
 l'enumerazione, classificazione e rappresentazione
sotto forma di serie temporali degli articoli di
riviste;
 l’analisi statistica dei legami bibliografici stabiliti
tra di essi mediante citazioni,
forniscono indicatori affidabili del ritmo di
crescita delle conoscenze e dell’impatto esercitato
dai contributi più importanti.
LE LEGGI DI PRICE
(1)
Qualunque indicatore numerico dei vari settori
e aspetti della scienza moderna (dalla metà
del '600 in poi) si prenda in considerazione
(numero di riviste scientifiche, di articoli o
di abstract pubblicati, numero di scienziati e
ingegneri vissuti) il suo modo normale di
crescita è esponenziale, cioè si moltiplica, in
eguali periodi di tempo, di un fattore
costante.
LE LEGGI DI PRICE
(2)
Data una popolazione di scienziati che fa ricerca e
pubblica articoli in un certo intervallo di tempo, circa
la metà di tali pubblicazioni proviene in realtà da un
ristretto nucleo di autori molto produttivi a fronte
di una maggioranza di scienziati che pubblica poco o
nulla. Questo nucleo è costituito
approssimativamente dalla radice quadrata del
numero totale degli autori (è una versione
modificata della legge di Lotka che vedremo più
avanti).
LE LEGGI DI PRICE
(3)
Data una popolazione di scienziati che fa ricerca
e pubblica articoli in un certo intervallo di
tempo, circa la metà di tali pubblicazioni
proviene da un ristretto nucleo di autori
molto produttivi a fronte di una maggioranza
di individui che pubblica poco o nulla. Questo
nucleo è costituito approssimativamente dalla
radice quadrata del numero totale degli
scienziati
LE LEGGI DI PRICE
(4)
La distribuzione delle citazioni nell’edizione 1961
dello SCI e la distribuzione dei prestiti
interbibliotecari di riviste tecnico-scientifiche
effettuati dalla biblioteca dello Science Museum di
Londra nel 1956 segue un andamento analogo a
quello delle pubblicazioni scientifiche: un nucleo
ristretto di documenti è di gran lunga più citato e
soddisfa molte più richieste di prestito della
massa di documenti poco o mai citati/richiesti. In
particolare, nel caso delle citazioni ...
ASIMMETRIA
... Price stimò che in un dato anno
aprossimativamente il 35% dei documenti
prodotti non viene mai citato, il 49% viene
citato solo una volta, il 9% due volte, il 3%
tre volte, il 2% quattro volte, e soltanto
l’1% sei o più volte. Inoltre tali citazioni
non sono distribuite sulla letteratura
precedente in modo uniforme ...
LE LEGGI DI PRICE
(5)
... la maggior parte delle citazioni si concentra infatti su
documenti (ed autori) più recenti rispetto ai
documenti ed autori meno citati (immediacy effect).
Ciò suggerisce l’esistenza, all’interno di ogni
specialità, di un fronte di ricerca attivo, un’élite
costituita da poche centinaia di individui che
dominano la scena e che sono generalmente
interconnessi tra loro sia attraverso accordi formali
(es.: co-authorship), sia per mezzo di reti informali
di collaborazione e scambio di informazioni,
esperienze, favori (invisible colleges).
4
BASI MATEMATICHE
LA SVOLTA TRA IL 1920 E IL 1930
 ALFRED J. LOTKA, The Frequency
Distribution of Scientific Productivity (1926)
 SAMUEL C. BRADFORD, Sources of
Information on Specific Subjects (1934)
 GEORGE K. ZIPF, The Psycho-Biology of
Language: An Introduction to Dynamic
Philology (1936)
LOTKA
Stila una classifica degli autori (sources) elencati
in due bibliografie di area chimico-fisica sulla
base del numero di pubblicazioni (items)
prodotte da ciascuno e osserva che la
distribuzione della produttività individuale può
essere descritta da:
COSTANTE
NUMERO AUTORI CON n PUBBLICAZIONI =
(n)2
ÉLITE
Questo significa che esiste un’élite di scienziati
molto produttivi a fronte di un gruppo di
scienziati che offrono solo contributi occasionali
ad un settore di ricerca: ma fino a che punto
quantità e qualità sono correlate?
Price cercò di dimostrare che gli scienziati molto
produttivi sono anche quelli che incidono
maggiormente sul progresso scientifico.
BRADFORD
Stila una classifica delle riviste (sources)
elencate in tre bibliografie di area geofisica sulla
base del numero di articoli di argomento affine
(items) pubblicati in ciascuna rivista e osserva
che la distribuzione della produttività delle riviste
segue uno schema analogo a quello trovato da
Lotka per la produttività degli autori, in
particolare ...
NUCLEO E PERIFERIA
 esiste un piccolo nucleo (core) di riviste che
produce la maggior parte di letteratura su un
dato argomento;
 per recuperare un numero maggiore di articoli
sullo stesso argomento (ed eventualmente per
ottenere la copertura bibliografica totale) è
necessario ricorrere ad un numero di riviste
periferiche che cresce in maniera esponenziale.
LEGGE DI CONCENTRAZIONE
Garfield corrobora ulteriormente la legge di Bradford e la
utilizza per legittimare i criteri di selezione dei periodici
adottati dall’ISI:
“Talmente ampia è la sovrapposizione tra discipline,
che la letteratura del nucleo di tutte le discipline
scientifiche coinvolge un gruppo di non più di 1000
riviste, e può arrivare a comprenderne anche solo 500.”
L’immagine dello scienziato sommerso da un mare in di
letteratura scientifica è un mito: la letteratura che conta in
ogni disciplina è concentrata in poche centinaia di titoli.
ZIPF
Conta le occorrenze individuali (items) delle singole
parole (sources) all’interno di un testo e osserva che,
se le parole vengono classificate in ordine di
frequenza decrescente (al 1° posto la parola in
assoluto più frequente, al 2° la parola più frequente
dopo la prima, etc.), allora la loro distribuzione
complessiva è tale che il prodotto tra la posizione in
classifica (rank) ed il numero di occorrenze di ogni
parola risulta all’incirca costante. Ad esempio ...
ESEMPIO
... nell’Ulisse di Joyce:
la 10ma parola più frequente compare 2653 volte
la 100esima parola più frequente compare 265
volte
la 5000esima parola più frequente compare 5 volte
Moltiplicando 10 per 2653, poi 100 per 265, poi
5000 per 5 si ottiene all’incirca lo stesso
risultato, questo significa che ...
ASIMMETRIA NEL LINGUAGGIO
... esistono poche parole (sources) dotate di molte
occorrenze individuali (items) così come esistono
pochi autori (sources) che pubblicano molti
articoli (items) e poche riviste specializzate
(sources) che pubblicano molti articoli (items) su
un dato argomento.
In termini generali, questa situazione (che non è
affatto limitata al contesto bibliometrico o
linguistico) si esprime dicendo che ...
DISTRIBUZIONI IPERBOLICHE
 Il rapporto tra sources e items è caratterizzato, in
bibliometria come in molti altri domini della natura e
della società, da una profonda diseguaglianza o
asimmetria (skewness): esiste un ristretto nucleo di
fonti molto produttive a fronte di una schiera molto più
fitta di fonti dotate di produttività minima o nulla.
 Tale asimmetria è comunemente tradotta in termini
matematici mediante una distribuzione iperbolica o
legge di potenza (power law). Graficamente essa si
esprime di solito attraverso i due grafici seguenti ...
LIMITI E SVILUPPI
 Non sono “leggi” nello stesso senso delle leggi naturali
ma formule empiriche: non consentono previsioni
accurate e, nella migliore delle ipotesi, hanno un
significato puramente probabilistico.
 A partire dagli anni ’60-70 le leggi di Lotka, Bradford,
Zipf, Price hanno conosciuto un gran numero di
conferme, smentite, riformulazioni, sintesi
matematiche e metafisiche che ne hanno accentuato la
generalità ed il livello di astrattezza rendendo anche
più complicata l’applicazione a casi concreti.
5
APPLICAZIONI [1]
LA CARTOGRAFIA DELLA
SCIENZA
IL MIRAGGIO DEI BIBLIOMETRI
Utilizzare l'analisi quantitativa dei dati
bibliografici per costruire della mappe della
scienza (discipline, specialità, aree di ricerca)
in un particolare momento della sua
evoluzione: sapere “chi” fa “cosa” e “dove”
(laboratori, centri di ricerca, università, etc.).
Due sono le tecniche principali: co-word
analysis & co-citation analysis.
CO-WORD ANALYSIS
Dato un corpus di documenti (non necessariamente articoli
di riviste) di contenuto affine
 si dice che due parole W1 e W2 co-occorrono (sono cowords) se esiste almeno un documento del corpus che le
contiene entrambe;
 la forza di tale legame aumenta se la stessa coppia
compare anche in altri documenti del corpus.
Dopo aver contato il numero delle occorrenze di tutte le
coppie possibili di termini significativi (nell’abstract, nel
testo completo o nella sezione delle parole chiave) ...
OBIETTIVI
... si ottiene una tabella che, opportunamente
manipolata attraverso l’algebra delle matrici e
tecniche di statistica multivariata, fornisce
informazioni su:
[1] gli argomenti “caldi” (core topics) attorno ai quali si
polarizza l’interesse dei ricercatori in un settore
d’indagine;
[2] gli argomenti “secondari” e quelli potenzialmente
“emergenti”;
[3] la rete di correlazioni tra [1] e [2] (problematic
networks) che si nasconde sotto la superficie retorica
del testo.
CO-CITATION ANALYSIS
Dato un corpus di documenti (di solito articoli di un
certo numero di riviste preselezionate)
 si dice che due documenti D1 e D2 sono co-citati se
esiste almeno un documento del corpus che li cita
entrambi in bibliografia;
 la forza di tale legame aumenta se la stessa coppia è
co-citata anche in altri documenti del corpus.
Dopo aver contato il numero delle occorrenze di cocitazioni nei documenti del corpus iniziale...
OBIETTIVI
... si ottiene una tabella che, opportunamente
manipolata attraverso l’algebra delle matrici e
tecniche di statistica multivariata, permette di
formare gruppi (cluster) di documenti affini. L’analisi
dei cluster così individuati fornisce informazioni su:
[1] concetti, metodi, autori “chiave” attorno ai quali si
polarizza l’interesse dei ricercatori in un settore
d’indagine;
[2] la linea di demarcazione tra discipline, specialità,
aree di ricerca sulla base delle unità individuate nel
punto [1].
VALIDAZIONE
 Per risultare significativa, una mappa
bibliometrica deve essere confrontata con
classificazioni elaborate per altra via o
sottoposta all’esame critico diretto (qualitativo)
da parte di esperti della materia;
 In ogni caso il risultato non è mai univoco: la
mappa è quasi sempre “sfuocata” in diversi
punti perché ...
LIMITI [1]
... mentre è relativamente facile
descrivere in modo accurato
domini come la fisica delle
particelle o la fisica nucleare,
dove l'accordo tra studiosi sui
documenti e concetti chiave è
molto forte ...
LIMITI [2]
... appare molto più complicato costruire
una mappa soddisfacente di aree
intrinsecamente interdisciplinari come le
discipline biomediche, dove alcuni
documenti molto citati e co-citati, di
solito lavori che illustrano tecniche e
metodi largamente condivisi, tagliano
trasversalmente molteplici aree di
ricerca; inoltre ...
LIMITI [3]
... se si prova a sovrapporre mappe riferite ad anni
diversi la situazione peggiora: i fronti di ricerca
sembrano variare da un anno all'altro, nei cluster
entrano di continuo documenti nuovi mentre altri
ne escono bruscamente e la parziale continuità
di alcuni elementi su larga scala, come la
posizione relativa delle macro-discipline
(chimica, fisica, etc.), è contrastata da una
notevole fluidità ai livelli più bassi (specialità,
settori di ricerca).
6
APPLICAZIONI [2]
VALUTAZIONE DELLA
RICERCA
PEER REVIEWING
 Il sistema canonico di valutazione della ricerca si
basa sull’esame critico (qualitativo) delle
pubblicazioni scientifiche di un ricercatore o
gruppo di ricerca da parte di un comitato di esperti
della materia (peer reviewing).
 Questo sistema, che si regge su un’etica del lavoro
scientifico allineata con le norme di Merton, ha
garantito, a partire dal XVII secolo, il successo
strabiliante della scienza e della tecnologia.
Tuttavia ...
LIMITI
... a partire dalla seconda metà del XX secolo, con
l’avvento della Big Science, la iper-settorializzazione
delle aree di ricerca e la moltiplicazione dei centri di
potere (istituti di ricerca, università, industria, etc.),
sono emersi i limiti del peer reviewing:
 mancanza di standard oggettivi nella comparazione
delle performance individuali o di gruppo;
 possibilità di “modulare” (o “falsare”) a piacimento
una valutazione in funzione degli interessi di uno o
più individui o gruppi.
L’ALTERNATIVA
Sostituire o affiancare la valutazione qualitativa con
valutazioni quantitative:
 numero di pubblicazioni elencate nel curriculum;
 numero di citazioni ricevute da ciascuna
pubblicazione: le fonti sono gli indici citazionali (SCI,
Scopus, Google Scholar);
 numero di citazioni ricevute dalle riviste in cui gli
articoli sono stati pubblicati (Impact Factor): la fonte è
il Journal Citation Reports dell’ISI.
NUMERO DI PUBBLICAZIONI
Poco significativo se non è accompagnato da una
verifica indipendente della qualità di ogni singolo
contributo. Sono infatti assai frequenti:
 replicazione, ovvero pubblicazione di articoli
contenenti gli stessi risultati su riviste diverse;
 guest authorship, ovvero indicazioni di responsabilità
che non corrispondono a contributi effettivi;
 vanity press, ovvero pubblicazioni di originalità nulla
rese necessarie da occasioni particolari (concorsi,
assegnazioni di fondi).
NUMERO DI CITAZIONI [1]
Fuorviante se non viene corretto (normalization):
 le citazioni sono un bene raro (cfr. leggi
bibliometriche sull’asimmetria sources-items), non ha
senso confrontare due articoli citati poche volte;
 il significato del numero di citazioni varia,
nell’ambito di una stessa disciplina, a seconda delle
aree di ricerca perché dove si produce e si cita molto
aumenta anche la probabilità di essere citati;
 il fattore tempo incide: un ricercatore più anziano e
che ha scritto più articoli ha più probabilità di essere
citato rispetto ad uno giovane con poche pubblicazioni.
NUMERO DI CITAZIONI [2]
 i lavori più importanti di un settore di ricerca diventano
“conoscenza tacita” e smettono di essere citati;
 in alcune discipline (es. medicina) gli articoli più citati
sono rassegne di letteratura precedente (reviews) o articoli
di contenuto metodologico che non apportano alcun
contributo originale;
 alcuni autori vivono “di rendita” e continuano ad
accumulare crediti anche quando smettono di fare ricerca
(“effetto S. Matteo”);
 il concetto di “influenza” di un autore A su un autore B
non è adeguatamente catturato dai riferimenti bibliografici
(per ignoranza o malafede).
IMPACT FACTOR (IF)
 E’ una misura ideata nei primi anni ’60 da
Garfield e Irving Sher per facilitare la selezione
delle riviste da indicizzare nei Current Contents
e nello SCI.
 A partire dal 1975 è regolarmente pubblicata nel
Journal Citation Reports (JCR), un repertorio
derivato dagli indici citazionali dell’ISI (SCI,
SSCI, A&HCI).
COME SI CALCOLA
E’ una stima del tasso di citazione dell’articolo “medio”
(average article) di una rivista lungo un arco di tempo di
due anni. L’IF di una rivista in un dato anno si esprime
mediante una frazione in cui:
 il numeratore è il numero di citazioni ricevute, in
quell’anno, da “tutti” gli articoli (inclusi lettere,
abstract di convegni, etc.) pubblicati nella rivista durante
i due anni precedenti;
 il denominatore è il numero complessivo di articoli
“citabili” (esclusi lettere, abstract di convegni, etc.)
pubblicati nella stessa rivista nei due anni precedenti.
ESEMPIO
Nel 2008, gli articoli pubblicati dalla rivista X nel
2006 e 2007 sono stati citati rispettivamente 100 e
150 volte nelle bibliografie di riviste selezionate
dall’ISI per il calcolo.
Il numero complessivo di articoli (citable items)
pubblicato dalla rivista X nel 2006 e 2007 è 70.
100  150
IF  X  2008 
 3,57
70
USO IMPROPRIO
Una misura inizialmente pensata per guidare i
bibliotecari nella selezione delle riviste da
acquistare è diventata (soprattutto in Europa) una
scorciatoia per la valutazione della ricerca:
 non si valuta il contenuto degli articoli;
 non si conta il numero di citazioni ricevute dal
singolo articolo;
 si usa l’IF delle riviste in cui il ricercatore ha
pubblicato come surrogato di altri indicatori di
qualità.
CRITICHE [1]
 In una rivista non esiste l’articolo medio (average
article), ma pochi articoli validi (e molto citati) e molti
articoli di media caratura (e poco citati).
 Il JCR (al pari dello SCI) è viziato da criteri non
imparziali di selezione delle riviste indicizzate (in
maggioranza riviste anglo-americane) dettati dagli
interessi di una multinazionale (problema dell’integrità
e verificabilità dei dati).
 Numeratore e denominatore dell’IF non sono
omogenei (i non citable items entrano nel
denominatore ma non nel numeratore: si tratta di
materiali che possono comunque essere citati).
CRITICHE [2]




Il fattore d’impatto di una rivista dipende da elementi
che non hanno nulla a che vedere con la qualità:
numero medio di riferimenti bibliografici per articolo
(dove si cita di più è più facile essere citati);
età dei documenti citati (dove si citano più documenti
recenti è più facile che l’IF sia alto);
tipologia di articoli pubblicati (le riviste che
pubblicano molte rassegne ricevono in media più
citazioni delle altre);
tasso di autocitazione delle riviste.
CRITICHE [3]
La critica forse più interessante sul
piano biblioteconomico:
 il JCR non fa un lavoro corretto dal
punto di vista catalografico in
quanto non tiene conto di cambi di
titolo, scissioni, fusioni, divisione
in sezioni delle riviste.
ALTERNATIVE [1] HIRSCH INDEX
A livello di valutazione individuale l’alternativa più
importante è l’indice di Hirsch (h-index):
uno scienziato ha indice h se h degli articoli di cui è
autore (o co-autore) hanno guadagnato almeno h
citazioni ciascuno
Esempio: dire che un autore ha h uguale a 10 equivale a dire
che ha scritto 10 articoli ciascuno dei quali è stato citato
almeno 10 volte mentre i restanti contributi (se ne esistono)
sono citati meno di 10 volte (o non citati affatto).
VANTAGGI
 E’ un indice che premia coloro che associano
produttività e impatto: l’autore di molti
articoli poco citati ha un h altrettanto basso
di colui che pubblica solo occasionalmente
degli articoli molto citati.
 E’ un indice facilmente ricavabile dai
database citazionali e può essere calcolato
anche per entità diverse dagli autori (gruppi
di ricerca, riviste, nazioni, argomenti, etc.).
SVANTAGGI
 Penalizza eccessivamente l’impatto e non tiene conto
della dimensione temporale: un ricercatore giovane può
aver pubblicato uno o due contributi importanti ma il suo
h per definizione non può superare il numero di
pubblicazioni; viceversa, l’h di un ricercatore anziano
che non pubblica più nulla rimane costante (sono già
stati proposti dei correttivi: g index, AR index, b index,
etc.).
 Dipende, al pari di tutte le misure citazionali, da fattori
difficili da controllare come la variabilità degli stili
citazionali tra discipline ed aree di ricerca.
ALTERNATIVE [2] GRANDI NUMERI
L’analisi delle citazioni è estremamente inaffidabile
se applicata a livello individuale ma acquista
tutt’altro spessore se, anziché concentrarsi sugli
articoli pubblicati dal singolo autore, si focalizza
sul corpus di pubblicazioni prodotte, lungo un
intervallo di tempo abbastanza ampio, da enti
collettivi: gruppi di ricerca, università, nazioni. In
questo caso infatti la variabilità individuale è
bilanciata dal teorema del limite centrale, ovvero
...
TEOREMA DEL LIMITE CENTRALE
Aumentando la dimensione del campione, qualunque sia
la distribuzione delle variabili casuali sotto
osservazione (leggi: indipendentemente dalla variabilità
degli stili citazionali e delle motivazioni individuali per
citare), la somma di tali variabili (leggi: le misure
citazionali aggregate), nell’ipotesi che la varianza sia
finita, è una variabile con distribuzione
approssimativamente normale (leggi: si possono
applicare strumenti statistici standard come correlazione
e regressione per stabilire la significatività di tali
misure).
SCUOLE PRINCIPALI (ANNI ’70-’90)
 Gabriel Pinski e Francis Narin (CHI Research, Haddon
Heights, New Jersey): “influence methodology”;
 Ben Martin e John Irvine (Science Policy Research Unit,
Brighton): metodologia degli indicatori parziali
convergenti;
 Tibor Braun e l’Information Science & Scientometric
Research Unit (Accademia Ungherese delle Scienze,
Budapest): metodologia degli indicatori di impatto
relativo;
 Anthony van Raan & Henk Moed (Centre for Science
and Technology Studies, Leida): metodologia degli
indicatori bibliometrici avanzati.
ORIENTAMENTI COMUNI
 NON BASTA LO SCI nudo e crudo per fare
bibliometria: i dati grezzi vanno corretti, ripuliti, se
necessario integrati con altre fonti.
 NON ESISTONO INDICATORI ASSOLUTI MA
INDICATORI PARZIALI che acquistano senso solo
nel contesto di una valutazione comunque
imprescindibile dal giudizio qualitativo (peer
reviewing).
 GLI INDICATORI DEVONO RISPETTARE LA
SPECIFICITA’ delle pratiche citazionali in ogni
disciplina: sono sempre indicatori relativi.
7
APPLICAZIONI [3]
WEBMETRICA
LA CITAZIONE COME HYPERLINK
Un sito o una pagina web che ospita un
link verso un altro sito o un’altra pagina
web è, dal punto di vista formale, simile
ad un documento che ne cita un altro
mediante un riferimento bibliografico:
un link può essere pensato come la
versione iper-tecnologica della
citazione bibliografica.
TRE FILONI DI RICERCA
[1] WEBMETRICA (WEBOMETRICS): studia la
struttura e le proprietà del Web con i metodi della
bibliometria;
[2] ANALISI DELLE RETI DI HYPERLINK
(HYPERLINK NETWORK ANALYSIS): studia, con i
metodi dell’analisi delle reti sociali, le connessioni tra
siti web come simboli tecnologici dei legami sociali tra
individui, gruppi, organizzazioni, nazioni;
[3] ANALISI DELLE RETI COMPLESSE (COMPLEX
NETWORK ANALYSIS): studia, con metodi di fisica
statistica, Internet e il Web come modelli di reti
complesse.
[1] WEBMETRICA
Obiettivo: conoscere l’impatto di un sito Web.
Strumenti: analisi bibliometrica dei link/citazioni:
 link in uscita da una pagina web (outlink) =
riferimento bibliografico;
 link in entrata dall'esterno (inlink) = citazione;
 due link in entrata dallo stesso sito (co-linking) = cocitazione;
 link interno di un sito (selflink) = autocitazione;
 somma normalizzata dei link indirizzati verso un sito
= Impact Factor.
WEB IMPACT FACTOR (WIF)
 E’ una misura, ideata alla fine degli anni ’90 da Peter
Ingwersen, della frequenza con cui la pagina web
“media” di un sito è linkata/citata in un certo
momento;
 A partire dal 2004 è utilizzata dal servizio
Webometrics Ranking of World Universities
(www.webometrics.info) del CINDOC (CNR
spagnolo) per stilare una classifica dei domini web di
istituti di ricerca e università a livello internazionale.
COME SI CALCOLA
Il WIF di un sito S in un dato momento è una
frazione in cui:
 il numeratore rappresenta il numero di pagine web
che effettuano un link verso il sito S (escluse le
pagine interne al sito stesso);
 il denominatore rappresenta il numero di pagine web
contenute nel sito S.
Il numero dei link in entrata è ricavato dai motori di
ricerca che supportano il comando “link:” (es.
Altavista, AlltheWeb, Google).
LIMITI
 Un link non è la stessa cosa di una citazione: nella
stragrande maggioranza dei casi non paga debiti
intellettuali.
 non esiste un database di riferimento per il conteggio
dei link (i motori di ricerca coprono solo una minima
parte del Web ed hanno algoritmi proprietari e non
trasparenti di crawling, indexing & ranking).
 le pagine web non sono “documenti” paragonabili agli
articoli di riviste: non sono stabili; data e indicazioni di
responsabilità sono spesso assenti.
[2] ANALISI DELLE RETI DI HYPERLINK
Obiettivo: studiare la struttura sociale del Web (i link
come simboli di connessioni materiali e simboliche tra
individui, gruppi, istituzioni).
Strumenti: analisi statistica dei link finalizzata ad
individuare:
 i nodi centrali (authorities, hubs) e periferici di una
rete comunicativa;
 il potenziale di intermediazione (brokering potential)
dei siti.
[3] ANALISI DELLE RETI COMPLESSE
Obiettivo: studiare la struttura matematica del Web
(le leggi che regolano la distribuzione degli hyperlink)
mediante la teoria dei grafi e la meccanica statistica.
Cosa si è scoperto:
 il Web esibisce alcune proprietà di un mondo piccolo
(small world), dove un numero limitato di link separa
due nodi qualsiasi (tuttavia esistono molti nodi isolati);
 il Web è una rete ad invarianza di scala (scale-free)
dominata dalla stessa asimmetria che regna in ambito
bibliometrico: pochi nodi (siti) hanno una probabilità
nettamente superiore rispetto agli altri di ricevere
nuovi link.
8
CONCLUSIONI
PERCHE’ NO
La bibliometria non offre risposte “migliori” o
“più oggettive” di altre metodologie d’indagine
perché:
 non si può sostituire una valutazione qualitativa
con una quantitativa;
 l’affidabilità del numero di citazioni come indice
di impatto varia a seconda delle aree di ricerca
e dell’etica professionale degli scienziati;
 meglio nessun indicatore bibliometrico piuttosto
che un indicatore sbagliato (ad es. l’IF).
PERCHE’ SI
La bibliometria può (dovrebbe) affiancare le altre
metodologie d’indagine perché:
 offre una prospettiva “diversa” sulla
comunicazione scientifica con cui confrontare le
conclusioni raggiunte per via qualitativa;
 stimola i bibliotecari all’acquisizione di tecniche
e strumenti di analisi riciclabili in altri settori (ad
es.: statistica inferenziale utile nella misurazione
e valutazione dei servizi).