BIBLIOMETRIA E ANALISI DELLE CITAZIONI Nicola De Bellis ([email protected]) Università Ca' Foscari, Venezia, 1/12/2009 INDICE ARGOMENTI 1 2 DEFINIZIONE DELLA DISCIPLINA E UN PO’ DI STORIA L’ATTREZZO DI LAVORO: SCIENCE CITATION INDEX 3 BASI FILOSOFICHE 4 BASI MATEMATICHE 5 APPLICAZIONI [1] CARTOGRAFIA DELLA SCIENZA 6 APPLICAZIONI [2] VALUTAZIONE DELLA RICERCA 7 8 APPLICAZIONI [3] WEBMETRICA CONCLUSIONI 1 DEFINIZIONE DELLA DISCIPLINA E UN PO’ DI STORIA DI COSA PARLIAMO Una metodologia d’indagine storico-sociale che, al pari di tante altre, si basa su documenti (cartacei o digitali) ma, a differenza delle altre: [1] non guarda al contenuto (significato, messaggio, interpretazione); [2] punta ad estrapolare le relazioni quantitative tra i documenti e tra gli elementi che li compongono (parole, link bibliografici, autori, istituzioni, etc.). DI COSA PARLIAMO [3] si concentra in prevalenza sull’analisi quantitativa delle citazioni bibliografiche ricavate dagli articoli di riviste scientifiche (scienze naturali e biomediche), quindi perviene a conclusioni che si suppone valide solo per le discipline che utilizzano l’articolo (scientific paper) come strumento principale di comunicazione scientifica (non è il caso delle discipline umanistiche e storico-sociali). REFERENCE & CITATION L’attenzione accordata alle citazioni bibliografiche a scapito di altri aspetti quantificabili presuppone che si abbia ben chiara la differenza tra riferimento bibliografico (reference) e citazione bibliografica (citation). ESEMPIO [1] A cita B in un riferimento bibliografico R A B Dal punto di vista di A, l’entità R è un riferimento bibliografico (reference) Dal punto di vista di B, l’entità R è una citazione bibliografica (citation) ESEMPIO [2] A A1 A2 A3 B Il documento (quindi l’autore) B riceve 4 citazioni, ovvero 4 riferimenti bibliografici di autori diversi puntano a B ESEMPIO [3] C A A1 C1 A2 C2 C3 A3 B Se aggiungo altri link citazionali ottengo una rete bibliografica che può essere analizzata con metodi matematici IPOTESI Se si assume che A, A1, A2, A3,... non stiano barando, ovvero citano B in bibliografia perché B ha fornito un supporto (di qualsiasi tipo: concetto, argomento, risultato sperimentale, equazione, etc.) alle loro scoperte, allora si può affermare che ... INDICATORI ... le citazioni documentano delle connessioni intellettuali tra documenti (e autori) ed il conteggio delle citazioni rivela l’intensità di tali connessioni intellettuali. In termini equivalenti: il numero di citazioni ricevute da un documento fornisce un indicatore del suo impatto cognitivo. CONFUSIONE TERMINOLOGICA Esistono molti termini riferiti alle aree di ricerca che utilizzano questa metodologia: bibliometria, scientometria, informetrica, webmetrica, cybermetrica, netmetrica ... BIBLIOMETRIA SCIENTOMETRIA BIBLIOMETRIA: applicazione della matematica e di metodi statistici ai prodotti della comunicazione (testi, libri, articoli, bibliografie). SCIENTOMETRIA: applicazione della matematica e dei metodi statistici ai prodotti della comunicazione scientifica e tecnologica finalizzata ad accertare il contributo relativo di scienziati, istituzioni, nazioni al progresso delle conoscenze. INFORMETRICA WEBMETRICA INFORMETRICA: studio degli aspetti quantitativi dell’informazione in qualunque forma (non solo informazione registrata in libri, articoli, etc.) e presso qualunque gruppo sociale (non solo scienziati). WEBMETRICA (CYBERMETRICA, NETMETRICA): estensione dei metodi bibliosciento-informetrici ai flussi informativi che si materializzano sulla rete Internet (non solo Web, ma anche posta elettronica, ftp, reti p2p). ORIGINI TEORIA MATEMATICA DEL CALCOLO DELLE PROBABILITA’ (metà XVII secolo): forma il nucleo della statistica inferenziale che, a partire dalla seconda metà del XIX secolo, viene applicata anche al di fuori delle scienze esatte (biologia, studi sociologici, etc.) BIBLIOGRAFIA STATISTICA (fine XIX secolo): analisi quantitativa delle bibliografie finalizzata a documentare il progresso scientifico o ad assistere i bibliotecari nelle politiche di sviluppo delle collezioni. DOCUMENTARE IL PROGRESSO 1917: i britannici Francis J. Cole e Nellie B. Eales applicano l’analisi quantitativa alla letteratura prodotta, tra il 1543 ed il 1860, nel campo dell’anatomia comparata. Ci sono già le premesse di ogni futura indagine bibliometrica: RIDUZIONISMO: lo studio del progresso scientifico si riduce allo studio delle pubblicazioni. CONSAPEVOLEZZA DEI LIMITI: la qualità della ricerca non va confusa con la quantità di pubblicazioni. ASSISTERE I BIBLIOTECARI 1927: presso il college di Pomona, i coniugi Gross stilano una classifica di periodici sulla base del numero di citazioni ricevute in un’annata del Journal of the American Chemical Society: EQUIVALENZA QUALITA’ = NUMERO DI CITAZIONI; FATTORE “IMMEDIATEZZA”: a parità di punteggio, sono preferibili le riviste che ricevono più citazioni per gli articoli più recenti. LA SVOLTA L’analisi quantitativa dei documenti e delle bibliografie è rimasta un’attività estemporanea fino a quando ... ... non si sono create le condizioni storiche che hanno reso le misure della comunicazione scientifica desiderabili da un punto di vista politico. Ciò è accaduto, a partire dalla fine della II Guerra Mondiale, in America ed in Europa (ma non in Italia). BIG SCIENCE Consapevolezza che scienza e tecnologia possono essere controllate, manipolate e orientate verso obiettivi specifici per favorire la crescita economica. La scienza diventa “Big Science”: il governo e l’industria finanziano la ricerca pura e applicata nell’ambito di progetti internazionali su larga scala (Manhattan, Hubble, Human Genome Project, etc..). Necessità di strumenti più raffinati di controllo della letteratura scientifica e al tempo stesso di sistemi di valutazione della ricerca meno legati a gruppi di interesse locali. LA SOLUZIONE Nei primi anni ’60, EUGENE GARFIELD, fondatore dell’Institute for Scientific Information (ISI) a Filadelfia, rende popolare tra i genetisti del National Institutes of Health un oggetto nato per facilitare le ricerche bibliografiche: lo SCIENCE CITATION INDEX (SCI). Si tratta di un indice citazionale, ovvero di un repertorio costruito attraverso due operazioni concettualmente semplici ... SCIENCE CITATION INDEX (1964-) [1] Si sceglie un certo numero di riviste internazionali e si catalogano in modo analitico, articolo per articolo, tutti i documenti citati nelle note e nelle bibliografie finali; [2] si inverte la lista così ottenuta in modo da poter risalire da un particolare documento a tutti gli articoli delle riviste di partenza che lo hanno citato. Diventano così possibili tre operazioni (di interesse non solo bibliografico). [1] INFORMATION RETRIEVAL Utilizzare un documento rilevante “per me” allo scopo di recuperare altri documenti scritti da autori che, al pari di me, hanno giudicato rilevante lo stesso contributo e perciò hanno deciso di citarlo in bibliografia (citazione bibliografica come strumento di information retrieval). [2] LEGAMI INTELLETTUALI Identificare i legami intellettuali tra autori citanti ed autori citati, quindi identificare documenti e autori chiave di un settore d’indagine e costruire una mappa bibliometrica dei confini tra discipline, specialità, fronti di ricerca (citazione bibliografica come strumento di analisi sociologica e di mappatura della scienza). [3] IMPATTO Stimare, in termini di numero di citazioni ricevute, l’impatto esercitato da documenti, autori, istituzioni su un’area di ricerca (citazione bibliografica come strumento di valutazione della ricerca). Ecco perché lo SCI è diventato il principale attrezzo di lavoro della bibliometria. 2 L’ATTREZZO DI LAVORO: LO SCIENCE CITATION INDEX (SCI) ISI THOMSON Nel 1992 l’ISI è acquistata dalla multinazionale canadese Thomson Reuters e lo Science Citation Index, assieme alle altre creature di Garfield ovvero Social Sciences Citation Index (SSCI), Arts & Humanities Citation Index (A&HCI), Current Contents (CC), entra a far parte della piattaforma commerciale ISI Web of Knowledge (www.isiwebofknowledge.com/). RICERCHE PER CITAZIONE Partendo dal record di un documento (libro, articolo, relazione di convegno, etc.) ... ... risalgo a tutti gli articoli di un certo numero di riviste internazionali preselezionate... CHE LO HANNO CITATO IN BIBLIOGRAFIA Ricerca tradizionale per parola chiave Database bibliografico 2004 paper 1957 paper Indice di citazioni 1987 paper 1996 paper 1982 paper Ricerca per citazione (Cited Reference Search) 2003 paper 1993 paper 1982 paper 1957 paper 1996 paper ESEMPIO Proviamo a cercare gli articoli che hanno citato: In questo caso il titolo e le parole chiave non servono. I canali di ricerca sono: Autore, Rivista, Anno Freemantle N, Cleland J, Young P, Mason J, Harrison J. Beta Blockade after myocardial infarction: systematic review and meta regression analysis. BMJ. 1999 Jun 26;318(7200):1730-7. Inserisco i termini corrispondenti ai tre canali di ricerca negli appositi campi della Cited Reference Search (attenzione alle abbreviazioni) Dal numero di pagina iniziale dell’articolo risalgo al record da visualizzare Il pannello sulla destra mi dà un quadro riassuntivo del numero di citazioni. Cliccando su VIEW ALL 406 CITING ARTICLES visualizzo l’elenco completo degli articoli citanti Ottengo infine la lista degli articoli (pubblicati in riviste indicizzate dallo SCI) che hanno citato l’articolo di partenza BIBLIOGRAFIA PER CITAZIONI Molti dei titoli trovati con questo sistema avranno affinità di contenuto con l'articolo di partenza (nel nostro esempio la percentuale è alta perché … si tratta di un argomento molto ben definito …ma anche perché … [lo vedremo in seguito]). Alcuni dei titoli invece avranno scarsa o nessuna affinità di contenuto con l'articolo iniziale in quanto esistono diversi motivi per citare (non tutti prevedibili: spesso si cita senza aver letto). DIFETTO Una ricerca per citazioni è in genere meno precisa di una ricerca per soggetti e parole chiave (esistono tante ragioni per citare e la citazione può riferirsi anche ad un concetto marginale trattato nel documento citato), tuttavia può rivelarsi molto utile quando ... QUANDO USARE LO SCI si ha in mano un articolo perfettamente centrato sull'argomento della propria ricerca e si vuole risalire velocemente ad altri articoli più recenti di argomento affine; per la particolarità dell'argomento, la bibliografia ricavata da database non-citazionali è scarsa o nulla; la ricerca ha un'impostazione interdisciplinare e le fonti potrebbero essere indicizzate in database di area diversa. SPESSO SI DIMENTICA CHE... A differenza di un database convenzionale, un indice di citazioni non ha limiti cronologici prestabiliti: trovo anche le opere di Copernico e Galilei (se qualcuno li ha citati). IL VERO PROBLEMA Il vero problema è la quantità e qualità delle fonti (riviste) selezionate per costruire il repertorio. Quando decido di indicizzare solo articoli di un certo numero di riviste internazionali faccio una scelta di campo molto precisa dando per scontato che: le riviste selezionate sono un campione rappresentativo della produzione scientifica della comunità di studiosi; l’articolo di rivista è il principale strumento di comunicazione adottato dagli studiosi (chiaramente falso per le scienze sociali e umane ma non solo). DOMANDA Come vengono selezionate le fonti (riviste) per l’indicizzazione delle citazioni? Come faccio ad essere sicuro che il conteggio rispecchi fedelmente l’impatto citazionale complessivo di un autore sulla comunità scientifica? Si possono utilizzare database diversi dallo SCI? CRITERI DI SELEZIONE QUALITATIVI: giudizio di un comitato di esperti, reputazione scientifica dell'editore e del comitato di redazione; formato dei dati bibliografici predisposto alla codifica e all'elaborazione computerizzata; rispetto di alcuni standard editoriali di base (puntualità dei fascicoli, accuratezza e completezza dei dati bibliografici, inclusione di indici e abstract in lingua inglese); QUANTITATIVI: impatto citazionale della rivista lungo un certo arco di tempo (Impact Factor). NON-ISI JOURNALS Fonti alternative (o complementari) allo SCI per il conteggio delle citazioni: SCOPUS di Elsevier; GOOGLE SCHOLAR; INDICI CITAZIONALI DISCIPLINARI: ad es. Chemical Abstract Service (CAS); SPIRES HEP database; MathSciNet; SISTEMI SPERIMENTALI DI HARVESTING DELLA LETTERATURA SCIENTIFICA ONLINE: CiteBase, CiteSeer. 3 BASI FILOSOFICHE CONTRIBUTI FONDAMENTALI JOHN DESMOND BERNAL (1901-1971) e la scienza come sistema materiale di relazioni sociali e simboliche. ROBERT K. MERTON (1910-2003) e la concezione normativa della scienza. EUGENE GARFIELD (1925-) & HENRY SMALL (1941-) e le citazioni bibliografiche come simboli di concetti (concept symbols). DEREK J. DE SOLLA PRICE (1922-1983) e la scienza come sistema “termodinamico” governato da leggi matematiche. BERNAL La scienza ed il metodo scientifico, sebbene rappresentino il fondamento di ogni conoscenza umana valida, non sono il frutto di “pura speculazione” ma attività sociali e socialmente controllabili. E’ possibile pertanto monitorare (e accelerare) il progresso scientifico mediante un’analisi quantitativa dei prodotti dell’attività di ricerca (letteratura scientifica) ed una pianificazione accurata degli obiettivi MA … RIVOLUZIONE … MA per fare questo serve una rivoluzione nel sistema della comunicazione scientifica: ABOLIZIONE DEI PERIODICI: troppi, mal gestiti in funzione di interessi privati (da editori e società scientifiche), e male indicizzati (dai servizi di abstracting & indexing); CREAZIONE DI UN UNICO CENTRO o di una rete di centri interconnessi (clearinghouses) per la raccolta, catalogazione e disseminazione “mirata” della letteratura tecnico-scientifica (oggi si chiamerebbero repositories). MERTON L’attività di ricerca scientifica è governata da norme universali di condotta che guidano lo scienziato nella scoperta di verità ... ... non soggettive ma ispirate da criteri universali e impersonali di valutazione (universalism); ... non destinate a rimanere segrete ma a diventare beni “pubblici”, fatto salvo il diritto del ricercatore ad essere ricompensato (communism). L’ETICA DELLO SCIENZIATO ... non viziate da interessi economici o personali ma disinteressate (disinterestedness); ... logicamente coerenti e verificate o verificabili sulla base dell’esperienza dalla comunità dei pari (organized skepticism). Queste norme consentono di raffigurare la ricerca scientifica come un’attività lineare, perfettamente coerente ed omogenea in tutte le sue fasi … Onoreficenze, premi, carriera Ricompensa Peer Reviewing e citazioni (“atomi di peer reviewing”) Verifica e approvazione Articoli, report, relazioni Comunicazione dei risultati Fase “creativa” della scoperta Ricerca GARFIELD & SMALL Al di là della motivazione psicologica per citare un dato documento, nel momento in cui lo cito mi riferisco implicitamente ad un concetto in esso contenuto (idea, esperimento, metodo, formula, equazione, etc.). In questo senso la citazione è il simbolo di quel concetto per l’autore che la effettua. CITAZIONI COME SIMBOLI CONDIVISI Lo stesso documento può essere invocato da autori diversi per riferirsi a concetti diversi, ma se gli autori appartengono alla stessa specialità e condividono regole di condotta (Merton), linguaggio, obiettivi e metodologie di ricerca, è assai verosimile che essi citino lo stesso documento per riferirsi allo stesso concetto. Per questa via si arriva ad affermare che ... IL LINGUAGGIO DELLE CITAZIONI ... le citazioni sono componenti elementari di un linguaggio simbolico altamente specializzato ed in costante evoluzione attraverso il quale gli scienziati dialogano con la tradizione; ... un indice di citazioni equivale ad un indice di concetti scientifici (un’enciclopedia), quindi può essere usato sia per la ricerca bibliografica che per ricostruire la rete di connessioni simboliche e sociali tra autori citanti ed autori citati. PRICE “Why should we not turn the tools of science on science itself? Why not measure and generalize, make hypotheses, and derive conclusions? [...] My approach will be to deal statistically, in a not very mathematical fashion, with general problems of the shape and size of science and the ground rules governing growth and behavior of science-in-the-large [...] The method to be used is similar to that of thermodynamics, in which is discussed the behavior of a gas under various conditions of temperature and pressure.” UNICITA’ DELLA SCIENZA La scienza si differenzia da altre attività intellettuali perché utilizza criteri “oggettivi” e “condivisi” nello studio dei fenomeni naturali. In virtù di tale oggettività essa ha acquisito, a partire dalla fine del XIX secolo, un carattere cumulativo. Oggettività e crescita cumulativa si riflettono nella assoluta centralità della letteratura scientifica per il progresso delle conoscenze e la definizione dello status sociale degli scienziati al punto che ... RIDUZIONISMO ... in ultima analisi la scienza si identifica con la letteratura scientifica pubblicata; uno scienziato non si riconosce dal fatto che ha ricevuto una certa formazione o lavora in un'istituzione etichettata come “scientifica”, bensì dal fatto che, almeno una volta nella sua vita, ha pubblicato un contributo letto e approvato dalla comunità dei colleghi. Di conseguenza ... INDICATORI ... le analisi quantitative della letteratura pubblicata, in particolare l'enumerazione, classificazione e rappresentazione sotto forma di serie temporali degli articoli di riviste; l’analisi statistica dei legami bibliografici stabiliti tra di essi mediante citazioni, forniscono indicatori affidabili del ritmo di crescita delle conoscenze e dell’impatto esercitato dai contributi più importanti. LE LEGGI DI PRICE (1) Qualunque indicatore numerico dei vari settori e aspetti della scienza moderna (dalla metà del '600 in poi) si prenda in considerazione (numero di riviste scientifiche, di articoli o di abstract pubblicati, numero di scienziati e ingegneri vissuti) il suo modo normale di crescita è esponenziale, cioè si moltiplica, in eguali periodi di tempo, di un fattore costante. LE LEGGI DI PRICE (2) Data una popolazione di scienziati che fa ricerca e pubblica articoli in un certo intervallo di tempo, circa la metà di tali pubblicazioni proviene da un ristretto nucleo di autori molto produttivi a fronte di una maggioranza di individui che pubblica poco o nulla. Questo nucleo è costituito approssimativamente dalla radice quadrata del numero totale degli scienziati LE LEGGI DI PRICE (3) La distribuzione delle citazioni nell’edizione 1961 dello SCI e la distribuzione dei prestiti interbibliotecari di riviste tecnico-scientifiche effettuati dalla biblioteca dello Science Museum di Londra nel 1956 segue un andamento analogo a quello delle pubblicazioni scientifiche: un nucleo ristretto di documenti è di gran lunga più citato e soddisfa molte più richieste di prestito della massa di documenti poco o mai citati/richiesti. In particolare, nel caso delle citazioni ... ASIMMETRIA ... Price stimò che in un dato anno aprossimativamente il 35% dei documenti prodotti non viene mai citato, il 49% viene citato solo una volta, il 9% due volte, il 3% tre volte, il 2% quattro volte, e soltanto l’1% sei o più volte. Inoltre tali citazioni non sono distribuite sulla letteratura precedente in modo uniforme ... LE LEGGI DI PRICE (4) ... la maggior parte delle citazioni si concentra infatti su documenti (ed autori) più recenti rispetto ai documenti ed autori meno citati (immediacy effect). Ciò suggerisce l’esistenza, all’interno di ogni specialità, di un fronte di ricerca attivo, un’élite costituita da poche centinaia di individui che dominano la scena e che sono generalmente interconnessi tra loro sia attraverso accordi formali (es.: co-authorship), sia per mezzo di reti informali di collaborazione e scambio di informazioni, esperienze, favori (invisible colleges). 4 BASI MATEMATICHE LA SVOLTA TRA IL 1920 E IL 1930 ALFRED J. LOTKA, The Frequency Distribution of Scientific Productivity (1926) SAMUEL C. BRADFORD, Sources of Information on Specific Subjects (1934) GEORGE K. ZIPF, The Psycho-Biology of Language: An Introduction to Dynamic Philology (1936) LOTKA Stila una classifica degli autori (sources) elencati in due bibliografie di area chimico-fisica sulla base del numero di pubblicazioni (items) prodotte da ciascuno e osserva che la distribuzione della produttività individuale può essere descritta da: COSTANTE NUMERO AUTORI CON n PUBBLICAZIONI = (n)2 ÉLITE Questo significa che esiste un’élite di scienziati molto produttivi a fronte di un gruppo di scienziati che offrono solo contributi occasionali ad un settore di ricerca: ma fino a che punto quantità e qualità sono correlate? Price cercò di dimostrare che gli scienziati molto produttivi sono anche quelli che incidono maggiormente sul progresso scientifico. BRADFORD Stila una classifica delle riviste (sources) elencate in tre bibliografie di area geofisica sulla base del numero di articoli di argomento affine (items) pubblicati in ciascuna rivista e osserva che la distribuzione della produttività delle riviste segue uno schema analogo a quello trovato da Lotka per la produttività degli autori, in particolare ... NUCLEO E PERIFERIA esiste un piccolo nucleo (core) di riviste che produce la maggior parte di letteratura su un dato argomento; per recuperare un numero maggiore di articoli sullo stesso argomento (ed eventualmente per ottenere la copertura bibliografica totale) è necessario ricorrere ad un numero di riviste periferiche che cresce in maniera esponenziale. LEGGE DI CONCENTRAZIONE Garfield corrobora ulteriormente la legge di Bradford e la utilizza per legittimare i criteri di selezione dei periodici adottati dall’ISI: “Talmente ampia è la sovrapposizione tra discipline, che la letteratura del nucleo di tutte le discipline scientifiche coinvolge un gruppo di non più di 1000 riviste, e può arrivare a comprenderne anche solo 500.” L’immagine dello scienziato sommerso da un mare in di letteratura scientifica è un mito: la letteratura che conta in ogni disciplina è concentrata in poche centinaia di titoli. ZIPF Conta le occorrenze individuali (items) delle singole parole (sources) all’interno di un testo e osserva che, se le parole vengono classificate in ordine di frequenza decrescente (al 1° posto la parola in assoluto più frequente, al 2° la parola più frequente dopo la prima, etc.), allora la loro distribuzione complessiva è tale che il prodotto tra la posizione in classifica (rank) ed il numero di occorrenze di ogni parola risulta all’incirca costante. Ad esempio ... ESEMPIO ... nell’Ulisse di Joyce: la 10ma parola più frequente compare 2653 volte la 100esima parola più frequente compare 265 volte la 5000esima parola più frequente compare 5 volte Moltiplicando 10 per 2653, poi 100 per 265, poi 5000 per 5 si ottiene all’incirca lo stesso risultato, questo significa che ... ASIMMETRIA NEL LINGUAGGIO ... esistono poche parole (sources) dotate di molte occorrenze individuali (items) così come esistono pochi autori (sources) che pubblicano molti articoli (items) e poche riviste specializzate (sources) che pubblicano molti articoli (items) su un dato argomento. In termini generali, questa situazione (che non è affatto limitata al contesto bibliometrico o linguistico) si esprime dicendo che ... DISTRIBUZIONI IPERBOLICHE Il rapporto tra sources e items è caratterizzato, in bibliometria come in molti altri domini della natura e della società, da una profonda diseguaglianza o asimmetria (skewness): esiste un ristretto nucleo di fonti molto produttive a fronte di una schiera molto più fitta di fonti dotate di produttività minima o nulla. Tale asimmetria è comunemente tradotta in termini matematici mediante una distribuzione iperbolica o legge di potenza (power law). Graficamente essa si esprime di solito attraverso i due grafici seguenti ... LIMITI E SVILUPPI Non sono “leggi” nello stesso senso delle leggi naturali ma formule empiriche: non consentono previsioni accurate e, nella migliore delle ipotesi, hanno un significato puramente probabilistico. A partire dagli anni ’60-70 le leggi di Lotka, Bradford, Zipf, Price hanno conosciuto un gran numero di conferme, smentite, riformulazioni, sintesi matematiche e metafisiche che ne hanno accentuato la generalità ed il livello di astrattezza rendendo anche più complicata l’applicazione a casi concreti. 5 APPLICAZIONI [1] LA CARTOGRAFIA DELLA SCIENZA IL MIRAGGIO DEI BIBLIOMETRI Utilizzare l'analisi quantitativa dei dati bibliografici per costruire della mappe della scienza (discipline, specialità, aree di ricerca) in un particolare momento della sua evoluzione: sapere “chi” fa “cosa” e “dove” (laboratori, centri di ricerca, università, etc.). Due sono le tecniche principali: co-word analysis & co-citation analysis. CO-WORD ANALYSIS Dato un corpus di documenti (non necessariamente articoli di riviste) di contenuto affine si dice che due parole W1 e W2 co-occorrono (sono cowords) se esiste almeno un documento del corpus che le contiene entrambe; la forza di tale legame aumenta se la stessa coppia compare anche in altri documenti del corpus. Dopo aver contato il numero delle occorrenze di tutte le coppie possibili di termini significativi (nell’abstract, nel testo completo o nella sezione delle parole chiave) ... OBIETTIVI ... si ottiene una tabella che, opportunamente manipolata attraverso l’algebra delle matrici e tecniche di statistica multivariata, fornisce informazioni su: [1] gli argomenti “caldi” (core topics) attorno ai quali si polarizza l’interesse dei ricercatori in un settore d’indagine; [2] gli argomenti “secondari” e quelli potenzialmente “emergenti”; [3] la rete di correlazioni tra [1] e [2] (problematic networks) che si nasconde sotto la superficie retorica del testo. CO-CITATION ANALYSIS Dato un corpus di documenti (di solito articoli di un certo numero di riviste preselezionate) si dice che due documenti D1 e D2 sono co-citati se esiste almeno un documento del corpus che li cita entrambi in bibliografia; la forza di tale legame aumenta se la stessa coppia è co-citata anche in altri documenti del corpus. Dopo aver contato il numero delle occorrenze di cocitazioni nei documenti del corpus iniziale... OBIETTIVI ... si ottiene una tabella che, opportunamente manipolata attraverso l’algebra delle matrici e tecniche di statistica multivariata, permette di formare gruppi (cluster) di documenti affini. L’analisi dei cluster così individuati fornisce informazioni su: [1] concetti, metodi, autori “chiave” attorno ai quali si polarizza l’interesse dei ricercatori in un settore d’indagine; [2] la linea di demarcazione tra discipline, specialità, aree di ricerca sulla base delle unità individuate nel punto [1]. VALIDAZIONE Per risultare significativa, una mappa bibliometrica deve essere confrontata con classificazioni elaborate per altra via o sottoposta all’esame critico diretto (qualitativo) da parte di esperti della materia; In ogni caso il risultato non è mai univoco: la mappa è quasi sempre “sfuocata” in diversi punti perché ... LIMITI [1] ... mentre è relativamente facile descrivere in modo accurato domini come la fisica delle particelle o la fisica nucleare, dove l'accordo tra studiosi sui documenti e concetti chiave è molto forte ... LIMITI [2] ... appare molto più complicato costruire una mappa soddisfacente di aree intrinsecamente interdisciplinari come le discipline biomediche, dove alcuni documenti molto citati e co-citati, di solito lavori che illustrano tecniche e metodi largamente condivisi, tagliano trasversalmente molteplici aree di ricerca; inoltre ... LIMITI [3] ... se si prova a sovrapporre mappe riferite ad anni diversi la situazione peggiora: i fronti di ricerca sembrano variare da un anno all'altro, nei cluster entrano di continuo documenti nuovi mentre altri ne escono bruscamente e la parziale continuità di alcuni elementi su larga scala, come la posizione relativa delle macro-discipline (chimica, fisica, etc.), è contrastata da una notevole fluidità ai livelli più bassi (specialità, settori di ricerca). 6 APPLICAZIONI [2] VALUTAZIONE DELLA RICERCA PEER REVIEWING Il sistema canonico di valutazione della ricerca si basa sull’esame critico (qualitativo) delle pubblicazioni scientifiche di un ricercatore o gruppo di ricerca da parte di un comitato di esperti della materia (peer reviewing). Questo sistema, che si regge su un’etica del lavoro scientifico allineata con le norme di Merton, ha garantito, a partire dal XVII secolo, il successo strabiliante della scienza e della tecnologia. Tuttavia ... LIMITI ... a partire dalla seconda metà del XX secolo, con l’avvento della Big Science, la iper-settorializzazione delle aree di ricerca e la moltiplicazione dei centri di potere (istituti di ricerca, università, industria, etc.), sono emersi i limiti del peer reviewing: mancanza di standard oggettivi nella comparazione delle performance individuali o di gruppo; possibilità di “modulare” (o “falsare”) a piacimento una valutazione in funzione degli interessi di uno o più individui o gruppi. L’ALTERNATIVA Sostituire o affiancare la valutazione qualitativa con valutazioni quantitative: numero di pubblicazioni elencate nel curriculum; numero di citazioni ricevute da ciascuna pubblicazione: le fonti sono gli indici citazionali (SCI, Scopus, Google Scholar); numero di citazioni ricevute dalle riviste in cui gli articoli sono stati pubblicati (Impact Factor): la fonte è il Journal Citation Reports dell’ISI. NUMERO DI PUBBLICAZIONI Poco significativo se non è accompagnato da una verifica indipendente della qualità di ogni singolo contributo. Sono infatti assai frequenti: replicazione, ovvero pubblicazione di articoli contenenti gli stessi risultati su riviste diverse; guest authorship, ovvero indicazioni di responsabilità che non corrispondono a contributi effettivi; vanity press, ovvero pubblicazioni di originalità nulla rese necessarie da occasioni particolari (concorsi, assegnazioni di fondi). NUMERO DI CITAZIONI [1] Fuorviante se non viene corretto (normalization): le citazioni sono un bene raro (cfr. leggi bibliometriche sull’asimmetria sources-items), non ha senso confrontare due articoli citati poche volte; il significato del numero di citazioni varia, nell’ambito di una stessa disciplina, a seconda delle aree di ricerca perché dove si produce e si cita molto aumenta anche la probabilità di essere citati; il fattore tempo incide: un ricercatore più anziano e che ha scritto più articoli ha più probabilità di essere citato rispetto ad uno giovane con poche pubblicazioni. NUMERO DI CITAZIONI [2] i lavori più importanti di un settore di ricerca diventano “conoscenza tacita” e smettono di essere citati; in alcune discipline (es. medicina) gli articoli più citati sono rassegne di letteratura precedente (reviews) o articoli di contenuto metodologico che non apportano alcun contributo originale; alcuni autori vivono “di rendita” e continuano ad accumulare crediti anche quando smettono di fare ricerca (“effetto S. Matteo”); il concetto di “influenza” di un autore A su un autore B non è adeguatamente catturato dai riferimenti bibliografici (per ignoranza o malafede). IMPACT FACTOR (IF) E’ una misura ideata nei primi anni ’60 da Garfield e Irving Sher per facilitare la selezione delle riviste da indicizzare nei Current Contents e nello SCI. A partire dal 1975 è regolarmente pubblicata nel Journal Citation Reports (JCR), un repertorio derivato dagli indici citazionali dell’ISI (SCI, SSCI, A&HCI). COME SI CALCOLA E’ una stima del tasso di citazione dell’articolo “medio” (average article) di una rivista lungo un arco di tempo di due anni. L’IF di una rivista in un dato anno si esprime mediante una frazione in cui: il numeratore è il numero di citazioni ricevute, in quell’anno, da “tutti” gli articoli (inclusi lettere, abstract di convegni, etc.) pubblicati nella rivista durante i due anni precedenti; il denominatore è il numero complessivo di articoli “citabili” (esclusi lettere, abstract di convegni, etc.) pubblicati nella stessa rivista nei due anni precedenti. ESEMPIO Nel 2008, gli articoli pubblicati dalla rivista X nel 2006 e 2007 sono stati citati rispettivamente 100 e 150 volte nelle bibliografie di riviste selezionate dall’ISI per il calcolo. Il numero complessivo di articoli (citable items) pubblicato dalla rivista X nel 2006 e 2007 è 70. 100 150 IF X 2008 3,57 70 USO IMPROPRIO Una misura inizialmente pensata per guidare i bibliotecari nella selezione delle riviste da acquistare è diventata (soprattutto in Europa) una scorciatoia per la valutazione della ricerca: non si valuta il contenuto degli articoli; non si conta il numero di citazioni ricevute dal singolo articolo; si usa l’IF delle riviste in cui il ricercatore ha pubblicato come surrogato di altri indicatori di qualità. CRITICHE [1] In una rivista non esiste l’articolo medio (average article), ma pochi articoli validi (e molto citati) e molti articoli di media caratura (e poco citati). Il JCR (al pari dello SCI) è viziato da criteri non imparziali di selezione delle riviste indicizzate (in maggioranza riviste anglo-americane) dettati dagli interessi di una multinazionale (problema dell’integrità e verificabilità dei dati). Numeratore e denominatore dell’IF non sono omogenei (i non citable items entrano nel denominatore ma non nel numeratore: si tratta di materiali che possono comunque essere citati). CRITICHE [2] Il fattore d’impatto di una rivista dipende da elementi che non hanno nulla a che vedere con la qualità: numero medio di riferimenti bibliografici per articolo (dove si cita di più è più facile essere citati); età dei documenti citati (dove si citano più documenti recenti è più facile che l’IF sia alto); tipologia di articoli pubblicati (le riviste che pubblicano molte rassegne ricevono in media più citazioni delle altre); tasso di autocitazione delle riviste. CRITICHE [3] La critica forse più interessante sul piano biblioteconomico: il JCR non fa un lavoro corretto dal punto di vista catalografico in quanto non tiene conto di cambi di titolo, scissioni, fusioni, divisione in sezioni delle riviste. ALTERNATIVE [1] HIRSCH INDEX A livello di valutazione individuale l’alternativa più importante è l’indice di Hirsch (h-index): uno scienziato ha indice h se h degli articoli di cui è autore (o co-autore) hanno guadagnato almeno h citazioni ciascuno Esempio: dire che un autore ha h uguale a 10 equivale a dire che ha scritto 10 articoli ciascuno dei quali è stato citato almeno 10 volte mentre i restanti contributi (se ne esistono) sono citati meno di 10 volte (o non citati affatto). VANTAGGI E’ un indice che premia coloro che associano produttività e impatto: l’autore di molti articoli poco citati ha un h altrettanto basso di colui che pubblica solo occasionalmente degli articoli molto citati. E’ un indice facilmente ricavabile dai database citazionali e può essere calcolato anche per entità diverse dagli autori (gruppi di ricerca, riviste, nazioni, argomenti, etc.). SVANTAGGI Penalizza eccessivamente l’impatto e non tiene conto della dimensione temporale: un ricercatore giovane può aver pubblicato uno o due contributi importanti ma il suo h per definizione non può superare il numero di pubblicazioni; viceversa, l’h di un ricercatore anziano che non pubblica più nulla rimane costante (sono già stati proposti dei correttivi: g index, AR index, b index, etc.). Dipende, al pari di tutte le misure citazionali, da fattori difficili da controllare come la variabilità degli stili citazionali tra discipline ed aree di ricerca. ALTERNATIVE [2] GRANDI NUMERI L’analisi delle citazioni è estremamente inaffidabile se applicata a livello individuale ma acquista tutt’altro spessore se, anziché concentrarsi sugli articoli pubblicati dal singolo autore, si focalizza sul corpus di pubblicazioni prodotte, lungo un intervallo di tempo abbastanza ampio, da enti collettivi: gruppi di ricerca, università, nazioni. In questo caso infatti la variabilità individuale è bilanciata dal teorema del limite centrale, ovvero ... TEOREMA DEL LIMITE CENTRALE Aumentando la dimensione del campione, qualunque sia la distribuzione delle variabili casuali sotto osservazione (leggi: indipendentemente dalla variabilità degli stili citazionali e delle motivazioni individuali per citare), la somma di tali variabili (leggi: le misure citazionali aggregate), nell’ipotesi che la varianza sia finita, è una variabile con distribuzione approssimativamente normale (leggi: si possono applicare strumenti statistici standard come correlazione e regressione per stabilire la significatività di tali misure). SCUOLE PRINCIPALI (ANNI ’70-’90) Gabriel Pinski e Francis Narin (CHI Research, Haddon Heights, New Jersey): “influence methodology”; Ben Martin e John Irvine (Science Policy Research Unit, Brighton): metodologia degli indicatori parziali convergenti; Tibor Braun e l’Information Science & Scientometric Research Unit (Accademia Ungherese delle Scienze, Budapest): metodologia degli indicatori di impatto relativo; Anthony van Raan & Henk Moed (Centre for Science and Technology Studies, Leida): metodologia degli indicatori bibliometrici avanzati. ORIENTAMENTI COMUNI NON BASTA LO SCI nudo e crudo per fare bibliometria: i dati grezzi vanno corretti, ripuliti, se necessario integrati con altre fonti. NON ESISTONO INDICATORI ASSOLUTI MA INDICATORI PARZIALI che acquistano senso solo nel contesto di una valutazione comunque imprescindibile dal giudizio qualitativo (peer reviewing). GLI INDICATORI DEVONO RISPETTARE LA SPECIFICITA’ delle pratiche citazionali in ogni disciplina: sono sempre indicatori relativi. 7 APPLICAZIONI [3] WEBMETRICA LA CITAZIONE COME HYPERLINK Un sito o una pagina web che ospita un link verso un altro sito o un’altra pagina web è, dal punto di vista formale, simile ad un documento che ne cita un altro mediante un riferimento bibliografico: un link può essere pensato come la versione iper-tecnologica della citazione bibliografica. TRE FILONI DI RICERCA [1] WEBMETRICA (WEBOMETRICS): studia la struttura e le proprietà del Web con i metodi della bibliometria; [2] ANALISI DELLE RETI DI HYPERLINK (HYPERLINK NETWORK ANALYSIS): studia, con i metodi dell’analisi delle reti sociali, le connessioni tra siti web come simboli tecnologici dei legami sociali tra individui, gruppi, organizzazioni, nazioni; [3] ANALISI DELLE RETI COMPLESSE (COMPLEX NETWORK ANALYSIS): studia, con metodi di fisica statistica, Internet e il Web come modelli di reti complesse. [1] WEBMETRICA Obiettivo: conoscere l’impatto di un sito Web. Strumenti: analisi bibliometrica dei link/citazioni: link in uscita da una pagina web (outlink) = riferimento bibliografico; link in entrata dall'esterno (inlink) = citazione; due link in entrata dallo stesso sito (co-linking) = cocitazione; link interno di un sito (selflink) = autocitazione; somma normalizzata dei link indirizzati verso un sito = Impact Factor. WEB IMPACT FACTOR (WIF) E’ una misura, ideata alla fine degli anni ’90 da Peter Ingwersen, della frequenza con cui la pagina web “media” di un sito è linkata/citata in un certo momento; A partire dal 2004 è utilizzata dal servizio Webometrics Ranking of World Universities (www.webometrics.info) del CINDOC (CNR spagnolo) per stilare una classifica dei domini web di istituti di ricerca e università a livello internazionale. COME SI CALCOLA Il WIF di un sito S in un dato momento è una frazione in cui: il numeratore rappresenta il numero di pagine web che effettuano un link verso il sito S (escluse le pagine interne al sito stesso); il denominatore rappresenta il numero di pagine web contenute nel sito S. Il numero dei link in entrata è ricavato dai motori di ricerca che supportano il comando “link:” (es. Altavista, AlltheWeb, Google). LIMITI Un link non è la stessa cosa di una citazione: nella stragrande maggioranza dei casi non paga debiti intellettuali. non esiste un database di riferimento per il conteggio dei link (i motori di ricerca coprono solo una minima parte del Web ed hanno algoritmi proprietari e non trasparenti di crawling, indexing & ranking). le pagine web non sono “documenti” paragonabili agli articoli di riviste: non sono stabili; data e indicazioni di responsabilità sono spesso assenti. [2] ANALISI DELLE RETI DI HYPERLINK Obiettivo: studiare la struttura sociale del Web (i link come simboli di connessioni materiali e simboliche tra individui, gruppi, istituzioni). Strumenti: analisi statistica dei link finalizzata ad individuare: i nodi centrali (authorities, hubs) e periferici di una rete comunicativa; il potenziale di intermediazione (brokering potential) dei siti. [3] ANALISI DELLE RETI COMPLESSE Obiettivo: studiare la struttura matematica del Web (le leggi che regolano la distribuzione degli hyperlink) mediante la teoria dei grafi e la meccanica statistica. Cosa si è scoperto: il Web esibisce alcune proprietà di un mondo piccolo (small world), dove un numero limitato di link separa due nodi qualsiasi (tuttavia esistono molti nodi isolati); il Web è una rete ad invarianza di scala (scale-free) dominata dalla stessa asimmetria che regna in ambito bibliometrico: pochi nodi (siti) hanno una probabilità nettamente superiore rispetto agli altri di ricevere nuovi link. 8 CONCLUSIONI PERCHE’ NO La bibliometria non offre risposte “migliori” o “più oggettive” di altre metodologie d’indagine perché: non si può sostituire una valutazione qualitativa con una quantitativa; l’affidabilità del numero di citazioni come indice di impatto varia a seconda delle aree di ricerca e dell’etica professionale degli scienziati; meglio nessun indicatore bibliometrico piuttosto che un indicatore sbagliato (ad es. l’IF). PERCHE’ SI La bibliometria può (dovrebbe) affiancare le altre metodologie d’indagine perché: offre una prospettiva “diversa” sulla comunicazione scientifica con cui confrontare le conclusioni raggiunte per via qualitativa; stimola i bibliotecari all’acquisizione di tecniche e strumenti di analisi riciclabili in altri settori (ad es.: statistica inferenziale utile nella misurazione e valutazione dei servizi).