Gestire le collezioni elettroniche con dati qualitativi e quantitativi Il case-study di Wiley-Blackwell all’Università degli Studi di Milano Tiziana Morocutti e Federica Zanardini Parte 1. sviluppo di un toolkit per la raccolta e l’analisi dei dati SISTEMA BIBLIOTECARIO DI ATENEO Le ragioni di questo lavoro : gestire la collezione in tempi di crisi economica progressiva riduzione del budget reshaping della collezione e ripensamento delle politiche di sviluppo necessità di un team multidisciplinare e multifunzionale a supporto delle decisioni necessità di conoscenza profonda del dominio, a cominciare dai Big Deal Sviluppo di un metodo di analisi sostenibile e riusabile Analizziamo le relazioni tra le entità in gioco (ingranaggi o mine vaganti?) content usefulness IF prices behaviours users perceived value subject coverage usage impact Il primo case-study: la collezione Wiley-Blackwell I dati a nostra disposizione: • Statistiche d’uso (2008 JR1) • Dati economici (2009 listino prezzi, termini contrattuali) • Dati bibliografici (2009 lista dei titoli, copertura disciplinare) • Dati demografici sugli utenti (anagrafica UNIMI 2009) • Risultati del questionario agli utenti (2009) SISTEMA BIBLIOTECARIO DI ATENEO Recuperare dati qualitativi: un questionario online per verificare il grado di interesse dei titoli Wiley • Per ogni titolo del catalogo Wiley 2009 è stato chiesto di indicare se “utile” o “irrinunciabile” • Non voto = non utile • Somministrato a docenti e ricercatori (2.440 persone) • Aperto per 40 giorni • Il 25% del campione ha risposto (650 persone) SISTEMA BIBLIOTECARIO DI ATENEO Distribuzione dei prezzi dei titoli W-B high: 33 titles (2.8%) very high: 6 titles (0.5%) low (under 1,000 €) medium (1,000-4,999 €) medium: 380 titles (32%) high (5,000-9,999 €) low: 769 titles (64.7%) SISTEMA BIBLIOTECARIO DI ATENEO very high (10,000-19,000 €) Distribuzione dell’uso (f.t. scaricati) • 2008 downloads = 157,606 numero di titoli • 30% dei titoli => 85% dell’uso (sottoscritti e non in carta) 900 800 700 600 500 • 4% dei titoli mai scaricati 400 300 200 • Nella classe[0-100 dw] – – – sono contenuti 850 titoli corrispondenti a 23.000 dw È una long-tail? SISTEMA BIBLIOTECARIO DI ATENEO 100 0 classi di n. di download Distribuzione del valore percepito (questionario) • “Quali riviste Wiley-Blackwell sono importanti per te?” • 94% dei titoli sono stati selezionati • 35% dei titoli sono stati selezionati da almeno 10 utenti SISTEMA BIBLIOTECARIO DI ATENEO Relazione tra uso e valore percepito • Uso e valore percepito sono correlati e/o connessi? Relationship between usage and perceived value 8000 7000 #download • Rappresento i dati su uno scatter plot: ogni titolo è rappresentato da una coppia di valori 6000 5000 4000 3000 • => l’area a maggior densità è quella del basso-uso e basso valore percepito 2000 1000 0 0 20 40 60 #selezioni SISTEMA BIBLIOTECARIO DI ATENEO 80 100 120 La correlazione tra le due variabili è lineare? • Si calcola l’indice di Pearson R, cioè il grado di correlazione lineare • R è adimensionale (0< R < 1) • Si ottiene: – R = 0.55 – R = 0.35 titoli con #download > 100 (media correlazione lineare) titoli con #downloads <= 100 (scarsa correlazione lineare) SISTEMA BIBLIOTECARIO DI ATENEO Un altro tool del kit: l’indice di anomalia • Ci sono anomalie nella relazione tra uso e valore percepito? • I valori estremi nel rapporto M=(downloads)/(selections) danno informazioni interessanti: • M= ∞ => corrisponde a titoli usati ma non selezionati » » • M=0 è una sottostima del valore del titolo? sono giornali di nicchia che interessano persone non rispondenti il questionario? => corrisponde a titoli non usati ma selezionati » È una sovrastima dell’importanza del titolo? • M individua i casi anomali SISTEMA BIBLIOTECARIO DI ATENEO Journal ranking 1/2 • L’utilità viene definita attraverso un algoritmo che combina dati sull’uso e valore percepito: U = (e + 0.2u) * downloads U = utilità e = numero di selezioni “irrinunciabile” u = numero di selezioni “utile” • Ai titoli viene assegnato un punteggio e una classifica • Considerando anche il prezzo di listino (p+e) la lista può essere usata per calcolare il risparmio in relazione alle cancellazioni SISTEMA BIBLIOTECARIO DI ATENEO Journal ranking 2/2 Con l’attuale modello di pricing risparmi apprezzabili rispetto al Big Deal sono raggiunti solo tagliando un numero considerevole di titoli I primi 300 titoli costano quanto l’intero pacchetto sottoscritto in Big Deal SISTEMA BIBLIOTECARIO DI ATENEO