Integrazione dei dati e reportistica avanzata in SURplus: un esempio Bonaria Biancu Area Sistemi Informativi Università Milano Bicocca E-mail: [email protected] Web: http://www.unimib.it CILEA 13 giugno 2011 Architettura UNIMIB Moduli SURplus: GA, WF, OA, BI, RA, RC [GW] Integrazione con altre banche dati: SUPER ESSE3 Sito Docente MIUR (pubblicazioni, progetti) Banche dati bibliografiche Gestione dati manuale ridotta al minimo Metodi di esposizione e acquisizione dati: Web services (progetti ← MIUR, pubblicazioni → MIUR, dati bibliometrici ←database commerciali e non) Code Oracle (dati anagrafici, tesi dottorato) Web service RESTful (pubblicazioni) Scelte di progettazione e alimentazione I dati sono unici e vengono Inseriti e gestiti nella fonte opportuna Acquisiti dagli altri componenti Esempio: Dati personali di docenti, ricercatori e dottorandi: fonti anagrafiche (diverse) → esposizione integrata → gestione comune in GA (+ PTA nella nuova GA) I profili anagrafici del Lavoratore e della Struttura sono unici, costantemente aggiornati e quindi allineati ai db di provenienza, condivisi tra tutti i moduli SURplus Un caso di studio: le statistiche in SURplus-BI per il monitoraggio della produzione scientifica a fini valutativi Statistiche ai fini VQR (1) Statistiche preparatorie alla valutazione dei prodotti della ricerca (pubblicazioni e brevetti) Costruzione con CILEA dei cubi OLAP appropriati: Selezione della porzione di pubblicazioni (vincoli sugli anni e sulle tipologie) e di quella degli autori (vincoli sull'afferenza e sulla qualifica); in mancanza di informazioni certe a riguardo, l'afferenza non è storicizzata Scelta delle dimensioni Scelta delle misure Definizione dei diritti di accesso a ogni statistica: Statistiche ai fini VQR (2) Definizione delle sorgenti dati Periodicità di aggiornamento In base alla sorgente dati Scelta delle dimensioni del cubo OLAP OA, GA, database bibliografici (SCOPUS e JCR) Discriminante dell'afferenza che dà origine a due gruppi concettualmente diversi di statistiche: per struttura/area disciplinare di afferenza e per autore Guida introduttiva alle statistiche e agli indicatori bibliometrici Statistiche ai fini VQR (3) Misure del cubo OLAP Numero e tipologia pubblicazioni, media Impact Factor, media e percentuale pubblicazioni in inglese, di rilevanza (inter)nazionale e referate, media e percentuale di pubblicazioni per autore afferente e di autori/autori afferenti per pubblicazione (→ grado proprietà) Tripartizione in: Elenco personale senza pubblicazioni Statistiche per dipartimento/area Statistiche per autore Home page delle Statistiche VQR Descrizione completa di una statistica Dettaglio di una statistica I vantaggi dell'integrazione dati Le fonti dei dati sono certificate I dati sono strutturati I dati sono già contenuti nei moduli SURplus Utilizzando componenti interoperabili e meccanismi standard di gestione dei flussi, l'operazione di produzione statistiche si risolve in una operazione di 'semplice' aggregazione dei dati L'utilizzo della logica dei DWH consente una manipolazione di alto livello Monitoraggio costante e supporto alle decisioni Alcuni svantaggi L'implementazione di tutta l'architettura di alimentazione di SURplus e di configurazione dei moduli è lunga e complessa La costruzione dei cubi richiede pesanti competenze di dominio (i.e. non solo statistiche) Difficoltà nell'acquisizione dei dati – Completezza “auto-certificata” Le statistiche devono essere documentate agli utenti nel minimo dettaglio, ma proprio per questo, la documentazione rischia di essere pedante e incomprensibile Per il futuro... Migliorare le interfacce utente per la creazione e la consultazione delle statistiche Portare le soluzioni 'a domicilio' agli utenti (e-mail, dashboard integrate) Implementare soluzioni avanzate di BI per il supporto alle decisioni (es.: costruire pipeline con i dati di ouput di BI e altri applicativi per analisi what-if) Domande?