I T A L E Associazione Italiana Utenti Aleph http://www.itale.it A cura di Stefano Bonanni Servizio Automazione Biblioteche Area Sistema delle Biblioteche Università degli Studi di Siena Il PROGETTO ITALE-ACNP e [email protected] “L’elaborazione automatica delle stringhe di posseduto e delle lacune” Università degli Studi di Udine 20 aprile 2006 I T A L Contenuto E Il Gruppo di lavoro Sedi interessate al progetto Descrizione e schema del progetto Normalizzazione delle stringhe di posseduto e previsto da ACNP Stringhe monoblocco Casistiche monoblocco trattate Stringhe pluriblocco Trattamento delle stringhe pluriblocco Conclusioni Problemi aperti e tempistica delle lacune dei cataloghi ALEPH nel formato Progetto ITALE-ACNP 2 I T A L Il Gruppo di lavoro E Sedi che, avendo aderito al progetto, compongono il Gruppo di Lavoro ITALE - ACNP Università degli Studi di Siena Biblioteca della Banca d’Italia Università degli Studi dell’Insubria Università della Calabria Università degli Studi di Camerino Università degli Studi Roma Tre Università degli Studi di Milano Bicocca Progetto ITALE-ACNP 3 I T A L Sedi interessate al progetto E Università degli Studi di Napoli “Parthenope” Stazione Zoologica “Anton Dohrn” – Napoli Università degli Studi di Bergamo Università IULM – Milano Università degli Studi di Palermo Università degli Studi di Salerno Università degli Studi di Perugia Università degli Studi della Basilicata Progetto ITALE-ACNP 4 I T A L E Schema del progetto (1) Il progetto si propone la gestione della migrazione in batch delle consistenze e delle lacune dei cataloghi Aleph in ACNP. Fasi del progetto: Assegnazione ISSN o codice ACNP ai seriali cartacei dei cataloghi ALEPH Elaborazione di una procedura automatica per la normalizzazione delle stringhe di posseduto e lacune nella sintassi “Posseduto” di ACNP Gestione manuale delle stringhe di posseduto non processate ma segnalate dalla procedura automatica Match con l’ISSN o con il codice ACNP sulla base dei files trasmessi dai gestori di ACNP Caricamento batch secondo le specifiche del formato di conversione ACNP attraverso files distinti per singola sottobiblioteca di ogni sede Progetto ITALE-ACNP 5 I T A L E Schema del progetto (2) La fase successiva dovrà assicurare un progressivo allineamento tra i dati dei cataloghi ALEPH e ACNP tenendo conto che le migrazioni offline saranno effettuate con una periodicità annuale. Essa si articolerà nelle seguenti fasi: Inserimento online tramite gestionale ACNP dei seriali senza ISSN o codice ACNP per le sedi interessate ad un caricamento integrale in breve tempo dei propri dati Analisi dei dati contenuti nel file di rigetto del caricamento batch e gestione online (sui cataloghi ALEPH quando opportuno o direttamente in ACNP) nei casi in cui il match realizzatosi con il caricamento offline abbia significato la perdita o l’incongruenza di alcune informazioni Feedback e contro-feedback tra l’ultimo file di rigetto, il file di migrazione successivo e le modifiche effettuate direttamente in ACNP per il fatto che prima di ogni caricamento saranno completamente eliminati i dati che si riferiscono alla specifica istituzione Progetto ITALE-ACNP 6 I T A L E Normalizzazione delle stringhe ALEPH nel formato “Posseduto” di ACNP (1) La stringa delle annate dei campi “posseduto” e “lacune” deve essere composta da: anno di 4 cifre numeriche, più punteggiatura, più 4 cifre numeriche, più punteggiatura, etc., ovvero non devono essere indicati i numeri di volume, annata, fascicolo, etc. Es: 1950-1952;1954;1956; La stringa deve sempre terminare con la punteggiatura La punteggiatura ammessa è “.”, “;”, “-”. Poichè la procedura automatica non distingue la differenza convenzionalmente attribuita da ACNP al “;” ed al “.” finali, essa conclude sempre le stringhe di posseduto e lacune con il “;” La punteggiatura finale delle Lacune può essere solo “.”, “;”. La procedura però fa terminare le lacune sempre con il “;” All’interno della stringa (pluriblocco) non è consentito inserire annate consecutive divise dal “;”. Es: 1950;1951- Progetto ITALE-ACNP 7 I T A L E Normalizzazione delle stringhe ALEPH nel formato “Posseduto” di ACNP (2) Dopo aver richiesto alle sedi interessate un file campione sulla struttura del campo “Posseduto” sono state analizzate le consistenze delle seguenti sedi ITALE che per adesso hanno inviato il file esemplificativo: Università degli Studi di Siena Biblioteca Banca d’Italia Università degli Studi di Roma tre Università della Calabria Università degli Studi dell’Insubria Università degli Studi di Perugia Università degli Studi di Palermo Univesità degli Studi di Bergamo Università degli Studi di Salerno Stazione Zoologica “Anton Dohrn” - Napoli Sono state processate le stringhe di posseduto del catalogo dell’Università di Siena, ma la flessibilità della procedura la rende adattabile ed applicabile anche alle consistenze di altri cataloghi ALEPH Le istruzioni che la procedura automatica applica al campo “Posseduto” saranno applicate anche al campo “Lacune” essendo questo strutturato nel formato ACNP come il primo Progetto ITALE-ACNP 8 I T A L E Stringhe Aleph monoblocco Possono essere considerate come le unità di base sulle quali deve lavorare la procedura automatica per normalizzare le consistenze e le lacune dei cataloghi Aleph nel formato previsto da ACNP Possono essere strutturate in diverso modo, ma sono accomunate dal fatto di riportare nella punteggiatura un solo “;” o di non riportarne affatto Es. : 17(1951)-33(1967); Es. : (1977)Es. : 1990/91; Es. : 1990/1991 Progetto ITALE-ACNP 9 I T A L E Casistiche monoblocco trattate (1) Singola annata inserita tra parentesi tonde seguita da “;”, “.”, “-”, o senza punteggiatura finale, indipendentemente dalle indicazioni di serie, volume, fascicolo riportate prima della parentesi aperta. Es.: Stringa Aleph 13 (1977)(1977); (1977). (1977) formato ACNP 19771977; 1977; 1977; Progetto ITALE-ACNP 10 I T A L E Casistiche monoblocco trattate (2) Annate inserite entro parentesi tonde. La condizione prevista dalla routine è che ci siano nella stringa due parentesi tonde dello stesso tipo. La punteggiatura finale della stringa può essere il “;”, il “.”, ma la stringa può terminare anche senza punteggiatura. Es.: Stringa Aleph formato ACNP 17(1951)-33(1967); 17(1951)-33(1967). 17(1951)-33(1967) 1951-1967; 1951-1967; 1951-1967; Progetto ITALE-ACNP 11 I T A L E Casistiche monoblocco trattate (3) Singola annata di quattro cifre consecutive fuori parentesi. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura. Es.: Stringa Aleph 1980; 1980. 1980 1980- formato ACNP 1980; 1980; 1980; 1980- Progetto ITALE-ACNP 12 I T A L E Casistiche monoblocco trattate (4) Annate di quattro cifre consecutive fuori parentesi. Le consistenze sono processate quando la stringa finisce con il “;”, il “.”, o senza punteggiatura”. Es.: Stringa Aleph 1980-1990; 1980-1990. 1980-1990 formato ACNP 1980-1990; 1980-1990; 1980-1990; Progetto ITALE-ACNP 13 I T A L E Casistiche monoblocco trattate (5) Annate a cavallo divise da / entro parentesi tonde con secondo blocco composto di solo due cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura”. Es.: Stringa Aleph (1992/93); (1992/93)(1992/93 (1992/93). formato ACNP 1992-1993; 19921992-1993; 1992-1993; Progetto ITALE-ACNP 14 I T A L E Casistiche monoblocco trattate (6) Annate a cavallo divise da - entro parentesi tonde con secondo blocco di due cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “-”, con il “.”, o senza punteggiatura”. Es.: Stringa Aleph (1992-93); (1992-93)(1992-93) (1992-93). formato ACNP 1992-1993; 19921992-1993; 1992-1993; Progetto ITALE-ACNP 15 I T A L E Casistiche monoblocco trattate (7) Annate a cavallo divise da / entro parentesi tonde con secondo blocco di quattro cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura. Es.: Stringa Aleph (1992/1993); (1992/1993)(1992/1993) (1992/1993). formato ACNP 1992-1993; 19921992-1993; 1992-1993; Progetto ITALE-ACNP 16 I T A L E Casistiche monoblocco trattate (7) Annate a cavallo fuori parentesi divise da / con secondo blocco di due cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura”. Es.: Stringa Aleph 1992/93; 1992/931992/93 1992/93. formato ACNP 1992-1993; 19921992-1993; 1992-1993; Progetto ITALE-ACNP 17 I T A L E Casistiche monoblocco trattate (8) Annate a cavallo fuori parentesi divise da / con secondo blocco di quattro cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura Es.: Stringa Aleph 1992/1993; 1992/19931992/1993 1992/1993. formato ACNP 1992-1993; 19921992-1993; 1992-1993; Progetto ITALE-ACNP 18 I T A L E Casistiche monoblocco trattate (9) Annate a cavallo fuori parentesi divise da - con secondo blocco di due cifre. Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura”. Es.: Stringa Aleph 1992-93; 1992-931992-93 1992-93. formato ACNP 1992-1993; 19921992-1993; 1992-1993; Progetto ITALE-ACNP 19 I T A L E Casistiche monoblocco trattate (10) Annate di quattro cifre inserite entro parentesi tonde separate da - . Le consistenze sono processate quando la stringa finisce con il “;”, con il “.”, con il “-”, o senza punteggiatura”. Es.: Stringa Aleph 18(1992-1993); 18(1992-1993)18(1992-1993) 18(1992-1993). formato ACNP 1992-1993; 19921992-1993; 1992-1993; Progetto ITALE-ACNP 20 I T A L E Stringhe pluriblocco Possono essere considerate come un insieme costituito da più stringhe monoblocco separate dal “;”. Es. : 14(1938); 19(1947)21(1948);24(1950)-29(1951); 32(1953); La procedura deve scomporre la stringa in singoli monoblocchi, applicare le condizioni a ciascun di questi normalizzandoli, ricomporre la stringa normalizzata nella sua interezza La procedura deve poi gestire, in base alla punteggiatura interna e finale della stringa, i legami tra annate consecutive divise dal “;”. Es. di stringa normalizzata: 1970;1971;1972;1974;1976;1977;1986;1987;2004Stringa convertita nel formato ACNP: 1970-1972;1974;1976-1977;1986-1987;2004- Progetto ITALE-ACNP 21 I T A L E Conclusioni Su un totale di circa 32.000 stringhe di posseduto relative ai dati dell’Università di Siena ne sono state processate al momento ben 22.700. Il resto è composto prevalentemente dalle stringhe pluriblocco La procedura dovrà essere parametrizzata in base alle specificità delle “Consistenze” e delle “Lacune” di ciascuna sede Le stringhe di posseduto che non saranno trattate automaticamente dalla routine saranno indicate e recuperabili grazie ad uno specifico indicatore del Tag. Esse dovranno essere gestite manualmente o intervenendo direttamente sul campo, modificandole per essere riconosciute e processabili dalla procedura (opzione preferibile), oppure duplicando l’intero Tag ed inserendo in esso la consistenza già nel formato ACNP In prospettiva si renderà necessario garantire una maggiore uniformità nella descrizione del “Posseduto” comunicando agli stessi catalogatori i formati delle casistiche che, riconosciute e trattate dalla procedura automatica, potranno utilizzare in “Catalogazione corrente” per l’inserimento delle “Consistenze” Progetto ITALE-ACNP 22 I T A L E Problemi aperti e tempistica Ridurre il fenomeno dei “Falsi positivi”, ossia il trattamento di quelle stringhe che la procedura riconosce e processa quando invece essa non appartiene ad alcuna delle casistiche individuate. Es.: 1980 – (1990); In uscita nel formato ACNP dovrebbe essere 1980-1990; La procedura, senza le opportune istruzioni, avrebbe però trattato la stringa riconducendola al caso di singola annata entro parentesi tonda e l’output, ossia “1990;”, sarebbe stato di conseguenza sbagliato La procedura è nella sua architettura completata. Resta da sviluppare la parte relativa alla gestione dei legami tra annate consecutive divise dal “;” nelle stringhe pluriblocco. Entro la fine di giugno 2006 dovrà essere completata la sperimentazione relativa all’intero flusso lavorativo sui dati dell’Università di Siena, dal caricamento batch alla analisi del file di rigetto, etc. e nel contempo avviata la parametrizzazione della procedura per il caricamento dati delle altre sedi. Progetto ITALE-ACNP 23 I T A L E Associazione Italiana Utenti Aleph http://www.itale.it A cura di Stefano Bonanni Servizio Automazione Biblioteche Area Sistema delle Biblioteche Università degli Studi di Siena Il PROGETTO ITALE-ACNP e [email protected] “L’elaborazione automatica delle stringhe di posseduto e delle lacune” Università degli Studi di Udine 20 aprile 2006