LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06 1 Aggiornamento TDR Tier-1 Primo anno di presa dati 2008 Statistica acquisita 2.5 volte inferiore alla norma. 4.42 MSi2k·year CPU Tier-1s TDR 1.31 MSi2k·year Risorse al Tier-1 CNAF 1/6 delle risorse Tier-1s totali 0.1 MSi2k·year nel 2007 0.2 MSi2k·year nel 2008. LHCb non prevede di richiedere un aumento di risorse Tier-1 nel 2007 e 2008. MSi2k*year Online Farm CERN T0 + T1 Tier1s Tier2s Total 2007 0.00 0.11 0.52 1.82 2.46 2008 0.90 0.28 1.31 4.55 7.04 Disk (TB) Online Farm CERN T0 + T1 Tier1s Tier2s Total 2007 0 140 410 4 554 2008 0 350 1025 9 1385 Tape (TB) Online Farm CERN T0 + T1 Tier1s Tier2s Total 2007 2008 253 344 631 860 596 1491 2 Tier2 LHCb I Tier-2 di LHCb servono per la produzione di eventi Monte Carlo. Secondo il computing TDR la potenza di CPU a regime deve essere tale da permettere di produrre ogni anno una statistica di 4*108 eventi, uguale alla statistica raccolta in un anno di presa dati. Eventi Monte Carlo generati ogni anno: 4*109 Eventi Monte Carlo che superano il trigger 1/10 La frazione della potenza di CPU nei Tier-2 corrispondente all’Italia è del 15% A regime la potenza di CPU del Tier-2 di LHCb equivale a quella impiegata da LHCb nel Tier-1 per ricostruzione, selezione ed analisi (vedi oltre). 3 Aggiornamento TDR Tier-2 È richiesta nel 2007 la produzione di 50*106 eventi Monte Carlo a varie luminosità, per studi del sistema di trigger e per il Physics Book. Nel 2008 totale CPU Tier-2s previste dal TDR Al CNAF è richiesta una potenza di CPU di 300 kSi2k*year 7.65 MSi2k·year Fattore di riduzione 2.5 della statistica. Il tempo di calcolo per produrre un evento Monte Carlo risulta maggiore del 50% rispetto al TDR Il totale della CPU necessaria è pertanto di 4.55 MSi2k·year Al Tier-2 del CNAF la CPU necessaria è prevista essere del 15% 4.55 * 0.15 = 0.7 MSi2k·year Al Tier-2 CNAF secondo TDR erano 1.15 MSi2k·year >> La nostra richiesta per il 2007 e’ di acquisire 300 Ksi2k 4 DC06 Obiettivi Obiettivo del DC06 è di collaudare il modello di calcolo dell’esperimento impiegando i servizi LCG. In particolare ci si propone di collaudare il sistema nelle realizzazione delle seguenti fasi: La simulazione degli eventi impiegando le risorse LCG disponibili Produzione di dati solo RAW La ricostruzione degli eventi RAW presso i centri Tier-1 e al CERN con produzione degli eventi rDST. La pre-selezione degli eventi rDST presso i centri Tier-1 e al CERN con produzione degli eventi DST. Il trasferimento La distribuzione dei dati RAW dai siti di produzione MC al CERN La distribuzione dei dati RAW dal CERN a tutti i centri Tier-1. La distribuzione degli eventi DST da ciascun centro Tier-1 ad almeno 3 centri Tier-1 (compreso CERN) per la successiva fase di analisi. I centri Tier-1 di LHCb che partecipano al DC06 sono: CERN, CNAF, NIKHEF, GridKa, PIC, IN2P3, RAL 5 DC06 Simulazione MC Produzione MC CERN Tier-0 DIGI (RAW) CNAF PIC RAL IN2P3 Produzione MC NIKHEF Tier-1 Produzione MC GRIDKA Tier-2 LHCb usa tutte le risorse LCG disponibile. Quando i job di simulazione terminano i dati (RAW) vengono mandati al T0 Questa fase è stata collaudata con successo 6 DC06 Simulazione MC Tutti i siti Circa 5000 job di simulazione attivi in media con picchi di 7000 job durante l’ultimo mese. CNAF CERN RAL Le variazioni osservabili sono dovute alla allocazione dinamica delle risorse operata dagli scheduler che implementano l’algoritmo di fair-share 7 Simulazione per sito (da maggio 2006) Site Events (%) Events LCG.CERN.ch 18.59 26,773,752 LCG.CNAF.it 11.18 16,105,760 LCG.RAL.uk 10.60 15,264,775 LCG.LPC.fr 5.81 8,372,270 LCG.Manchester.uk 4.76 6,853,250 LCG.QMUL.uk 4.69 6,754,999 LCG.GRIDKA.de 4.10 5,910,519 LCG.USC.es 3.07 4,420,500 LCG.NIKHEF.nl 2.82 4,055,101 DIRAC.Lyon.fr 2.64 3,807,749 LCG.Barcelona.es 2.37 3,417,810 LCG.Liverpool.uk 2.27 3,269,500 Eventi prodotti in totale su ~100 siti 144M 8 Simulazione per nazione (da maggio 2006) Site Events (%) Events UK 29.00 41,777,300 CERN 19.75 28,437,622 IT 15.57 22,429,760 FR 10.28 14,799,830 ES 6.99 10,065,229 GR 5.24 7,552,039 DE 5.00 7,206,019 NL 2.89 4,156,350 PL 1.80 2,584,749 RU 1.60 2,305,570 BG 0.77 1,108,510 Numero totale di eventi MC prodotti 144M 9 Eventi prodotti vs attesi ai Tier-1 DC06 (da Maggio 2006) Site Events (%) Events Expected(%) CERN 18.59 26,773,752 14.4 CNAF 11.18 16,105,760 13.3 RAL 10.60 15,264,775 10.3 GRIDKA 4.10 5,910,519 19.9 NIKHEF 2.82 4,055,101 7.7 Lyon 2.94 4,313,180 11.3 PIC 1.12 1,718,864 2.6 10 DC06 Ricostruzione CERN T0&T1 DIGI (RAW) CNAF PIC RAL IN2P3 GRIDKA NIKHEF T1 Per simulare la presa dati, i RAW vengono distribuiti dal T0 ai T1 Se il trasferimento è avvenuto con successo sul sito Tier-1 (copia su tape e registrazione nel catalogo) automaticamente viene lanciato un job di ricostruzione sul sito Tier-1 corrispondente L’ouput (rDST) è salvato sul sito Tier-1 pronto per essere processato dagli algoritimi di pre-selezione Questa fase è stata collaudata con successo su 4 Tier-1 PIC , CERN, IN2P3, RAL CNAF, GRIDKA, NIKHEF hanno avuto dei problemi (dettagli in seguito) 11 DC06 Ricostruzione: risultati Site Low lumi jobs Low lumi events High lumi jobs High lumi events Lumi+High CERN 305 3.05M 288 2.88M 25% CNAF - - 14 0.14M <1% GRIDKA - - 28 0.30M 1% IN2P3(DIRAC) 464 4.64M 251 2.51M 30% NIKHEF/SARA - - - - - PIC 178 1.78M 273 2.73M 19% RAL 282 2.82M 281 2.81M 24% TOTAL 12.3M 11.3M GRIDKA: sovraccarico del gridFTP server, risolto da poco NIKHEF: problema di connessione tra data storage e WN (NIKHEFSARA), si aspetta un versione patched di dcache per aggirare il problema CNAF: problemi di stabilità di Castor-2, sono stati fatti molti progressi per rendere il sistema il più stabile possibili, pronti per testarlo 12 DC06 Pre-selezione CERN T0&T1 DST CNAF PIC RAL IN2P3 dati pre-selezionati DST distribuiti tra i vari T1 GRIDKA NIKHEF T1 Quando sul sito sono presenti sufficienti quantità di dati rDST, automaticamente sul sito Tier-1 viene inviato un job di pre-selezione I dati rDST sono analizzati dove prodotti L’output (DST) delle preselezione viene distribuito ai T1 in modo da avere su “disco” 3 copie Questa fase non è ancora stata realizzata, manca ancora un parte di codice per effettuare la pre-selezione Tecnicamente è del tutto analoga a qualla di ricostruzione, non ci aspettiamo particolari problemi 13 Trasferimento dati La verifica delle capacità di trasferimento dei dati dai centri di produzione al CERN e successivamente dal CERN ai Tier-1 (per la ricostruzione e selezione) è un obiettivo del DC06. Dati simulati: i file DIGI prodotti nei centri Tier-1 eTier-2 sono stati trasferiti direttamente al CERN dal job di produzione MC. Reconstruzione e pre-selezione: per simulare il flusso dei dati reali i file DIGI sono stati distributi ai Tier-1 mediante FTS (gLite File Transfer Service) 14 Trasferimento dati RAW dai siti di produzione al CERN I trasferimenti dei dati RAW dai siti di produzione al CERN avviene ad un rate di ~8MB/s 15 Trasferimento dati RAW dai siti di produzione al CERN Se il CERN non è disponibile altri Tier-1 sono usati momentaneamente come Tier-0 16 Distribuzione dei dati RAW dal CERN ai centri Tier-1 (ultimo mese) Dal CERN ai Tier-1 Il sistema di trasferimento dei RAW è stato collaudato ad un basso rate Proveremo ad aumentare i rate Dal CERN 17 DC06 al CNAF Il sito Tier-1 ha contribuito alla produzione di dati RAW con successo, secondo le richieste della collaborazione LHCb Prodotto 11% di eventi MC La fase di ricostruzione ha presentato difficoltà dovute a Castor-2 LHCb ha provato ad eseguire in due mesi alcuni job di ricostruzione In simultanea non sono mai stati eseguiti più di 10 job In due mesi sono terminati con successo 14 job di ricostruzione (<1% di tutti i job di ricostruzione terminati con successo da LHCb) Ciascun job di ricostruzione richiede poche connessioni rfio_open() aperte per l’accesso ai dati (con basso I/O) Il carico dovuto al trasferimento dei dati dal CERN (che può sovrapporsi con la ricostruzione) è comunque stato ridotto ad alcuni MB/s L’attività di produzione MC (in continua attività in questa fase) non ha alcuna interferenza con la fase di ricostruzione non accedendo a Castor-2 18 DC06 al CNAF Il CNAF, in collaborazione con i referenti degli esperimenti, ha individuato e risolti alcuni problemi Numero di diskserver inadeguato Tuning di alcuni parametri dello scheduler LSF di Castor-2 Instabilità del DB di Castor Aggiunto un diskserver per LHCb Bugs fixed dal supporto CERN Ottimizzazione del DB Upgrade del software (client e server) all’ultima versione L’ultimo intervento di upgrade del software è stato completato ieri 19 Conclusioni DC06 di LHCb è stato condotto con risultati soddisfacenti negli ultimi 3 mesi Le varie fasi previste sono state attuate con successo (eccetto la pre-selezione) Produzione MC Procede regolarmente da mesi Sono stati prodotti circa 144M di eventi da maggio Ricostruzione I risultati DC06 sono stati presentati alla Collaborazone LHCb Il meccanismo di trasferimento dei dati RAW dal CERN ai Tier-1 e di esecuzione automatica di job di ricostruzione sta funzionando su 4 dei 7 siti Tier-1 di LHCb previsti I siti mancanti hanno provveduto a proporre delle soluzioni, la cui efficacia deve essere verificata Pre-selezione Tecnicamente molto simile alla ricostruzione, non ancora iniziata LHCb continuarà a colladuare le soluzioni proposte per rendere il sistema Castor2 al CNAF operativo DC06 continuerà nei prossimi mesi con lo scopo di completare la ricostruzione degli eventi MC prodotti e la pre-selezione 20