LHCb Computing
Angelo Carbone, INFN-CNAF
CSN1, 21/9/06



Aggiornamento richieste Tier-1 2007-8
Richiesta Tier-2 al CNAF
Stato e risultati DC06
1
Aggiornamento TDR Tier-1
Primo anno di presa dati 2008

Statistica acquisita 2.5 volte
inferiore alla norma.

4.42 MSi2k·year CPU Tier-1s TDR
 1.31 MSi2k·year

Risorse al Tier-1 CNAF





1/6 delle risorse Tier-1s totali
0.1 MSi2k·year nel 2007
0.2 MSi2k·year nel 2008.
LHCb non prevede di richiedere un
aumento di risorse Tier-1
nel 2007 e 2008.
MSi2k*year
Online Farm
CERN T0 + T1
Tier1s
Tier2s
Total
2007
0.00
0.11
0.52
1.82
2.46
2008
0.90
0.28
1.31
4.55
7.04
Disk (TB)
Online Farm
CERN T0 + T1
Tier1s
Tier2s
Total
2007
0
140
410
4
554
2008
0
350
1025
9
1385
Tape (TB)
Online Farm
CERN T0 + T1
Tier1s
Tier2s
Total
2007
2008
253
344
631
860
596
1491
2
Tier2 LHCb






I Tier-2 di LHCb servono per la produzione di eventi Monte Carlo.
Secondo il computing TDR la potenza di CPU a regime deve essere
tale da permettere di produrre ogni anno una statistica di 4*108
eventi, uguale alla statistica raccolta in un anno di presa dati.
Eventi Monte Carlo generati ogni anno: 4*109
Eventi Monte Carlo che superano il trigger 1/10
La frazione della potenza di CPU nei Tier-2 corrispondente all’Italia
è del 15%
A regime la potenza di CPU del Tier-2 di LHCb equivale a quella
impiegata da LHCb nel Tier-1 per ricostruzione, selezione ed analisi
(vedi oltre).
3
Aggiornamento TDR Tier-2

È richiesta nel 2007 la produzione di 50*106 eventi Monte Carlo a
varie luminosità, per studi del sistema di trigger e per il Physics
Book.


Nel 2008 totale CPU Tier-2s previste dal TDR





Al CNAF è richiesta una potenza di CPU di 300 kSi2k*year
7.65 MSi2k·year
Fattore di riduzione 2.5 della statistica.
Il tempo di calcolo per produrre un evento Monte Carlo risulta maggiore
del 50% rispetto al TDR
Il totale della CPU necessaria è pertanto di 4.55 MSi2k·year
Al Tier-2 del CNAF la CPU necessaria è prevista essere del 15%

4.55 * 0.15 = 0.7 MSi2k·year
Al Tier-2 CNAF secondo TDR erano 1.15 MSi2k·year
>> La nostra richiesta per il 2007 e’ di acquisire 300 Ksi2k
4
DC06 Obiettivi
Obiettivo del DC06 è di collaudare il modello di calcolo
dell’esperimento impiegando i servizi LCG.
In particolare ci si propone di collaudare il sistema nelle
realizzazione delle seguenti fasi:



La simulazione degli eventi impiegando le risorse LCG disponibili




Produzione di dati solo RAW
La ricostruzione degli eventi RAW presso i centri Tier-1 e al CERN con
produzione degli eventi rDST.
La pre-selezione degli eventi rDST presso i centri Tier-1 e al CERN con
produzione degli eventi DST.
Il trasferimento



La distribuzione dei dati RAW dai siti di produzione MC al CERN
La distribuzione dei dati RAW dal CERN a tutti i centri Tier-1.
La distribuzione degli eventi DST da ciascun centro Tier-1 ad almeno 3
centri Tier-1 (compreso CERN) per la successiva fase di analisi.
I centri Tier-1 di LHCb che partecipano al DC06 sono:


CERN, CNAF, NIKHEF, GridKa, PIC, IN2P3, RAL
5
DC06 Simulazione MC
Produzione MC
CERN
Tier-0
DIGI (RAW)
CNAF
PIC
RAL
IN2P3
Produzione MC

NIKHEF
Tier-1
Produzione MC

GRIDKA
Tier-2
LHCb usa tutte le risorse LCG disponibile. Quando i job di
simulazione terminano i dati (RAW) vengono mandati al T0
Questa fase è stata collaudata con successo
6
DC06 Simulazione MC
Tutti i siti

Circa 5000 job di
simulazione attivi in media
con picchi di 7000 job
durante l’ultimo mese.
CNAF
CERN
RAL

Le variazioni osservabili sono
dovute alla allocazione dinamica
delle risorse operata dagli
scheduler che implementano
l’algoritmo di fair-share
7
Simulazione per sito
(da maggio 2006)
Site
Events (%)
Events
LCG.CERN.ch
18.59
26,773,752
LCG.CNAF.it
11.18
16,105,760
LCG.RAL.uk
10.60
15,264,775
LCG.LPC.fr
5.81
8,372,270
LCG.Manchester.uk
4.76
6,853,250
LCG.QMUL.uk
4.69
6,754,999
LCG.GRIDKA.de
4.10
5,910,519
LCG.USC.es
3.07
4,420,500
LCG.NIKHEF.nl
2.82
4,055,101
DIRAC.Lyon.fr
2.64
3,807,749
LCG.Barcelona.es
2.37
3,417,810
LCG.Liverpool.uk
2.27
3,269,500
Eventi
prodotti in
totale su
~100 siti
144M
8
Simulazione per nazione
(da maggio 2006)
Site
Events (%)
Events
UK
29.00
41,777,300
CERN
19.75
28,437,622
IT
15.57
22,429,760
FR
10.28
14,799,830
ES
6.99
10,065,229
GR
5.24
7,552,039
DE
5.00
7,206,019
NL
2.89
4,156,350
PL
1.80
2,584,749
RU
1.60
2,305,570
BG
0.77
1,108,510
Numero totale di
eventi MC prodotti
144M
9
Eventi prodotti vs attesi ai Tier-1
DC06 (da Maggio 2006)
Site
Events (%)
Events
Expected(%)
CERN
18.59
26,773,752
14.4
CNAF
11.18
16,105,760
13.3
RAL
10.60
15,264,775
10.3
GRIDKA
4.10
5,910,519
19.9
NIKHEF
2.82
4,055,101
7.7
Lyon
2.94
4,313,180
11.3
PIC
1.12
1,718,864
2.6
10
DC06 Ricostruzione
CERN
T0&T1
DIGI (RAW)
CNAF
PIC
RAL
IN2P3
GRIDKA
NIKHEF
T1
Per simulare la presa dati, i RAW vengono distribuiti dal T0 ai T1




Se il trasferimento è avvenuto con successo sul sito Tier-1 (copia su tape e
registrazione nel catalogo) automaticamente viene lanciato un job di
ricostruzione sul sito Tier-1 corrispondente
L’ouput (rDST) è salvato sul sito Tier-1 pronto per essere processato dagli
algoritimi di pre-selezione
Questa fase è stata collaudata con successo su 4 Tier-1


PIC , CERN, IN2P3, RAL
CNAF, GRIDKA, NIKHEF hanno avuto dei problemi (dettagli in seguito)
11
DC06 Ricostruzione: risultati
Site
Low lumi
jobs
Low lumi
events
High lumi
jobs
High lumi
events
Lumi+High
CERN
305
3.05M
288
2.88M
25%
CNAF
-
-
14
0.14M
<1%
GRIDKA
-
-
28
0.30M
1%
IN2P3(DIRAC)
464
4.64M
251
2.51M
30%
NIKHEF/SARA
-
-
-
-
-
PIC
178
1.78M
273
2.73M
19%
RAL
282
2.82M
281
2.81M
24%
TOTAL



12.3M
11.3M
GRIDKA: sovraccarico del gridFTP server, risolto da poco
NIKHEF: problema di connessione tra data storage e WN (NIKHEFSARA), si aspetta un versione patched di dcache per aggirare il
problema
CNAF: problemi di stabilità di Castor-2, sono stati fatti molti progressi
per rendere il sistema il più stabile possibili, pronti per testarlo
12
DC06 Pre-selezione
CERN
T0&T1
DST
CNAF
PIC
RAL
IN2P3
dati pre-selezionati DST distribuiti tra i vari T1
GRIDKA
NIKHEF
T1
Quando sul sito sono presenti sufficienti quantità di dati rDST,
automaticamente sul sito Tier-1 viene inviato un job di pre-selezione





I dati rDST sono analizzati dove prodotti
L’output (DST) delle preselezione viene distribuito ai T1 in modo da avere su
“disco” 3 copie
Questa fase non è ancora stata realizzata, manca ancora un parte di codice
per effettuare la pre-selezione
Tecnicamente è del tutto analoga a qualla di ricostruzione, non ci aspettiamo
particolari problemi
13
Trasferimento dati

La verifica delle capacità di trasferimento dei dati dai
centri di produzione al CERN e successivamente dal CERN
ai Tier-1 (per la ricostruzione e selezione) è un obiettivo
del DC06.


Dati simulati: i file DIGI prodotti nei centri Tier-1 eTier-2 sono
stati trasferiti direttamente al CERN dal job di produzione MC.
Reconstruzione e pre-selezione: per simulare il flusso dei dati
reali i file DIGI sono stati distributi ai Tier-1 mediante FTS
(gLite File Transfer Service)
14
Trasferimento dati RAW dai siti di
produzione al CERN

I trasferimenti dei dati RAW dai siti di produzione al
CERN avviene ad un rate di ~8MB/s
15
Trasferimento dati RAW dai siti di
produzione al CERN

Se il CERN non è disponibile altri Tier-1 sono usati
momentaneamente come Tier-0
16
Distribuzione dei dati RAW dal CERN
ai centri Tier-1 (ultimo mese)
Dal CERN ai Tier-1


Il sistema di
trasferimento dei
RAW è stato
collaudato ad un
basso rate
Proveremo ad
aumentare i rate
Dal CERN
17
DC06 al CNAF

Il sito Tier-1 ha contribuito alla produzione di dati
RAW con successo, secondo le richieste della
collaborazione LHCb


Prodotto 11% di eventi MC
La fase di ricostruzione ha presentato difficoltà
dovute a Castor-2

LHCb ha provato ad eseguire in due mesi alcuni job di
ricostruzione





In simultanea non sono mai stati eseguiti più di 10 job
In due mesi sono terminati con successo 14 job di
ricostruzione (<1% di tutti i job di ricostruzione terminati
con successo da LHCb)
Ciascun job di ricostruzione richiede poche connessioni
rfio_open() aperte per l’accesso ai dati (con basso I/O)
Il carico dovuto al trasferimento dei dati dal CERN (che può
sovrapporsi con la ricostruzione) è comunque stato ridotto
ad alcuni MB/s
L’attività di produzione MC (in continua attività in questa
fase) non ha alcuna interferenza con la fase di ricostruzione
non accedendo a Castor-2
18
DC06 al CNAF

Il CNAF, in collaborazione con i referenti degli
esperimenti, ha individuato e risolti alcuni problemi

Numero di diskserver inadeguato



Tuning di alcuni parametri dello scheduler LSF di Castor-2
Instabilità del DB di Castor




Aggiunto un diskserver per LHCb
Bugs fixed dal supporto CERN
Ottimizzazione del DB
Upgrade del software (client e server) all’ultima versione
L’ultimo intervento di upgrade del software è stato
completato ieri
19
Conclusioni

DC06 di LHCb è stato condotto con risultati soddisfacenti negli
ultimi 3 mesi



Le varie fasi previste sono state attuate con successo (eccetto
la pre-selezione)
Produzione MC





Procede regolarmente da mesi
Sono stati prodotti circa 144M di eventi da maggio
Ricostruzione


I risultati DC06 sono stati presentati alla Collaborazone LHCb
Il meccanismo di trasferimento dei dati RAW dal CERN ai Tier-1 e
di esecuzione automatica di job di ricostruzione sta funzionando su
4 dei 7 siti Tier-1 di LHCb previsti
I siti mancanti hanno provveduto a proporre delle soluzioni, la cui
efficacia deve essere verificata
Pre-selezione

Tecnicamente molto simile alla ricostruzione, non ancora iniziata

LHCb continuarà a colladuare le soluzioni proposte per rendere il sistema
Castor2 al CNAF operativo
DC06 continuerà nei prossimi mesi con lo scopo di completare la
ricostruzione degli eventi MC prodotti e la pre-selezione
20
Scarica

Carbone