STATO DEL TIER 1 & FARM di
Sezione
Alessia Tricomi
per
M. D’Amato, N. De Filippis, L. Silvestris, S. Costa, A.
Tricomi, V. Ciulli, N. Magini, C. Marchettini, L.
Servoli, L. Fanò, S. Gennai
Sezione di BARI

Risorse HW:

Stato attuale

CPU: 18 GHz - PIII 4 da 800MHz e 5 da 1.200 MHz Dual Proc.
con RedHat 6.2 (tra cui un disk server SCSI con RH 7.2 )
Disco: 2 TB

CPU: 12 GHz



Partecipazione produzione ufficiale



50K eventi HZZe+e-µ+µ- (mH: 130,150,200,300,500)
(tutta la catena);
150K eventi eg02_BigJets (solo .fz)
Eventuali problemi HW o SW riscontrati e commenti


A breve (finanziamenti 2003)
Problemi di installazione e configurazione RedHat sul nuovo
hardware (controller SCSI, ecc. )
Persona di contatto e risorse umane:

M. D’Amato, N. De Filippis
Alessia Tricomi
TISB - Firenze 16/01/03
Sezione di Catania

Risorse HW:

Stato attuale



A breve (finanziamenti 2002 e 2003)





150k bbH->mm (diverse mA e tanb); 100k bbZ->mm Pythia+CMSJET
600k btH+->tb Herwig+CMSJET 150k ttbb COMPHEP+CMSJET
87M SUSY ISAJET+PYTHIA, 63M tt, Z+jet, W+jet, QCD PYTHIA CMSJET
Eventuali problemi HW o SW riscontrati e commenti

Problemi iniziali per l’installazione del disk-server
In produzione al 100% da ottobre a causa del trasferimento

S. Costa, A. Tricomi


60K eg02_BigJets (solo fz)
Altre produzioni fatte in casa:


CPU: 38 GHz - 8 PIV Xeon da 2.4 GHz Dual Proc
Disco: 0.2 TB
Partecipazione produzione ufficiale


CPU: 3.5 GHz - 2 PIII da 866MHz Dual Proc (RedHat 6.1.1)
Disco: 1.3 TB (DiskServer RedHat 7.2)
Persona di contatto e risorse umane:
Alessia Tricomi
TISB - Firenze 16/01/03
Sezione di Firenze

Risorse HW:

Stato attuale:

CPU: 82.8 GHz - CMS: 6 PIV 2.4 GHz Dual Proc + Sezione: 15
PIII 1 GHz e 5 PIV 2.4 GHz Dual Proc
– su tutti i nodi e’ installata la RH 7.3 CERN
– nel 2002 solo 30GHz di Sezione






Disco: 1.6 TB
A breve: nessun finanziamento per il 2003, ma abbiamo
ancora un fondo di 10000 Euro per eventuali “emergenze”
Partecipazione produzione ufficiale

11.5k eventi Bs J/f, 44k eg02_BigJets (solo fz)

10k Bpp, 1.6k WH  mnbb (full chain)


Licenza Objectivity per RH7
Potenza rete elettrica insufficiente

V. Ciulli, N. Magini, C. Marchettini + (a breve) art. 15
Altre produzioni fatte in casa:
Problemi HW e SW:
Persona di contatto e risorse umane:
Alessia Tricomi
TISB - Firenze 16/01/03
Sezione di Perugia

Risorse HW:
 Stato attuale (finanziamenti CMS + altri fondi 2002)


CPU: 35.2 GHz - 16 PIII da 1GHz + 8 PVI da 2.4 GHz
Disco: 2.4 Tb - 1.0 Tb + 1.4 Tb
A breve (finanziamenti 2003): nulla
Partecipazione produzione ufficiale




Altre produzioni fatte in casa (tutte senza pile-up):



70k eventi t->3 m e t-> m g; 15k eventi Higgs con vari stati finali;
1k eventi gb -> Hb (full chain)
10k eventi gb ->Hb; 40k eventi ttH; 138k eventi fondo
risonante (ttZ, ttbb, tt jet jet); 2.400k eventi di fondo non
risonante QCD (fino a CMSJET)
Eventuali problemi HW o SW riscontrati e commenti:



177.5k eventi eg02_BigJets (solo fz)
Difficoltà iniziali nel setup della farm per il sistema operativo RH
6.1 poco compatibile con il nuovo hardware.
Lo script autoinstallante CASPUR metteva il Perl in una
posizione non corretta (risolto da L.Fano’ e T. Wildisch).
Persone di contatto: L. Servoli,
L. Fanò
TISB - Firenze 16/01/03
Alessia Tricomi
Sezione di Pisa

Risorse HW:

Stato attuale

CPU: 24 GHz - 12 PIII da 1 GHz Dual Proc (4 “in manutenzione”)
Disco: 1.2 TB

Disco: 12K€ per compare 1 TB di disco ma sembrano scompars



Partecipazione produzione ufficiale




90K eventi eg02_BigJets (solo Fz)
16K WH-> muoni e bb e 5k WH-> elettroni e tau tau (full chain a
bassa luminosità)
Circa 40K di eventi con muoni per Torino (solo Fz)
Eventuali problemi HW o SW riscontrati e commenti



A breve (finanziamenti 2003)
Si rompevano i dischi (IBM) quasi ogni giorno e siamo stati impossibilitat
a lavorare per diverse settimane, fino alla sostituzione con dei maxtor.
Dopo il trasferimento del centro di calcolo la farm è parzialmente
funzionante e non e’ chiaro quando potrà tornare su al 100%
Persona di contatto e risorse umane:
 Simone Gennai (attualmente al 30%, prima al 50%)
Alessia Tricomi
TISB - Firenze 16/01/03
TIER 1

Risorse HW:

Stato attuale

CPU:
– CMS “standard”: 16 GHz - 8 PIII da 1GHz Dual Proc
– Stress test: 80 GHz
– DATATAG: 10 GHz – 5 PIII da 1 GHz Dual Proc

DISCO:
– CMS “standard”: 2 Tb – estensibili a 5 su richiesta
– Stress test: 2Tb


Nastro: sono disponibili circa 18 Tb su nastro da dividere
tra i vari esperimenti, ma al momento non abbiamo fatto
richieste
A breve
A metà febbraio riunione dei Comitati tecnico e di
gestione per stabilire l’allocazione delle risorse per
almeno la prima parte del 2003
 Partecipazione al pre-challenge del DC04

Alessia Tricomi
TISB - Firenze 16/01/03
TIER 1

Attività

Partecipazione produzione ufficiale:


Stress test: dal 29 Novembre al 20 Dicembre:


130k (+50k non utilizzabili) eventi eg02_BigJets full chain
con mc_runjob
268.5k eventi eg02_BigJets solo fz
Analisi:

Test beam: disponibili tutti i dati dei test beam al PSI e a X5
Sistema di monitoring delle risorse accessibile via web
https://tier1.cnaf.infn.it/monitor/ solo con certificato
INFN-CA
 Problemi HW e SW e commenti:


Nessun particolare problema HW eccetto che al momento il
numero di processori assegnatoci è stato limitato a quelli più
vecchi per via della necessità di utilizzare la RH 6.1
Alessia Tricomi
TISB - Firenze 16/01/03
TIER1: monitoring
CPU status – CMS cluster
PBS Server – CMS cluster
Job sottomessi
Job running
Alessia Tricomi
TISB - Firenze 16/01/03
TIER1: monitoring
% User
%Free
%Syst
% Nice
Alessia Tricomi
TISB - Firenze 16/01/03
TIER 1

Problemi HW e SW e commenti:



Produzione ufficiale: oltre 50k eventi da buttare a causa di
una errata assegnazione dei run numbers e successivamente
di un baco in uno degli script di python
Stress test: upgrade della versione del software di datagrid
(da EDG1.3 a EDG1.4), e una serie di altri problemi che
hanno rallentato, reso difficile la sottomissione di jobs.
Analisi:
 problema con il riempimento della /home che ha bloccato
anche la produzione ufficiale
– Tutti coloro che hanno account e vogliono utilizzare il Tier1 per l’analisi
NON devono scrivere ntuple sulla /home ma sul disk-server
/CMS1/testbeam e preventivamente, prima di iniziare l’analisi, è
opportuno contattarmi per concordare l’utilizzo almeno fino a quando
saremo in produzione ufficiale
– Ho richiesto comunque che venga messa una quota sulle home
directories e appena possibile una macchina che possa servire da gw per
l’analisi

Lentezza del trasferimento
CERN-CNAF
TISB - Firenze 16/01/03
Alessia Tricomi
Riassumendo …


Tutte le farm (a parte al momento Pisa a causa del trasferimento) sono
operative al 100%
Installazione farm da scratch:
 Tutte le farm hanno avuto difficoltà nella fase di installazione a causa
dell’incompatibilità tra nuovo HW e la RH 6.1
 I tempi di installazione a seconda dei casi sono stati dell’ordine di alcuni
giorni fino a settimane
 L’installazione al CNAF tramite LFCG e gli RPM preparati da Andrea, una
volta messo a punto il sistema, è stata molto rapida (in mezza giornata
tre macchine sono state completamente installate da scratch), tuttavia
l’utilizzo di processori più nuovi è stato scartato sempre per evitare
problemi con la RH 6
 E’ prevedibile che, per il nuovo HW, con la RH 7.3 tutto dovrebbe essere
molto più rapido
 Sarebbe auspicabile avere una lista di HW supportato con facilità di
riferimento per tutte le sezioni
Alessia Tricomi
TISB - Firenze 16/01/03
Riassumendo …

Partecipazione produzione:
Tutte le farm “Tracker” hanno partecipato alla
produzione ufficiale almeno fino alla fase fz
 Quasi tutte le farm e il TIER1 sono al momento
coinvolte nella produzione eg02_BigJets
 Un risultato interessante per il TIER1 è la
partecipazione alla produzione ufficiale con la full
chain tramite mc_runjob


Partecipazione DC04

Da discutere…
FARM*
TIER1
CPU  1 GHz
CPU > 1GHz
DISCO
52
16
69
?
9.7
2+3+?
* Per Firenze sono state sommate solo le CPU effettivamente in possesso di CMS (è
ragionevole considerare la possibilità di utilizzo di circa il 30% della farm di sezione)
Alessia Tricomi
TISB - Firenze 16/01/03
DC04: due fasi
P. Capiluppi Gr1 Perugia
Pre-Challenge (2003)

(Must be successful)
Introduce GRID tools
Large scale simulation and digitization
As available and tested
 Will prepare the samples for the challenge
 Will prepare the samples for the Physics TDR work to get fully underway
 Progressive shakedown of tools and centers



All centers taking part in challenge should participate to pre-challenge
The Physics TDR and the Challenge depend on successful completion

Ensure a solid baseline is available, worry less about being on the cutting edge
Challenge (2004)

(Must be able to fail)
Reconstruction at “T0”(CERN)
 Distribution to “T1s”



Make full use of LCG-1 GRID.
Test the functionality they deliver
Subsequent distribution to “T2s”
Assign “streams” and “pre-configured analyses” to people at T1s and T2s



Some will be able to work entirely within one center
Others will require analysis of data at multiple-centers
GRID tools tested for data movement and job migration
Alessia Tricomi
TISB - Firenze 16/01/03
DC04: setting the scale
P. Capiluppi Gr1 Perugia
Pre-Challenge
 Aim is 1 month of “running” at 25 Hz, 20 hours per day
 50 Million reconstructed events
 (passing L1 Trigger and mostly passing HLT, but some background
samples also required)
 Simulation (GEANT4!)








–Six months running for 1000 CPUS (Worldwide)
–(Actually aim for more CPU’s to get production time down)
75TB
15 kSI95.Months
175MB/s Pileup bandwidth (if allow two months for digitization)
Reconstruction at T0-CERN



1GHz P3 is 50 SI95
Working assumption that most farms will be at 50SI95/CPU in late 2003
Digitization

Challenge
100TB
300 kSI95.Months
25TB
23 kSI95 for 1 month (460 CPU @ 50SI95/CPU)
Analysis at T1-T2s

Design a set of tasks such that offsite requirement during challenge is about
twice that of the “T0”
Alessia Tricomi
TISB - Firenze 16/01/03
CMS Italia e il DC04

Partecipare al Challenge : contribuire per ~ 20%


Possibilmente tutte le risorse parteciperanno al pre-challenge
Coordinare la partecipazione attraverso LCG
 Il
Tier1/INFN deve essere “fully functional”

 Le



P. Capiluppi Gr1 Perugia
~70 CPU boxes e ~20 TB
risorse conferite in LCG cresceranno in funzione del successo
Inizialmente Legnaro (gia’ “dinamico”) e il Tier1 gia’ “committed”
A seguire le altre risorse
Definire i commitment delle Sedi Italiane
 Ruoli
in funzione delle competenze del personale
 Definire la meteodologia

Definire il “data flow”
E


le “analisi pre-confezionate”
Aumento delle risorse di un fattore 3 per il DC05 (2004-05)
Conclusioni di Paolo: commitment per partecipare al DC04
 Ufficialmente oggi in LCG-1 per CMS: Tier1 e Legnaro
 Partecipazione al pre-DC04 di tutti i Tier2/3
 Partecipazione al DC04 di Tier selezionati (interesse)
Alessia Tricomi
TISB - Firenze 16/01/03
Conclusioni
Tutte le farm hanno mostrato di essere
operative
 Ci sono alcune macchine obsolete, ma un po’
tutte le farm si stanno attrezzando con nuovi
PVI
 Dovremmo capire quale può essere il nostro
ruolo nel DC04

Alessia Tricomi
TISB - Firenze 16/01/03
Scarica

ppt