STATO DEL TIER 1 & FARM di Sezione Alessia Tricomi per M. D’Amato, N. De Filippis, L. Silvestris, S. Costa, A. Tricomi, V. Ciulli, N. Magini, C. Marchettini, L. Servoli, L. Fanò, S. Gennai Sezione di BARI Risorse HW: Stato attuale CPU: 18 GHz - PIII 4 da 800MHz e 5 da 1.200 MHz Dual Proc. con RedHat 6.2 (tra cui un disk server SCSI con RH 7.2 ) Disco: 2 TB CPU: 12 GHz Partecipazione produzione ufficiale 50K eventi HZZe+e-µ+µ- (mH: 130,150,200,300,500) (tutta la catena); 150K eventi eg02_BigJets (solo .fz) Eventuali problemi HW o SW riscontrati e commenti A breve (finanziamenti 2003) Problemi di installazione e configurazione RedHat sul nuovo hardware (controller SCSI, ecc. ) Persona di contatto e risorse umane: M. D’Amato, N. De Filippis Alessia Tricomi TISB - Firenze 16/01/03 Sezione di Catania Risorse HW: Stato attuale A breve (finanziamenti 2002 e 2003) 150k bbH->mm (diverse mA e tanb); 100k bbZ->mm Pythia+CMSJET 600k btH+->tb Herwig+CMSJET 150k ttbb COMPHEP+CMSJET 87M SUSY ISAJET+PYTHIA, 63M tt, Z+jet, W+jet, QCD PYTHIA CMSJET Eventuali problemi HW o SW riscontrati e commenti Problemi iniziali per l’installazione del disk-server In produzione al 100% da ottobre a causa del trasferimento S. Costa, A. Tricomi 60K eg02_BigJets (solo fz) Altre produzioni fatte in casa: CPU: 38 GHz - 8 PIV Xeon da 2.4 GHz Dual Proc Disco: 0.2 TB Partecipazione produzione ufficiale CPU: 3.5 GHz - 2 PIII da 866MHz Dual Proc (RedHat 6.1.1) Disco: 1.3 TB (DiskServer RedHat 7.2) Persona di contatto e risorse umane: Alessia Tricomi TISB - Firenze 16/01/03 Sezione di Firenze Risorse HW: Stato attuale: CPU: 82.8 GHz - CMS: 6 PIV 2.4 GHz Dual Proc + Sezione: 15 PIII 1 GHz e 5 PIV 2.4 GHz Dual Proc – su tutti i nodi e’ installata la RH 7.3 CERN – nel 2002 solo 30GHz di Sezione Disco: 1.6 TB A breve: nessun finanziamento per il 2003, ma abbiamo ancora un fondo di 10000 Euro per eventuali “emergenze” Partecipazione produzione ufficiale 11.5k eventi Bs J/f, 44k eg02_BigJets (solo fz) 10k Bpp, 1.6k WH mnbb (full chain) Licenza Objectivity per RH7 Potenza rete elettrica insufficiente V. Ciulli, N. Magini, C. Marchettini + (a breve) art. 15 Altre produzioni fatte in casa: Problemi HW e SW: Persona di contatto e risorse umane: Alessia Tricomi TISB - Firenze 16/01/03 Sezione di Perugia Risorse HW: Stato attuale (finanziamenti CMS + altri fondi 2002) CPU: 35.2 GHz - 16 PIII da 1GHz + 8 PVI da 2.4 GHz Disco: 2.4 Tb - 1.0 Tb + 1.4 Tb A breve (finanziamenti 2003): nulla Partecipazione produzione ufficiale Altre produzioni fatte in casa (tutte senza pile-up): 70k eventi t->3 m e t-> m g; 15k eventi Higgs con vari stati finali; 1k eventi gb -> Hb (full chain) 10k eventi gb ->Hb; 40k eventi ttH; 138k eventi fondo risonante (ttZ, ttbb, tt jet jet); 2.400k eventi di fondo non risonante QCD (fino a CMSJET) Eventuali problemi HW o SW riscontrati e commenti: 177.5k eventi eg02_BigJets (solo fz) Difficoltà iniziali nel setup della farm per il sistema operativo RH 6.1 poco compatibile con il nuovo hardware. Lo script autoinstallante CASPUR metteva il Perl in una posizione non corretta (risolto da L.Fano’ e T. Wildisch). Persone di contatto: L. Servoli, L. Fanò TISB - Firenze 16/01/03 Alessia Tricomi Sezione di Pisa Risorse HW: Stato attuale CPU: 24 GHz - 12 PIII da 1 GHz Dual Proc (4 “in manutenzione”) Disco: 1.2 TB Disco: 12K€ per compare 1 TB di disco ma sembrano scompars Partecipazione produzione ufficiale 90K eventi eg02_BigJets (solo Fz) 16K WH-> muoni e bb e 5k WH-> elettroni e tau tau (full chain a bassa luminosità) Circa 40K di eventi con muoni per Torino (solo Fz) Eventuali problemi HW o SW riscontrati e commenti A breve (finanziamenti 2003) Si rompevano i dischi (IBM) quasi ogni giorno e siamo stati impossibilitat a lavorare per diverse settimane, fino alla sostituzione con dei maxtor. Dopo il trasferimento del centro di calcolo la farm è parzialmente funzionante e non e’ chiaro quando potrà tornare su al 100% Persona di contatto e risorse umane: Simone Gennai (attualmente al 30%, prima al 50%) Alessia Tricomi TISB - Firenze 16/01/03 TIER 1 Risorse HW: Stato attuale CPU: – CMS “standard”: 16 GHz - 8 PIII da 1GHz Dual Proc – Stress test: 80 GHz – DATATAG: 10 GHz – 5 PIII da 1 GHz Dual Proc DISCO: – CMS “standard”: 2 Tb – estensibili a 5 su richiesta – Stress test: 2Tb Nastro: sono disponibili circa 18 Tb su nastro da dividere tra i vari esperimenti, ma al momento non abbiamo fatto richieste A breve A metà febbraio riunione dei Comitati tecnico e di gestione per stabilire l’allocazione delle risorse per almeno la prima parte del 2003 Partecipazione al pre-challenge del DC04 Alessia Tricomi TISB - Firenze 16/01/03 TIER 1 Attività Partecipazione produzione ufficiale: Stress test: dal 29 Novembre al 20 Dicembre: 130k (+50k non utilizzabili) eventi eg02_BigJets full chain con mc_runjob 268.5k eventi eg02_BigJets solo fz Analisi: Test beam: disponibili tutti i dati dei test beam al PSI e a X5 Sistema di monitoring delle risorse accessibile via web https://tier1.cnaf.infn.it/monitor/ solo con certificato INFN-CA Problemi HW e SW e commenti: Nessun particolare problema HW eccetto che al momento il numero di processori assegnatoci è stato limitato a quelli più vecchi per via della necessità di utilizzare la RH 6.1 Alessia Tricomi TISB - Firenze 16/01/03 TIER1: monitoring CPU status – CMS cluster PBS Server – CMS cluster Job sottomessi Job running Alessia Tricomi TISB - Firenze 16/01/03 TIER1: monitoring % User %Free %Syst % Nice Alessia Tricomi TISB - Firenze 16/01/03 TIER 1 Problemi HW e SW e commenti: Produzione ufficiale: oltre 50k eventi da buttare a causa di una errata assegnazione dei run numbers e successivamente di un baco in uno degli script di python Stress test: upgrade della versione del software di datagrid (da EDG1.3 a EDG1.4), e una serie di altri problemi che hanno rallentato, reso difficile la sottomissione di jobs. Analisi: problema con il riempimento della /home che ha bloccato anche la produzione ufficiale – Tutti coloro che hanno account e vogliono utilizzare il Tier1 per l’analisi NON devono scrivere ntuple sulla /home ma sul disk-server /CMS1/testbeam e preventivamente, prima di iniziare l’analisi, è opportuno contattarmi per concordare l’utilizzo almeno fino a quando saremo in produzione ufficiale – Ho richiesto comunque che venga messa una quota sulle home directories e appena possibile una macchina che possa servire da gw per l’analisi Lentezza del trasferimento CERN-CNAF TISB - Firenze 16/01/03 Alessia Tricomi Riassumendo … Tutte le farm (a parte al momento Pisa a causa del trasferimento) sono operative al 100% Installazione farm da scratch: Tutte le farm hanno avuto difficoltà nella fase di installazione a causa dell’incompatibilità tra nuovo HW e la RH 6.1 I tempi di installazione a seconda dei casi sono stati dell’ordine di alcuni giorni fino a settimane L’installazione al CNAF tramite LFCG e gli RPM preparati da Andrea, una volta messo a punto il sistema, è stata molto rapida (in mezza giornata tre macchine sono state completamente installate da scratch), tuttavia l’utilizzo di processori più nuovi è stato scartato sempre per evitare problemi con la RH 6 E’ prevedibile che, per il nuovo HW, con la RH 7.3 tutto dovrebbe essere molto più rapido Sarebbe auspicabile avere una lista di HW supportato con facilità di riferimento per tutte le sezioni Alessia Tricomi TISB - Firenze 16/01/03 Riassumendo … Partecipazione produzione: Tutte le farm “Tracker” hanno partecipato alla produzione ufficiale almeno fino alla fase fz Quasi tutte le farm e il TIER1 sono al momento coinvolte nella produzione eg02_BigJets Un risultato interessante per il TIER1 è la partecipazione alla produzione ufficiale con la full chain tramite mc_runjob Partecipazione DC04 Da discutere… FARM* TIER1 CPU 1 GHz CPU > 1GHz DISCO 52 16 69 ? 9.7 2+3+? * Per Firenze sono state sommate solo le CPU effettivamente in possesso di CMS (è ragionevole considerare la possibilità di utilizzo di circa il 30% della farm di sezione) Alessia Tricomi TISB - Firenze 16/01/03 DC04: due fasi P. Capiluppi Gr1 Perugia Pre-Challenge (2003) (Must be successful) Introduce GRID tools Large scale simulation and digitization As available and tested Will prepare the samples for the challenge Will prepare the samples for the Physics TDR work to get fully underway Progressive shakedown of tools and centers All centers taking part in challenge should participate to pre-challenge The Physics TDR and the Challenge depend on successful completion Ensure a solid baseline is available, worry less about being on the cutting edge Challenge (2004) (Must be able to fail) Reconstruction at “T0”(CERN) Distribution to “T1s” Make full use of LCG-1 GRID. Test the functionality they deliver Subsequent distribution to “T2s” Assign “streams” and “pre-configured analyses” to people at T1s and T2s Some will be able to work entirely within one center Others will require analysis of data at multiple-centers GRID tools tested for data movement and job migration Alessia Tricomi TISB - Firenze 16/01/03 DC04: setting the scale P. Capiluppi Gr1 Perugia Pre-Challenge Aim is 1 month of “running” at 25 Hz, 20 hours per day 50 Million reconstructed events (passing L1 Trigger and mostly passing HLT, but some background samples also required) Simulation (GEANT4!) –Six months running for 1000 CPUS (Worldwide) –(Actually aim for more CPU’s to get production time down) 75TB 15 kSI95.Months 175MB/s Pileup bandwidth (if allow two months for digitization) Reconstruction at T0-CERN 1GHz P3 is 50 SI95 Working assumption that most farms will be at 50SI95/CPU in late 2003 Digitization Challenge 100TB 300 kSI95.Months 25TB 23 kSI95 for 1 month (460 CPU @ 50SI95/CPU) Analysis at T1-T2s Design a set of tasks such that offsite requirement during challenge is about twice that of the “T0” Alessia Tricomi TISB - Firenze 16/01/03 CMS Italia e il DC04 Partecipare al Challenge : contribuire per ~ 20% Possibilmente tutte le risorse parteciperanno al pre-challenge Coordinare la partecipazione attraverso LCG Il Tier1/INFN deve essere “fully functional” Le P. Capiluppi Gr1 Perugia ~70 CPU boxes e ~20 TB risorse conferite in LCG cresceranno in funzione del successo Inizialmente Legnaro (gia’ “dinamico”) e il Tier1 gia’ “committed” A seguire le altre risorse Definire i commitment delle Sedi Italiane Ruoli in funzione delle competenze del personale Definire la meteodologia Definire il “data flow” E le “analisi pre-confezionate” Aumento delle risorse di un fattore 3 per il DC05 (2004-05) Conclusioni di Paolo: commitment per partecipare al DC04 Ufficialmente oggi in LCG-1 per CMS: Tier1 e Legnaro Partecipazione al pre-DC04 di tutti i Tier2/3 Partecipazione al DC04 di Tier selezionati (interesse) Alessia Tricomi TISB - Firenze 16/01/03 Conclusioni Tutte le farm hanno mostrato di essere operative Ci sono alcune macchine obsolete, ma un po’ tutte le farm si stanno attrezzando con nuovi PVI Dovremmo capire quale può essere il nostro ruolo nel DC04 Alessia Tricomi TISB - Firenze 16/01/03