LNF Farm E. V. 9/8/2006 Hardware CE, LCFG, HLR, 3 WN: DL 360 1U; SE: DL 380 2U 5 WN: BL 25 P In totale 25 jobs general purpuse (coda Atlas) + una coda riservata a test (ops) DL 360 1U, DL 380 2U : HP Proliant DL 360 1U Dual Pentium Xeon a 2.8 GHz (512KB cache) bus 400MHz, 1 GB RAM 400MHz, U160WideSCSI integrata e controller RAID 0/1, 1 o 2 dischi da 18 GB 15K rpm, Doppia scheda LAN 10/100/1000 (protocollo PXE) BL 25 P: 6 HP Server Blade BL25P - dual Core - doppia CPU AMD Opteron TM280 2.4GHz/1MB cache, 4GB RAM, Controller Ultra320 scsi 6I raid, HD73GB 10Krpm 5 TB +1,4 TB di spazio disco - Dischi SCSI ~ 2TB raw, - Storage Tek Flexline FC/SATA da 400 GB: ~ 6.5 TB raw Sistema Operativo: Scientific Linux CERN 3.0.6 SW di grid: gLite 3.0.0 Macchine atlaslcfg atlasce atlasse atlashlr atlascn001 atlascn002 atlascn003 atlascn004 atlascn005 atlascn006 atlascn007 atlascn008 atlascn009 Grid LCFG (install. conf. autom.) CE (Computing Element) SE (Storage Element) server HLR (Accounting) WN (Worker Node) WN WN WN WN WN DB Server? WN WN ATTIVITA’ GRID VO supportate: ATLAS, DTEAM, OPS, INFNGRID http://www3.egee.cesga.es/gridsite/accounting/CESGA/tree_egee.p hp?ExecutingSite=INFN-FRASCATI Prossima partecipazione alla seconda parte dell’SC4 (eventuale partecipazione alla replica della prima parte dell’SC4: trasferimento di files dal CNAF, SI durante la II fase) Prossima partecipazione al tutorial di Milano sull’uso della Grid, la produzione di ATLAS e analisi distribuita Prossima partecipazione alla Atlas ProSys Possibile gestione della replica del database dei servizi VOMS del CNAF: dichiarata disponibilita’ da parte dei Laboratori (macchina atlascn007, nessun problema per lo spazio disco, per ora pochissimo, backup???). La stessa macchina potrebbe essere proposta come DB server per il database della calibrazione (attualmente su una macchina di test a Roma3) o sua replica. Definizioni ProdSys: The Production Systems' primary responsibility is the generation of Monte Carlo data on the 3 contributing grids LCG, NorduGrid and Grid3 LCFG is a system for automatically installing and managing the configuration of large numbers of Unix systems GANGA: a user-interface for Atlas and LHCb : http://www.gridpp.ac.uk/papers/ah03_133.pdf#search=%22atlas%20 ganga%22 Intoduction Job Priorities on LCG Datamanagement on LCG Introduction to GANGA (with practical exercise) AOD Jobs with GANGA (with practical exercise) Running ATLAS transformations with GANGA GANGA GUI ATTIVITA’ Locale Nello storage: file di simulazione, ricostruzione e Analisi di Silvia Ventura: AOD, ESD, ecc… Nella farm: jobs di Silvia di simulazione, ricostruzione e analisi, ci sono anche altri jobs da parte di utenti esterni se la coda e’ libera, in particolare dagli utenti che fino ad ora hanno gestito la produzione di Atlas (es. Silvia Resconi). Problemi incontrati Personale attuale M. L. F. supervisione M. W. 100% A. M. 60% E. V. 100% CALCOLO: C.S. 50% D.M. 50% Cosa deve fare un sito Il CNAF ha preparato una lista di attivita’ minime richieste ad un sito. Per ora stiamo svolgendo: Partecipazione SA1 Ph.Conf Compilazione Report settimanali Effettuare tutti gli upgrade Risposta ai Ticket in tempi ragionevoli Partecipazione seconda fase SC4 Per usare la grid: Richiedere un certificato: Iscriversi alla VO Atlas: Come si sottomette un job: Condizioni per far parte della grid di produzione fornire risorse di calcolo, storage (ed eventualmente servizi). La dimensione delle farm (minimo 10 CPU) e la quantita’ di storage saranno concordati con ciascun sitogarantire man power sufficiente per amministrare il sito: almeno 2 persone (per un totale minimo di 1 FTE) gestire efficacemente le risorse del sito: effettuare installazione del m/w, fare gli aggiornamenti, applicare patch, modificare configurazioni come richiesto dal CMT e nel tempo massimo stabilito per le varie operazioni prendere in carico e aggiornare i ticket relativi al sito in un tempo massimo di 24 ore (T2) o 48 ore (gli altri) dal lunedi’ al venerdi’ monitorare “ proattivamente” il sito, controllando periodicamente lo stato delle risorse e dei servizi (usando i tools esistenti: GridICE, Gstat, etc.) garantire continuita’ al supporto ed alla gestione del sito, anche durante i periodi di ferie (2 possibilita’ : turnazione locale o affido temporaneo della gestione del sito, e delle password di amministratore, al CMT) garantire la partecipazione dei site manager alle phone conference quindicinali ed alle riunioni SA1/grid di produzione e compilare i pre-report settimanali (entro il venerdi’ ) mantenere aggiornate le informazioni relative al sito nel GOC DB Supportare le vo di test e controllo (ops, dteam, infngrid) dandogli priorita' maggiori rispetto alle altre VO Eventuali inadempienze rilevate dal ROC verranno riportate alle phone conference bisettimanali di INFNGRID, quindi ai COLG e infine all'EB. DISCUSSIONE SUCCESSIVA Discussione sulla questione del supporto durante le ferie. PROPOSTA: chiusura delle code se non c’e’ supporto (ad esempio quando il sito chiude), ma la proposta e’ stata dichiarata inaccettabile per i siti con ruolo di Tier-2. Cmq ogni sito dovra’ firmare. Ipotesi: i laboratori non sono ancora stati dichiarati Tier-2, per ora lo possiamo sottoscrivere senza prendere impegni per i periodi di chiusura. Dell’SC4 se ne parlera’ la prossima volta (2 settimane)