LNF Farm
E. V. 9/8/2006
Hardware
CE, LCFG, HLR, 3 WN: DL 360 1U; SE: DL 380 2U
5 WN: BL 25 P
In totale 25 jobs general purpuse (coda Atlas) + una coda riservata a
test (ops)
DL 360 1U, DL 380 2U : HP Proliant DL 360 1U Dual Pentium Xeon a 2.8
GHz (512KB cache) bus 400MHz, 1 GB RAM 400MHz, U160WideSCSI
integrata e controller RAID 0/1, 1 o 2 dischi da 18 GB 15K rpm, Doppia
scheda LAN 10/100/1000 (protocollo PXE)
BL 25 P: 6 HP Server Blade BL25P - dual Core - doppia CPU AMD
Opteron TM280 2.4GHz/1MB cache, 4GB RAM, Controller Ultra320 scsi 6I
raid, HD73GB 10Krpm
5 TB +1,4 TB di spazio disco
- Dischi SCSI ~ 2TB raw,
- Storage Tek Flexline FC/SATA da 400 GB: ~ 6.5 TB raw
Sistema Operativo: Scientific Linux CERN 3.0.6
SW di grid: gLite 3.0.0
Macchine
atlaslcfg
atlasce
atlasse
atlashlr
atlascn001
atlascn002
atlascn003
atlascn004
atlascn005
atlascn006
atlascn007
atlascn008
atlascn009
Grid LCFG (install. conf. autom.)
CE (Computing Element)
SE (Storage Element)
server HLR (Accounting)
WN (Worker Node)
WN
WN
WN
WN
WN
DB Server?
WN
WN
ATTIVITA’ GRID
VO supportate: ATLAS, DTEAM, OPS, INFNGRID
http://www3.egee.cesga.es/gridsite/accounting/CESGA/tree_egee.p
hp?ExecutingSite=INFN-FRASCATI
Prossima partecipazione alla seconda parte dell’SC4 (eventuale
partecipazione alla replica della prima parte dell’SC4: trasferimento
di files dal CNAF, SI durante la II fase)
Prossima partecipazione al tutorial di Milano sull’uso della Grid, la
produzione di ATLAS e analisi distribuita
Prossima partecipazione alla Atlas ProSys
Possibile gestione della replica del database dei servizi VOMS del
CNAF: dichiarata disponibilita’ da parte dei Laboratori (macchina
atlascn007, nessun problema per lo spazio disco, per ora
pochissimo, backup???). La stessa macchina potrebbe essere
proposta come DB server per il database della calibrazione
(attualmente su una macchina di test a Roma3) o sua replica.
Definizioni
ProdSys: The Production Systems' primary responsibility is the
generation of Monte Carlo data on the 3 contributing grids LCG,
NorduGrid and Grid3
LCFG is a system for automatically installing and managing the
configuration of large numbers of Unix systems
GANGA: a user-interface for Atlas and LHCb :
http://www.gridpp.ac.uk/papers/ah03_133.pdf#search=%22atlas%20
ganga%22
Intoduction
Job Priorities on LCG
Datamanagement on LCG
Introduction to GANGA (with practical exercise)
AOD Jobs with GANGA (with practical exercise)
Running ATLAS transformations with GANGA
GANGA GUI
ATTIVITA’ Locale
Nello storage: file di simulazione, ricostruzione e
Analisi di Silvia Ventura: AOD, ESD, ecc…
Nella farm: jobs di Silvia di simulazione,
ricostruzione e analisi, ci sono anche altri jobs
da parte di utenti esterni se la coda e’ libera, in
particolare dagli utenti che fino ad ora hanno
gestito la produzione di Atlas (es. Silvia
Resconi).
Problemi incontrati
Personale attuale
M. L. F. supervisione
M. W. 100%
A. M. 60%
E. V. 100%
CALCOLO:
C.S. 50%
D.M. 50%
Cosa deve fare un sito
Il CNAF ha preparato una lista di attivita’
minime richieste ad un sito. Per ora stiamo
svolgendo:
Partecipazione SA1 Ph.Conf
Compilazione Report settimanali
Effettuare tutti gli upgrade
Risposta ai Ticket in tempi ragionevoli
Partecipazione seconda fase SC4
Per usare la grid:
Richiedere un certificato:
Iscriversi alla VO Atlas:
Come si sottomette un job:
Condizioni per far parte della grid di
produzione
fornire risorse di calcolo, storage (ed eventualmente servizi). La
dimensione delle farm (minimo 10 CPU) e la quantita’ di storage
saranno concordati con ciascun sitogarantire man power sufficiente
per amministrare il sito: almeno 2 persone (per un totale minimo di 1
FTE)
gestire efficacemente le risorse del sito: effettuare installazione del
m/w, fare gli aggiornamenti, applicare patch, modificare
configurazioni come richiesto dal CMT e nel tempo massimo
stabilito per le varie operazioni
prendere in carico e aggiornare i ticket relativi al sito in un tempo
massimo di 24 ore (T2) o 48 ore (gli altri) dal lunedi’ al venerdi’
monitorare “ proattivamente” il sito, controllando periodicamente lo stato
delle risorse e dei servizi (usando i tools esistenti: GridICE, Gstat, etc.)
garantire continuita’ al supporto ed alla gestione del sito, anche durante i
periodi di ferie (2 possibilita’ : turnazione locale o affido temporaneo della
gestione del sito, e delle password di amministratore, al CMT)
garantire la partecipazione dei site manager alle phone conference
quindicinali ed alle riunioni SA1/grid di produzione e compilare i pre-report
settimanali (entro il venerdi’ )
mantenere aggiornate le informazioni relative al sito nel GOC DB
Supportare le vo di test e controllo (ops, dteam, infngrid) dandogli priorita'
maggiori rispetto alle altre VO
Eventuali inadempienze rilevate dal ROC verranno riportate alle phone
conference bisettimanali di INFNGRID, quindi ai COLG e infine all'EB.
DISCUSSIONE SUCCESSIVA
Discussione sulla questione del supporto
durante le ferie. PROPOSTA: chiusura delle
code se non c’e’ supporto (ad esempio quando il
sito chiude), ma la proposta e’ stata dichiarata
inaccettabile per i siti con ruolo di Tier-2. Cmq
ogni sito dovra’ firmare. Ipotesi: i laboratori non
sono ancora stati dichiarati Tier-2, per ora lo
possiamo sottoscrivere senza prendere impegni
per i periodi di chiusura.
Dell’SC4 se ne parlera’ la prossima volta (2
settimane)