Risultati test su GRID-IT
G. Donvito (BARI)
Outline:
• Report produzione di CMS su LCG1
• Modalità di produzione su Grid
• Proposte di modalità di analisi su Grid (LCG2 e
DC04)
• Interfaccia per McRunjob per la sottomissione dei
job
23/01/04
Giacinto Donvito
1
Report sulla produzione CMS su
LCG1
Esperienza sul testbed CMS/LCG0:
(da luglio a ottobre 2003)
• Risultati ottenuti nella produzione con CMKIN e CMSIM sul
testbed CMS/LCG0:
• 500 k eventi con CMKIN (~ 20 GB)
• 1.5 M eventi con CMSIM (~ 1.5 TB)
• Fondamentale collaborazione fra personale “Grid” e CMS
Percentuale di successo dei job ~ 77%
23/01/04
Giacinto Donvito
2
Report sulla produzione CMS su
LCG1
Dettagli produzione con OSCAR:
• Si è conclusa una produzione ufficiale di 600k eventi (300K
Bari + 300k Padova) con jobs da 250 eventi ciascuno.
• Il testbed usato era composto da siti coinvolti sia nel
progetto Grid-it sia in LCG1 ufficiale:
•Bari ha usato: BARI, CATANIA, FERRARA, INGVBOLOGNA, LECCE, MILANO, NAPOLI, PADOVA, PISA.
(~240 CPU)
• Pisa tutti i precedenti più i siti di LCG1: CNAF, Legnaro,
Torino. (~420 CPU)
23/01/04
Giacinto Donvito
3
Report sulla produzione CMS su
LCG1
Dettagli produzione con OSCAR (2):
• Servizi usati:
• Resource Broker (1 al CNAF, 1 a Catania, 1 a Padova)
• RLS installato al CERN
• 1 MDS installato al CNAF
Nome del
Dataset
AssID
4267
4268
4269
mu03_tt2mu
mu03_tt2mu
mu03_tt2mu
Tempo
Stimato per
evento
Tempi di
esecuzione
misurati
Job
sottomessi
Exit_status0
(BOSS)
RefDB
Efficienza
%
12 sec/ev
35974168198 sec
1253
453
400
32
12 sec/ev
34095-99889
sec
1157
418
400
35
12 sec/ev
37895169579 sec
880
435
398 *
45
* Due jobs hanno un problema nell'aggiornamento del catalogo di POOL (under investigation)
23/01/04
Giacinto Donvito
4
Report sulla produzione CMS su
LCG1
Schema dell’interazione fra i tool di CMS e i servizi di
Grid:
Immagine presa da una bozza di CMS-Note su LCG0-LCG1
23/01/04
Giacinto Donvito
5
Report sulla produzione CMS su
LCG1
Workflow di un job di produzione su Grid:
RefDB
RLS
WN
CE
UI
SE
RB
WN
CE
Utente
SE
23/01/04
Giacinto Donvito
6
Report sulla produzione CMS su
LCG1
Risultati della sottomissione:
Siti
Ass
4267
total
Ass 4267
exit_status0
Ass
4267
%
Ass
4268
total
Ass 4268
exit_status0
Ass
4268
%
Ass
4269
total
Ass 4269
exit_status0
Ass
4269
%
Bari ~16CPU(HT on)
106
43
41
148
54
36
76
57
75
Bologna (INGV)
28CPU
99
29
29
126
37
29
6
3
50
Catania
174
76
44
66
9
14
47
23
49
Ferrara 16CPU
35
11
31
9
3
33
8
8
100
Milano
~40CPU
165
46
28
153
31
20
64
19
30
Napoli
26CPU
99
64
65
68
52
76
160
105
66
Padova
66CPU
185
167
90
223
205
92
214
192
90
33
9
27
88
21
24
34
25
74
Pisa
~20CPU
28CPU
I primi due assignment sono stati girati nel periodo delle vacanze natalizie, il terzo
invece ha beneficiato di un maggiore supporto da parte dei amministratori dei vari
siti.
23/01/04
Giacinto Donvito
7
Report sulla produzione CMS su
LCG1
Risultati della sottomissione (2):
Cause di failure più frequenti:
• Failure dei servizi centrali:
• Irraggiungibilità dei siti
• Crash hardware
• Problemi logistici (Disco pieno)
• Crash di daemon (network server)
•Failure dei siti:
• Irraggiungibilità dei siti
• Crash di daemon (PBS_SCHED)
• errori di configurazione (problemi nel registrare l'output
sullo SE)
• Problemi di deamon di Grid
23/01/04
Giacinto Donvito
8
Report sulla produzione CMS su
LCG1
Risultati della sottomissione (3):
Cause di failure più frequenti (2):
• Failure dovute a errori umani:
• errori nella registrazione dei files di input
• problemi nella gestione della replica del file di input
(Dovuta ai diversi MDS usati per Grid-it e LCG1) e di output
(non si usava un SE di "backup")
• errori nella configurazione delle code e scelta dei
requirements
23/01/04
Giacinto Donvito
9
Report sulla produzione CMS su
LCG1
Risultati della sottomissione (4):
23/01/04
Giacinto Donvito
10
Report sulla produzione CMS su
LCG1
Risultati della sottomissione (5):
23/01/04
Giacinto Donvito
11
Analisi su Grid
Schema dell'analisi su Grid per il DC04
Requisiti software per il DC04:
• I Tier 1 e Tier 2 selezionati installano:
• LCG2.
• Una versione predefinita del software di CMS per l'analisi:
• Sulla UI: BOSS, ORCA, RGMA.
• Sui WN: ORCA.
L'installazione del middleware di LCG e del software di
CMS dovrebbe avvenire con LCFGng.
23/01/04
Giacinto Donvito
12
Analisi su Grid
Schema dell'analisi su Grid per il DC04 (2)
Organizzazione dell’analisi:
• I dati prodotti al Tier 0 verranno pubblicati su Grid (usando il
catalogo di POOL) e storati su un SE:
• I dati verranno replicati sui Tier 1 selezionati:
• Questa fase richiede la compatibilità dei comandi di POOL con i
tool di replica management di LCG2.
• Verranno sottomessi dei job di analisi preconfigurate.
• Le informazioni sulla localizzazione dei dati sulla Grid verranno
ricavate usando i comandi del catalogo di POOL
• Verranno creati dei job tramite un tool per analizzare i files in
ambiente Grid (Verranno creati anche i JDL necessari)
23/01/04
Giacinto Donvito
13
Analisi su Grid
Schema dell'analisi su Grid per il DC04 (3)
Organizzazione dell’analisi (2):
• I jobs creati verranno sottomessi all’RB che sceglierà la
risorsa migliore in base ai Requirements e/o in base alla
localizzazione dei dati.
• I jobs sottomessi dovranno essere monitorati con BOSS o con
R-GMA. (Boss potrebbe avere problemi nei siti dove non è
consentita “outbound connectivity” per i WN).
23/01/04
Giacinto Donvito
14
Analisi su Grid
Schema dell'analisi su Grid per il DC04 (4)
Preparazione dei jobs su LCG2:
• Per la creazione dei jobs bisogna considerare il tipo di accesso ai files
che si potrà usare:
• I jobs useranno un file XML locale e alla fine viene fatto l’upload del
file, aggiornato l’RLS e il catalogo di POOL.
• In caso di failure nell’aggiornamento del catalogo lo si potrà fare
a mano (Il frammento XML sarà contenuto nel OutputSandbox)
• I jobs effettueranno il download di tutti i files di input di cui hanno
bisogno all’inizio del run.
• L’accesso ai files da parte di COBRA dovrà essere modificato
tenendo conto che i file non sono disponibili in locale
• Lo script deve ricreare l’ambiente necessario per il run del job.
23/01/04
Giacinto Donvito
15
Analisi su Grid
Schema dell'analisi su Grid per il DC04 (4)
Preparazione dei JDL:
• Il file JDL deve contenere i files dell’InputSandbox e
dell’OuputSandbox.
• I requirements che l’utente desidera (Tipo di CPU, Ram, CPU libere
ecc.)
• Il Rank con cui saranno scelte le risorse.
• La possibilità di selezionare i siti in cui sono presenti i dati di input,
oppure i siti collegati ad un determinato RC.
• Potrebbe essere disponibile la capacità di ottimizzazione delle
repliche prima della sottomissione del job.
23/01/04
Giacinto Donvito
16
Analisi su Grid
Schema dell'analisi su Grid per il DC04 (4)
Lavoro da fare:
• Tool per il trasferimento files in ambiente Grid
• Tool per il management dei siti e del software
• Tool per il discovery dei dati in input ai job (con i comandi di POOL)
• Tool per la creazione dei job e dei jdl (dipenderà strettamente dal
sistema di accesso ai dati che userà COBRA)
• Tool per la sottomissione dei jobs e il monitoring.
23/01/04
Giacinto Donvito
17
Graphic User Interface for McRunjob
Objectives:
● Make a user-friendly Graphic tool for creation and
submission of jobs for a complete chain of
MCProduction with McRunjob
● Easy way to write configuration files of
McRunjob
● Interaction with McRunjob Command Line
● Make easier the submission and retrieve of jobs
in a grid environment
23/01/04
Giacinto Donvito
18
GUI for McRunjob
Characteristics:
●
Language used: C++ with Qt libraries
●
Requirement: Qt version 3.x (www.trolltech.org)
●
Works on:
●
Local CMS farm:
●
Grid Environment: User Interface
Can use Boss DB to take trace of the jobs (On Grid
and on Local Farm) or a file
●
23/01/04
Giacinto Donvito
19
GUI for McRunjob
Characteristics(2):
● Class based GUI: modularity and expandibility
● Very easy to install (With the use of qmake utility)
● Few hardware resource needed (< 5 Mb of Ram)
Already tested on testbed CMS/LCG0, on LCG1
and on Bari Farm
23/01/04
Giacinto Donvito
20
GUI for McRunjob
Features…
Write all configuration
files...
...creation of jobs...
...submission to local
farm...
...submission to grid...
...retrieve jobs output and
status.
23/01/04
Giacinto Donvito
21
GUI for McRunjob
To Do:
• The possibility to save and load all the parameters of the GUI
from a file.
• Porting on LCG2
• Implement the configuration needed from the other steps of
Production/Analysis (when the become availables)
• Massive test all the stuff...
• Feedback from users
• Go on with the development in a deep interaction with Greg and
Praveen
• Implement the use of CMSprod.
23/01/04
Giacinto Donvito
22
Scarica

PPT - Cern