Uso di griglie computazionali
per il calcolo degli
esperimenti LHC
Claudio Grandi
INFN - Bologna
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
Outline
• Le problematiche del calcolo ad LHC
• Griglie Computazionali (GRID)
• I progetti GLOBUS e Condor
• I progetti di sviluppo del middleware per HENP
• LHC Computing Grid (LCG)
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
2
Le problematiche del
calcolo ad LHC
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
Calcolo per gli esperimenti LHC
Gli esperimenti LHC sono “grandi”, con partecipanti
distribuiti sull’intero globo.
Anche la mole dei dati è “grande”: non possono essere
replicati tutti in tutti i siti.
L’accesso ai dati deve essere garantito ad ognuno,
indipendentemente dalla sua locazione e dalla sua
preparazione informatica (l’utente non è in generale
un esperto di software).
La produzione di dati simulati (oggi) ma soprattutto
l’analisi (sempre) non sono concentrate in un unico
sito ma distribuite su molti (se non tutti) i siti.
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
4
Accesso ai dati distribuiti
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
5
Modello di calcolo a-la Monarc
~PByte/sec
~100-1500
MBytes/sec
Online System
Experiment
Tier 0 +1
Tier 1
~2.5-10 Gbps
IN2P3 Center
FNAL Center
RAL Center
CERN Center
PBs of Disk;
Tape Robot
CNAF Center
2.5-10 Gbps
~2.5-10 Gbps
Tier 3
Tier 2
Institute Institute
Institute
Tier2 Center
Tier2 Center
Tier2 Center
Tier2 Center
Tier2 Center
Institute
Physics data cache
0.1 to 10 Gbps
Workstations
Claudio Grandi INFN Bologna
Tier 4
IFAE 2004 - Torino
15 Aprile 2004
6
Il problema…
È necessario “nascondere” all’utente la complessità
del sistema sottostante
L’utente deve lavorare come se:
avesse di fronte un unico cluster di macchine
i dati fossero su un unico pool di dischi accessibile da ogni
macchina del cluster e da ogni utente
tutti i dati fossero sul pool di dischi
lo spazio disco accessibile in scrittura dall’utente fosse sul pool
di dischi e “virtualmente” infinito
È impossibile?!?
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
7
Griglie computazionali:
GRID
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
Da dove nasce la Grid?
Il concetto è introdotto da Ian
Foster e Carl Kesselman
È un “paradigma” di utilizzo
delle risorse distribuite
Si materializza negli anni ’90 in
Globus, nato per interconnettere
alcuni centri di calcolo USA
Evoluzione: utilizzo dei Web Services (WSDL)
– Open Grid Service Infrastructure (OGSI): introdotto nel 2001
– WS Resource Framework (WSRF): introdotto il 20/1/2004 (!)
rimpiazza OGSI ma non c’ è ancora nulla…
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
9
Una definizione di Grid
Grid è l'insieme delle tecnologie software che
consentono la condivisione di risorse e la risoluzione
coordinata di problemi nell'ambito di organizzazioni
virtuali multi istituzionali, dinamiche e scalabili
[ I.Foster]
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
10
Organizzazioni Virtuali
I partecipanti: insieme dinamico di individui e istituzioni
Le risorse: computers, software, dati, strumenti
Grid fornisce la capacità di negoziare la condivisione
delle risorse fra le diverse parti in causa (fornitori e
clienti) e quindi uso dell’insieme delle risorse risultanti
per perseguire uno scopo
[I.Foster]
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
11
Un parallelo: la rete elettrica
La Grid Computazionale
La rete elettrica
Richiesta di risorse (potenza:
KWatt installati)
Richiesta di risorse (CPU,
disco, ecc…)
Si inserisce la spina di un
apparecchio elettrico
Si collega alla rete un
computer
Si usa l’apparecchio: non è
necessario sapere da dove
arriva l’energia elettrica!!!
Si usa il computer: non è
necessario sapere da dove
arrivano le risorse!!!
La manutenzione è a carico
del fornitore
La manutenzione e’ a carico
del fornitore
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
12
Grid
Accesso alle risorse con Grid
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
13
I progetti GLOBUS e Condor
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
L’iniziativa Globus
Nasce agli Argonne National Laboratories (ANL)
E’ un toolkit e un insieme di servizi che indirizzano
problemi tecnici chiave:
modello “bag of services” modulare
non è una soluzione “verticalmente integrata”
strumenti di infrastruttura generale (middleware) che possono
essere applicati a molti domini applicativi
Utilizza standard e implementazioni “open source”
ovunque possibile
http://www.globus.org/
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
15
Globus: architettura a layers
Application
Coordinamento e condivisione
di gruppi di risorse
Controllo dell’uso condiviso
delle singole risorse
Applications
Collective
Resource
Comunicazione tra le risorse
e sicurezza delle transazioni
Connectivity
Controllo locale ed accesso
alle risorse
Fabric
Diverse global
services
Core
services
Local OS
Supporto per una varietà di ambienti locali (OS, etc…)
Supporto per una varietà di utenti finali
Il toolkit implementa i Core services che devono
essere semplici e generali
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
16
Globus: componenti base
Fabric Layer:
– meccanismi di base:
• start di programmi
• accesso ai files
• …
Connectivity Layer:
– comunicazione via IP
– sicurezza tramite Grid Security Infrastructure (GSI)
• basata su meccanismi a chiave pubblica (TSL/SSL, certificati X.509
& Certification Authorities, ecc…).
• meccanismo uniforme per la autenticazione e autorizzazione degli
utenti
Autenticazione: verifica dell’identità di un utente (o una risorsa)
Autorizzazione: accesso alle risorse ad uno specifico utente
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
17
Globus: componenti base
Resource Layer:
– Usa GSI per la sicurezza
– Grid Resource Allocation Management (GRAM) gira su ogni
risorsa; garantisce il controllo remoto delle risorse
– GridFTP (FTP modificato) per il trasferimento files
– Grid Resource Information Server (GRIS) raccoglie e
pubblica dinamicamente le informazioni sulla risorsa (ad es.
memoria installata, code dponibili, ecc…)
Collective Layer: esempi:
– Metacomputing Directory Service (MDS): GRIS e GIIS
– Grid Index Info Server (GIIS) raccoglie, e pubblica
informazioni selezionate da diversi GRIS
– Resource Broker seleziona risorse adatte per un job
– Replica Catalog e Replica Services gestiscono l’accesso e
la copia dei dati distribuiti
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
18
Accesso ad una risorsa
MDS client API calls
to locate resources
Client
MDS: Grid Index Info Server
Site boundary
MDS client API calls
to get resource info
GRAM client API calls to
MDS:
request resource allocation
and process creation.
GRAM client API state
change callbacks
Grid Security
Grid Resource Info Server
Query current status
of resource
Local Resource Manager
Infrastructure
Allocate &
create processes
Request
Create
Gatekeeper
Job Manager
Parse
RSL Library
Monitor &
control
Process
Process
Process
Da: “Introduction to Grid Computing and the Globus Toolkit™”
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
19
Condor
Sviluppato alla University of Wisconsin negli anni ’80
Punta a fornire “cicli di CPU” altrimenti non utilizzati
Gestiti insiemi (pool) di calcolatori eterogenei
L’INFN lo utilizza dal 1997 su scala geografica
Robusto, ma ha alcune limitazioni per HEP:
–
–
–
–
sistema monolitico (e non totalmente open source)
inefficiente nell’accesso a grandi moli di dati distribuiti
usa canali di rete non sicuri per la comunicazione
alcune componenti di Condor usate dai progetti grid
http://www.cs.wisc.edu/condor
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
20
I progetti di sviluppo del
middleware per HEP
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
Principali progetti Grid per HENP
PPDG
– Produce il Virtual Data Toolkit (include Globus, Condor, …)
– Stretta collaborazione con ciascuno degli esperimenti
European DataGrid
– Servizi di alto livello basati su Globus e Condor-G
– Supporto per diverse scienze
GriPhyN
– Partner di PPDG per VDT. Introduce i Virtual Data
European DataTAG
– Europeo, dedicato all’interoperabilità con gli USA
iVDGL
– Americano, dedicato all’interoperabilità con l’Europa
Progetti in fase di start-up: EGEE (UE), Grid3 (USA)
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
22
Architettura di DataGrid
Local Computing
Grid
Local Application
Local Database
Grid Application Layer
Data
Management
Job
Management
Metadata
Management
Object to File
Mapping
Collective Services
Information
&
Monitoring
Replica
Manager
Grid
Scheduler
Underlying Grid Services
SQL
Database
Services
Computing
Element
Services
Storage
Element
Services
Replica
Catalog
Authorization
Authentication
and Accounting
Service
Index
Grid
Fabric
Fabric services
Resource
Management
Configuration
Management
Claudio Grandi INFN Bologna
Monitoring
and
Fault Tolerance
IFAE 2004 - Torino
Node
Installation &
Management
15 Aprile 2004
Fabric Storage
Management
Da: B.Jones 23
Esempio di Job Submission
UI
JDL
Replica
Catalogue
Input “sandbox”
DataSets info
Information
Service
Output “sandbox”
Storage
Element
Globus RSL
Job Status
Logging &
Book-keeping
Publish
Job Query
Job Submit Event
Author.
&Authen.
Expanded JDL
Resource
Broker
Job Submission
Service
Compute
Element
Job Status
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
Da: B.Jones 24
LHC Computing Grid
LCG
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
Ruolo di LCG
LCG è il progetto CERN nato nel 2002 che supporta
tutte le esigenze di calcolo di LHC
– infrastruttura hardware, librerie numeriche, eventgenerators, persistenza dei dati, grid, ecc…
Due releases di sistemi grid: LCG-1 e LCG-2
– Basate su middleware di VDT, DataGrid e DataTAG
E’ in fase iniziale il progetto ARDA (assieme ad EGEE)
– Middleware e strumenti software comuni agli esperimenti per
il supporto all’analisi dei dati
– Userà anche software dagli esperimenti, in particolare Alien:
sistema grid per il supporto all’analisi dati distribuita di ALICE, che
usa direttamente middleware di basso livello (non dai “grid projects”)
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
26
Decomposizione funzionale di Alien
External User ID
Internal User ID
VO Unix ID
VO
Batch queue
Node
Job Catalog
UI
CE
File Catalog
Wrapper
Program
Job
Optimizer
SE
Data Placement
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
Root
Posix
15 Aprile 2004
27
Utilizzo di LCG in CMS
Dataset
RefDB
CE
RLS
CMS software
User Interface
McRunjob
+ ImpalaLite
CMSProd
SE
metadata
JDL
WN
Grid (LCG)
Scheduler
CE
SE
CMS software
Grid Information
System (bdII)
CE
BOSS DB
Push data or info
SE
Job
CE
metadata
CMS software
SE
Pull info
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
28
Data challenges su grid
Produzione dati simulati su
Grid3 negli USA per il Data
Challenge 2004 di CMS
Number of simulated events
Jobs nel sistema AliEn di Alice
durante il Data Challenge 2004
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
29
I servizi di ARDA
1:
Job
Provenance
Information
Service
Auditing
2:
Authentication
API
3:
User
Interface
6:
Authorisation
4:
Metadata
Catalogue
DB Proxy
14:
Grid
Monitoring
5:
13:
File
Catalogue
7:
10:
Workload
Management
9:
Package
Manager
Data
Management
11:
15:
Storage
Element
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
12:
8:
Computing
Element
Job
Monitor
15 Aprile 2004
30
Conclusioni
Gli strumenti grid forniscono una grande opportunità
per gestire l’accesso a dati e risorse distribuiti
– In modo sicuro e con la corretta gestione dei privilegi
– In modo trasparente per l’utente
Tre anni di (faticosa) esperienza con i progetti grid
hanno permesso di identificare le componenti base
– Gli esperimenti hanno costruito prototipi per i loro sistemi di
calcolo anche se a volte privilegiando aspetti diversi
sia in termini di funzionalità che di affidabilità
– Alcuni strumenti sono già “in produzione”
Il prossimo passo è quello di consolidare gli strimenti
per reggere all’impatto dell’analisi dati di LHC
– LCG al CERN, assieme ai progetti grid EGEE e Grid3, ci
deve fornire il sistema in tempo per l’inizio della presa dati
Non ci sono vere alternative a grid per gestire i dati di LHC!!!
Claudio Grandi INFN Bologna
IFAE 2004 - Torino
15 Aprile 2004
31
Scarica

transparencies - Indico