Uso di griglie computazionali per il calcolo degli esperimenti LHC Claudio Grandi INFN - Bologna Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 Outline • Le problematiche del calcolo ad LHC • Griglie Computazionali (GRID) • I progetti GLOBUS e Condor • I progetti di sviluppo del middleware per HENP • LHC Computing Grid (LCG) Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 2 Le problematiche del calcolo ad LHC Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 Calcolo per gli esperimenti LHC Gli esperimenti LHC sono “grandi”, con partecipanti distribuiti sull’intero globo. Anche la mole dei dati è “grande”: non possono essere replicati tutti in tutti i siti. L’accesso ai dati deve essere garantito ad ognuno, indipendentemente dalla sua locazione e dalla sua preparazione informatica (l’utente non è in generale un esperto di software). La produzione di dati simulati (oggi) ma soprattutto l’analisi (sempre) non sono concentrate in un unico sito ma distribuite su molti (se non tutti) i siti. Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 4 Accesso ai dati distribuiti Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 5 Modello di calcolo a-la Monarc ~PByte/sec ~100-1500 MBytes/sec Online System Experiment Tier 0 +1 Tier 1 ~2.5-10 Gbps IN2P3 Center FNAL Center RAL Center CERN Center PBs of Disk; Tape Robot CNAF Center 2.5-10 Gbps ~2.5-10 Gbps Tier 3 Tier 2 Institute Institute Institute Tier2 Center Tier2 Center Tier2 Center Tier2 Center Tier2 Center Institute Physics data cache 0.1 to 10 Gbps Workstations Claudio Grandi INFN Bologna Tier 4 IFAE 2004 - Torino 15 Aprile 2004 6 Il problema… È necessario “nascondere” all’utente la complessità del sistema sottostante L’utente deve lavorare come se: avesse di fronte un unico cluster di macchine i dati fossero su un unico pool di dischi accessibile da ogni macchina del cluster e da ogni utente tutti i dati fossero sul pool di dischi lo spazio disco accessibile in scrittura dall’utente fosse sul pool di dischi e “virtualmente” infinito È impossibile?!? Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 7 Griglie computazionali: GRID Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 Da dove nasce la Grid? Il concetto è introdotto da Ian Foster e Carl Kesselman È un “paradigma” di utilizzo delle risorse distribuite Si materializza negli anni ’90 in Globus, nato per interconnettere alcuni centri di calcolo USA Evoluzione: utilizzo dei Web Services (WSDL) – Open Grid Service Infrastructure (OGSI): introdotto nel 2001 – WS Resource Framework (WSRF): introdotto il 20/1/2004 (!) rimpiazza OGSI ma non c’ è ancora nulla… Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 9 Una definizione di Grid Grid è l'insieme delle tecnologie software che consentono la condivisione di risorse e la risoluzione coordinata di problemi nell'ambito di organizzazioni virtuali multi istituzionali, dinamiche e scalabili [ I.Foster] Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 10 Organizzazioni Virtuali I partecipanti: insieme dinamico di individui e istituzioni Le risorse: computers, software, dati, strumenti Grid fornisce la capacità di negoziare la condivisione delle risorse fra le diverse parti in causa (fornitori e clienti) e quindi uso dell’insieme delle risorse risultanti per perseguire uno scopo [I.Foster] Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 11 Un parallelo: la rete elettrica La Grid Computazionale La rete elettrica Richiesta di risorse (potenza: KWatt installati) Richiesta di risorse (CPU, disco, ecc…) Si inserisce la spina di un apparecchio elettrico Si collega alla rete un computer Si usa l’apparecchio: non è necessario sapere da dove arriva l’energia elettrica!!! Si usa il computer: non è necessario sapere da dove arrivano le risorse!!! La manutenzione è a carico del fornitore La manutenzione e’ a carico del fornitore Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 12 Grid Accesso alle risorse con Grid Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 13 I progetti GLOBUS e Condor Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 L’iniziativa Globus Nasce agli Argonne National Laboratories (ANL) E’ un toolkit e un insieme di servizi che indirizzano problemi tecnici chiave: modello “bag of services” modulare non è una soluzione “verticalmente integrata” strumenti di infrastruttura generale (middleware) che possono essere applicati a molti domini applicativi Utilizza standard e implementazioni “open source” ovunque possibile http://www.globus.org/ Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 15 Globus: architettura a layers Application Coordinamento e condivisione di gruppi di risorse Controllo dell’uso condiviso delle singole risorse Applications Collective Resource Comunicazione tra le risorse e sicurezza delle transazioni Connectivity Controllo locale ed accesso alle risorse Fabric Diverse global services Core services Local OS Supporto per una varietà di ambienti locali (OS, etc…) Supporto per una varietà di utenti finali Il toolkit implementa i Core services che devono essere semplici e generali Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 16 Globus: componenti base Fabric Layer: – meccanismi di base: • start di programmi • accesso ai files • … Connectivity Layer: – comunicazione via IP – sicurezza tramite Grid Security Infrastructure (GSI) • basata su meccanismi a chiave pubblica (TSL/SSL, certificati X.509 & Certification Authorities, ecc…). • meccanismo uniforme per la autenticazione e autorizzazione degli utenti Autenticazione: verifica dell’identità di un utente (o una risorsa) Autorizzazione: accesso alle risorse ad uno specifico utente Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 17 Globus: componenti base Resource Layer: – Usa GSI per la sicurezza – Grid Resource Allocation Management (GRAM) gira su ogni risorsa; garantisce il controllo remoto delle risorse – GridFTP (FTP modificato) per il trasferimento files – Grid Resource Information Server (GRIS) raccoglie e pubblica dinamicamente le informazioni sulla risorsa (ad es. memoria installata, code dponibili, ecc…) Collective Layer: esempi: – Metacomputing Directory Service (MDS): GRIS e GIIS – Grid Index Info Server (GIIS) raccoglie, e pubblica informazioni selezionate da diversi GRIS – Resource Broker seleziona risorse adatte per un job – Replica Catalog e Replica Services gestiscono l’accesso e la copia dei dati distribuiti Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 18 Accesso ad una risorsa MDS client API calls to locate resources Client MDS: Grid Index Info Server Site boundary MDS client API calls to get resource info GRAM client API calls to MDS: request resource allocation and process creation. GRAM client API state change callbacks Grid Security Grid Resource Info Server Query current status of resource Local Resource Manager Infrastructure Allocate & create processes Request Create Gatekeeper Job Manager Parse RSL Library Monitor & control Process Process Process Da: “Introduction to Grid Computing and the Globus Toolkit™” Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 19 Condor Sviluppato alla University of Wisconsin negli anni ’80 Punta a fornire “cicli di CPU” altrimenti non utilizzati Gestiti insiemi (pool) di calcolatori eterogenei L’INFN lo utilizza dal 1997 su scala geografica Robusto, ma ha alcune limitazioni per HEP: – – – – sistema monolitico (e non totalmente open source) inefficiente nell’accesso a grandi moli di dati distribuiti usa canali di rete non sicuri per la comunicazione alcune componenti di Condor usate dai progetti grid http://www.cs.wisc.edu/condor Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 20 I progetti di sviluppo del middleware per HEP Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 Principali progetti Grid per HENP PPDG – Produce il Virtual Data Toolkit (include Globus, Condor, …) – Stretta collaborazione con ciascuno degli esperimenti European DataGrid – Servizi di alto livello basati su Globus e Condor-G – Supporto per diverse scienze GriPhyN – Partner di PPDG per VDT. Introduce i Virtual Data European DataTAG – Europeo, dedicato all’interoperabilità con gli USA iVDGL – Americano, dedicato all’interoperabilità con l’Europa Progetti in fase di start-up: EGEE (UE), Grid3 (USA) Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 22 Architettura di DataGrid Local Computing Grid Local Application Local Database Grid Application Layer Data Management Job Management Metadata Management Object to File Mapping Collective Services Information & Monitoring Replica Manager Grid Scheduler Underlying Grid Services SQL Database Services Computing Element Services Storage Element Services Replica Catalog Authorization Authentication and Accounting Service Index Grid Fabric Fabric services Resource Management Configuration Management Claudio Grandi INFN Bologna Monitoring and Fault Tolerance IFAE 2004 - Torino Node Installation & Management 15 Aprile 2004 Fabric Storage Management Da: B.Jones 23 Esempio di Job Submission UI JDL Replica Catalogue Input “sandbox” DataSets info Information Service Output “sandbox” Storage Element Globus RSL Job Status Logging & Book-keeping Publish Job Query Job Submit Event Author. &Authen. Expanded JDL Resource Broker Job Submission Service Compute Element Job Status Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 Da: B.Jones 24 LHC Computing Grid LCG Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 Ruolo di LCG LCG è il progetto CERN nato nel 2002 che supporta tutte le esigenze di calcolo di LHC – infrastruttura hardware, librerie numeriche, eventgenerators, persistenza dei dati, grid, ecc… Due releases di sistemi grid: LCG-1 e LCG-2 – Basate su middleware di VDT, DataGrid e DataTAG E’ in fase iniziale il progetto ARDA (assieme ad EGEE) – Middleware e strumenti software comuni agli esperimenti per il supporto all’analisi dei dati – Userà anche software dagli esperimenti, in particolare Alien: sistema grid per il supporto all’analisi dati distribuita di ALICE, che usa direttamente middleware di basso livello (non dai “grid projects”) Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 26 Decomposizione funzionale di Alien External User ID Internal User ID VO Unix ID VO Batch queue Node Job Catalog UI CE File Catalog Wrapper Program Job Optimizer SE Data Placement Claudio Grandi INFN Bologna IFAE 2004 - Torino Root Posix 15 Aprile 2004 27 Utilizzo di LCG in CMS Dataset RefDB CE RLS CMS software User Interface McRunjob + ImpalaLite CMSProd SE metadata JDL WN Grid (LCG) Scheduler CE SE CMS software Grid Information System (bdII) CE BOSS DB Push data or info SE Job CE metadata CMS software SE Pull info Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 28 Data challenges su grid Produzione dati simulati su Grid3 negli USA per il Data Challenge 2004 di CMS Number of simulated events Jobs nel sistema AliEn di Alice durante il Data Challenge 2004 Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 29 I servizi di ARDA 1: Job Provenance Information Service Auditing 2: Authentication API 3: User Interface 6: Authorisation 4: Metadata Catalogue DB Proxy 14: Grid Monitoring 5: 13: File Catalogue 7: 10: Workload Management 9: Package Manager Data Management 11: 15: Storage Element Claudio Grandi INFN Bologna IFAE 2004 - Torino 12: 8: Computing Element Job Monitor 15 Aprile 2004 30 Conclusioni Gli strumenti grid forniscono una grande opportunità per gestire l’accesso a dati e risorse distribuiti – In modo sicuro e con la corretta gestione dei privilegi – In modo trasparente per l’utente Tre anni di (faticosa) esperienza con i progetti grid hanno permesso di identificare le componenti base – Gli esperimenti hanno costruito prototipi per i loro sistemi di calcolo anche se a volte privilegiando aspetti diversi sia in termini di funzionalità che di affidabilità – Alcuni strumenti sono già “in produzione” Il prossimo passo è quello di consolidare gli strimenti per reggere all’impatto dell’analisi dati di LHC – LCG al CERN, assieme ai progetti grid EGEE e Grid3, ci deve fornire il sistema in tempo per l’inizio della presa dati Non ci sono vere alternative a grid per gestire i dati di LHC!!! Claudio Grandi INFN Bologna IFAE 2004 - Torino 15 Aprile 2004 31