DataGRID overview + WP4 Installation Enrico Ferro INFN-LNL E. Ferro, LNL, 7 dicembre 2001 1 Datagrid Il progetto è diviso in “Work Packages”: – WP1: Workload Management – WP2: Data Management – WP3: Monitoring Services – WP4: Fabric Management – WP5: Mass Storage Management – WP6: Testbed – WP7: Network – WP8-10: Applications La durata complessiva è di 3 anni (2001-2003). Milestones: month 9 (Sept 2001), month 21 (Sept 2002), month 33 (Sept 2003) E. Ferro, LNL, 7 dicembre 2001 2 WP4: obiettivi e organizzazione “Aims to deliver a computing fabric comprised of all the necessary tools to manage a centre providing Grid services on clusters of thousands of nodes” WP4 è diviso in 6 tasks/sottosistemi – Configuration management (CERN + PPARC) – Resource management (ZIB) – Installation & node management (CERN + INFN + PPARC) – Monitoring (CERN + INFN) – Fault tolerance (KIP) – Gridification (NIKHEF) Le funzionalità offerte possono essere raggruppate: – Controllo e gestione dei job Gridification + Resource Management – Amministrazione dei sistemi automatizzata Configuration + Installation + Monitoring & Fault Tolerance E. Ferro, LNL, 7 dicembre 2001 3 Datagrid architecture overview - Interface between Gridwide services and local fabric; - Provides local authentication, Grid User authorization and mapping of grid credentials. Resource Broker (WP1) Fabric Gridification - provides transparent Data Mgmt access to different cluster (WP2) batch systems; - enhanced capabilities (extended scheduling policies, advanced Local User reservation, local accounting). Resource Management Farm A (LSF) E. Ferro, LNL, 7 dicembre 2001 - central measurement Fabric Mgmt (WP4) repository provides health and status view of services and Wps resources; Other - fault tolerance correlation engines detect failures and trigger recovery actions. Monitoring & Fault Tolerance Farm B (PBS) Data - provides theGrid tools to install Storage and manage all software running on the (WP5) fabric nodes; (Mass storage, - bootstrap services; Disk pools)Node software repositories; Management to install, upgrade, remove and configure software packages on the nodes. Grid Info Services (WP3) - provides the tools for gathering and storing performance, functional and environmental changes for all fabric elements; User job control (WP4) Configuration Management Installation & Node Mgmt - provides a central storage and management of all fabric configuration information; - central DB and set of protocols and APIs to store and retrieve information. 4 Configuration Management diagram Configuration Database: stores configuration information and manages modification and retrieval access Configuration Database High Level Description E. Ferro, LNL, 7 dicembre 2001 Low Leve Description Cache Configuration Manager: downloads node profiles from CDB and stores them locally Client Node Cache Configuration Manager A P I Local Process 5 Configuration DataBase Low Level Description High Level Description cmsserver1 /etc/exports /app All computing nodes of CMS Farm #3 use cmsserver1 as NFS Server cmsnode1, cmsnode2, .. cmsnode3 /etc/fstab cmsnode2 /etc/fstab /app cmsserver1:/app cmsnode1 /etc/fstab /app cmsserver1:/app cmsserver1:/app /app nfs.. nfs.. nfs.. ? E. Ferro, LNL, 7 dicembre 2001 6 Installation Management diagram Software Repository - central fabric store for Software Packages Administrative Scripting Layer Applications Fabric Node Bootstrap Service servizi per il boot (DHCP, immagini di sistema) Actuator Dispatcher Monitoring & Fault Tol. NMA SR SP’s SP’s (local) Node Management Agent manages installation, upgrade, removal and configuration of software packages E. Ferro, LNL, 7 dicembre 2001 BS System images Configuration Management Subsystem Control Flow: function calls Data Flow: Configuration, SP’s, system images. monitoring 7 LCFG: Installation & Software Mgmt Prototype L’attuale prototipo è basato su LCFG, un tool originariamente sviluppato all’Università di Edinburgo tuttora in uso Caratteristiche e funzionalità: – modulare, suddiviso in componenti (“oggetti”) – installazione automatizzata del S.O. – installazione/upgrade/rimozione di tutti i pacchetti software (RPM-based) – configurazione e gestione centralizzata delle macchine – estendibilità: configurazione e gestione di software applicativo facilmente personalizzabili E. Ferro, LNL, 7 dicembre 2001 8 LCFG diagram Config files LCFG Config Files Read telnet Profile +inet.services HTTP +inet.allow /etc/services Make XML /etc/group /etc/hosts.allow Profile in.telnetd : 192.168., /etc/passwd in.rlogind : 192.168., .... login ftp Profile Object telnet login ftp sshd Profile +inet.allow_telnet <inet> /etc/shadow /etc/inetd.conf XML profiles ALLOWED_NETWORKS +inet.allow_login ALLOWED_NETWORKS <allow cfg:template="allow_$ tag_$ daemon_$"> +inet.allow_ftp ALLOWED_NETWORKS <allow_RECORD cfg:name="telnet"> inet auth ALL Web Server +inet.allow_sshd <allow>192.168., 192.135.30.</allow> 192.135.30. LCFG Objects Local cache yes </allow_RECORD> XML Profile +inet.daemon_sshd 192.135.30. in.ftpd : 192.168., 192.135.30. mickey:x:999:20::/home/Mickey:/bin/tcsh sshd : ALL .... Server ..... ..... +auth.users </auth> mickey +auth.userhome_mickey /home/mickey <user_RECORD cfg:name="mickey"> Client nodes +auth.usershell_mickey /bin/tcsh <userhome>/home/mickey</userhome> <usershell>/bin/tcsh</usershell> Abstract configuration parameters for all nodes stored in a central repository E. Ferro, LNL, 7 dicembre 2001 </user_RECORD> A collection of agents read configuration parameters and either generate traditional config files or directly manipulate various services 9 Cos’e’ un oggetto LCFG? È un semplice shell script (ma in futuro sarà usato perl) Ciascun oggetto fornisce un certo numero di “metodi” (start, stop, reconfig, query, ...) che sono invocati al momento opportuno Funzionamento tipico di un oggetto: – viene avviato dall’oggetto “manager” profile all’avvio del sistema e a seguito di notifica di un cambiamento di configurazione – carica dalla cache locale la sua configurazione – configura gli opportuni servizi, o traducendo i parametri di config nei tradizionali files di configurazione oppure controllando direttamente i servizi (ad es. avviando un demone) E. Ferro, LNL, 7 dicembre 2001 10 LCFG: oggetti custom LCFG mette a disposizione gli oggetti per gestire tutti i servizi standard di una macchina: inet, syslog, nfs, cron, dns, ... Un amministratore può creare nuovi oggetti custom per configurare e gestire le proprie applicazioni: – definisce le proprie “risorse” custom (parametri di configurazione) da aggiungere al profilo di un nodo – include nel nuovo script l’oggetto “generic”, in cui sono definite delle “common functions” usate da tutti gli oggetti (config loading, log, output, ...) – ridefinisce i metodi standard (start, stop, reconfig, ...) secondo le proprie necessità – per oggetti semplici in genere si tratta di poche righe di codice E. Ferro, LNL, 7 dicembre 2001 11 LCFG: riepilogo Pro: – A Edinburgo è in uso da anni in un ambiente complesso ed eterogeneo, con centinaia di nodi da gestire – Supporta la completa installazione e gestione di tutto il software (sia O.S. che applicazioni) – Molto flessibile e facile da estendere e customizzare Contro: – Complesso: curva di apprendimento iniziale molto ripida – Nello stato attuale è ancora un prototipo: incompleto e probabilmente la versione futura non sarà del tutto compatibile – Mancanza di tools user-friendly per la creazione e gestione dei files di configurazione (ed eventuali errori possono essere molto pericolosi!) E. Ferro, LNL, 7 dicembre 2001 13 LCFG: sviluppo futuro in WP4 Software Repository (RPMs) Installation Server Images PXE (DHCP, kernelDHCP images TFTP installroot) Bootstrap Service NFS LCFG Config Files HTTP User Interface Configuration Make XML DataBase Profile Server E. Ferro, LNL, 7 dicembre 2001 Web Server XML Profile Read Config rdxprof Profile Cache Manager Local cache FTP HTTP Profile Generic NMA Object Component LCFG Objects NMA Objects Client nodes 14 Conclusioni Il prototipo attuale non è ancora usabile in produzione – incompleto, bugs, mancanza del DB di configurazione, parzialmente incompatibile con la prossima release Prossima milestone: settembre 2002 – il sistema di installazione e management dovrebbe essere sufficientemente completo e usabile – sarà integrato con il DB di configurazione, ma abbiamo dei dubbi su quest’ultimo (solo un prototipo, mancanza di adeguata interfaccia utente) – il sistema di monitoring sarà solo un prototipo (alcuni sensori, protocollo di trasporto dei dati, repository e display solo degli allarmi) L’INFN nel WP4 sta spingendo per avere a Set. 2002 un sistema di Fabric Management realmente usabile nelle nostre farm E. Ferro, LNL, 7 dicembre 2001 15