Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004 Introduzione Utilizzo di Condor nel mondo Statistiche del pool INFN Nuove funzionalità Conclusioni Diffusione di Condor Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. LIGO CDF: CAF (CDF Analysis Farm). 350 macchine, centinaia di utenti (50 sempre attivi) BNL: sostituisce LSF con Condor (problemi di costi…). Farm di 1145 pc. 5000 cpu nel 2007. eMinerals mini grid: 930 pc Windows sparsi in 30 computer room nel campus UCL. Utilizzato il 95% del tempo di CPU. Environment from the Molecular Level A NERC eScience testbed project …AND THERE IS: WE USE WHAT’S ALREADY THERE: 930 win2K PC’s (1GHz P3, 256/512Mb Ram, 1Gbit e-net.) clustered in 30 student cluster rooms across every department on the UCL campus, with the potential to scale up to ~3000 PC’s. These machines waste 95% of their CPU cycles 24/7: A MASSIVE UNTAPPED RESOURCE- A COUP FOR eMINERALS! This is where Condor enters the scene. THE ONLY AVAILABLE OF-THE-SHELF RESOURCE MANAGEMENT AND JOB BROKER FOR WINDOWS: Install Condor on our clusters, and we harness 95% of the power of 930+ machines 24 hours a day, without spending any money. ~1K Condor pools; ~38K CPUs Statistica INFN (Aprile) Ogni anno vengono utilizzati l’ equivalente di circa 80 anni di CPU. Condor + HawkEye HawkEye è un sistema di Resource Monitoring che può essere usato con Condor. Permette di aggiungere attributi dinamici definiti dall’utente ai machine classads. Da usare per query e scheduling. Molti plugin disponibili: Spazio disco,memoria usata,processi in esecuzione,errori di rete,utenti… Central Manager I demoni possono girare su qualsiasi porta COLLECTOR_HOST = condor.cs.wisc.edu:9019 NEGOTIATOR_HOST=condor.cs.wisc.edu:9020 Utile da usare in caso di firewall. Recupero connessioni interrotte (release 6.7.x) Per i job Vanilla e Java si può ristabilire la connessione tra submitting ed executing machines Mettere nel job submit file JobLeaseDuration = <N secondi> High Availability Condor permette una submit machine “hot spare”: Se la sub. mach. è down per > N minuti, una seconda macchina può prendere il suo posto Daemon Failover Machine A Master SchedD Active Refresh Lock Refresh Obtain Check Lock Lock Lock Machine B Master SchedD Active (hot spare) Computing on Demand (COD) Pensato per calcoli brevi ma intensi. Un utente può sospendere i condor job ed eseguire immediatamente un cod-job. Quando il cod-job termina i condor job riprendono l’esecuzione. Un utente deve essere autorizzato (e autenticato) a usare COD. I/O remoto per Vanilla Job I job Vanilla non richiedono un file system uniforme I file di input/output vengono trasferiti automanticamente tra la submitting machine e la executing machine. BBS (Bologna Batch System) Batch system basato su Condor Vanilla Si possono creare code batch con diverse velocità e timeout di esecuzione. I bbs-job hanno maggiori priorità degli altri condor job. Non richiede nè la ricompilazione del programma nè un file system uniforme. In fase di test per Alice-Bologna. 19 macchine biprocessori disponibili. Condor RPM Si può installare Condor tramite file rpm Installazione e upgrade semplificati! Conclusioni La diffusione di Condor è in rapida crescita in tutto il mondo, sia accademico che commerciale. Nuove features e nuove applicazioni nelle nuove release: (COD, hot-spare, HawkEye, BBS, etc) 80 anni di CPU all’ anno recuperati, ma molti di più vengono sprecati. Il costo per evitare lo spreco è inferiore al valore del bene sprecato. NON SPRECARE LA TUA CPU. QUALCUNO POTREBBE AVERNE BISOGNO.