Condor
III Workshop sul Calcolo INFN
F. Semeria INFN Bologna
Cagliari 25-05-2004
Introduzione




Utilizzo di Condor nel mondo
Statistiche del pool INFN
Nuove funzionalità
Conclusioni
Diffusione di Condor





Micron Technology : 9 Pool, 4254 CPU. Risparmiati
milioni di $.
LIGO
CDF: CAF (CDF Analysis Farm). 350 macchine,
centinaia di utenti (50 sempre attivi)
BNL: sostituisce LSF con Condor (problemi di
costi…). Farm di 1145 pc. 5000 cpu nel 2007.
eMinerals mini grid: 930 pc Windows sparsi in 30
computer room nel campus UCL. Utilizzato il 95% del
tempo di CPU.
Environment from the Molecular Level
A NERC eScience testbed project
…AND THERE IS: WE USE WHAT’S ALREADY THERE:
930 win2K PC’s (1GHz P3, 256/512Mb Ram, 1Gbit e-net.) clustered in 30 student
cluster rooms across every department on the UCL campus, with the potential to scale
up to ~3000 PC’s.
These machines waste 95% of their CPU cycles 24/7:
A MASSIVE UNTAPPED RESOURCE- A COUP FOR eMINERALS!
This is where Condor enters the scene.
THE ONLY AVAILABLE OF-THE-SHELF RESOURCE
MANAGEMENT AND JOB BROKER FOR WINDOWS:
Install Condor on our clusters, and we harness 95% of the
power of 930+ machines 24 hours a day, without spending
any money.
~1K Condor pools; ~38K CPUs
Statistica INFN (Aprile)
 Ogni
anno vengono utilizzati l’
equivalente di circa 80 anni di CPU.
Condor + HawkEye




HawkEye è un sistema di Resource Monitoring
che può essere usato con Condor.
Permette di aggiungere attributi dinamici definiti
dall’utente ai machine classads.
Da usare per query e scheduling.
Molti plugin disponibili:

Spazio disco,memoria usata,processi in esecuzione,errori di
rete,utenti…
Central Manager

I demoni possono girare su qualsiasi porta



COLLECTOR_HOST = condor.cs.wisc.edu:9019
NEGOTIATOR_HOST=condor.cs.wisc.edu:9020
Utile da usare in caso di firewall.
Recupero connessioni interrotte
(release 6.7.x)


Per i job Vanilla e Java si può ristabilire la
connessione tra submitting ed executing
machines
Mettere nel job submit file

JobLeaseDuration = <N secondi>
High Availability

Condor permette una submit machine “hot
spare”:

Se la sub. mach. è down per > N minuti, una
seconda macchina può prendere il suo posto
Daemon Failover
Machine A
Master
SchedD
Active
Refresh
Lock
Refresh
Obtain
Check
Lock
Lock
Lock
Machine B
Master
SchedD
Active
(hot spare)
Computing on Demand (COD)




Pensato per calcoli brevi ma intensi.
Un utente può sospendere i condor job ed
eseguire immediatamente un cod-job.
Quando il cod-job termina i condor job
riprendono l’esecuzione.
Un utente deve essere autorizzato (e autenticato)
a usare COD.
I/O remoto per Vanilla Job


I job Vanilla non richiedono un file system
uniforme
I file di input/output vengono trasferiti
automanticamente tra la submitting machine e la
executing machine.
BBS (Bologna Batch System)





Batch system basato su Condor Vanilla
Si possono creare code batch con diverse velocità e
timeout di esecuzione.
I bbs-job hanno maggiori priorità degli altri
condor job.
Non richiede nè la ricompilazione del
programma nè un file system uniforme.
In fase di test per Alice-Bologna. 19 macchine
biprocessori disponibili.
Condor RPM


Si può installare Condor tramite file rpm
Installazione e upgrade semplificati!
Conclusioni




La diffusione di Condor è in rapida crescita in
tutto il mondo, sia accademico che commerciale.
Nuove features e nuove applicazioni nelle nuove
release: (COD, hot-spare, HawkEye, BBS, etc)
80 anni di CPU all’ anno recuperati, ma molti di
più vengono sprecati.
Il costo per evitare lo spreco è inferiore al valore
del bene sprecato.
NON SPRECARE LA
TUA CPU. QUALCUNO
POTREBBE AVERNE
BISOGNO.
Scarica

Report su Condor