UPDATE sulle attività di calcolo in gruppo IV Roberto Alfieri - CCR del 05.10.2010 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 1 Calcolo nel Gr.IV 54 Iniziative specifiche (IS) nelle seguenti aree (https://web.infn.it/CSN4/): Teoria dei Campi e di Stringa - Fenomenologia delle Particelle Elementari - Fisica Nucleare e Adronica - Metodi Matematici - Fisica AstroParticellare - Fisica Statistica e Teoria di Campo Applicata 80% delle attività : calcolo “generale” Numerosi Job sequenziali o paralleli (multicomputer e/o multicore) Necessita' tipico job < O(100 Gflops-year) Soluzione CSN4 : CLUSTER di PC 20% delle attività : simulazioni su reticolo (elevato parallelismo locale) Necessita' tipico Job: O(TFlops-year) nel 2010 - O(10 Tflops-year) nel 2011 - O(PFlops-year) nel 2012 Soluzione CSN4: PROGETTI APE (attualmente ApeNext 7 TFlops ) 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 2 Cluster di PC → 2005 : Numerose farm o cluster MPI medio piccoli distribuiti diverse sedi - spesso al di fuori dei centri di calcolo 2005-2006 : Centralizzazione al CNAF di un cluster MPI (CusterQuarto) - 24 dual Xeon, Infiniband 2007-2008 : 4 PC cluster (BA, CT, MIB e PI) su proposte consorziate - apertura a InfnGrid (VO theophys) 2010 → : Nuovo cluster centrale (CSN4cluster) installato a Pisa 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 3 CSN4cluster: i tempi Ottobre 2009: Chiesta la collaborazione alla CCR per la definizione dei requisiti da inviare alle sedi candidate Novembre 2009: Inviato “Call for proposal” alle Sezioni INFN Requisiti hardware, software e di Infrastruttura (procedura già utilizzata per i Tier2) Febbraio 2010: Scelta la sede di Pisa Giugno 2010: Installazione hardware e software (sequenziale) Inizio operatività (sequenziale) della macchina Luglio 2010: call ai coordinatori di IS per richieste di calcolo Settembre 2010: Valutazione richieste e ripartizione del fairshare 15 progetti: 130000 day*core seriele + 250000 day*core parallelo 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 4 CSN4cluster: IL CLUSTER HARDWARE 256 procs AMD Opteron 2356 QuadCore 2.3 GHz, per un totale di 1024 cores (circa 10 Tflops di picco) - 1 GB RAM per core Rete veloce INFINIBAND per l'utilizzo parallelo Storage 10 TB (area work shared + area SRM ) SOFTWARE: Distribuzione gLite x86_64 (128 WN, 1 CE, 1 UI) DUE PARTIZIONI: PER JOB SEQUENZIALI e PER JOB MPI Per ora solo sequenziale La partizione MPI e’ in fase di test configurazione mpistart + sperimentazione nuovi attributi sulla granularità A regime suddivisione in base alle necessità 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 5 CSN4cluster: IL CLUSTER ACCESSO: Via INFN-Grid accesso locale (temporaneo) per MPI con modulo Pam AAI-INFN PROBLEMI NELL’ACCESSO GRID Supporto limitato per MPI (flessibilità limitata, granularita’.. ). Malfunzionamento del Proxy renewal DOCUMENTAZIONE E FORMAZIONE: Wiki Nazionale http://wiki.infn.it/strutture/pi Corso MPI su Grid : Ottobre 2010 a CT – Febbraio 2011 a PI o PR (?) Poster a SC 2010 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 6 Calcolo ad alte prestazioni: il passato Anni 80 : Consorzi (Cray del Cineca) Anni 90 → : APE apeNEXT ad oggi non piu' competitivo per il calcolo su Reticolo 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 7 Calcolo ad alte prestazioni: presente e futuro Diverse linee di ricerca: 1a) Progetto PetApe ( RM1, RM2 + partner accademici europei , partner industriali) Realizzazione di sistemi di calcolo basati su processori multi-tile custom con rete di interconnessione 3D torus integrata Supporto progetti EU: SHAPES (2006-2009) → EURETILE (2010-2013) 1b) Progetto apeNET+ (RM1, RM2) Aggiornamento tecnologico di apeNET 2) Progetto Aurora (INFN MIB, INFN-FE, INFN-PR, Provincia Autonoma di Trento, UniTN, Enti di ricerca Trentini, UniPD, partner industriale Eurotech). Processori commodities Intel di nuova generazione interconnessi con network toroidali 3D integrate su FPGA. 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 8 PetAPE: development delayed waiting for a better contingency • Design of suitable INFN APE computing engine • (Sh)ApOtto multi-tile (8+) processor, 40(+) GFlops, 10W • • Multi-chip high density system: • DC/DC DC/DC M8+ (0,6) M8+ (0,5) DC/DC DC/DC M8+ (0,4) M8+ (1,7) DC/DC DC/DC M8+ (1,6) M8+ (1,5) DC/DC DC/DC M8+ (1,4) 3DT connectors area for M8+ (0,3) DC/DC DC/DC M8+ (0,2) M8+ (0,1) DC/DC DC/DC M8+ (0,0) M8+ (1,3) DC/DC DC/DC M8+ (1,2) M8+ (1,1) DC/DC DC/DC M8+ (1,0) M8+ (2,7) DC/DC DC/DC M8+ (2,6) Enhanced/New programming model, semi-automated application mapping software, HW dependant Light OS • But… M8+ (2,5) DC/DC DC/DC M8+ (2,4) TeraMotherBoard M8+ (2,3) DC/DC DC/DC M8+ (2,2) M8+ (2,1) DC/DC DC/DC M8+ (2,0) Front connectors area (I/O) 05/10/2010 M8+ (3,7) DC/DC DC/DC • We need 3-5 MEuro for NRE (chip, mechanic, man power…) • • We need strong partnership with silicon foundry M8+ (3,6) M8+ (3,5) DC/DC DC/DC • stacking M8+ (3,3) M8+ (3,1) DC/DC DC/DC M8+ (3,0) Risky investment and mass production in 3/5 years from now technology is growing fast and people learned the lesson… • DC/DC M8+ (3,2) • …and last but not least… • M8+ (3,4) DC/DC 1K (Sh)ApOtto, 40 TFlops, 20 KW, 200 KEuro per rack • Back connectors area (Power Supply) M8+ (0,7) 8(+) RISC+VLIW_FP Core + DNP based network Pump up flops/W, flops/Euro, flops/m3 The race is still open but the current situation doesn’t allow us to start NOW and successfully compete with emerging “commodity” hardware UPDATE sulle attivita' di calcolo di Gr.IV page 9 Custom PC Cluster Network: APEnet+ APEnet+ architecture: 3Dim Torus network for PC Cluster • packet-based direct network with 2D/3D torus topology. • fixed size header/footer envelope (header+footer) • auto-routing using dimension-order static routing, with dead-lock avoidance. • Error detection via CRC at packet level. • RDMA capabilities, PUT and GET, are implemented at the firmware level. • Fault-tolerance additional features deployed . Hardware • The FPGA-based APEnet+ card plugs into a PCIe X16 slot but has signaling capabilities for up to X8 Gen2 (peak 4+4 GB/s). • Basic one, single slot width, 4 torus links, 2D torus topology. • Secondary Piggy-back card, resulting in a double slot width, 6 links, 3D torus topology. • Each torus link is fully bidirectional and its raw bandwidth is 34 Gb/s per direction on 4 lanes using QSFP+ cables. • Embedded NIOS processor to support RDMA operations Deliverables • 3 channels proto tested and currently under electrical characterization • 6 channels final board ready end 2010 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 10 A new project: QUOnG, GPU+APEnet+ QUantum chromodynamics On Gpu PC clusters accelerated with highend GPU and interconnected via 3D torus network APEnet+ Leg I (−→ 3Q 2010) Development of first APENet+ prototypes (4/6) and deployment of a 4 nodes GPU platform for firmware and software validation Leg II (4Q 2010 −→): Hardware test and firmware optimization API development for high efficient GPU-to-network communication Fine tuning and application benchmarking From 2011, production and deployment of medium/large systems >32 computational node/rack • Each node composed of 24 multi-core INTEL CPU + Nvidia GPU Cables Connectors module GPU apeNET+ (DNP) firmware SuperMicro server Dual Xeon 5500 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 11 Aurora 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 12 Aurora Performance Node-card: 2 procs Intel Westmere 3.3 GHz (6+6 cores), 12GB ram, Infiniband, 3D Torus Il sistema di raffreddamanto a liquido consente di poter inserire 256 Node-card in un rack (oltre al risparmio di oltre il 50% sul costo di raffrescamento) Rpeak Core 13 Gflops Rpeak notes Rmax 3.3 GHz * 4 Flops (DP) Node card 156 Gflops 12 cores * 13 Gflops Half chassis 2.5 Tflops 16 Node cards * 156 Gflops Rack 40 Tflops 16 Half-chassis * 2.5 TFlops >1.8 Tflops HPL ha girato su un half-chassis dell’installazione di Trento con un efficienza di circa il 75% 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 13 Aurora status Installazione (Trento): - 2 Half-chassis con Westmere (ad oggi) - ½ Half-chassis con Nehalem (ad oggi) - 2 Half-chassis Westmere (ott-nov/2010) 5 Tflops ~1 Tflops 5 Tflops E' possibile integrare ulteriormente (fine 2010 – inizio 2011) -4-6 Half chassis Westmere 10-15 Tflops Attuale utilizzo: Convivenza tra produzione e test per deployment Conferenze e scuole: Booth Aurora a “Int.SuperComputing10” Amburgo 06/2010 “AuroraSchool 2010” Trento 20 sett - 1 ott 2010 Poster per ”SuperComputing10” NewOrleans 11/2010 Ulteriori dettagli: http://web.infn.it/aurorascience/ 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 14 Lettera della CSN4 inviata alla giunta -sett. 2009- 1) I gruppi italiani che fanno capo a l’INFN hanno svolto negli ultimi 25-30 anni un ruolo chiave a livello internazionale nello sviluppo delle teorie di gauge sul reticolo e loro applicazioni allo studio della fenomenologia, dalla fisica del quark-gluon plasma a quella del sapore e della violazione di CP. Tale ruolo, attestato da citazioni e inviti alle maggiori conferenze internazionali, e` stato possibile, oltre che dal valore dei ricercatori impegnati, anche per lo sviluppo dei calcolatori della linea APE, a partire dal primo progetto sviluppato a metà degli anni 80; 2) La possibilità di rimanere competitivi e` tuttavia legata in maniera imprescindibile all’aumento della potenza di calcolo ora disponibile. La concorrenza ha al momento disponibilità dell’ordine delle decine di Tflops, ma passerà presto alle centinaia, e.g. sta partendo Qpace (100 Tflops); alcune disponibilità degli altri gruppi all’estero sono dovute a risorse nazionali del tutto assenti in Italia. Questo rende la costruzione di macchine dedicate ancora più essenziale se non si vuole uscire di scena; 3) I due progetti hanno accumulato un ritardo più o meno pronunciato rispetto a quanto previsto dieci mesi or sono. In entrambi i casi parte del ritardo viene imputato allo scarso sostegno ricevuto dall’INFN. E` plausibile che Aurora possa produrre una macchina da una decina di Tflops entro la fine del 2010 e che la rete APE sia pronta per la stessa data (in quest’ultimo caso e` probabile che 10 Tflops si possano ottenere a metà del 2011). Il processore APE dedicato seguirà una strada parallela perché soggetto a tempi più lunghi rispetto a quanto necessario nei prossimi 2-3 anni. 3) I due progetti sono irriducibili (no way di farli convergere in uno solo) e forse non e` stato un male che siano ancora in vita entrambi; con un minimo di sostegno a APE si potrebbe rimandare la scelta alla primavera 2010; 4) Non e` tuttavia possibile accumulare altri ritardi dell’ordine di un anno . E` dunque necessario (essenziale, inderogabile, urgente) che già da ora fatta una roadmap realistica per avere 10-20 Tflops nel 2010 (al momento questo sembra possibile solo con Aurora), 100 nel 2011 (ApeNET + finanziamento della regione Lazio per SuperB o Aurora) e per avviarsi al Pflops a ridosso del 2012. 5) La CSN4 sostiene e sosterrà con il massimo vigore e entusiasmo la realizzazione di un adeguata facility di calcolo e cercherà di stimolare in ogni modo la Giunta e il Presidente a agire tempestivamente. Le condizioni per il successo dell’impresa sono, a mio parere, che l’INFN riesca a elaborare un piano scritto e preciso già da oggi, lo deliberi e lo persegua, monitorandolo, con decisione e coerenza. 05/10/2010 UPDATE sulle attivita' di calcolo di Gr.IV page 15