UPDATE
sulle attività di calcolo in gruppo IV
Roberto Alfieri - CCR del 05.10.2010

05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 1
Calcolo nel Gr.IV
54 Iniziative specifiche (IS) nelle seguenti aree (https://web.infn.it/CSN4/):
Teoria dei Campi e di Stringa - Fenomenologia delle Particelle Elementari - Fisica Nucleare e
Adronica - Metodi Matematici - Fisica AstroParticellare - Fisica Statistica e Teoria di Campo
Applicata
80% delle attività : calcolo “generale”
Numerosi Job sequenziali o paralleli (multicomputer e/o multicore)
Necessita' tipico job < O(100 Gflops-year)

Soluzione CSN4 : CLUSTER di PC
20% delle attività : simulazioni su reticolo (elevato parallelismo locale)
Necessita' tipico Job:
O(TFlops-year) nel 2010 - O(10 Tflops-year) nel 2011 - O(PFlops-year) nel 2012
Soluzione CSN4: PROGETTI APE (attualmente ApeNext 7 TFlops )
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 2
Cluster di PC
→ 2005 : Numerose farm o cluster MPI medio piccoli distribuiti diverse sedi
- spesso al di fuori dei centri di calcolo
2005-2006 : Centralizzazione al CNAF di un cluster MPI (CusterQuarto)
- 24 dual Xeon, Infiniband
2007-2008 : 4 PC cluster (BA, CT, MIB e PI) su proposte consorziate
- apertura a InfnGrid (VO theophys)

2010 → : Nuovo cluster centrale (CSN4cluster) installato a Pisa
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 3
CSN4cluster: i tempi
Ottobre 2009: Chiesta la collaborazione alla CCR per la definizione dei requisiti da
inviare alle sedi candidate
Novembre 2009: Inviato “Call for proposal” alle Sezioni INFN
Requisiti hardware, software e di Infrastruttura (procedura già utilizzata per i Tier2)
Febbraio 2010: Scelta la sede di Pisa

Giugno 2010: Installazione hardware e software (sequenziale)
Inizio operatività (sequenziale) della macchina
Luglio 2010:
call ai coordinatori di IS per richieste di calcolo
Settembre 2010: Valutazione richieste e ripartizione del fairshare
15 progetti: 130000 day*core seriele + 250000 day*core parallelo
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 4
CSN4cluster: IL CLUSTER
HARDWARE
256 procs AMD Opteron 2356 QuadCore 2.3 GHz, per un totale di 1024 cores
(circa 10 Tflops di picco) - 1 GB RAM per core
Rete veloce INFINIBAND per l'utilizzo parallelo
Storage 10 TB (area work shared + area SRM )
SOFTWARE: Distribuzione gLite x86_64 (128 WN, 1 CE, 1 UI)

DUE PARTIZIONI: PER JOB SEQUENZIALI e PER JOB MPI
Per ora solo sequenziale
La partizione MPI e’ in fase di test
configurazione mpistart + sperimentazione nuovi attributi sulla granularità
A regime suddivisione in base alle necessità
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 5
CSN4cluster: IL CLUSTER
ACCESSO:
Via INFN-Grid
accesso locale (temporaneo) per MPI con modulo Pam AAI-INFN
PROBLEMI NELL’ACCESSO GRID
Supporto limitato per MPI (flessibilità limitata, granularita’.. ).
Malfunzionamento del Proxy renewal

DOCUMENTAZIONE E FORMAZIONE:
Wiki Nazionale http://wiki.infn.it/strutture/pi
Corso MPI su Grid : Ottobre 2010 a CT –
Febbraio 2011 a PI o PR (?)
Poster a SC 2010
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 6
Calcolo ad alte prestazioni: il passato
Anni 80
: Consorzi (Cray del Cineca)
Anni 90 → : APE

apeNEXT ad oggi non piu' competitivo per il calcolo su Reticolo
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 7
Calcolo ad alte prestazioni: presente e futuro
Diverse linee di ricerca:
1a) Progetto PetApe ( RM1, RM2 + partner accademici europei , partner
industriali)
Realizzazione di sistemi di calcolo basati su processori multi-tile custom
con rete di interconnessione 3D torus integrata
Supporto progetti EU: SHAPES (2006-2009) → EURETILE (2010-2013)
1b) Progetto apeNET+ (RM1, RM2) Aggiornamento tecnologico di apeNET

2) Progetto Aurora (INFN MIB, INFN-FE, INFN-PR, Provincia Autonoma di
Trento, UniTN, Enti di ricerca Trentini, UniPD, partner industriale Eurotech).
Processori commodities Intel di nuova generazione interconnessi con network
toroidali 3D integrate su FPGA.
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 8
PetAPE: development delayed
waiting for a better contingency
•
Design of suitable INFN APE computing engine
•
(Sh)ApOtto multi-tile (8+) processor, 40(+) GFlops, 10W
•
•
Multi-chip high density system:
•
DC/DC
DC/DC
M8+ (0,6)
M8+ (0,5)
DC/DC
DC/DC
M8+ (0,4)
M8+ (1,7)
DC/DC
DC/DC
M8+ (1,6)
M8+ (1,5)
DC/DC
DC/DC
M8+ (1,4)
3DT connectors area for
M8+ (0,3)
DC/DC
DC/DC
M8+ (0,2)
M8+ (0,1)
DC/DC
DC/DC
M8+ (0,0)
M8+ (1,3)
DC/DC
DC/DC
M8+ (1,2)
M8+ (1,1)
DC/DC
DC/DC
M8+ (1,0)
M8+ (2,7)
DC/DC
DC/DC
M8+ (2,6)
Enhanced/New programming model, semi-automated
application mapping software, HW dependant Light OS
•
But…
M8+ (2,5)
DC/DC
DC/DC
M8+ (2,4)
TeraMotherBoard
M8+ (2,3)
DC/DC
DC/DC
M8+ (2,2)
M8+ (2,1)
DC/DC
DC/DC
M8+ (2,0)
Front connectors area (I/O)
05/10/2010
M8+ (3,7)
DC/DC
DC/DC
•
We need 3-5 MEuro for NRE (chip, mechanic, man
power…)
•
•
We need strong partnership with silicon foundry
M8+ (3,6)
M8+ (3,5)
DC/DC
DC/DC
•
stacking
M8+ (3,3)
M8+ (3,1)
DC/DC
DC/DC
M8+ (3,0)
Risky investment and mass production in 3/5 years from
now
technology is growing fast and people learned the
lesson…
•
DC/DC
M8+ (3,2)
•

…and last but not least…
•
M8+ (3,4)
DC/DC
1K (Sh)ApOtto, 40 TFlops, 20 KW, 200 KEuro per rack
•
Back connectors area (Power Supply)
M8+ (0,7)
8(+) RISC+VLIW_FP Core + DNP based network
Pump up flops/W, flops/Euro, flops/m3
The race is still open but the current situation doesn’t
allow us to start NOW and successfully compete with
emerging “commodity” hardware
UPDATE sulle attivita' di calcolo di Gr.IV
page 9
Custom PC Cluster Network: APEnet+
APEnet+ architecture: 3Dim Torus network for PC Cluster
• packet-based direct network with 2D/3D torus topology.
• fixed size header/footer envelope (header+footer)
• auto-routing using dimension-order static routing, with
dead-lock avoidance.
• Error detection via CRC at packet level.
• RDMA capabilities, PUT and GET, are implemented at the
firmware level.
• Fault-tolerance additional features deployed .
Hardware
• The FPGA-based APEnet+ card plugs into a PCIe X16 slot
but has signaling capabilities for up to X8 Gen2 (peak 4+4
GB/s).
• Basic one, single slot width, 4 torus links, 2D torus
topology.
• Secondary Piggy-back card, resulting in a double slot
width, 6 links, 3D torus topology.
• Each torus link is fully bidirectional and its raw bandwidth is
34 Gb/s per direction on 4 lanes using QSFP+ cables.
• Embedded NIOS processor to support RDMA operations
Deliverables
• 3 channels proto tested and currently under electrical
characterization
• 6 channels final board ready end 2010
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV

page 10
A new project: QUOnG, GPU+APEnet+
QUantum chromodynamics On Gpu
PC clusters accelerated with highend GPU and interconnected via
3D torus network APEnet+
Leg I (−→ 3Q 2010)
Development of first APENet+
prototypes (4/6) and deployment
of a 4 nodes GPU platform for
firmware and software validation
Leg II (4Q 2010 −→): Hardware test
and firmware optimization
API development for high efficient
GPU-to-network communication
Fine tuning and application
benchmarking
From 2011, production and
deployment of medium/large
systems
>32 computational node/rack
• Each node composed of 24 multi-core INTEL CPU +
Nvidia GPU

Cables
Connectors
module
GPU
apeNET+ (DNP)
firmware
SuperMicro server
Dual Xeon 5500
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 11
Aurora

05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 12
Aurora Performance
Node-card: 2 procs Intel Westmere 3.3 GHz (6+6 cores), 12GB ram, Infiniband, 3D Torus
Il sistema di raffreddamanto a liquido consente di poter inserire 256 Node-card in un rack (oltre
al risparmio di oltre il 50% sul costo di raffrescamento)

Rpeak
Core
13 Gflops
Rpeak notes
Rmax
3.3 GHz * 4 Flops (DP)
Node card
156 Gflops
12 cores * 13 Gflops
Half chassis
2.5 Tflops
16 Node cards * 156 Gflops
Rack
40 Tflops
16 Half-chassis * 2.5 TFlops
>1.8 Tflops
HPL ha girato su un half-chassis dell’installazione di Trento con un efficienza di circa il 75%
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 13
Aurora status
Installazione (Trento):
- 2 Half-chassis con Westmere (ad oggi)
- ½ Half-chassis con Nehalem (ad oggi)
- 2 Half-chassis Westmere (ott-nov/2010)
5 Tflops
~1 Tflops
5 Tflops
E' possibile integrare ulteriormente (fine 2010 – inizio 2011)
-4-6 Half chassis Westmere
10-15 Tflops
Attuale utilizzo:
Convivenza tra produzione e test per deployment

Conferenze e scuole:
Booth Aurora a “Int.SuperComputing10”
Amburgo 06/2010
“AuroraSchool 2010”
Trento 20 sett - 1 ott 2010
Poster per ”SuperComputing10”
NewOrleans 11/2010
Ulteriori dettagli: http://web.infn.it/aurorascience/
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 14
Lettera della CSN4 inviata alla giunta
-sett. 2009-
1) I gruppi italiani che fanno capo a l’INFN hanno svolto negli ultimi 25-30 anni un ruolo chiave a livello
internazionale nello sviluppo delle teorie di gauge sul reticolo e loro applicazioni allo studio della fenomenologia,
dalla fisica del quark-gluon plasma a quella del sapore e della violazione di CP. Tale ruolo, attestato da citazioni e
inviti alle maggiori conferenze internazionali, e` stato possibile, oltre che dal valore dei ricercatori impegnati,
anche per lo sviluppo dei calcolatori della linea APE, a partire dal primo progetto sviluppato a metà degli anni 80;
2) La possibilità di rimanere competitivi e` tuttavia legata in maniera imprescindibile all’aumento della
potenza di calcolo ora disponibile. La concorrenza ha al momento disponibilità dell’ordine delle decine di
Tflops, ma passerà presto alle centinaia, e.g. sta partendo Qpace (100 Tflops); alcune disponibilità degli altri
gruppi all’estero sono dovute a risorse nazionali del tutto assenti in Italia. Questo rende la costruzione di
macchine dedicate ancora più essenziale se non si vuole uscire di scena;
3) I due progetti hanno accumulato un ritardo più o meno pronunciato rispetto a quanto previsto dieci mesi or sono.
In entrambi i casi parte del ritardo viene imputato allo scarso sostegno ricevuto dall’INFN. E` plausibile che Aurora
possa produrre una macchina da una decina di Tflops entro la fine del 2010 e che la rete APE sia pronta per la
stessa data (in quest’ultimo caso e` probabile che 10 Tflops si possano ottenere a metà del 2011). Il processore 
APE dedicato seguirà una strada parallela perché soggetto a tempi più lunghi rispetto a quanto necessario nei
prossimi 2-3 anni.
3) I due progetti sono irriducibili (no way di farli convergere in uno solo) e forse non e` stato un male che siano
ancora in vita entrambi; con un minimo di sostegno a APE si potrebbe rimandare la scelta alla primavera 2010;
4) Non e` tuttavia possibile accumulare altri ritardi dell’ordine di un anno . E` dunque necessario (essenziale,
inderogabile, urgente) che già da ora fatta una roadmap realistica per avere 10-20 Tflops nel 2010 (al
momento questo sembra possibile solo con Aurora), 100 nel 2011 (ApeNET + finanziamento della regione Lazio
per SuperB o Aurora) e per avviarsi al Pflops a ridosso del 2012.
5) La CSN4 sostiene e sosterrà con il massimo vigore e entusiasmo la realizzazione di un adeguata facility di
calcolo e cercherà di stimolare in ogni modo la Giunta e il Presidente a agire tempestivamente. Le condizioni per il
successo dell’impresa sono, a mio parere, che l’INFN riesca a elaborare un piano scritto e preciso già da oggi, lo
deliberi e lo persegua, monitorandolo, con decisione e coerenza.
05/10/2010
UPDATE sulle attivita' di calcolo di Gr.IV
page 15
Scarica

Attivita` di Calcolo gr.IV - Dipartimento di Fisica e Scienze della Terra