Simone Tinti HPC dept. – System Engineer [email protected] Attività R&D •Analisi mercato: prodotti e campi di impiego •Analisi dei componenti •Studi di compatibilità •Misura ed analisi di prestazioni •Tuning sistemi •Validazione soluzioni HPC •Affidabilità www.e4company.com [email protected] Evoluzione sistemi HPC •L’utilizzo di architetture cluster e’ in continua ascesa, attualmente costituiscono la piattaforma piu’ diffusa per lo sviluppo di applicazioni HPC www.e4company.com • Nov 2006: il 72% dei sistemi presenti nella TOP 500 e’ basato su cluster [email protected] Evoluzione sistemi operativi • Migrazione da sistemi UNIX a Linux www.e4company.com [email protected] Evoluzione verso gli standard di mercato Processor Family 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 2001 • Il 75% dei sistemi è basato su CPU x86 32/64 bit Other AMD + INTEL 2002 2003 2004 2005 • I sistemi di recente adozione sono basati su CPU multi-core 2006 Interconnessioni 50% • Gigabit Ethernet entry level 40% 30% •Progressiva riduzione delle soluzioni proprietarie 20% 10% 0% Gigabit Ethernet www.e4company.com Myrinet Infiniband Other [email protected] Evoluzione sistemi HPC •Architettura sistemi • Hardware Semplicità (CPU, Interconnesioni) Standard •Software Open source (SO, MPI) •La tecnologia basata su “commodity of the shelf” si va consolidando come la soluzione ideale per le applicazioni HPC: •Miglior rapporto prezzo/prestazioni •Flessibilità •Ampia diffusione => scambio di conoscenze con un ampia community •Facile integrazione con infrastrutture preesistenti www.e4company.com [email protected] Integrazione di un sistema HPC Requisiti Progettazione Dimensionamento Selezione componenti Interconnessione Deployment Integrazione di servizi Validazione del sistema www.e4company.com [email protected] Progettazione di un cluster HPC Componenti / Dimensionamento I/O bound Memory bound CPU bound Codici eterogenei •Architettura del nodo computazionale •UMA (INTEL) •NUMA (AMD) Analisi dei requisiti •Nsocket / nodo Elemento essenziale nella progettazione di un sistema •Ncore / socket •RAM ( GB/core) •Interconnessione •Topologia •Tecnologia •GbE •10 GbE •Infiniband •Myrinet www.e4company.com [email protected] Scelta del nodo computazionale Architettura Non Uniform Memory Access Architettura Uniform Memory Access (AMD) (INTEL) •Fattore di forma: [1U,5U] •Fattore di forma: [1U,6U] •Nsocket: [1,8] •Nsocket: [1,4] •Ncore: [2], 4 da luglio 2007 •Ncore: [2,4], 8/16 nel 2008 •Blade: 264 core/rack (1,37 TFLOPS@2,6GHz) •Blade: 7U, 28 socket, 56 core •New: blade quad core 528 core/rack!!! (2,8 TFLOPS@2,66GHz) Dato l’alto numero di combinazioni possibili per effettuare la scelta più idonea occorre affidarsi a: •Analisi •Esperienza … ma soprattutto test! www.e4company.com [email protected] Nodi computazionali INTEL • Soluzione “classica”: biprocessore dual/quad core, 16 DIMM socket (32GB) Twin 1U • 2 motherboard in uno chassis • 2 CPU quad core / motherboard => 16 core in 1U (85GFLOPS) • Alimentatore condiviso => alta efficienza •2 x Infiniband 20Gbps HBA integrati •2 x 8 DIMM socket (32GB/chassis) www.e4company.com [email protected] Nodi computazionali AMD • Soluzione “classica”: biprocessore dual core, 16 DIMM socket (32GB). Quad core da luglio 2007 E8344: 3U - 4 way Opteron • 4 CPU Opteron Dual Core • 32 DIMM socket (128GB RAM) • 3 slot PCI-Express (2 slot 16x) • 3 slot PCI-X 133MHz 64 bit • 6 HD • Versatile: • Nodo di calcolo • Piattaforma per CAE •Server per applicazioni grafiche www.e4company.com [email protected] Nodi computazionali AMD E85xx: 5U - 8 way Opteron • 8 CPU Opteron Dual Core • 32 DIMM socket (128GB RAM) •2 slot PCI-Express 16x •8 HD • Soluzione di managment • Sistema SMP ideale per simulazione di modelli complessi in ambito fisico, chimico, biomedico www.e4company.com [email protected] Soluzioni blade AMD / INTEL • Densità estrema: INTEL •66 blade biprocessore quad core •528 core / rack •2,8TFLOPS / rack AMD •66 blade biprocessore dual core AMD Opteron •264 core / rack •1,37 TFLOPS / rack • Interconnessione : GbE, Myrinet, Infiniband • Sistema di raffreddamento innovativo • Alimentazione ad alta efficienza •Ie blade sono alimentate in DC, al conversione AC-> DC avviene all’ingresso del rack. •Efficienza 83%, contro i tradizionali 63-73% www.e4company.com [email protected] Interconnessioni • Gigabit Ethernet entry level su tutte le soluzioni • Myrinet 10Gb/s • Infiniband DDR 20 + 20 Gb/s (100 Gb/s a breve termine), anche integrata sulla motherboard. Infinipath su slot HTX, per latenze inferiori ai 2 microsecondi • La prima installazione infiniband (24 nodi Opteron) risale al giugno 2005 (CASPUR). Espansa a 36 nodi dati gli eccellenti risultati. www.e4company.com [email protected] Integrazione di un sistema HPC Requisiti Progettazione Dimensionamento Selezione componenti Interconnessione Deployment Integrazione di servizi Validazione del sistema www.e4company.com [email protected] Integrazione di servizi • L’offerta HPC è integrabile da una gamma completa di soluzioni storage (DAS, NAS, SAN) Infiniband switch IB storage FC storage VIC (Virtual I/O controller) IB to FC or Ethernet www.e4company.com •Tendenza: System Area Network. Interfaccia Infiniband per MPI e accesso a storage (QoS) •Recupero degli investimenti tramite integrazione di dispositivi preesistenti sul l’infrastruttura infiniband (es. gateway IB to FC “trasparenti”) [email protected] Storage Server • Soluzione ad alta flessibilità e basso costo sviluppata presso i nostri laboratori, basata su commodity of the shelf: •2 CPU Dual core Woodcrest •RAM dimensionabile secondo le esigenze (fino a 16GB DDR2 FBDIMM) E5475 – up to 12TB •Controller SAS/SATA multi lane ad altissime prestazioni •12 TB in 4U •24 TB in 7U •2HD dedicati per il SO •Scelta dai professionisti: •65 storage 4U CERN Ginevra, 70 presso uno dei maggiori ISP E5730 – up to 24TB •7U lab Gran Sasso, CASPUR www.e4company.com [email protected] Flessibilità •Compatibile con le principali distro Linux (Red Hat, SUSE, Scientific Linux…). •Implementabile anche su piattaforma MS Windows •SATAII/SAS •Interfaccia esterna: •Dual Gb • Aggregated 4Gb •10 Gb Ethernet •Infiniband 20Gb+20Gb per soluzioni HPC •Differenti campi applicativi: •Back up, nearline storage •Video server •File server •Storage HPC www.e4company.com Potenza • Oltre 350 MB/s Writing, 500MB/s Reading (iozone, xfs, 15HD SATA 7.200 rpm Raid 5) • Implementabile in tecnologia SAS 15000 rpm • Ottime performace in ambienti con accessi concorrenti (stabile con oltre 100 processi da 2GB) Affidabilità •2 HD dedicati al SO (Raid 1) su controller dedicato • Gestione hardware dei principali livelli Raid (tipicamente 5,6) •Battery backup unit •IPMI compliant • Managment • Alimentazione ridondata hot swap [email protected] Storage Area Network •Unico Qlogic Signature Partner in Italia •Realizzate con le più recenti soluzioni tecnologiche. Stato dell’arte: tecnologia Fibre Channel 4+ 4 Gb multipath •Soluzioni in HA •Failover per ambienti critici (es finance, biomedics..) • Realizzazione di SAN in ambienti eterogenei: •Istituti di credito •Enti pubblici (Ministero Tesoro) •Meteorologia (ARPA) •Biomedicina (Chiron/Novartis) •Industria/commercio •Elaborazione immagini/ visione artificiale www.e4company.com [email protected] E65xx Caratteristiche tecniche • Chassis 2U •12 HD SAS/SATA II •SATAII: fino a 9 TB •SAS: fino a 3,6 TB •Full system, 10U – 5 chassis •SATA II: 42 TB •SAS: 16,8 TB •Possibilità di mix SATAII/SAS per differenziare aree back-up e intensive I/O •Interfaccia host: •Super capacitor cache back up •Fibre channel 4Gb •Mirrored cache (Simulcache) •SAS •Assured snapshot •iSCSI •Infiniband (entro 2007) www.e4company.com [email protected] Fibre Channel Interface Forecast 2004 2005 2006 2007 2008 1 Gb/s 1.0% 0% 0% 0% 0% 2 Gb/s 93.0% 64.1% 17.0% 3.0% 0% 4 Gb/s 5.0% 32.4% 75.0% 85.0% 73.0% 8/10 Gb/s 1.0% 3.5% 8.0% 12.0% 27.0% Source: Gartner Dataquest (November 2005) www.e4company.com [email protected] SAN per HPC •Grazie alla collaborazione nata con Data Direct Network possiamo offrire soluzioni estreme in ambito storage Fino a 560TB in un singolo storage system •+3GB/s sustained performance, sia in lettura che scrittura •Petascale solution (transfer rate nell’ordine dei TB/s) • Ideale per: HPC, Visualization, Modeling Simulation, Real-Time Data Acquisition, Biomedicine, Genomics, Medical Imaging, Oil & Gas •Soluzioni adottate dai sistemi più performati della TOP500, ma anche nel settore finanziaro e “rich” media (WB, CNN, Disney, BBC, FOX, Time Warner…) www.e4company.com [email protected] Ulteriori servizi Monitoring / management Infrastrutture ambientali •soluzioni free, open source (Torque, MAUI, System Imager, Ganglia) • soluzioni enterprise (SCALI Manage, Altair PBS Pro…) Tool di sviluppo ed ottimizzazione •Compilatori INTEL, Pathscale, PGI •INTEL VTune performance analyzer Dispositivi programmabili •multi-threaded array cooprocessor •FPGA www.e4company.com [email protected] Integrazione di un sistema HPC Requisiti Progettazione Dimensionamento Selezione componenti Interconnessione Deployment Integrazione di servizi Validazione del sistema www.e4company.com [email protected] Validazione dei sistemi •Affidabilità: elemento essenziale, garantito dal ciclo produttivo di E4 •Selezioni componenti di qualità •Processo produttivo curato in tutti i dettagli •Burn-in •Almeno 72h prove di stress accelerato in stanza con condizioni climatiche limite •24h Test di tutti i sottosistemi singolarmente •48h test di tutti i sottosistemi contemporaneamente www.e4company.com [email protected] Conclusioni Semplicità •COTS •Tool di management www.e4company.com Potenza •Sistemi ad alta densità basati su CPU multi-core •Interconnessioni low latency / high bandwith Affidabilità • SW consolidato •Selezione HW •Accurato testing del sistema • Monitoring / management Integrazione •Storage Area Network •System Area Network •FPGA, cooprocessor [email protected] Grazie per l’attenzione!