MINNI GRID ENEA EmMa/Farm su GRID: avanzamento dei lavori per la Convenzione e prestazioni del sistema Andrea Cappelletti – ENEA Pisa Gino Briganti – ENEA Pisa Progetto MINNI Riunione plenaria 23-24 marzo 2011 Minni/GRID Obiettivi fare il punto sulle simulazioni fatte nel quadro della Convenzione; dare una idea, seppure sommaria, dell’evoluzione delle prestazioni del sistema MINNI su GRID; evidenziare problemi e punti critici; aggiornare sui tempi di esecuzione del calcolo delle concentrazioni, emissioni e matrici in vista del lavoro futuro; Minni/GRID Convenzione Nickname Anno emiss. Anno meteo Versioni EmMa/Farm 20Km 4Km 1999 1999 1999 4.0/2.9.1 IT0 XX0 2005old 2005 2005 4.0/2.9.1 IT0 XX0 2005svi 2005 2005 4.0/2.9.1 IT0 XX0 ATMtest 2005 2005 4.0/2.12 2005 2005 2005 5.1/2.13.5 IT0 XX0 2003 2003 2003 5.1/2.13.5 IT0 XX0 2015noCP 2015 2005 5.1/2.13.5 IT2 XX2 2005noCP 2005 2005 5.1/2.13.5 IT2 XX2 2010noCP 2010 2005 5.1/2.13.5 IT2 2020noCP 2020 2005 5.1/2.13.5 IT2 ATM 2015 2005 5.1/2.13.5 20x20 20x20 Note XX = NI, CI, SI, SC, SA Rispetto al 2005old : sottoinsieme di emi., con., dep. Termini del 1°, 2° ordine e misti (2x2x5=20) Rispetto al 2005old: agg. emis., param. punt. e areali, traf. mar., risosp, att.agr., layers. OMP, (TUV, data ass.),LSODE,debug, ∆t=300s Scenari GAINS senza C.P. Convenzione: solo 20 Km Termini del 1° ordine (5 x 20 = 100 runs) Bold: dall’ultima plenaria, Ciano: Arianet, Rosso: fuori Convenzione Minni/GRID ubicazione concentrazioni Nickname Server Main directory 1999 gpor_minni1 2005old gpor_minn1 2005svi gpor_minni1 ATMtest gpor_minni2 2005 gpor_minn1 XX0 2005_2.13.5_saprc90noTUV 2003 gpor_minni2 XX0 2003_2.13.5_saprc90noTUV 2015noCP gpor_minni3 XX2 2015_2.13.5_saprc90noTUV 2005noCP gpor_minni3 XX2 2005_2.13.5_saprc90noTUV 2010noCP gpor_minni3 XX2 2010_2.13.5_saprc90noTUV 2020noCP gpor_minni3 XX2 2020_2.13.5_saprc90noTUV ATM gpor_minni2 minni/minnifarm/farm/out minni/minnifarm/ATM/out minni/minnifarm/farm/out minni/minnifarm/ATM/out Zona Ubicazione concentrazioni XX0 1999_2.9.1_saprc90noTUV XX0 2005_2.9.1_saprc90noTUV XX0 2005svi anno_em/anno_me/fact%/precurs/ regione anno_em/anno_me/fact%/precurs/ regione XX = IT (Italy 20x20), NI (Nord 4x4), SI (Sud 4x4), CI (Centro 4x4), SC (Sicilia 4x4), SA (Sardegna 4x4) Minni/GRID ubicazione emissioni Nickname Server Main directory 1999 gpor_minni1 2005old gpor_minn1 2005svi gpor_minni1 ATMtest gpor_minni2 2005 gpor_minn1 XX0 2005 2003 gpor_minni2 XX0 2003 2015noCP gpor_minni3 XX2 2015 2005noCP gpor_minni3 XX2 2005 minni/minnifarm/farm/inp minni/minnifarm/ATM/inp minni/minnifarm/farm/inp Zona Ubicazione emissioni XX0 1999 XX0 2005old XX0 2005svi fact%/precurs/ regione/anno/decade/giorno 2010noCP 2020noCP ATM gpor_minni2 minni/minnifarm/ATM/inp Note fact%/precurs/ regione/anno/decade/giorno XX = IT (Italy 20x20), NI (Nord 4x4), SI (Sud 4x4), CI (Centro 4x4), SC (Sicilia 4x4), SA (Sardegna 4x4) No IT Minni/GRID post processing Anni meteo/scenari: medie stagionali ed annuali di CO, SO2, O3, NO2, PM10 valori annuali di AOT40f, AOT40c, SOMO35, superamenti O3 > 120 ug/m3 scores 2005 (confronti db AirBase/BRACE) ATM: medie annuali di O3, PM25, PM10, NO2 deposizioni totali di S, N, NH SOMO35, AOT40f, AOT40c medie stagionali (calda/fredda) ed annuali di PM10, PM10w, PM25, PM25w coefficienti del 1° ordine per ATM (20 x 5 = 100 files ascii) Cijk E P R i, j : cella 2D, k : rec., P : prec., R : reg ., : media annuale Post processing si trova su /gpor_minni2/minni/minnifarm/post_farm Minni/GRID evoluzione FARM Estate 08 – Fine 09 Inizio 10 – Marzo 11 versione 2.9.1 versione 2.13.5 codice seriale notevole disponibilità di code seriali codice parallelo OMP GRID affollata GRID poco affollata 1 mese 20x20 1 mese 4x4 (NI) numerose code parallele 20 ore 1 mese 20x20 8 ore 120 ore 1 mese 4x4(NI) 24 ore max 40/50 jobs alla volta Tempo di attesa = 14 g max 40/50 jobs alla volta Tempo di attesa = 7 g Minni/GRID evoluzione EmMa Estate 08 – Fine 09 Inizio 10 – Marzo 11 versione 4.0 versione 5.1 codice seriale strategia « giorni tipo » prevista ma non utilizzata codice seriale Strategia « giorni tipo »* integrata numerose code seriali 1 coda seriale affollata GRID poco affollata 1 dec 20x20 1.5 ore 1 mese* 20x20 2-3 ore 1 dec 4x4 (NI) 5 ore 1 mese* 4x4 max 40/50 jobs alla volta Tempo di attesa = 2 g 7-12 ore max 5/10 jobs alla volta Tempo di attesa = 5-10 g Minni/GRID tests su EmMa (fpga6) PFS: uso di fs PFS come scratch, TMP: uso del fs /tempwork come scratch Minni/GRID ATM Emissioni (5.1) Concentrazioni (2.13.5) Jobs annuali Jobs annuali coda seriale affollata codice parallelo Solo 1° termine (5 x 20 = 100) code parallele disponibili 5-10 jobs alla volta 30-40 jobs per volta Tempo di attesa = 5-10 g Tempo di attesa = 10-15 g 1 feb 2011 – 10 marzo 2011 Minni/GRID prestazioni del sistema la parallelizzazione di FARM ha permesso un abbattimento dei tempi sia di per se che per l’accesso alle code parallelle ma il vantaggio è stato annullato dal peggioramento delle prestazioni di EmMa e dall’affollamento della coda seriale 16 gg -> 14-19 gg; il contenimento dei tempi di esecuzione di EmMa ha comportato la riscrittura delle procedure e l’adozione di strategie ad hoc poco automatizzabili e condivisibili (dall’industriale all’artigianale). Tempi di attesa molto variabili; l’affollamento dell’unica coda seriale obbliga a calcoli mensili/annuali per EmMa (non si sfrutta la multiserialità) Tempo (gg) EmMa Farm Totale 20x20 1 1 2 4x4 5-10 7 12-17 ATM 5-10 10-15 15-25 Minni/GRID attività sviluppo Programma per il calcolo degli scores statistici (F90 OMP); Riscrittura degli scripts per il lancio di EmMa (versione 5.1) su GRID: • bypass dei makefiles originari e controllo diretto degli eseguibili crtemp, mpem2farm, pem2grid (modulazione temporale); • ricerca automatica delle aree scratch disponibili (/dev/shm -> /tempwork -> GPFS) • ricerca dei nodi liberi sulla coda seriale e distribuzione dei jobs in modo da evitare l’accumulo di jobs su un unico nodo (da perfezionare a mano) Aggiornamento degli scripts di lancio di FARM/ATM per sfruttare al massimo la presenza di molte code parallele di breve durata; Sviluppo di routine F90 per la lettura/scrittura di file netcdf MINNI Minni/GRID evoluzione software Estate 08 – Fine 09 Inizio 10 – Marzo 11 Uso dei filesystem condivisi (AFS/PFS) come aree per dati e aree di lavoro Uso dei fs condivisi per i dati e fs locali (/tempwork /dev/shm) come aree di lavoro Uso delle utilities NCO per manipolare files netcdf Sviluppo di programmi F90 per manipolare files netcdf Uso delle code seriali per il pre/post processing Parallelizzazione programmi F90 e uso delle code parallele anche per le attività di pre/post processing I nodi di CRESCO hanno tutti un disco locale veloce da 20 GB (le macchine cresco-fpga1,2,3,4,6 hanno un disco da 250 GB Tutti i nodi di CRESCO hanno una ragguardevole RAM (da 32 a 216 GB) e un disco su RAM di 8-32 GB Il paradigma OMP per la parallelizzazione è relativamente facile Minni/GRID problemi aperti e warnings run identici di Farm possono dare luogo a risultati differenti sui « balance », anche dell’ordine del 10-20%. E’ stato compilato Farm 2.13.5 su grid con diverse opzioni (scalare, parad. OMP) ma non si è capito il motivo. A livello di medie stagionali e ATM ciò non costituisce problema. Prove sospese per mancanza di tempo; segnalazione di errore con EmMa 5.1 su GRID in fase di preprocessamento: errore in lettura di un file. Comportamento casuale. è emerso un problema con la versione 5.1 in concomitanza con l’esecuzione di più istanze EmMa (modulazione temporale) sullo stesso nodo: non si può utlizzare come area di lavoro il fs PFS e la situazione è critica con i fs locali del nodo (/tempwork); coda seriale perennemente affollata; l’adozione dello schema chimico SAPRC99+TUV aumenterà di 3-4 volte (20x20) il tempo di esecuzione per FARM; inventory comunali comporteranno un aumento di 2-4 volte (1999) il tempo di attesa per EmMa; criticità dell’ipotesi « giorni tipo » per EmMa; Minni/GRID da fare Software per la ricostruzione degli scenari GAINS dalle ATM (si parte da programmi ARIANET); Stabilizzare (se possibile) le procedure di EmMa5, esplorando la possibilità di avere una coda seriale dedicata a MINNI; Calcolare le ATM con anni meteo (1999), 2003, 2007 Run nazionale anno 2007 Completare i test su FARM E’ auspicabile stabilire una convenzione sui nomi da assegnare alle directories per l’archiviazione delle emissioni/con./dep./icbc/meteo di MINNI Minni/GRID cluster MINNI rapporto cpu/nodo minore possibile (8 nodi da 8 cpu anziche 4 nodi da 16 cpu) disco alta performance per ciascun nodo > 100 GB RAM di almeno 32 (meglio 64) GB di cui metà da dedicare a disco