Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso Introduzione È importante cercare di capire se le funzioni necessarie per SC4 e per il lavoro di esperimento sono supportate e con che livello di affidabilità Il goal primario è quello di aiutare i tier2 ma alcuni parametri potrebbero essere utili anche al tier1 È importante prendere in considerazione tutti gli aspetti dei software (da ordinare in funzione della priorità che si vuole dare): • • • • • • Funzionalità base Performance Stabilità operativa Supporto Possibilità di sviluppi futuri Funzionalità avanzate La valutazione dei sistemi deve tenere in considerazione ognuno di questi aspetti Modalità di test Primo livello di test, da farsi in qualsiasi sito (tier2): • Sono importanti test di installazione (per valutarne la facilità) • Vanno fatti test per coprire le funzionalità di base • Alcuni test sulla stabilità operative in caso di failure simulate Secondo livello di test, da farsi nel testbed al CNAF: • Test di performance alla scala di un futuro Tier2 Sia con programmi contruiti ad arte per “stressare il sistema”, sia con applicazioni reali dei 4 esperimenti • Test di failure in condizioni di elevato “stress” • Test di funzionalità avanzate Terzo livello di test, esperienze di SC3 • Problemi nell’uso quotidiano • Performance e feedback Test di primo livello Sarebbe necessario procedere in parallelo su più sedi ai test sui vari sistemi: DPM, dCache, StoRM(??), DRM (??) Installare il software con le indicazioni fornite (guide ufficiali più note sul WIKI) • Fornire feedback e/o ulteriori suggerimenti per rendere il più semplice possibile il lavoro dei tier2 durante SC4 Effettuare test di fuzionalità di base per verificare l’installazione • Verrà fornito uno script con pochi test di base da runnare su una UI LCG Effettuare i test di funzionalità richieste da SC4 • Verrà fornito uno script per rendere quando più automatica possibile la procedura Effettuare test di performance e di stress • Verrà usato un client in C scritto ad hoc da eseguire sui WN per evideziare eventuali problemi di scala della configurazione hardware/software Effettuare test con applicativi reali? • Secondo noi questo step andrebbe approntato solo al CNAF Effettuare dei test di integrazione con il DBII di sito Test di secondo livello Concentrare i test sulle performance e sull’affidabilità per failure o per “stress” operativo. Alcuni test su funzionalità avanzate che possono risultare utili in un grosso Tier2 o al Tier1 Motivi: Scalare di un ordine di grandezza la quantità di storage gestito Raggiungere configurazioni hardware (rete e numero di WN) difficilmente raggiungibili in un attuale Tier2 Metodi: Usare il programma di benchmark costruito ad-hoc Usare software e job di esperimento per simulare l’uso reale Simulare l’accesso via SRM (per provare che il sistema può essere in grado di gestire la mole di lavoro necessaria a fornire i 20 MB/sec per ogni tier2 necessari per SC4) Test di secondo livello (2) Configurazione Hardware necessaria: Server: 2 o 3 disc-server con circa 6-8 terabyte 1 admin node (no spazio disco, CPU >1GHz e RAM >1GB) Interfacce di rete gigabit ethernet Client: Almeno 30 client Interfaccia 100Mbit Nessun requirement particolare per CPU e RAM Test di secondo livello Concentrare i test sulle performance e sull’affidabilità per failure o per “stress” operativo. Alcuni test su funzionalità avanzate che possono risultare utili in un grosso Tier2 o al Tier1 Motivi: Scalare di un ordine di grandezza la quantità di storage gestito Raggiungere configurazioni hardware (rete e numero di WN) difficilmente raggiungibili in un attuale Tier2 Metodi: Usare il programma di benchmark costruito ad-hoc Usare software e job di esperimento per simulare l’uso reale Simulare l’accesso via SRM (per provare che il sistema può essere in grado di gestire la mole di lavoro necessaria a fornire i 20 MB/sec per ogni tier2 necessari per SC4) Test di secondo livello Concentrare i test sulle performance e sull’affidabilità per failure o per “stress” operativo. Alcuni test su funzionalità avanzate che possono risultare utili in un grosso Tier2 o al Tier1 Motivi: Scalare di un ordine di grandezza la quantità di storage gestito Raggiungere configurazioni hardware (rete e numero di WN) difficilmente raggiungibili in un attuale Tier2 Metodi: Usare il programma di benchmark costruito ad-hoc Usare software e job di esperimento per simulare l’uso reale Simulare l’accesso via SRM (per provare che il sistema può essere in grado di gestire la mole di lavoro necessaria a fornire i 20 MB/sec per ogni tier2 necessari per SC4) Test di terzo livello In Italia pochi siti hanno fatto esperienza con i sistemi di SRM in produzione. Questa esperienza è fondamentale e va raccolta. Casi Noti: Bari: SC3 CMS • Usato dCache come sistema di produzione (File trasferiti, job girati) LNL: SC3 CMS • Usato DPM in produzione (molti problemi incontrati) Torino: SC3 ALICE • Usato dCache (NO NEWS) Milano: SC3 Atlas • Usato DPM (NO NEWS) … Alcuni dettagli DPM Esperienza precedente: Promette di essere un buon compromesso fra facilità di uso e funzionalità Pensato espressamente per i Tier2 Stabilità operativa non sempre a “production level” Buon supporto Ancora problemi nell’uso in produzione Previsti ottimi sviluppi Elevata velocità ed “efficienza” sull’accesso locale Scalabilità da verificare Attualmente poche funzionalità avanzate Piani chiari per il supporto a SC4 Alcuni dettagli (2) dCache Esperienza precedente: Non semplice da gestire Supporto non sempre puntuale Piani non chiari per il supporto a SC4 Ottima scalabilità Bassa efficienza per accesso locale Stabilità operativa ben provata Funzionalità avanzate utili per i siti più grandi … Alcuni dettagli (3) DPM TO DO: Testing della release 1.4.1 • Funzionalità di base Stabilità • Funzionalità di SRMv2.1 per SC4 Quelle più importanti sono dichiarate implementate • Accesso locale con Bench con job reali • Scalabilità Potrà gestire 100 Tb ?? • Interoperabilità con altri SRM e altri servizi di GRID/SC4 … FTS Alcuni dettagli (4) dCache TO DO: Testing della release 1.6.6 • Funzionalità di base Fix di alcuni problemi evidenziati in SC3 • Funzionalità di SRMv2.1 per SC4 ?? Non è ufficialmente supportato SRMv2.1 Non ci è stata comunicata la possibilità di testare versioni di sviluppo (anche se sembrano esistere) • Accesso locale (con Bench e con job reali) Sembra che anche a FNAL l’efficienza di CPU non vada oltre il 50% • Scalabilità Potrebbe essere una scelta per il tier1?? • Interoperabilità con altri SRM e altri servizi di GRID/SC4 … FTS Alcuni dettagli (5) StoRM TO DO: Testing della prima release • Funzionalità di base Quali sono già implementate? Quanto sono stabili? • Funzionalità di SRMv2.1 per SC4 ?? Dovrebbe supportare SRMv2.1 quindi non ci dovrebbero essere problemi • Accesso locale (con Bench e con job reali) Dovrebbero essere il linea con quelle di GPFS • Scalabilità Potrebbe essere una scelta per il tier1? • Interoperabilità con altri SRM e altri servizi di GRID/SC4 … FTS Alcuni dettagli (6) DRM Overview: Interfaccia SRM verso un file-system standard Fully compliance con SRMv2.1 Può essere una scelta per i siti con piccole esigenze di storage (per sostituire i classicSE) Molto utile per testare gli altri SRM Non sono necessari test specifici e intensivi Test Pianificati http://pccms3.cmsfarm1.ba.infn.it/~sto rage/TestSuite.html Advanced Test dCache Replica temporanea dei file in base al costo di accesso Uso dei WN per bilanciare il carico vacating formatting and reusing a pool Use a very large file-limit (for dcap local access) use a very large login limit (in the gridftp/dcap-door) "Hybrid" dCache replicaManger Conclusioni Molto lavoro da fare in poco tempo Scadenza stretta anche per gli stessi sviluppatori del software Fondamentale il supporto del tier1 Importante la partecipazione di altri Tier2 E’ necessaria una partecipazione degli esperimenti per avere il software che poi verrà usato in SC4 e uno schema del modello di computing che verrà usato