Gruppo Storage Relazione attivita’ primo semestre 2005 e pianificazione 2006 Alessandro Brunengo Riunione CCR 20/10/2005 Mandato Il gruppo e’ stato costituito da CCR nella riunione del 21/02/2005 L’obiettivo del gruppo e’ di fornire una valutazione sull’opportunita’ di utilizzare la tecnologia Fiber Channel per ospitare lo storage dei servizi centrali delle sezioni CCR ha indicato esplicitamente la partecipazione al gruppo dei rappresentanti di Lecce, Roma1, Trieste, CNAF e Genova (coordinatore), ma di farne un gruppo aperto ai contributi di altre persone interessate Al gruppo e’ stato richiesto di relazionare alla riunione di CCR di ottobre 2005 Riunione CCR 20/10/2005 Partecipanti 22 iscritti alla mailing list, quasi tutti con partecipazione attiva alle riunioni 12 sezioni rappresentate: Ba, Bo, CNAF, Ct, Ge, Le, LNL, Pd, Pi, Roma1, Ts C’e’ un crescente interesse per le attivita’ del gruppo, con richieste di nuove iscrizioni alla mailing list Sito web assolutamente embrionale, ospitato temporaneamente in http://www.ge.infn.it/calcolo/progetti/storage (al solo fine di poter accedere ai lavori presentati nelle riunioni) Riunione CCR 20/10/2005 Attivita’ Diversi argomenti su cui e’ stata sviluppata attivita’ – valutazione dell’hardware FC gia’ installato – analisi e test delle possibili architetture FC che possano garantire affidabilita’ – test sui file system disponibili – technology tracking – partecipare alla attivita’ della task force di HepiX sullo storage A queste si e’ in seguito manifestato interesse anche per questioni legate all’impatto di GRID sui sistemi di storage – SRM/dCache ed SRM/DPM – StoRM: SRM per parallel file system (GPFS, LUSTRE) Riunione CCR 20/10/2005 Architetture e ridondanza Trieste Tape Library Genova Infortrend FC-FC Infortrend FC-SATA SAN Switch Storage Servers GPFS/NFS/Castor Mail Cluster AFS Server Switch Ethernet Switch Ethernet Switch Ethernet FARM Riunione CCR 20/10/2005 Benchmark GPFS vs NFS/Ext3 Client I/O (write) Client I/O (read) MB/s MB/s 140.00 NFS (ext3) 250.00 GPFS (1 srv, 1 NSD) 121.60 120.00 120.00 NFS (ext3) GPFS (2 srv, 2 NSD) 210.00 209.00 GPFS (1 srv, 1 NSD) 200.00 GPFS (2 srv, 2 NSD) 103.00 100.00 89.40 89.00 88.00 150.00 80.00 113.00 60.00 116.50 114.60 108.00 100.00 42.80 40.00 38.00 67.00 60.20 32.70 46.00 50.00 20.00 0.00 0.00 1 client 2 clients 4 clients 1 client Riunione CCR 20/10/2005 2 clients 4 clients Raw ethernet throughput vs time Results of read/write (1GB different files) Lustre write GPFS write Lustre read (20 x 1GB file simultaneous reads with Lustre) GPFS read 6 5 4 3 2 1 12 0 10 0 80 60 40 20 9 7 5 3 0 1 Effective average throughput (Gb/s) Benchmark GPFS vs Lustre # of simultaneous read/writes Riunione CCR 20/10/2005 Considerazioni sulla tecnologia SAN su Fiber Channel Vantaggi della tecnologia: rende possibile utilizzare diverse funzionalita’ che tecnologie piu’ vecchie non hanno, con un carico di configurazione e gestione relativamente basso – indipendenza del server di disco dal disco stesso – possibilita’ di crescita dinamica di volumi o controller con conseguente espandibilita’ dinamica dello spazio disco disponibile – possibilita’ di accesso concomitante di piu’ server di disco allo stesso volume logico o fisico – possibilita’ di configurare cammini ridondati verso lo stesso volume Problemi della tecnologia: e’ complessa – il suo funzionamento interno non e’ semplice, e non sempre le specifiche che lo renderebbero “plug and play” si rivelano soddisfatte dalle implementazioni – modifiche della topologia richiedono un lavoro di apprendimento sulle metodologie di gestione della SAN che non sono schematizzabili in un breviario (non e’ “Ethernet”) Nel complesso il costo di apprendimento della tecnologia (una – due settimane per realizzare una struttura di base) risulta ben speso a fronte dei vantaggi che Fiber Channel offre a livello di funzionalita’ Riunione CCR 20/10/2005 Considerazioni sulla tecnologia dei dischi Si puo’ suggerire di utilizzare dischi FC o SCSI in luogo di dischi SATA? – il disco FC/SCSI e’ piu’ affidabile, piu’ veloce sia nel posizionamento che nella rotazione, piu’ piccolo di dimensione, piu’ costoso – il tipo di accesso (sequenziale per grossi file vs. accesso continuo di molti piccoli file) puo’ aumentare di molto il rapporto di affidabilita’ e prestazioni tra le diverse tecnologie – come singolo disco per servizi critici e’ certamente da preferire la soluzione FC o SCSI – in un sistema RAID, la ridondanza e l’effetto delle prestazioni del controller riducono il gap di affidabilita’ e di prestazioni: si puo’ compensare ulteriormente la minore affidabilita’ dei dischi SATA con l’utilizzo di ridondanza RAID6 (in produzione a Bari) – per volumi di grosse dimensioni la differenza di costo puo’ diventare importante Non e’ da escludere la possibilita’ di utilizzare la tecnologia piu’ costosa in condizioni di volumi limitati, importanza dei dati (mail, home dir), accesso non sequenziale Riunione CCR 20/10/2005 Considerazioni sui file system Si e’ molto lavorato sui file system paralleli (PVFS, GFS, GPFS, LUSTRE) – GPFS: efficiente, scalabile (fino a 250 client senza il supporto IBM), fornisce ridondanza di accesso al volume, espandibilita’ dinamica dei volumi, replicabilita’ dei dati…, a costo zero il software, non l’assistenza (prezzi non definiti) – Lustre: piu’ performante, piu’ scalabile, ha grosso modo tutto quello che ha GPFS, ma costa caro (prezzi per ora non ufficializzati) L’utilizzo di FS paralleli sara’ strategico al Tier1 (ammesso che si possano utilizzare su questi file system i servizi SRM). GPFS e’ in produzione al Tier1, a Trieste ed a Catania, e sara’ in produzione a Genova a breve. Riunione CCR 20/10/2005 Impatto di GRID sullo storage GRID richiede che il sistema di storage sia dotato di una sovrastruttura (SRM) che fornisca servizi aggiuntivi – – – – – – namespace unificato access control list file pinning reservation time-to-live del file accesso tramite certificati utente L’attuale stato dell’arte vede due implementazioni operative (SRM/dCache ed SRM/DPM) che operano su ext3 E’ in fase di completamento una interfaccia SRM per file system paralleli (GPFS/LUSTRE) che sapra’ sfruttarne le caratteristiche La situazione e’ in evoluzione rapida, ma il requisito iniziale potrebbe imporre vincoli alla struttura di storage sottostante; la cosa va tenuta sotto osservazione ed eventualmente sollecitata in base a potenziali esigenze (vedi ad. es. StoRM) Riunione CCR 20/10/2005 Considerazioni sui costi Il gruppo ritiene che non sia corretto fare una valutazione del costo del disco per TB – una soluzione SAN implica un costo iniziale di infrastruttura, che impatta sul costo/TB in funzione della dimensione iniziale del disco, e successivi incrementi di spazio disco possono avere un costo/TB molto inferiore rispetto all’acquisto iniziale – la soluzione scelta puo’ avere costi molto differenti in base al progetto, all’hardware di riferimento, alle dimensioni – lo stesso costo del disco valutato sullo spazio lordo puo’ essere solo parzialmente significativo, in quanto lo spazio netto di disco utilizzabile a partire da una certa dimensione lorda dipende dal numero di dischi che si vogliono dedicare alla ridondanza E’ quindi ragionevole valutare la congruita’ di una richiesta di finanziamento per storage in base al complesso di requisiti, progetto, soluzione tecnica identificata, hardware ritenuto idoneo – piu’ importante valutare il progetto in base alle esigenze ed ai programmi di crescita futura, valutando il costo della infrastruttura ed il costo per l’espansione dei volumi separatamente Riunione CCR 20/10/2005 Costi: esempi Acquisto infrastruttura a Genova (inizio anno) – Infortrend Eonstor A16F-R1211 (FC-SATA)+2*switch FC Emulex 355+4 HBA Qlogic QLA3242+16 HD 250 GB (4 TB lordi) totale: 35 KЄ (25+10) – espansione con Jbod 16 HD 500 GB (8 TB lordi) totale: 10 KЄ Offerta recente per Finuda – Infortrend Eonstor A16F-R1211+Jbod+3 HBA Qlogic QLA2342+32 HD 400 GB (12.8 TB lordi) totale: 33.5 KЄ (20+13) Acquisto recente a Catania – Xyratec RIO FC-FC+4 Jbod (64 HD 400 GB)+2 server (25.6 TB lordi) totale: 60 KЄ (20+40) Costo di soluzioni NAS/DAS SATA – mediamente ~ 1.8 KЄ/TB Riunione CCR 20/10/2005 Programma per il futuro Il mandato ha richiesto al gruppo di analizzare la funzionalita’ di soluzioni SAN/FC per lo storage dei servizi centrali, e l’opportunita’ di adottarle La gestione dello storage nel prossimo futuro assumera’ grande importanza non solo per i servizi centrali ma, con caratteristiche diverse per dimensione e requirements, per i siti che ospiteranno i Tier Il gruppo ritiene che i suoi obiettivi dovrebbero essere rivisti ed ampliati, finalizzando la sua azione nei diversi punti – costituire un luogo in cui persone con problemi uguali possano confrontarsi e sviluppare soluzioni sfruttando l’esperienza di altri e portare avanti un lavoro di sviluppo e ricerca coordinato – monitorare l’andamento della tecnologia per provare soluzioni alternative (esempi attuale sono iSCSI ed InfinyBand) – partecipare attivamente a gruppi che operano nel campo dello storage in consessi piu’ ampi (ad esempio, il gruppo storage di HepiX) – mantenere il contatto – ed eventualmente operare attivamente – con gli sviluppi di GRID ed i requirements che GRID imporra’ al sistema di storage – realizzare un centro di competenza che possa far circolare le informazioni ed a cui poter fare riferimento Riunione CCR 20/10/2005 Pianificazione test su iSCSI Il gruppo vuole analizzare la tecnologia iSCSI per le sue potenzialita’ analoghe a FC ed il costo complessivamente inferiore, procurandosi in conto visione uno switch iSCSI/SCSI ed iSCSI/FC capace di gestione di volumi virtuali (repliche, snapshot, aggregazione), ed un disco iSCSI nativo Si pianifica il lavoro specifico su iSCSI in due fasi – analisi sulle funzionalita’ (a Pisa) su una piattaforma dedicata, della durata di 4-5 mesi – analisi delle prestazioni iSCSI in condizioni di elevato carico di I/O (al CNAF), della durata di 2 mesi per arrivare ad una raccomandazione per settembre 2006 Le persone interessate ai test sono quattro (Pisa, Trieste, CNAF) Riunione CCR 20/10/2005 FTE? Da una discussione approfondita risulta difficile applicare il concetto di FTE per le attivita’ pianificate del gruppo – in generale le persone afferenti ai gruppi di lavoro svolgono le attivita’ in concorrenza con le proprie mansioni ordinarie, che talvolta coincidono – non e’ semplice fornire una valutazione definita di un numero (FTE) che dovrebbe essere riconosciuto ed approvato all’interno della struttura di appartenenza, e che spesso potrebbe divenire privo di reale significato Pare piu’ ragionevole darsi degli obiettivi ben definiti, con una definizione precisa di tempi (ragionevoli), e identificare le persone che sono interessate al task specifico, tenendo monitorata con continuita’ l’evoluzione dei lavori in modo da applicare correttivi in caso di necessita’ Una discussione su questo punto in CCR e’ benvenuta e dovrebbe riguardare tutti i gruppi di lavoro Riunione CCR 20/10/2005 Richieste di finanziamento Inventariabile: – – – 5.0 KЄ per due disk server dotati di interfaccia iSCSI 6.0 KЄ per due switch con 24 porte 100/1000 in rame 20 KЄ per uno switch iSCSI/FC e iSCSI/SCSI con funzionalita’ di gestione di volumi virtuali (in seconda priorita’) i disk server e lo switch hanno lo scopo di installare un laboratorio dedicato a test sullo storage, che permetta di valutare soluzioni tecnologiche diverse senza dover condividere risorse con sistemi in produzione; in particolare per il 2006 si desidera effettuare test sulla tecnologia iSCSI. Il progetto e’ di testare sia lo switch iSCSI che un disco iSCSI (controller RAID con interfaccia iSCSI) da procurarsi in conto visione; un eventuale acquisto di uno di questi oggetti potrebbe essere di interesse solo dopo i test, pertanto il finanziamento per questo acquisto va considerato in seconda priorita’ La sede che si e’ scelta per la destinazione del materiale e’ Pisa Missioni: – – 1.5 KЄ di missioni interne e 2.5 KЄ di missioni estere per la partecipazione di una persona del gruppo alle due riunioni che HepiX terra’ nel 2006 (sez. di ???) 3.0 KЄ di missioni estere per la partecipazione di una persona del gruppo a 3 riunioni task force di HepiX sullo storage (da assegnare al CNAF) Riunione CCR 20/10/2005