Gruppo Storage
Relazione attivita’ primo semestre 2005
e pianificazione 2006
Alessandro Brunengo
Riunione CCR 20/10/2005
Mandato
Il gruppo e’ stato costituito da CCR nella riunione del
21/02/2005
 L’obiettivo del gruppo e’ di fornire una valutazione
sull’opportunita’ di utilizzare la tecnologia Fiber Channel
per ospitare lo storage dei servizi centrali delle sezioni
 CCR ha indicato esplicitamente la partecipazione al
gruppo dei rappresentanti di Lecce, Roma1, Trieste,
CNAF e Genova (coordinatore), ma di farne un gruppo
aperto ai contributi di altre persone interessate
 Al gruppo e’ stato richiesto di relazionare alla riunione di
CCR di ottobre 2005

Riunione CCR 20/10/2005
Partecipanti
22 iscritti alla mailing list, quasi tutti con
partecipazione attiva alle riunioni
 12 sezioni rappresentate: Ba, Bo, CNAF, Ct, Ge,
Le, LNL, Pd, Pi, Roma1, Ts
 C’e’ un crescente interesse per le attivita’ del
gruppo, con richieste di nuove iscrizioni alla
mailing list
 Sito web assolutamente embrionale, ospitato
temporaneamente in
http://www.ge.infn.it/calcolo/progetti/storage (al
solo fine di poter accedere ai lavori presentati
nelle riunioni)

Riunione CCR 20/10/2005
Attivita’

Diversi argomenti su cui e’ stata sviluppata attivita’
– valutazione dell’hardware FC gia’ installato
– analisi e test delle possibili architetture FC che possano garantire
affidabilita’
– test sui file system disponibili
– technology tracking
– partecipare alla attivita’ della task force di HepiX sullo storage

A queste si e’ in seguito manifestato interesse anche per
questioni legate all’impatto di GRID sui sistemi di storage
– SRM/dCache ed SRM/DPM
– StoRM: SRM per parallel file system (GPFS, LUSTRE)
Riunione CCR 20/10/2005
Architetture e ridondanza
Trieste
Tape Library
Genova
Infortrend FC-FC
Infortrend FC-SATA
SAN Switch
Storage Servers
GPFS/NFS/Castor
Mail Cluster
AFS Server
Switch Ethernet
Switch Ethernet
Switch Ethernet
FARM
Riunione CCR 20/10/2005
Benchmark GPFS vs NFS/Ext3
Client I/O (write)
Client I/O (read)
MB/s
MB/s
140.00
NFS (ext3)
250.00
GPFS (1 srv, 1 NSD)
121.60
120.00
120.00
NFS (ext3)
GPFS (2 srv, 2 NSD)
210.00
209.00
GPFS (1 srv, 1 NSD)
200.00
GPFS (2 srv, 2 NSD)
103.00
100.00
89.40
89.00
88.00
150.00
80.00
113.00
60.00
116.50
114.60
108.00
100.00
42.80
40.00
38.00
67.00
60.20
32.70
46.00
50.00
20.00
0.00
0.00
1 client
2 clients
4 clients
1 client
Riunione CCR 20/10/2005
2 clients
4 clients
Raw ethernet throughput vs time
Results of read/write
(1GB different files)
Lustre write
GPFS write
Lustre read
(20 x 1GB file simultaneous reads with Lustre)
GPFS read
6
5
4
3
2
1
12
0
10
0
80
60
40
20
9
7
5
3
0
1
Effective average throughput (Gb/s)
Benchmark GPFS vs Lustre
# of simultaneous read/writes
Riunione CCR 20/10/2005
Considerazioni sulla tecnologia SAN
su Fiber Channel

Vantaggi della tecnologia: rende possibile utilizzare diverse funzionalita’ che
tecnologie piu’ vecchie non hanno, con un carico di configurazione e
gestione relativamente basso
– indipendenza del server di disco dal disco stesso
– possibilita’ di crescita dinamica di volumi o controller con conseguente
espandibilita’ dinamica dello spazio disco disponibile
– possibilita’ di accesso concomitante di piu’ server di disco allo stesso volume
logico o fisico
– possibilita’ di configurare cammini ridondati verso lo stesso volume

Problemi della tecnologia: e’ complessa
– il suo funzionamento interno non e’ semplice, e non sempre le specifiche che lo
renderebbero “plug and play” si rivelano soddisfatte dalle implementazioni
– modifiche della topologia richiedono un lavoro di apprendimento sulle
metodologie di gestione della SAN che non sono schematizzabili in un breviario
(non e’ “Ethernet”)

Nel complesso il costo di apprendimento della tecnologia (una – due
settimane per realizzare una struttura di base) risulta ben speso a fronte dei
vantaggi che Fiber Channel offre a livello di funzionalita’
Riunione CCR 20/10/2005
Considerazioni sulla tecnologia dei
dischi

Si puo’ suggerire di utilizzare dischi FC o SCSI in luogo di dischi
SATA?
– il disco FC/SCSI e’ piu’ affidabile, piu’ veloce sia nel posizionamento che
nella rotazione, piu’ piccolo di dimensione, piu’ costoso
– il tipo di accesso (sequenziale per grossi file vs. accesso continuo di
molti piccoli file) puo’ aumentare di molto il rapporto di affidabilita’ e
prestazioni tra le diverse tecnologie
– come singolo disco per servizi critici e’ certamente da preferire la
soluzione FC o SCSI
– in un sistema RAID, la ridondanza e l’effetto delle prestazioni del
controller riducono il gap di affidabilita’ e di prestazioni: si puo’
compensare ulteriormente la minore affidabilita’ dei dischi SATA con
l’utilizzo di ridondanza RAID6 (in produzione a Bari)
– per volumi di grosse dimensioni la differenza di costo puo’ diventare
importante

Non e’ da escludere la possibilita’ di utilizzare la tecnologia piu’
costosa in condizioni di volumi limitati, importanza dei dati (mail,
home dir), accesso non sequenziale
Riunione CCR 20/10/2005
Considerazioni sui file system

Si e’ molto lavorato sui file system paralleli (PVFS, GFS,
GPFS, LUSTRE)
– GPFS: efficiente, scalabile (fino a 250 client senza il supporto
IBM), fornisce ridondanza di accesso al volume, espandibilita’
dinamica dei volumi, replicabilita’ dei dati…, a costo zero il
software, non l’assistenza (prezzi non definiti)
– Lustre: piu’ performante, piu’ scalabile, ha grosso modo tutto
quello che ha GPFS, ma costa caro (prezzi per ora non
ufficializzati)

L’utilizzo di FS paralleli sara’ strategico al Tier1
(ammesso che si possano utilizzare su questi file system
i servizi SRM). GPFS e’ in produzione al Tier1, a Trieste
ed a Catania, e sara’ in produzione a Genova a breve.
Riunione CCR 20/10/2005
Impatto di GRID sullo storage

GRID richiede che il sistema di storage sia dotato di una
sovrastruttura (SRM) che fornisca servizi aggiuntivi
–
–
–
–
–
–



namespace unificato
access control list
file pinning
reservation
time-to-live del file
accesso tramite certificati utente
L’attuale stato dell’arte vede due implementazioni operative
(SRM/dCache ed SRM/DPM) che operano su ext3
E’ in fase di completamento una interfaccia SRM per file system
paralleli (GPFS/LUSTRE) che sapra’ sfruttarne le caratteristiche
La situazione e’ in evoluzione rapida, ma il requisito iniziale potrebbe
imporre vincoli alla struttura di storage sottostante; la cosa va
tenuta sotto osservazione ed eventualmente sollecitata in base a
potenziali esigenze (vedi ad. es. StoRM)
Riunione CCR 20/10/2005
Considerazioni sui costi

Il gruppo ritiene che non sia corretto fare una valutazione del costo
del disco per TB
– una soluzione SAN implica un costo iniziale di infrastruttura, che impatta
sul costo/TB in funzione della dimensione iniziale del disco, e successivi
incrementi di spazio disco possono avere un costo/TB molto inferiore
rispetto all’acquisto iniziale
– la soluzione scelta puo’ avere costi molto differenti in base al progetto,
all’hardware di riferimento, alle dimensioni
– lo stesso costo del disco valutato sullo spazio lordo puo’ essere solo
parzialmente significativo, in quanto lo spazio netto di disco utilizzabile
a partire da una certa dimensione lorda dipende dal numero di dischi
che si vogliono dedicare alla ridondanza

E’ quindi ragionevole valutare la congruita’ di una richiesta di
finanziamento per storage in base al complesso di requisiti,
progetto, soluzione tecnica identificata, hardware ritenuto idoneo
– piu’ importante valutare il progetto in base alle esigenze ed ai
programmi di crescita futura, valutando il costo della infrastruttura ed il
costo per l’espansione dei volumi separatamente
Riunione CCR 20/10/2005
Costi: esempi

Acquisto infrastruttura a Genova (inizio anno)
– Infortrend Eonstor A16F-R1211 (FC-SATA)+2*switch FC Emulex 355+4
HBA Qlogic QLA3242+16 HD 250 GB (4 TB lordi)
 totale: 35 KЄ (25+10)
– espansione con Jbod 16 HD 500 GB (8 TB lordi)
 totale: 10 KЄ

Offerta recente per Finuda
– Infortrend Eonstor A16F-R1211+Jbod+3 HBA Qlogic QLA2342+32 HD
400 GB (12.8 TB lordi)
 totale: 33.5 KЄ (20+13)

Acquisto recente a Catania
– Xyratec RIO FC-FC+4 Jbod (64 HD 400 GB)+2 server (25.6 TB lordi)
 totale: 60 KЄ (20+40)

Costo di soluzioni NAS/DAS SATA
– mediamente ~ 1.8 KЄ/TB
Riunione CCR 20/10/2005
Programma per il futuro
Il mandato ha richiesto al gruppo di analizzare la funzionalita’ di soluzioni
SAN/FC per lo storage dei servizi centrali, e l’opportunita’ di adottarle
 La gestione dello storage nel prossimo futuro assumera’ grande importanza
non solo per i servizi centrali ma, con caratteristiche diverse per dimensione
e requirements, per i siti che ospiteranno i Tier
 Il gruppo ritiene che i suoi obiettivi dovrebbero essere rivisti ed ampliati,
finalizzando la sua azione nei diversi punti

– costituire un luogo in cui persone con problemi uguali possano confrontarsi e
sviluppare soluzioni sfruttando l’esperienza di altri e portare avanti un lavoro di
sviluppo e ricerca coordinato
– monitorare l’andamento della tecnologia per provare soluzioni alternative (esempi
attuale sono iSCSI ed InfinyBand)
– partecipare attivamente a gruppi che operano nel campo dello storage in
consessi piu’ ampi (ad esempio, il gruppo storage di HepiX)
– mantenere il contatto – ed eventualmente operare attivamente – con gli sviluppi
di GRID ed i requirements che GRID imporra’ al sistema di storage
– realizzare un centro di competenza che possa far circolare le informazioni ed a
cui poter fare riferimento
Riunione CCR 20/10/2005
Pianificazione test su iSCSI
Il gruppo vuole analizzare la tecnologia iSCSI per le sue
potenzialita’ analoghe a FC ed il costo complessivamente
inferiore, procurandosi in conto visione uno switch
iSCSI/SCSI ed iSCSI/FC capace di gestione di volumi
virtuali (repliche, snapshot, aggregazione), ed un disco
iSCSI nativo
 Si pianifica il lavoro specifico su iSCSI in due fasi

– analisi sulle funzionalita’ (a Pisa) su una piattaforma dedicata,
della durata di 4-5 mesi
– analisi delle prestazioni iSCSI in condizioni di elevato carico di
I/O (al CNAF), della durata di 2 mesi
per arrivare ad una raccomandazione per settembre 2006

Le persone interessate ai test sono quattro (Pisa, Trieste,
CNAF)
Riunione CCR 20/10/2005
FTE?

Da una discussione approfondita risulta difficile applicare il concetto
di FTE per le attivita’ pianificate del gruppo
– in generale le persone afferenti ai gruppi di lavoro svolgono le attivita’
in concorrenza con le proprie mansioni ordinarie, che talvolta coincidono
– non e’ semplice fornire una valutazione definita di un numero (FTE) che
dovrebbe essere riconosciuto ed approvato all’interno della struttura di
appartenenza, e che spesso potrebbe divenire privo di reale significato


Pare piu’ ragionevole darsi degli obiettivi ben definiti, con una
definizione precisa di tempi (ragionevoli), e identificare le persone
che sono interessate al task specifico, tenendo monitorata con
continuita’ l’evoluzione dei lavori in modo da applicare correttivi in
caso di necessita’
Una discussione su questo punto in CCR e’ benvenuta e dovrebbe
riguardare tutti i gruppi di lavoro
Riunione CCR 20/10/2005
Richieste di finanziamento

Inventariabile:
–
–
–

5.0 KЄ per due disk server dotati di interfaccia iSCSI
6.0 KЄ per due switch con 24 porte 100/1000 in rame
20 KЄ per uno switch iSCSI/FC e iSCSI/SCSI con funzionalita’ di gestione di volumi virtuali
(in seconda priorita’)
i disk server e lo switch hanno lo scopo di installare un laboratorio dedicato a test
sullo storage, che permetta di valutare soluzioni tecnologiche diverse senza dover
condividere risorse con sistemi in produzione; in particolare per il 2006 si desidera
effettuare test sulla tecnologia iSCSI.
Il progetto e’ di testare sia lo switch iSCSI che un disco iSCSI (controller RAID con
interfaccia iSCSI) da procurarsi in conto visione; un eventuale acquisto di uno di
questi oggetti potrebbe essere di interesse solo dopo i test, pertanto il finanziamento
per questo acquisto va considerato in seconda priorita’
La sede che si e’ scelta per la destinazione del materiale e’ Pisa
Missioni:
–
–
1.5 KЄ di missioni interne e 2.5 KЄ di missioni estere per la partecipazione di una persona
del gruppo alle due riunioni che HepiX terra’ nel 2006 (sez. di ???)
3.0 KЄ di missioni estere per la partecipazione di una persona del gruppo a 3 riunioni task
force di HepiX sullo storage (da assegnare al CNAF)
Riunione CCR 20/10/2005
Scarica

Gruppo Storage