UNIVERSITA’ DEGLI STUDI DI CAGLIARI
FACOLTA’ DI SCIENZE
Corso di Laurea in Informatica
Progettazione di un Data Center
Docente di riferimento
Candidato:
Prof. Gianni Fenu
Alessio Massidda
(matr.*****)
ANNO ACCADEMICO 2012-2013
UNIVERSITA’ DEGLI STUDI DI CAGLIARI
FACOLTA’ DI SCIENZE
Corso di Laurea in Informatica
Progettazione di un Data Center
Docente di riferimento
Candidato:
Prof. Gianni Fenu
Alessio Massidda
(matr. *****)
ANNO ACCADEMICO 2012-2013
SOMMARIO
1. Introduzione...................................................................
Pag. 7
1.1 Prefazione............................................................
Pag. 7
1.2 Collocazione rispetto allo stack protocollare.................. Pag. 7
1.3 Il Data Center......................................................... Pag. 9
2. Stato dell’arte................................................................. Pag. 11
2.1 Un possibile contesto di progetto................................ Pag. 11
2.2 Alcuni esempi......................................................... Pag. 13
3. Progettazione del Data Center.............................................. Pag. 15
3.1 Gli aspetti informatici............................................... Pag. 15
3.1.1 Gli apparati ICT del Data Center.......................... Pag. 15
3.1.2 Considerazioni sul sistema di cablaggio.................. Pag. 16
3.1.3 Tipologia fisica delle connessioni......................... Pag. 17
3.2 Un modello di progettazione del sistema....................... Pag. 20
3.2.1 La sequenza di pianificazione del sistema............... Pag. 21
3.2.2 Le quattro fasi del progetto............................... Pag. 22
3.3 Crescita ed implementazione graduale.......................... Pag. 24
3.3.1 Determinazione del piano di capacità del sistema...... Pag. 25
3.4 La gestione di un Data Center..................................... Pag. 26
4. Conclusioni.....................................................................
Pag. 29
Introduzione
CAPITOLO 1
INTRODUZIONE
1.1 Prefazione
Il risultato del rapido processo tecnologico iniziato nel XX secolo è stato la raccolta,
l’elaborazione e la distribuzione dell’informazione. A partire dal secolo successivo, le
differenze tra queste aree vanno convergendo sempre più. Organizzazioni con centinaia di
uffici distribuiti su una vasta area geografica hanno la necessità di condividere, in maniera
sempre più sofisticata, varie informazioni.
Si può affermare che non vi sia alcun settore della società moderna esente dai benefici
dell’internetworking.
L’obiettivo del seguente lavoro è lo studio delle fasi di progettazione di una tra le
componenti fondamentali dell’internetworking: il Data Center. Tale studio sarà approfondito
nel terzo capitolo.
Al fine di rendere la comprensione più agevole, è stato scelto di dedicare il paragrafo 1.2 a
un’altra componente fondamentale dell’internetworking: le pile di protocolli.
La complessità di diverse branche dell’Informatica (tra cui lo stesso internetworking) è
dominata dalla cosiddetta astrazione. Essa facilita la risoluzione di un generico problema,
trascurando i dettagli che non sono attinenti alla risoluzione del problema stesso. E’ il
concetto più presente nell’ICT, dal quale ne derivano altri (ad esempio, l’information hiding o
l’incapsulamento).
1.2 Collocazione rispetto allo stack protocollare
Facendo riferimento a uno standard di rete, si ha una pila di protocolli: lo strato n
usufruisce delle funzionalità dello strato n-1 grazie ad un’interfaccia tra n-1 e n, e fornisce a
sua volta dei servizi allo strato n+1 per mezzo di un’interfaccia tra n e n+1. Il vantaggio più
evidente della stratificazione dei protocolli sta nel fatto che lo strato n non ha bisogno di
conoscere gli algoritmi interni dello strato n-1. Infatti, è sufficiente che al client sia noto come
richiedere un servizio.
E' dunque possibile effettuare una qualsiasi modifica all'implementazione di uno strato n, a
patto di mantenere l'interfaccia immutata (ovvero l'insieme delle primitive offerte), senza che
lo strato soprastante ne risenta.
In tale modello è insito il paradigma divide et impera: a partire da un problema complesso,
lo si divide in n sottoproblemi semplici risolvendoli e unendo le n sottosoluzioni per ottenere
la soluzione finale del problema.
Per illustrare quanto detto sino ad ora, segue una breve descrizione relativa allo stack
protocollare dello standard de iure ISO-OSI.
07
Introduzione
● Il livello 1 (fisico) è composto dal mezzo in cui viaggia l'informazione (ad esempio: il
doppino telefonico, l'onda radio e la fibra ottica) e dai dispositivi che ripetono il
segnale (per esempio, gli hub). Tale livello comunica con la controparte di pari livello,
scambiando bit.
● Il livello 2 (data-link) è composto da dispositivi come gli switch, il cui compito è
raggruppare insiemi di bit forniti dallo strato 1 (chiamati frame) e recapitarli al
destinatario di una Local Area Network grazie ad un MAC address.
● Il livello 3 (rete) è composto dai cosiddetti router: si tratta di speciali elaboratori atti al
trasferimento di pacchetti (insiemi di frame forniti dal livello 2) da un nodo all'altro
della rete, per mezzo di un indirizzo IP.
● Il livello 4 (trasporto) offre strumenti per garantire un servizio affidabile, gestendo le
congestioni e il controllo del flusso.
● Il livello 5 (sessione) permette agli utenti su host diversi di stabilire tra loro una
sessione: sono effettuati controlli di dialogo, gestione dei token e sincronizzazione.
● Il livello 6 (presentazione) non è stato progettato per trasmettere bit. Il suddetto strato,
infatti, si occupa della sintassi e della semantica dell’informazione trasmessa. In
particolare consente la comunicazione tra host con differenti rappresentazioni dei dati.
● Il livello 7 (applicazione) fornisce una vera e propria interfaccia con l'utente finale,
garantendo ad esempio la consultazione di pagine web.
Nonostante tale modello rappresenti uno standard de iure, non ha mai trovato applicazioni
concrete: probabilmente poiché non specifica quali protocolli debbano essere implementati ed
utilizzati. Infatti, sono specificate solamente le azioni che devono essere compiute da ogni
strato.
L’architettura di rete TCP/IP presenta caratteristiche opposte (implementazione ben
documentata, ma definizione troppo approssimativa dello stack protocollare), ed ha avuto un
larghissimo impiego nelle reti di calcolatori.
Lo scopo principale delle reti di calcolatori è permettere la comunicazione tra reti
differenti: infatti, difficilmente si ha interesse a scambiare dati e informazioni con host della
propria rete. L’interazione tra varie Wide Area Network dà luogo ad una rete di portata
globale, delle quali la più nota è Internet.
08
Introduzione
1.3 Il Data Center
Si definisce Data Center un complesso di strutture, apparati e sistemi tecnologici atti a
collegare in rete uno o più computer che forniscono dei servizi. Il Data Center è tra i sistemi
informatici più importanti e vulnerabili esistenti. Esso ospita un’infrastruttura di rete e vari
apparati ICT (server, unità di storage, unità di virtualizzazione, ecc.) oltre a UPS
(Uninterruptible Power Supply), impianti di condizionamento, impianti di estinzione e misure
di sicurezza fisica (token fisici, password, tecnologie biometriche o combinazione di più
strategie).
Una tipica organizzazione che fa uso di Data Center può essere, ad esempio, una banca o
un altro tipo di istituzione finanziaria. Infatti, le informazioni sui conti correnti dei clienti
devono essere archiviate in uno o più elaboratori, per poter essere consultate e aggiornate da
ciascuna filiale. I Data Center destinati a tale uso contengono informazioni che devono essere
preservate da qualsiasi tipo di corruzione. Le misure di sicurezza messe in atto per proteggere
tali dati talvolta risultano essere decisamente intense. Sono presenti unità di backup (sia
computazionali che di archiviazione) al fine di evitare massicce perdite di dati. Inoltre,
qualora venisse meno la tensione della rete elettrica, sono presenti uno o più UPS, al fine di
consentire la regolare attività degli elaboratori sino al ripristino della tensione di rete.
Risulta auspicabile la presenza di un Data Center in: istituzioni governative, università e
aziende fornitrici di servizi (telefonia, elettricità, televisione e simili).
Un Data Center potrebbe essere composto anche da un singolo computer, che gestisce e
protegge i dati di una singola compagnia o di un privato. Sistemi informatici così semplici
sono dotati di misure di sicurezza e di protezione poco rigide.
Indipendentemente dall’utenza per la quale è stato progettato, esso garantisce che i dati in
esso custoditi siano sicuri e fruibili.
09
10
Stato dell’arte
CAPITOLO 2
STATO DELL’ARTE
Come asserito nel capitolo precedente, esistono diverse organizzazioni che utilizzano il
Data Center. Alcune tra queste saranno oggetto del corrente capitolo: per ognuna, sarà data
una breve panoramica relativa alle proprie infrastrutture. L’attenzione sarà maggiormente
focalizzata sui Data Center dell’Università degli Studi di Cagliari.
2.1 Un possibile contesto di progetto
Nel corrente paragrafo sarà esposta la situazione relativa alle infrastrutture Data Center
dell’Università degli Studi di Cagliari.
Sino a gennaio 2006, la situazione era descritta da una rete basata su linea dedicata, con
velocità tra i 64 Kbps e i 2 Mbps. Erano presenti due Data Center fisicamente e logicamente
distinti, e circa settanta server eterogenei per tipologia e tecnologia, dislocati nell’area
metropolitana. Non era semplice manutenere e gestire apparati così differenti tra loro. Gli
svantaggi di tale situazione non erano limitati alle difficoltà appena citate: prestazioni
scadenti, stabilità limitata e sicurezza precaria erano dei problemi da non sottovalutare.
Nacque l’esigenza di garantire quanta più standardizzazione, scalabilità e facilità di gestione
possibili.
A partire dal suddetto periodo, è iniziata una profonda riprogettazione dell’infrastruttura
ICT di Ateneo, la cui azione non è ancora volta del tutto a termine.
La nuova dorsale si estende per 80 km, con collegamenti in 10GbE IEEE 802.3ae (in
figura 2.1 è possibile osservarne la topologia).
La generazione precedente prevedeva n macchine fisiche per n servizi. Questo sistema
informatico vincolava il servizio i (ad esempio, posta elettronica o libretto on-line) alla
macchina i, la quale era l’unica responsabile dell’erogazione dello stesso, con conseguenze
negative qualora se ne verificasse il crollo.
Attualmente sono presenti tre componenti principali nei Data Center: computazione,
storage e virtualizzazione.
La parte computazionale è composta da blade server dotati di mezze lame (blade, in
inglese): si tratta di chassis all’interno dei quali sono installati server di dimensioni pari alla
metà delle tradizionali lame, al fine di ottimizzare lo spazio a disposizione. Il secondo
vantaggio derivante dall’uso dei blade server sta nel fatto che questi ultimi supportano la
virtualizzazione: in altre parole, la macchina i è in grado di schedulare più task
contemporaneamente. Ciò significa che se la macchina i dovesse collassare, non si
verificherebbe alcuna ripercussione negativa nell’erogazione dei servizi.
La parte storage è distinta fisicamente da quella computazionale, in quanto è implementata
la tecnologia SAN (Storage Area Network). Essa permette di collegare più dispositivi di
memorizzazione di massa tra loro tramite una rete ad alta velocità di trasmissione (realizzata
in fibra ottica, operante sull’ordine del GigaBit/s), rendendo disponibili tali moduli di
archiviazione per qualsiasi computer connesso alla rete. Una SAN può anche essere condivisa
tra più reti interconnesse, e si possono usare dischi collegati con una o più catene di tipo
RAID.
11
Stato dell’arte
Ciascun blade server è collegato alla SAN del Data Center, e può usufruire di tutte le unità
di archiviazione tramite il protocollo Fibre Channel.
I vantaggi della nuova generazione sono apprezzabili nelle prestazioni, nella scalabilità e
nella facilità di gestione. Infatti, i blade server sono svincolati da qualsiasi compito che esuli
dalla processazione degli applicativi, in quanto i servizi di archiviazione sono affidati al
protocollo Fibre Channel. Così, è stato possibile possibile ottenere prestazioni decisamente
migliori rispetto alla generazione precedente.
Un fattore che non deve essere trascurato è la scalabilità. E’ possibile incrementare, se
necessario, la capacità di calcolo o di archiviazione in qualsiasi momento, aggiungendo unità
su esigenza progettuale. Tale caratteristica è fondamentale al fine di ottenere un
dimensionamento corretto del Data Center. Infatti se fosse presente un sovradimensionamento
della fornitura hardware, vi sarebbe il rischio di riscontrare inefficienza a causa delle risorse
inutilizzate.
Desta altrettanta attenzione garantire facilità di gestione al complesso ICT. Gli apparati
utilizzati sino all’anno 2006 necessitavano di personale altamente specializzato, in quanto
l’infrastruttura era composta da apparecchiature con tipologia e tecnologia diverse. Allo stato
attuale, l’interazione tra i componenti è guidata dagli standard, attribuendo al personale
competente completa intercambiabilità.
Come è possibile notare, il modulo concernente la virtualizzazione è stato ben
contestualizzato nella descrizione dei precedenti due.
Figura 2.1
12
Stato dell’arte
2.2 Alcuni esempi
● Il Progetto Zephyr nasce con l’obiettivo di costruire il nuovo Data Center Eni, per
garantire altissima affidabilità per tutte le esigenze informatiche aziendali, e ottenere
risultati di efficienza energetica “Green” di assoluta eccellenza mondiale.
L’impianto ospita tutti i sistemi centrali di elaborazione, destinati sia all’informatica
gestionale sia alle elaborazioni di simulazione computazionale di HPC.
Si hanno in totale oltre 7000 sistemi, con più di 60.000 core CPU. L’impianto è
progettato per ospitare sistemi ICT con assorbimenti energetici fino a 30MW di
potenza ICT utile, in uno spazio fino a 5.200 m2.
Poiché il cuore del business Eni è nel settore energetico, uno dei principali obiettivi
del progetto è ricercare la massima efficienza energetica.
● La nota azienda Apple ha recentemente terminato la costruzione del Data Center di
Reno (Nevada, USA) , usato come supporto al servizio iCloud. Come è stato fatto a
Maiden e Prineville, inizialmente è stata costruita una struttura di appena 2000 m2.
L’edificio ospita le infrastrutture per il raccordo dell’impianto idrico, dell’energia
elettrica e della connessione Internet dell’intero centro. Tale Data Center ha un ruolo
delicato nell’ambito del progetto: infatti, sarà il primo di Apple ad usare energia
geotermica. In aggiunta, sarà utilizzata l’energia solare, supporto imprescindibile in
una regione desertica come il Nevada.
Nonostante le dimensioni ridotte della centralina, il Data Center di Reno è il più
grande tra i centri americani dell’azienda di Cupertino.
● Wikipedia è una enciclopedia collaborativa on-line, supportata da Wikimedia
Foundation (organizzazione statunitense senza scopo di lucro).
In un’era nella quale colossi informatici come Google o Microsoft hanno la possibilità
di spendere cifre vicine al mezzo miliardo di dollari nella realizzazione di un Data
Center, Wikipedia è sorretta da appena 300 server, così suddivisi: 200 unità destinate
ai server applicativi; 20 unità destinate ai database servers e 70 unità dedicate a Squid
cache servers (proxy dotati di cache, con algoritmi speciali che garantiscono basse
latenze dei server).
Tali macchine sono distribuite in due Data Center: il primo è sito nel Tampa (negli
USA) ed il secondo ad Amsterdam. Nonostante le scarse risorse fisiche a disposizione,
il sito registra 50.000 richieste http al secondo e archivia, attualmente, circa 1.5
terabytes di dati compressi.
● Nell’estate del 2012, Facebook decide di modificare la propria infrastruttura. Il
cambiamento applicato dal popolarissimo social-network risiede principalmente nei
rack. Questi ultimi hanno subito un incremento dimensionale, al fine di rendere più
semplice la manutenibilità e il raffreddamento dei server. Mentre la maggior parte
degli apparati ICT resta immutata, vengono applicate anche delle modifiche elettriche
e meccaniche per ottenere il design “Open Rack”, che rende più semplice la
sostituzione dei dischi e delle schede di rete.
La seconda modifica consiste nell’utilizzo di server di dimensione pari a un terzo di
quelli appartenenti alla generazione precedente. In tal modo possono risiedere tre
elaboratori per ogni cassetto del rack. Inoltre, viene garantita maggiore modularità e,
dato l’elevato numero di ventole presenti in ciascun rack, un più efficiente
raffreddamento.
13
Stato dell’arte
● Il 30 gennaio del 2013, Microsoft Corp. annuncia la propria intenzione di potenziare
l’infrastruttura Data Center già esistente nell’estremo sud della Virginia. La
compagnia realizzerà due strutture addizionali al proprio campus. L’espansione farà
parte del Data Center attualmente già attivo, tenendo il passo del più agguerrito tra i
concorrenti: Google.
La peculiarità di tale intervento risiede nel fatto che sarà utilizzato un design chiamato
IT-PAC (Pre-Assembled Component): tale design assembla più componenti seguendo
un approccio modulare e abbattendo sensibilmente i costi. In particolare, è stato
introdotto un efficace sistema di raffreddamento, che prevede la fuoriuscita dell’aria
dalle feritoie laterali dei rack.
I Data Center rivestono un ruolo fondamentale in Microsoft, in quanto permettono
l’espansione delle attività dell’azienda stessa, che allarga il proprio campo d’azione
(sino a pochi anni fa incentrato solo sull’implementazione di sistemi operativi) per
offrire servizi di Cloud-Computing.
14
Scarica

Progettazione di un Data Center