UNIVERSITA’ DEGLI STUDI DI CAGLIARI FACOLTA’ DI SCIENZE Corso di Laurea in Informatica Progettazione di un Data Center Docente di riferimento Candidato: Prof. Gianni Fenu Alessio Massidda (matr.*****) ANNO ACCADEMICO 2012-2013 UNIVERSITA’ DEGLI STUDI DI CAGLIARI FACOLTA’ DI SCIENZE Corso di Laurea in Informatica Progettazione di un Data Center Docente di riferimento Candidato: Prof. Gianni Fenu Alessio Massidda (matr. *****) ANNO ACCADEMICO 2012-2013 SOMMARIO 1. Introduzione................................................................... Pag. 7 1.1 Prefazione............................................................ Pag. 7 1.2 Collocazione rispetto allo stack protocollare.................. Pag. 7 1.3 Il Data Center......................................................... Pag. 9 2. Stato dell’arte................................................................. Pag. 11 2.1 Un possibile contesto di progetto................................ Pag. 11 2.2 Alcuni esempi......................................................... Pag. 13 3. Progettazione del Data Center.............................................. Pag. 15 3.1 Gli aspetti informatici............................................... Pag. 15 3.1.1 Gli apparati ICT del Data Center.......................... Pag. 15 3.1.2 Considerazioni sul sistema di cablaggio.................. Pag. 16 3.1.3 Tipologia fisica delle connessioni......................... Pag. 17 3.2 Un modello di progettazione del sistema....................... Pag. 20 3.2.1 La sequenza di pianificazione del sistema............... Pag. 21 3.2.2 Le quattro fasi del progetto............................... Pag. 22 3.3 Crescita ed implementazione graduale.......................... Pag. 24 3.3.1 Determinazione del piano di capacità del sistema...... Pag. 25 3.4 La gestione di un Data Center..................................... Pag. 26 4. Conclusioni..................................................................... Pag. 29 Introduzione CAPITOLO 1 INTRODUZIONE 1.1 Prefazione Il risultato del rapido processo tecnologico iniziato nel XX secolo è stato la raccolta, l’elaborazione e la distribuzione dell’informazione. A partire dal secolo successivo, le differenze tra queste aree vanno convergendo sempre più. Organizzazioni con centinaia di uffici distribuiti su una vasta area geografica hanno la necessità di condividere, in maniera sempre più sofisticata, varie informazioni. Si può affermare che non vi sia alcun settore della società moderna esente dai benefici dell’internetworking. L’obiettivo del seguente lavoro è lo studio delle fasi di progettazione di una tra le componenti fondamentali dell’internetworking: il Data Center. Tale studio sarà approfondito nel terzo capitolo. Al fine di rendere la comprensione più agevole, è stato scelto di dedicare il paragrafo 1.2 a un’altra componente fondamentale dell’internetworking: le pile di protocolli. La complessità di diverse branche dell’Informatica (tra cui lo stesso internetworking) è dominata dalla cosiddetta astrazione. Essa facilita la risoluzione di un generico problema, trascurando i dettagli che non sono attinenti alla risoluzione del problema stesso. E’ il concetto più presente nell’ICT, dal quale ne derivano altri (ad esempio, l’information hiding o l’incapsulamento). 1.2 Collocazione rispetto allo stack protocollare Facendo riferimento a uno standard di rete, si ha una pila di protocolli: lo strato n usufruisce delle funzionalità dello strato n-1 grazie ad un’interfaccia tra n-1 e n, e fornisce a sua volta dei servizi allo strato n+1 per mezzo di un’interfaccia tra n e n+1. Il vantaggio più evidente della stratificazione dei protocolli sta nel fatto che lo strato n non ha bisogno di conoscere gli algoritmi interni dello strato n-1. Infatti, è sufficiente che al client sia noto come richiedere un servizio. E' dunque possibile effettuare una qualsiasi modifica all'implementazione di uno strato n, a patto di mantenere l'interfaccia immutata (ovvero l'insieme delle primitive offerte), senza che lo strato soprastante ne risenta. In tale modello è insito il paradigma divide et impera: a partire da un problema complesso, lo si divide in n sottoproblemi semplici risolvendoli e unendo le n sottosoluzioni per ottenere la soluzione finale del problema. Per illustrare quanto detto sino ad ora, segue una breve descrizione relativa allo stack protocollare dello standard de iure ISO-OSI. 07 Introduzione ● Il livello 1 (fisico) è composto dal mezzo in cui viaggia l'informazione (ad esempio: il doppino telefonico, l'onda radio e la fibra ottica) e dai dispositivi che ripetono il segnale (per esempio, gli hub). Tale livello comunica con la controparte di pari livello, scambiando bit. ● Il livello 2 (data-link) è composto da dispositivi come gli switch, il cui compito è raggruppare insiemi di bit forniti dallo strato 1 (chiamati frame) e recapitarli al destinatario di una Local Area Network grazie ad un MAC address. ● Il livello 3 (rete) è composto dai cosiddetti router: si tratta di speciali elaboratori atti al trasferimento di pacchetti (insiemi di frame forniti dal livello 2) da un nodo all'altro della rete, per mezzo di un indirizzo IP. ● Il livello 4 (trasporto) offre strumenti per garantire un servizio affidabile, gestendo le congestioni e il controllo del flusso. ● Il livello 5 (sessione) permette agli utenti su host diversi di stabilire tra loro una sessione: sono effettuati controlli di dialogo, gestione dei token e sincronizzazione. ● Il livello 6 (presentazione) non è stato progettato per trasmettere bit. Il suddetto strato, infatti, si occupa della sintassi e della semantica dell’informazione trasmessa. In particolare consente la comunicazione tra host con differenti rappresentazioni dei dati. ● Il livello 7 (applicazione) fornisce una vera e propria interfaccia con l'utente finale, garantendo ad esempio la consultazione di pagine web. Nonostante tale modello rappresenti uno standard de iure, non ha mai trovato applicazioni concrete: probabilmente poiché non specifica quali protocolli debbano essere implementati ed utilizzati. Infatti, sono specificate solamente le azioni che devono essere compiute da ogni strato. L’architettura di rete TCP/IP presenta caratteristiche opposte (implementazione ben documentata, ma definizione troppo approssimativa dello stack protocollare), ed ha avuto un larghissimo impiego nelle reti di calcolatori. Lo scopo principale delle reti di calcolatori è permettere la comunicazione tra reti differenti: infatti, difficilmente si ha interesse a scambiare dati e informazioni con host della propria rete. L’interazione tra varie Wide Area Network dà luogo ad una rete di portata globale, delle quali la più nota è Internet. 08 Introduzione 1.3 Il Data Center Si definisce Data Center un complesso di strutture, apparati e sistemi tecnologici atti a collegare in rete uno o più computer che forniscono dei servizi. Il Data Center è tra i sistemi informatici più importanti e vulnerabili esistenti. Esso ospita un’infrastruttura di rete e vari apparati ICT (server, unità di storage, unità di virtualizzazione, ecc.) oltre a UPS (Uninterruptible Power Supply), impianti di condizionamento, impianti di estinzione e misure di sicurezza fisica (token fisici, password, tecnologie biometriche o combinazione di più strategie). Una tipica organizzazione che fa uso di Data Center può essere, ad esempio, una banca o un altro tipo di istituzione finanziaria. Infatti, le informazioni sui conti correnti dei clienti devono essere archiviate in uno o più elaboratori, per poter essere consultate e aggiornate da ciascuna filiale. I Data Center destinati a tale uso contengono informazioni che devono essere preservate da qualsiasi tipo di corruzione. Le misure di sicurezza messe in atto per proteggere tali dati talvolta risultano essere decisamente intense. Sono presenti unità di backup (sia computazionali che di archiviazione) al fine di evitare massicce perdite di dati. Inoltre, qualora venisse meno la tensione della rete elettrica, sono presenti uno o più UPS, al fine di consentire la regolare attività degli elaboratori sino al ripristino della tensione di rete. Risulta auspicabile la presenza di un Data Center in: istituzioni governative, università e aziende fornitrici di servizi (telefonia, elettricità, televisione e simili). Un Data Center potrebbe essere composto anche da un singolo computer, che gestisce e protegge i dati di una singola compagnia o di un privato. Sistemi informatici così semplici sono dotati di misure di sicurezza e di protezione poco rigide. Indipendentemente dall’utenza per la quale è stato progettato, esso garantisce che i dati in esso custoditi siano sicuri e fruibili. 09 10 Stato dell’arte CAPITOLO 2 STATO DELL’ARTE Come asserito nel capitolo precedente, esistono diverse organizzazioni che utilizzano il Data Center. Alcune tra queste saranno oggetto del corrente capitolo: per ognuna, sarà data una breve panoramica relativa alle proprie infrastrutture. L’attenzione sarà maggiormente focalizzata sui Data Center dell’Università degli Studi di Cagliari. 2.1 Un possibile contesto di progetto Nel corrente paragrafo sarà esposta la situazione relativa alle infrastrutture Data Center dell’Università degli Studi di Cagliari. Sino a gennaio 2006, la situazione era descritta da una rete basata su linea dedicata, con velocità tra i 64 Kbps e i 2 Mbps. Erano presenti due Data Center fisicamente e logicamente distinti, e circa settanta server eterogenei per tipologia e tecnologia, dislocati nell’area metropolitana. Non era semplice manutenere e gestire apparati così differenti tra loro. Gli svantaggi di tale situazione non erano limitati alle difficoltà appena citate: prestazioni scadenti, stabilità limitata e sicurezza precaria erano dei problemi da non sottovalutare. Nacque l’esigenza di garantire quanta più standardizzazione, scalabilità e facilità di gestione possibili. A partire dal suddetto periodo, è iniziata una profonda riprogettazione dell’infrastruttura ICT di Ateneo, la cui azione non è ancora volta del tutto a termine. La nuova dorsale si estende per 80 km, con collegamenti in 10GbE IEEE 802.3ae (in figura 2.1 è possibile osservarne la topologia). La generazione precedente prevedeva n macchine fisiche per n servizi. Questo sistema informatico vincolava il servizio i (ad esempio, posta elettronica o libretto on-line) alla macchina i, la quale era l’unica responsabile dell’erogazione dello stesso, con conseguenze negative qualora se ne verificasse il crollo. Attualmente sono presenti tre componenti principali nei Data Center: computazione, storage e virtualizzazione. La parte computazionale è composta da blade server dotati di mezze lame (blade, in inglese): si tratta di chassis all’interno dei quali sono installati server di dimensioni pari alla metà delle tradizionali lame, al fine di ottimizzare lo spazio a disposizione. Il secondo vantaggio derivante dall’uso dei blade server sta nel fatto che questi ultimi supportano la virtualizzazione: in altre parole, la macchina i è in grado di schedulare più task contemporaneamente. Ciò significa che se la macchina i dovesse collassare, non si verificherebbe alcuna ripercussione negativa nell’erogazione dei servizi. La parte storage è distinta fisicamente da quella computazionale, in quanto è implementata la tecnologia SAN (Storage Area Network). Essa permette di collegare più dispositivi di memorizzazione di massa tra loro tramite una rete ad alta velocità di trasmissione (realizzata in fibra ottica, operante sull’ordine del GigaBit/s), rendendo disponibili tali moduli di archiviazione per qualsiasi computer connesso alla rete. Una SAN può anche essere condivisa tra più reti interconnesse, e si possono usare dischi collegati con una o più catene di tipo RAID. 11 Stato dell’arte Ciascun blade server è collegato alla SAN del Data Center, e può usufruire di tutte le unità di archiviazione tramite il protocollo Fibre Channel. I vantaggi della nuova generazione sono apprezzabili nelle prestazioni, nella scalabilità e nella facilità di gestione. Infatti, i blade server sono svincolati da qualsiasi compito che esuli dalla processazione degli applicativi, in quanto i servizi di archiviazione sono affidati al protocollo Fibre Channel. Così, è stato possibile possibile ottenere prestazioni decisamente migliori rispetto alla generazione precedente. Un fattore che non deve essere trascurato è la scalabilità. E’ possibile incrementare, se necessario, la capacità di calcolo o di archiviazione in qualsiasi momento, aggiungendo unità su esigenza progettuale. Tale caratteristica è fondamentale al fine di ottenere un dimensionamento corretto del Data Center. Infatti se fosse presente un sovradimensionamento della fornitura hardware, vi sarebbe il rischio di riscontrare inefficienza a causa delle risorse inutilizzate. Desta altrettanta attenzione garantire facilità di gestione al complesso ICT. Gli apparati utilizzati sino all’anno 2006 necessitavano di personale altamente specializzato, in quanto l’infrastruttura era composta da apparecchiature con tipologia e tecnologia diverse. Allo stato attuale, l’interazione tra i componenti è guidata dagli standard, attribuendo al personale competente completa intercambiabilità. Come è possibile notare, il modulo concernente la virtualizzazione è stato ben contestualizzato nella descrizione dei precedenti due. Figura 2.1 12 Stato dell’arte 2.2 Alcuni esempi ● Il Progetto Zephyr nasce con l’obiettivo di costruire il nuovo Data Center Eni, per garantire altissima affidabilità per tutte le esigenze informatiche aziendali, e ottenere risultati di efficienza energetica “Green” di assoluta eccellenza mondiale. L’impianto ospita tutti i sistemi centrali di elaborazione, destinati sia all’informatica gestionale sia alle elaborazioni di simulazione computazionale di HPC. Si hanno in totale oltre 7000 sistemi, con più di 60.000 core CPU. L’impianto è progettato per ospitare sistemi ICT con assorbimenti energetici fino a 30MW di potenza ICT utile, in uno spazio fino a 5.200 m2. Poiché il cuore del business Eni è nel settore energetico, uno dei principali obiettivi del progetto è ricercare la massima efficienza energetica. ● La nota azienda Apple ha recentemente terminato la costruzione del Data Center di Reno (Nevada, USA) , usato come supporto al servizio iCloud. Come è stato fatto a Maiden e Prineville, inizialmente è stata costruita una struttura di appena 2000 m2. L’edificio ospita le infrastrutture per il raccordo dell’impianto idrico, dell’energia elettrica e della connessione Internet dell’intero centro. Tale Data Center ha un ruolo delicato nell’ambito del progetto: infatti, sarà il primo di Apple ad usare energia geotermica. In aggiunta, sarà utilizzata l’energia solare, supporto imprescindibile in una regione desertica come il Nevada. Nonostante le dimensioni ridotte della centralina, il Data Center di Reno è il più grande tra i centri americani dell’azienda di Cupertino. ● Wikipedia è una enciclopedia collaborativa on-line, supportata da Wikimedia Foundation (organizzazione statunitense senza scopo di lucro). In un’era nella quale colossi informatici come Google o Microsoft hanno la possibilità di spendere cifre vicine al mezzo miliardo di dollari nella realizzazione di un Data Center, Wikipedia è sorretta da appena 300 server, così suddivisi: 200 unità destinate ai server applicativi; 20 unità destinate ai database servers e 70 unità dedicate a Squid cache servers (proxy dotati di cache, con algoritmi speciali che garantiscono basse latenze dei server). Tali macchine sono distribuite in due Data Center: il primo è sito nel Tampa (negli USA) ed il secondo ad Amsterdam. Nonostante le scarse risorse fisiche a disposizione, il sito registra 50.000 richieste http al secondo e archivia, attualmente, circa 1.5 terabytes di dati compressi. ● Nell’estate del 2012, Facebook decide di modificare la propria infrastruttura. Il cambiamento applicato dal popolarissimo social-network risiede principalmente nei rack. Questi ultimi hanno subito un incremento dimensionale, al fine di rendere più semplice la manutenibilità e il raffreddamento dei server. Mentre la maggior parte degli apparati ICT resta immutata, vengono applicate anche delle modifiche elettriche e meccaniche per ottenere il design “Open Rack”, che rende più semplice la sostituzione dei dischi e delle schede di rete. La seconda modifica consiste nell’utilizzo di server di dimensione pari a un terzo di quelli appartenenti alla generazione precedente. In tal modo possono risiedere tre elaboratori per ogni cassetto del rack. Inoltre, viene garantita maggiore modularità e, dato l’elevato numero di ventole presenti in ciascun rack, un più efficiente raffreddamento. 13 Stato dell’arte ● Il 30 gennaio del 2013, Microsoft Corp. annuncia la propria intenzione di potenziare l’infrastruttura Data Center già esistente nell’estremo sud della Virginia. La compagnia realizzerà due strutture addizionali al proprio campus. L’espansione farà parte del Data Center attualmente già attivo, tenendo il passo del più agguerrito tra i concorrenti: Google. La peculiarità di tale intervento risiede nel fatto che sarà utilizzato un design chiamato IT-PAC (Pre-Assembled Component): tale design assembla più componenti seguendo un approccio modulare e abbattendo sensibilmente i costi. In particolare, è stato introdotto un efficace sistema di raffreddamento, che prevede la fuoriuscita dell’aria dalle feritoie laterali dei rack. I Data Center rivestono un ruolo fondamentale in Microsoft, in quanto permettono l’espansione delle attività dell’azienda stessa, che allarga il proprio campo d’azione (sino a pochi anni fa incentrato solo sull’implementazione di sistemi operativi) per offrire servizi di Cloud-Computing. 14