22 Marzo 2012 Silvio Torracchi - [email protected] Direzione It Conad Del Tirreno Resp. Infrastrutture ed Operation Piano di It Disaster Recovery 1 1 CONAD DEL TIRRENO FATTURATO AL PUBBLICO > 2MLD/EURO N. PDV = 329 MQ AREA DI VENDITA = 211.000 N.DIPENDENTI SISTEMA = oltre 7.000 2 2 Conad del Tirreno Conad del Tirreno, una delle otto Cooperative del gruppo Conad, è una grande cooperativa di imprenditori indipendenti associati che oggi con i suoi 223 soci rappresenta una delle maggiori imprese italiane della distribuzione associata. Con i suoi 7000 addetti di sistema, sviluppa un fatturato sulla rete di 1.950 milioni di euro. Per questo motivo, ogni giorno migliaia di consumatori trovano nei punti di vendita di Conad del Tirreno convenienza, qualità, servizio in un vasto assortimento. 3 3 Conad del Tirreno Conad del Tirreno è un’impresa cooperativa multicanale, in grado di soddisfare le esigenze di acquisto del consumatore, mutando con coerenza dimensione e formati dei punti di vendita e coprendo sia un ruolo di prossimità sia di attrazione. Conad del Tirreno, fortemente radicata sul territorio, è presente con 326 punti di vendita in: Toscana, parte del Lazio, Sardegna, a La Spezia e provincia. 11 IPERMERCATI E.LECLERC CONAD 36 CONAD SUPERSTORE 124 SUPERMERCATI CONAD 2 SAPORI & DINTORNI CONAD 87 CONAD CITY 66 MARGHERITA In cui sono integrati 16 Corner di Parafarmacia e 3 Distributori di Carburante. Direzione IT di Conad Del TIrreno •19 persone in totale •Di cui 9 in area Infrastruttura ed Operation (compreso service desk) 4 4 Piano di Disaster Recovery dell’IT di CONAD Il Piano di Disaster Recovery dell’IT consiste di procedure finalizzate ad assicurare il funzionamento del sistema informativo in un DataCenter alternativo a quello di produzione. Il Piano di Disaster Recovery di CONAD ha come scenario di riferimento la indisponibilità del Datacenter di produzione di CONAD in via Bure Vecchia Nord, 10 a Pistoia e ha l’obiettivo di effettuarne il ripristino nel Datacenter alternativo a Settimo Milanese (Milano) presso IBM. Attualmente la Direzione IT di CONAD è in grado di riattivare i sistemi informativi critici presso il Datacenter di Settimo Milanese entro 72 ore dalla dichiarazione di disastro. Day 0 Test / Disastro DATA BACKUP Day -1 5 5 La storia e le motivazioni • Nel 2006 Conad Del Tirreno ha concentrato la propria organizzazione in una nuova sede a Pistoia. • In tale location (circa 5000 mq di uffici) è stato progettato e realizzato il datacenter • La localizzazione in un unico site di tutte le infrastrutture It assumeva un elemento di elevata criticità, poiché la indisponibilità prolungata dei servizi It in caso di disastro avrebbe potuto mettere a rischio la sopravvivenza stessa dell'azienda • La realizzazione di una soluzione in campus fu scartata, sia perché fisicamente non di semplice implementazione, sia perché non avrebbe potuto dare sufficienti garanzie in alcune situazioni di disastro • Si optò pertanto verso la identificazione di una soluzione di disaster recovery presso un site secondario, e fu dato il via ad Ibm alla realizzazione di uno studio di fattibilità 6 6 Alcuni requisiti e linee guida • Le caratteristiche del business e della architettura It a supporto determinavano : – – – Sotto le 72 ore di disservizio → danni non gravi al business Tra 72 ore e 6 giorni di disservizio → danni gravi (perdita di vendite ed immagine) Oltre 7 giorni di disservizio → vita dell'azienda a rischio • Un RPO (perdita dati ammessa) di massimo di 24 ore fu considerato accettabile in caso di disastro • Pertanto la implementazione di una soluzione “a caldo” fu scartata nelle prime fasi di analisi, anche a causa dei costi nettamente più elevati e ci si indirizzò verso una soluzione che puntasse a garantire la ripartenza dei servizi critici entro 48 max 72 ore dal disastro; per i servizi non critici veniva considerata accettabile una ripartenza entro 7 giorni • La soluzione doveva comprendere la riattivazione di tutte le capacità funzionali del datacenter primario e la connettività verso la intranet, internet, extranet • I tempi di ripartenza e la snellezza dell'organigramma It dell'azienda (9 persone tra Operation ed Infrastrutture) determinavano il requisito che la riattivazione della infrastruttura (reti, sistemi, ripristino dati) venisse effettuata “chiavi in mano” dal fornitore del servizio (demandando all’It dell’azienda la ripartenza dei servizi applicativi) 7 7 Caratteristiche salienti della soluzione identificata • Esecuzione giornaliera del backup dei dati del site di Pistoia (tramite soluzione Tivoli Storage Manager su sistema VTL, con produzione tape destinati ad un bunker remoto secondario) • Servizio giornaliero di raccolta tape destinati al bunker remoto (presso Fidenza) • Server farm presso Settimo Milanese attivabile “on-demand” (il provisioning dei server, della rete, dello storage avviene dinamicamente in poche ore solo in caso di disastro, a cura di Ibm) • Switch on-demand della connettività wan/internet tra site primario e site di disaster recovery (a cura dei provider) • Ripristino sistemi e dati dai tape prelevati dal bunker remoto (a cura di Ibm); ripartenza servizi applicativi (a cura di It Conad Del Tirreno) 8 8 La architettura della soluzione A fianco la architettura esemplificata. In caso di disastro sulla sede principale di Pistoia (in giallo), subentra entro 72 ore il site “on demand” di Settimo che assume gli indirizzamenti di rete di Pistoia e si ricollega al network complessivo. 9 9 Cosa è avvenuto ed avviene (1/2) • La prima simulazione di ripristino del disaster recovery è stata effettuata a febbraio 2008 • L'attivazione del servizio il primo anno è stata relativamente onerosa e con alcuni ricicli, negli anni successivi le procedure sono state perfezionate (in ogni caso le attività preparatorie e manutentive nel corso dell'anno hanno sempre un certo rilievo) • Molte difficoltà sono state superate grazie all’impiego esteso (anche nel site primario) della virtualizzazione (eliminazione di tutti i problemi di compatibilità hw e firmware) • Inoltre nel tempo sono stati progressivamente eliminati vari apparati hw “particolari” (es. modem, schede fax, workstation specializzate…) che creavano spesso difficoltà nelle ripartenza • Nel primo test sono emerse alcune lacune alla policy di backup in vigore (impossibilità di recuperare alcune informazioni) • Alcuni interventi sono stati effettuati anche sulle policy di backup al fine di comprimere i tempi di ripristino dei sistemi e dare la priorità al ripristino dei servizi mission critical (es. logistica, comunicazioni, servizi correlati alla vendita…) 10 10 Cosa è avvenuto ed avviene (2/2) • I manuali con le procedure e tutte le informazioni sulla infrastruttura ed i servizi atti a garantire la ripartenza sono stati perfezionati in base all’esperienza, imparando dagli errori • Ogni anno il test viene ripetuto (tipicamente tra febbraio e marzo), ad oggi possiamo dire che è divenuta una operazione pianificata di routine • Il test di simulazione non e’ concepito “pro-forma”, vi si dedica la massima attenzione ed impegno, la quasi totalità dell’ It operation vi è coinvolto per circa 5 giorni • Tipicamente vengono effettuati e circa 200 test (checklist pre-definita e manutenuta nel tempo in relazione a variazioni sui servizi e sulla infrastruttura) , per verificare la erogazione di circa 50 servizi • Il perimetro del disaster recovery comprende circa il 90% dei servizi it erogati dalla server farm di pistoia (solo pochi sono volutamente esclusi), è previsto anche il ripristino degli ambienti di sviluppo (allo stato attuale non dei sistemi di staging) • Il test di “switch” della connettività (domini internet, wan/vpn sedi periferiche… e’ stato effettuato soltanto una volta, in periodo festivo, poiché determina la interruzione dell’attività sul site primario di Pistoia) 11 11 Cosa accade durante l’anno fino alla data del test • Costante alimentazione e allineamento del portafoglio dei servizi da ripristinare • Puntuale allineamento dei dati di configurazione del Networking • Puntuale ed immediata comunicazione delle modifiche o delle nuove implementazioni dei sistemi. • Condivisione,perfezionamento e pianificazione delle best practice attuative attraverso incontri periodici con il responsabile del servizio di Ibm ed i tecnici delle aree networking, storage, server 12 12 Start test Disaster Recovery • IBM recupera fisicamente i supporti depositati giornalmente da Conad del Tirreno nel centro di Fidenza e di fatto inizia la procedura definita da precisi livelli di servizio contrattuali. • IBM predispone tutta l’infrastruttura di rete, i Server (fisici e virtuali), la SAN e successivamente inizia il recupero dei dati • IBM sulla base delle indicazioni di Conad del Tirreno fa una prima verifica del corretto ripristino di tutti i sistemi • Durante la fase di ripristino, il personale dell’operation di Conad del Tirreno (che si sposta a Settimo Milanese) supporta laddove si renda necessario • Conad del Tirreno esegue i test predefiniti in modo diretto o avvalendosi di fornitori di soluzioni software che generalmente svolgono anche la funzione di application maintenance. (collegati tramite Vpn) • Il test dura complessivamente circa 7-8 giorni lavorativi e viene svolto in “orario di ufficio”; i tempi sono rendicontati e rielaborati al fine di simulare quale sarebbe il risultato in termini di tempi di ripartenza reali in caso di disastro reale • IBM misura e recupera tutti i tempi necessari per il ripristino di ogni servizio in funzione della priorità e criticità stabilita da Conad del Tirreno e ritorna un feedback relazionando i risultati ottenuti • Nelle settimane successive all'esecuzione del test, i risultati vengono discussi ed analizzati al fine di migliorare il servizio ed eliminare eventuali difettosità emerse 13 13 Test 2011- Alcuni risultati …….. 14 14 Test 2011 - Servizi ripristinati giornalmente N. Servizi Attivati 12 11 10 10 8 6 servizi 6 5 5 5 4 4 4 3 2 2 1 0 0-8h 8-16h 16-24h 24-32h 32-40h 40-48h 48-56h 56-64h 64-72h 72-80h 80-88h ore 15 15 Test 2011 - Totale check servizi ripristinati Tutti i test previsti (190) sono stati eseguiti: 187 con esito positivo (98,4%) 3 con esito negativo (1,6%) Numero test eseguiti Test ko 3 ( % 1,6) Test ok 187 ( % 98,4) (*) n.b. risultato raggiunto al 4° anno di test, negli anni precedenti la % di esiti negativi era più alta e si è progressivamente abbassata 16 16 Test 2011- Evidenze riscontrate e suggerimenti (example) Infrastruttura: Passwords:Verificare che il documento delle passwords sia completo ed aggiornato. Windows / Linux: Data Gathering: il Data Gathering risulta ancora parziale ed obsoleto in alcune delle sue parti. Per diminuire notevolmente i tempi di ripristino è fondamentale che le seguenti informazioni siano presenti: – Sistema operativo, architettura, versione, service pack (es. Windows Server 2003 R2 Standard x64 Edition SP2) – Dettaglio dei dischi, numero, lettere e dimensioni – Dettaglio delle schede di rete, IP - NetMask - GW - DNS - WINS) – Tipologia di Backup Per i server Linux occorre la lista delle directory da ripristinare Procedure: Necessità di una procedura sintetica che permetta di verificare il funzionamento dei servizi forniti dal server oggetto del ripristino 17 17 Benefici indiretti • Garanzia al 100% che il piano di backup dati sia tale da permettere il ripristino completo di dati e sistemi • Possibilità di sperimentare/testare la possibilità di virtualizzare la infrastruttura • Continuo stimolo alla semplificazione, alla standardizzazione ed alla razionalizzazione della architettura • Continuo stimolo a perseguire una infrastruttura It “manutenibile” (eliminazione soluzioni e tecnologie obsolete, applicazione aggiornamenti di sistema operativo e patch, aggiornamento release sw) • “Obbligo” di mantenere una adeguata documentazione della infrastruttura It • Evoluzione culturale dell’It nell’ottica dei servizi 18 18 Ed ora il piano di continuità operativa… Nel 2006 la priorità da parte dell’azienda fu data a dotarsi di un piano di It Disaster Recovery…..Dando coscientemente priorità all’aspetto tecnologico rispetto ai temi organizzativi….. Nel 2011 oltre a confermare l’importanza ed il valore di questa soluzione, l’azienda ha dato il via alla implementazione di un piano di continuità operativa che sarà reso disponibile nei prossimi mesi 19 19 Grazie per l’attenzione 22 Marzo 2012 Silvio Torracchi - [email protected] Direzione It Conad Del Tirreno Resp. Infrastrutture ed Operation 20 20