Alcune problematiche di replicazione dati in un’organizzazione geograficamente distribuita Collaborazione CASPUR - ENEA Silvia Eccher - CASPUR Franco Iannone – ENEA Andrei Maslennikov - CASPUR Marco Mililotti – CASPUR Miguel Molowny Lopez - CASPUR Giuseppe Palumbo – CASPUR Maurizio Steffè – ENEA Analisi del problema replicazione di grandi quantità di dati tra differenti siti (enti di ricerca, centri di calcolo) spesso distanti tra loro dati da replicare di vario genere: organizzati in database file di varie dimensioni (anche ingenti) Analisi dei requisiti Vanno garantiti ai siti remoti: possibilità di lavoro autonomo (anche in assenza di collegamento) flessibilità nella scelta dei dati da condividere integrità e consistenza dei dati rapida replicazione delle informazioni possibilità di gestire più versioni contemporanee di software Ambiente di sviluppo 4 macchine multiprocessore: mafalda guille felipe manolito 2.2Ghz, 1Gb RAM 1.1TB spazio disco Linux 2.4.20 Mysql 4.0.18 rsync 2.5.7 Struttura proposta database: 1 istanza master sul sito centrale (mafalda) 3 istanze slave replica del master su ciascun sito remoto (guille, felipe e manolito) in sola lettura Struttura proposta database: 1 istanza master su ciascun sito remoto (felipe, guille e manolito) in modalità lettura/scrittura 3 istanze slave sul sito centrale (mafalda), ciascuna replica di uno dei master sui siti remoti Struttura proposta filesystem contenente file randomici di diversa dimensione 2 versioni contemporanee, una in produzione e la seconda di sviluppo possibilità di commutare tra le 2 versioni di software Realizzazione replicazione area dati: al momento rsync replicazione database: Mysql: funzioni di data replication sito centrale -> siti remoti siti remoti -> sito centrale inserimento dati sito centrale Perl: importer (auto, manual) Realizzazione: importer funzioni principali: inserimento, modifica e cancellazione valori in tabelle condivise creazione, cancellazione e modifica di tabelle (se il sito remoto è considerato “fidato”) modalità di utilizzo: auto – propagazione delle operazioni senza interventi dall’esterno manual – con supervisione delle operazioni di propagazione Stato del progetto test delle prestazioni di trasferimento file tra due macchine collegate tramite rete gigabit: in locale: rsync ~ 47 MB/sec (con dischi da 90 MB/sec) in area wan: work in progress Link utili www.caspur.it www.enea.it http://doc.in2p3.fr/bbftp/ http://samba.anu.edu.au/rsync/ www.mysql.com www.perl.com