Alcune problematiche di
replicazione dati in
un’organizzazione
geograficamente distribuita
Collaborazione CASPUR - ENEA
Silvia Eccher - CASPUR
Franco Iannone – ENEA
Andrei Maslennikov - CASPUR
Marco Mililotti – CASPUR
Miguel Molowny Lopez - CASPUR
Giuseppe Palumbo – CASPUR
Maurizio Steffè – ENEA
Analisi del problema
 replicazione di grandi quantità di dati
tra differenti siti (enti di ricerca,
centri di calcolo) spesso distanti tra
loro
 dati da replicare di vario genere:
 organizzati in database
 file di varie dimensioni (anche ingenti)
Analisi dei requisiti
 Vanno garantiti ai siti remoti:
 possibilità di lavoro autonomo (anche in
assenza di collegamento)
 flessibilità nella scelta dei dati da
condividere
 integrità e consistenza dei dati
 rapida replicazione delle informazioni
 possibilità di gestire più versioni
contemporanee di software
Ambiente di sviluppo
 4 macchine
multiprocessore:




mafalda
guille
felipe
manolito
 2.2Ghz, 1Gb RAM
 1.1TB spazio disco
 Linux 2.4.20
 Mysql 4.0.18
 rsync 2.5.7
Struttura proposta
 database:
 1 istanza master
sul sito centrale
(mafalda)
 3 istanze slave replica del master su ciascun sito
remoto (guille,
felipe e manolito) in
sola lettura
Struttura proposta
 database:
 1 istanza master su
ciascun sito remoto
(felipe, guille e
manolito) in
modalità
lettura/scrittura
 3 istanze slave sul
sito centrale
(mafalda), ciascuna
replica di uno dei
master sui siti
remoti
Struttura proposta
 filesystem contenente file randomici di diversa
dimensione
 2 versioni contemporanee, una in produzione e la
seconda di sviluppo
 possibilità di commutare tra le 2 versioni di
software
Realizzazione
 replicazione area dati:
 al momento rsync
 replicazione database:
 Mysql: funzioni di data replication
 sito centrale -> siti remoti
 siti remoti -> sito centrale
 inserimento dati sito centrale
 Perl: importer (auto, manual)
Realizzazione: importer
 funzioni principali:
 inserimento, modifica e cancellazione valori in
tabelle condivise
 creazione, cancellazione e modifica di tabelle (se
il sito remoto è considerato “fidato”)
 modalità di utilizzo:
 auto – propagazione delle operazioni senza
interventi dall’esterno
 manual – con supervisione delle operazioni di
propagazione
Stato del progetto
 test delle prestazioni di trasferimento
file tra due macchine collegate
tramite rete gigabit:
 in locale:
 rsync ~ 47 MB/sec (con dischi da 90 MB/sec)
 in area wan:
 work in progress
Link utili






www.caspur.it
www.enea.it
http://doc.in2p3.fr/bbftp/
http://samba.anu.edu.au/rsync/
www.mysql.com
www.perl.com
Scarica

Alcune problematiche di replicazione dati in un`organizzazione