Computing per il DAQ di ATLAS Workshop CCR, Castiadas (CA) 27 Maggio 2004 Nell’ambito della CCR (come pure della CSN1) si affronta spesso il problema dell’impatto del calcolo per gli esperimenti LHC sull’attività nelle sezioni. Si parla però principalmente di calcolo off-line. Tuttavia anche l’ambito dell’on-line presenta stimolanti problematiche di tipo strettamente informatico che potrebbero beneficiare delle competenze presenti nei servizi calcolo. P. Morettini 27/5/2004 1 Il computing nel DAQ pre-LHC Dal punto di vista del computing, il DAQ di un tipico esperimento LEP consisteva in una cinquantina tra workstations (UNIX o VMS) e processori FASTBUS, connessi da una rete a 10 Mb/s. A questi si aggiungevano 20-30 processori per il Detector Control. Il grosso della complessità era confinata all’elettronica custom di DAQ. P. Morettini 27/5/2004 2 Peculiarità dei DAQ di LHC Gli esperimenti LHC devono fare i conti con tre fattori che complicano in maniera notevole il sistema di data acquisition: • Il rate di interazione: i fasci di LHC collidono ogni 25 ns, ed ad ogni collisione vengono prodotte 25 interazioni protone-protone. Prima che le particelle prodotte in una interazione escano dal rivelatore si verifica una nuova collisione. • Le dimensioni del rivelatore: per ottenere la necessaria risoluzione e copertura angolare i rivelatori per LHC sono molto grandi. Questo implica che hanno un numero enorme di canali indipendenti da acquisire (~107). • La complessità degli eventi: gli eventi prodotti a LHC sono molto complicati e nella maggior parte dei casi poco o nulla interessanti. Serve quindi un sistema di selezione realtime (trigger) che riconosca, in pochi millisecondi, gli eventi interessanti. P. Morettini 27/5/2004 3 Struttura del DAQ di ATLAS I dati rimangono sul rivelatore fino a che il trigger di primo livello non decide se accettare l’evento Ci vogliono alcuni ms. Quindi sul rivelatore ci sono buffers dimensionati in modo opportuno Dopo il LVL1 accept i dati vengono estratti dai buffers e trasferiti al sistema di DAQ attraverso ~20k links ottici a 40-80 Mb/s. Vengono I frammenti pre-trattati degli eventi da processori aDSP accettati LVL2 sui vengono ROD e parcheggiati infiltrati assemblati, altri buffers dalla (ROB) di inevent FARM attesa filter e, della se decisione di LVL2 accettati, passati in 10 ms. al permanent storage. P. Morettini 27/5/2004 4 Il ROD crate È il primo elemento del sistema di acquisizione che si trova fuori dal rivelatore. Si tratta di un crate VME 9U che contiene 15 Read Out Drivers (RODs). Queste schede inviano configurazioni e comandi ai front-ends, ricevono, elaborano ed assemblano i dati provenienti dai FEs e li inviano ai Read Out Buffers attraverso un link in fibra a 160 MB/s (ROL). Avremo un centinaio di crates, 10k links verso il rivelatore, 20k links dal rivelatore, 1600 links verso il DAQ. Ogni crate possiede un Single Board Computer (SBC) (essenzialmente una WS Linux diskless) che comunica con il sistema di acquisizione, gestisce il trasferimento dei dati di calibrazione e monitoring da/verso i DB servers e coordina le attività dei RODs. Va notato che il bus VME non viene utilizzato per il trasferimento dati ma solo per il monitoring (qualche GB/giorno) ed il caricamento delle configurazioni (10-50 MB per crate). P. Morettini 27/5/2004 5 ROD Crate: front view ROD SBC P. Morettini 27/5/2004 6 ROD Crate: back view Detector Control link Data output to ROS 160 MB/s Data input from FEs 40-160 Mb/s P. Morettini 27/5/2004 7 Read-Out Links and Buffers P. Morettini 27/5/2004 ROBIN ROBIN ROBIN I 1600 links che provengono dai RODs terminano in altrettanti receivers implementati a gruppi di 3 su schede PCI a 64 bit-66 MHz dette ROBINs. Queste schede sono installate su pc detti ROS. Ogni ROBINs possiede abbastanza memoria per mantenere i dati in arrivo dal rivelatore in attesa della decisione del sistema di trigger di livello 2. I dati in questi buffers possono venire richiesti sia dalla farm di LVL2 sia dall’event builder. In questo caso i dati vengono trasferiti via PCI e inviati al richiedente via GEth. Per ridondanza anche i ROBINs sono dotati di interfaccia GEth e NIC potrebbero quindi comunicare PCI bus direttamente con LVL2 e EB senza impegnare i bus PCI del ROS. In questo modo ci si svincola dai limiti di throughput di PCI e si scarica il problema di banda su una maggiore GbEthernet complessità degli switches. L2 & Event Builder Networks 8 Prototipo di ROBIN (solo receivers, niente buffers) P. Morettini 27/5/2004 9 La Farm di Level2 Si stima siano necessari 500 bi-processori a 8 GHz per mantenere la latenza di LVL2 sotto i 10 ms ad un rate di input dal LVL1 di 100 kHz. I 500 nodi saranno connessi ai 180 ROS attraverso una switched network GEth. Siccome i processori di LVL2 analizzano solo i dati relativi alle “regioni di interesse” identificate al LVL1, solo il 2-5% della banda in ingresso ai ROS deve passare attraverso lo switch, quindi 3-8 GB/s. Il sistema tuttavia richiede una messaggistica complessa (identificazione dell RoI, selezione degli algoritmi, decisione finale) e deve operare a 100 kHz e con tempi di latenza molto bassi. P. Morettini 27/5/2004 10 L’Event Builder Gli eventi positivamente identificati dalla farm di LVL2 (da 1 a 3 k al secondo) passano all’event builder (SFI). Si tratta di un sistema di 100 single 8 GHz processors che devono assemblare un evento completo a partire dai 1600 frammenti presenti nei ROS. La comunicazione tra ROS e SFI avviene attraverso uno switch GEth da 250 porte con un aggregato di 5 GB/s. Anche in questo caso eventuali difetti della rete, specie in termini di latenza e di packet loss, possono avere importanti effetti sulle prestazioni complessive del sistema. P. Morettini 27/5/2004 11 La Farm di Event Filter Gli eventi costruiti dall’SFI vengono processati da una farm di Event Filter che riduce ulteriormente il rate a ~200 Hz. Il tipo di processing è molto simile a quello delle farm off-line, come pure il software di ricostruzione usato. Per mantenere i tempi di processamento intorno a 1 s/ev si prevede l’uso di 1500 bi-processori a 8 GHz. È necessario un sistema di switches adeguato ma il throughput resta intorno ai 5 GB/s. Più critici, a questa scala, sono i problemi legati allo scheduling in input a 3 kHz e alla availability. Il rate di produzione di dati in uscita (che vanno inviati al Tier 0 per lo storage) è di 30 TB al giorno. P. Morettini 27/5/2004 12 ATLAS TDAQ: network connections 1600 links, 160 MB/s Aggregato 160 GB/s 180 PC w 3 PCI bus 300 GEth 5 GB/s 100 8 GHz processors 700 GEth 8 GB/s 1700 GEth 5 GB/s 500 dual 8 GHz processors P. Morettini 27/5/2004 1500 dual 8 GHz processors 20 8 GHz processors 13 Il sistema DCS Accanto al sistema di acquisizione è necessario un sistema di controllo per regolare e monitorare alcune centinaia di migliaia di parametri del rivelatore (HV, LV, temperature, flussi e composizione di gas…). Il Detector Control System utilizza la tecnologia CANbus per il trasferimento dati dai sensori ai PC di controllo e software SCADA per il controllo e l’archiviazione dei dati. Sono previsti 50-70 PC per il sistema DCS, buona parte dei quali sotto Windows (richiesto per il supporto di OPC come hardware abstraction layer che è un prodotto basato su DCOM). P. Morettini 27/5/2004 14 Problematiche: network La rete è il collante dell’intero sistema di acquisizione e controllo. Si tratta per lo più di una rete basata su hardware commerciale e, almeno sulla carta, realizzabile con componenti già disponibili. È tuttavia necessario controllare in modo attento le reali prestazioni degli apparati di rete, non solo per quel che concerne il throughput aggregato, ma anche la latenza e la percentuale di pacchetti persi. A differenza di quanto avviene su una rete di trasmissione dati generica qui c’è un sistema di messaggistica a 100 kHz che deve rispondere in meno di un millisecondo. Packet loss vs trafic P. Morettini 27/5/2004 Latency vs trafic 15 Messaggistica del TDAQ P. Morettini 27/5/2004 16 Problematiche: system management Inutile dire che un sistema di 2500 nodi connessi a 3-4 switched networks pone problemi di management. Tanto più se si pensa alla necessità di operare senza alcun tipo di inefficienza durante il data-taking. Il primo problema che osserviamo (lo abbiamo già al test beam combinato) è l’installazione e la gestione centralizzata dei pc. • Per gli SBC usiamo da tempo “root-over-NFS” e questo richiede la manutenzione di un immagine per nodo sul server. • Al test beam combinato usiamo per tutti i processori una root su ram-disk che viene passata ai nodi al boot via PXE o etherboot assieme al kernel. Entrambe le soluzioni sono un po’ rigide e fanno soffrire se si devono gestire HW eterogenei e/o configurazioni differenti. Una soluzione più flessibile potrebbe utilizzare un disco locale come cache dei dati specifici di configurazione. C’è comunque bisogno di sviluppo. P. Morettini 27/5/2004 17 Problematiche: security Ovviamente la sicurezza è un aspetto critico: un attacco al sistema di DAQ e controllo di un esperimento può causare non solo un blocco della presa dati, ma anche un danneggiamento dell’ apparato e un rischio per gli operatori (controllo delle alte tensioni, della distribuzione dei gas etc.). Quindi la soluzione ovvia sarebbe isolare in modo radicale il sistema TDAQ/DCS dal modo esterno. Tuttavia ci sono obiettive necessità di accesso remoto, legata all’impossibilità di mantenere permanentemente al CERN un gran numero di esperti. Sarà quindi necessario studiare soluzioni adeguate che mantengano elevati standard di sicurezza e al tempo stesso possibilità di accesso e diagnostica remota. P. Morettini 27/5/2004 18 Problematiche: monitoraggio e fault tolerance Un sistema informatico come quello del TDAQ/DCS di ATLAS possiede un elevato numero di componenti critici il cui malfunzionamento impedisce la presa dati o degrada in modo inaccettabile le prestazioni. Il livello di criticità è decisamente maggiore di quello dei sistemi off-line: se il Tier0 non funziona gli esperimenti possono prendere dati per un paio di giorni; se invece si ferma la farm di LVL2 si ferma l’esperimento. Sono quindi indispensabili le migliori tecnologie disponibili di: • Network analysis (identificazione di faults, intrusioni, virus, …) • Network and data storage redundancy • Service redundancy (servizi di rete, disk servers, DB servers) P. Morettini 27/5/2004 19 Conclusioni La complessità del sistema di acquisizione e controllo di ATLAS, come pure di ALICE, CMS ed LHCb, è senza precedenti. A differenza del passato, le parti critiche (e quindi challenging e quindi divertenti) non sono limitate all’hardware custom, sviluppato in modo specifico per l’esperimento, ma riguardano anche le reti di trasmissione ed acquisizione basate su componenti e tecnologie di tipo informatico. Sembra quindi necessario ed auspicabile un coinvolgimento in questi progetti da parte degli esperti del calcolo INFN. P. Morettini 27/5/2004 20