Ottimizzazione ed analisi prestazionale dell’algoritmo Jpeg2000 su piattaforme hardware alternative per implementazioni System-on-Chip Mauro Olivieri, Simone Smorfa – Università “La Sapienza”, Roma Francesco Pappalardo – ST Microelectronics, Catania Riunione Annuale GE 2006 Ischia, 21-23 giugno 2006 Jpeg 2000 (1/2) • Elevati fattori di compressione • Compressione lossless & lossy • Scalabilità in risoluzione e qualità • Region-of-Interest Coding: versatilità • Promettente per sistemi embedded con applicazioni multimediali Riunione Annuale GE 2006 Ischia, 21-23 giugno 2006 Jpeg 2000 (2/2) • La diffusione e commercializzazione di Jpeg2000 è vincolata alla soluzione di problemi implementativi legati al meccanismo di codifica. • Il core computazionale è estremamente oneroso (DWT & EBCOT) • Sono state proposte diverse realizzazione ASIC (ottimizzate sfruttando il parallelismo intrinseco di diversi stadi dell’encoder). • In sistemi basati su microprocessore (ad esempio System-on-Chip), le implementazioni software e relativa ottimizzazione sono di particolare interesse per l’estrema flessibilità. Riunione Annuale GE 2006 Ischia, 21-23 giugno 2006 Architetture HW Processing Element: Processore LX-ST231 • 4 ALU, 2 moltiplicatori, 1 unità di load/ store, 1 unità di branch. • Architettura VLIW: fino a 4 istruzioni eseguibili in parallelo. • Schedulazione statica Riunione Annuale GE 2006 Ischia, 21-23 giugno 2006 Ottimizzazioni • Ottimizzazione del codice -> miglioramento della gestione della memoria, minimizzazione degli stalli negli accessi alla cache dati. • Partizionamento ed allocazione ottima dei task su architettura multiprocessore. • Sfruttamento del supporto SIMD/vettoriale per l’esecuzione parallela di più istruzioni su architettura multicluster. Riunione Annuale GE 2006 Ischia, 21-23 giugno 2006 Risultati • Speedup medio pari a 1.7 con l’ottimizzazione del codice per l’architettura scalare. • Speedup medio pari a 2.6 per la codifica di immagini a colori su architettura a 4 processori (1.6 per l’architettura a 2 processori). • Risparmio medio del 33% dei cicli di clock necessari all’esecuzione della DWT su architettura SIMD/vettoriale. Riunione Annuale GE 2006 Ischia, 21-23 giugno 2006