Ottimizzazione ed analisi prestazionale
dell’algoritmo Jpeg2000 su piattaforme hardware
alternative per implementazioni System-on-Chip
Mauro Olivieri, Simone Smorfa – Università “La Sapienza”, Roma
Francesco Pappalardo – ST Microelectronics, Catania
Riunione Annuale GE 2006
Ischia, 21-23 giugno 2006
Jpeg 2000 (1/2)
• Elevati fattori di compressione
• Compressione lossless & lossy
• Scalabilità in risoluzione e qualità
• Region-of-Interest Coding: versatilità
• Promettente per sistemi embedded
con applicazioni multimediali
Riunione Annuale GE 2006
Ischia, 21-23 giugno 2006
Jpeg 2000 (2/2)
• La diffusione e commercializzazione di Jpeg2000 è vincolata alla soluzione
di problemi implementativi legati al meccanismo di codifica.
• Il core computazionale è estremamente oneroso (DWT & EBCOT)
• Sono state proposte diverse realizzazione ASIC (ottimizzate sfruttando
il parallelismo intrinseco di diversi stadi dell’encoder).
• In sistemi basati su microprocessore (ad esempio System-on-Chip), le
implementazioni software e relativa ottimizzazione sono di particolare
interesse per l’estrema flessibilità.
Riunione Annuale GE 2006
Ischia, 21-23 giugno 2006
Architetture HW
Processing Element:
Processore LX-ST231
• 4 ALU, 2 moltiplicatori, 1 unità di load/
store, 1 unità di branch.
• Architettura VLIW: fino a 4 istruzioni
eseguibili in parallelo.
• Schedulazione statica
Riunione Annuale GE 2006
Ischia, 21-23 giugno 2006
Ottimizzazioni
• Ottimizzazione del codice -> miglioramento della gestione della
memoria, minimizzazione degli stalli negli accessi alla cache dati.
• Partizionamento ed allocazione ottima dei task su architettura
multiprocessore.
• Sfruttamento del supporto SIMD/vettoriale per l’esecuzione parallela di
più istruzioni su architettura multicluster.
Riunione Annuale GE 2006
Ischia, 21-23 giugno 2006
Risultati
• Speedup medio pari a 1.7 con l’ottimizzazione del codice per
l’architettura scalare.
• Speedup medio pari a 2.6 per la codifica di immagini a colori su
architettura a 4 processori (1.6 per l’architettura a 2 processori).
• Risparmio medio del 33% dei cicli di clock necessari all’esecuzione
della DWT su architettura SIMD/vettoriale.
Riunione Annuale GE 2006
Ischia, 21-23 giugno 2006
Scarica

Ottimizzazione ed analisi prestazionale dell`algoritmo