Università degli studi di Messina
Facoltà di Scienze MM.FF.NN.
Corso di laurea in Informatica “U.Bonino”
Tecniche di compressione segnali audio:
modello psicoacustico per Mpeg 1 Layer III
mediante MatLab
Tesi di laurea di:
Alberto Pagano
Relatrice:
Prof.ssa Luigia PUCCIO
Anno Accademico 1999/2000
Tecnologia digitale

Il recente sviluppo delle tecnologie
digitali ha reso fondamentale l’utilizzo di
compressione audio/video nel campo
delle telecomunicazioni
– Es. teleconferenze, videotelefonia, ecc.
ISO
(International Standards Organization)
MPEG
(Moving Pictures Expert Group)
Sviluppare codifiche standard internazionali per la
digitalizzazione, la compressione e la
decompressione audio/video
MPEG

Il primo lavoro è conosciuto come MPEG
1


“codifica di fotogrammi in movimento con audio
associato per l’archiviazione su memorie di
massa digitali con una occupazione di 1.5 Mbits
al secondo”
il progetto è suddiviso in 5 parti:





system;
video;
audio;
conformance testing;
software simulation.
MPEG 1
12:1
12


In MPEG 1 sono
presenti 3 layer di
compressione
Dal primo al terzo troviamo un
incremento nella complessità
dell’algoritmo e nelle
performance, con un
miglioramento della qualità
audio.
10
8:1
8
Layer II
6
4
Layer I
4:1
2
0
Rapporti di compressione
Layer
III
Conversione analogico/digitale
Frequenza
di campionamento
Risoluzione
dei campioni
Musica digitale

Un normale CD audio viene
campionato ad una frequenza di
44100 Hz, quantizzazione di 16 bit

Spazio occupato su disco da un minuto
di musica stereo:
Campioni per secondo
44100 x
Canali (stereo)
2 x
Byte
2 x
secondi
60 =
______________
10.584.000 byte  10 Mbyte
Algoritmo di compressione MP3

È l’abbreviazione di MPEG 1 layer III
– formato di audio compresso nato con
l’intento di consentirne la trasmissione ad
alta qualità attraverso le linee di
telecomunicazione, limitando il più possibile
l’occupazione di spazio e quindi di banda
passante
Come funziona la compressione

Lossy:
– algoritmi di compressione che si basano su
delle osservazioni inerenti la percezione umana.

Audio percettivi:
– non hanno lo scopo di restituire il segnale
d’ingresso intatto dopo la decodifica, ma quello
di assicurare che il segnale di uscita sia il più
possibile uguale all’originale

Ci si è basati sulle ricerche nel campo della Psicoacustica
Psicoacustica

Scienza che studia il comportamento del
cervello di fronte a stimoli sonori contemporanei
Soglia di udibilità
Mascheramento
In frequenza
Temporale
Soglia di udibilità

L’orecchio umano è in grado di percepire
suoni contenuti in uno spettro di
frequenza che va dai 20 hz ai 20 khz
(spettro dell’udibile)
Mascheramento in frequenza

Emettendo un suono ad una determinata
frequenza, l’udito non sarà capace di percepire le
frequenze immediatamente prossime anche se
hanno volume (energia) appena inferiori
Mascheramento temporale

Suoni normalmente percepibili possono
non esserlo più se immediatamente
preceduti da suoni più intensi.
Implementazione del modello
psicoacustico
Input audio
Banco di filtri
(32 bande)
Modello
psicoacustico
Quantizzazione e
codifica
Packing dei dati
Output
audio
SMR
Schema di principio di un Encoder Mpeg Layer III
SMR = Signal to Mask Ratio
Prova sperimentale

Applicazione del modello psicoacustico 1
descritto nello standard ISO/IEC 111172-3:
– “Information technology - Coding of moving pictures
and associated audio for digital storage media at up to
1.5 Mbits/s - part 3: Audio”
L’algoritmo è stato implementato tramite linguaggio MatLab™ ver. 5.2 su sistema Win 98™
Modello psicoacustisco

Determinazione dei massimi locali;
1/6
2/6
Modello psicoacustico

Divisione in componenti tonali e
non-tonali
– tonali: sinusoidale, cioè generato da una sola frequenza (suono puro)
– non-tonali : suono complesso, generato da più frequenze
*
tonali
*
non-tonali
3/6
Modello psicoacustico

Decimazione delle maschere
Soglia sonora in condizioni di quiete
4/6
Modello psicoacustico

Calcolo delle soglie di mascheramento per ogni
componente tonale e non-tonale rimasto dopo la
decimazione
5/6
Modello psicoacustico

Le soglie di percettibilità delle maschere tonali e nontonali vengono combinate insieme per generare una
soglia di mascheramento globale.
dB
frequenza
Modello psicoacustico

La soglia di mascheramento globale viene rapportata
al livello del massimo segnale rilevato nelle
sottobande, ottenendo così il rapporto
segnale/mascheramento tra l’energia del segnale e
la soglia di mascheramento per ogni sottobanda
6/6
Mpeg/Audio - prestazioni

La compressione Mpeg/Audio dà compressione
“trasparente”

Test effettuati dal comitato MPEG dimostrano
che esperti ascoltatori statisticamente non
riuscivano a distinguere il brano originale da
quello codificato
Confronto wav - mp3

File originale

– 22 sec, formato WAV,
16 bit 44100 Hz,
stereo, 21 sec.
File compresso
– 22 sec, formato MP3,
16 bit, 44100 Hz,
stereo, 21 sec.
Spazio occupato su disco:
3,71 Mbyte
346 Kbyte
Rapporto di compressione:
 11:1
Confronto tra spettri sonori
Spettro della trasformata
di Fourier del segnale
originale (formato WAV)
14000 Hz
Spettro della trasformata
di Fourier del segnale
compresso (formato MP3)
Occupazione su supporto digitale per i file
ai diversi campionamenti
10:1
3:1
4
3,5
3
16 bit, 44 kHz
16 bit, 32 kz
8 bit, 32 kHz
16 bit, 22 kHz
8 bit, 22 kHz
8 bit, 11 kz
2,5
2
1,5
1
0,5
0
file WAV
file MP3
Conclusioni
 Il
compressore Mpeg/Audio è
un ottimo compressore audio
per segnali digitali ad alta
risoluzione.
(Come i normalissimi CD Audio)
Scarica

Università degli studi di Messina Facoltà di Scienze MM.FF.NN