L’apparato uditivo umano e la percezione del suono
1. L’apparato uditivo
Il suono come fenomeno fisico (oscillazioni delle molecole d’aria) viene percepito dal cervello umano
per il tramite dell’apparato uditivo.
Figura 1: L’apparato uditivo umano
L’apparato uditivo è suddiviso in:
-
orecchio esterno, che comprende il padiglione auricolare, il canale uditivo, e termina con la
membrana del timpano;
-
orecchio medio, costituito da una cavità piena d’aria in cui si trovano i tre ossicini detti
martello, incudine e staffa. Questi collegano meccanicamente il timpano alla chiocciola (o
coclea);
-
orecchio interno, costituito dalla coclea, che termina nel nervo acustico, diretto al cervello.
Parti dell’apparato uditivo umano:
1) Padiglione auricolare: raccoglie il suono e fornisce al cervello elementi per la valutazione della
direzione di provenienza dei suoni. Questa capacità è connessa alla particolare forma del
padiglione auricolare umano, che si distingue da quello degli altri animali.
2) Canale uditivo: simile ad un cilindro del diametro di circa 0,7 cm e della lunghezza di circa 3 cm.
Al termine del canale uditivo c’è la membrana del timpano. Le dimensioni del canale uditivo
giocano un ruolo importante nella capacità dell’orecchio di percepire la voce umana e
distinguerla dai rumori e dagli altri suoni.
3) Orecchio medio: ha il compito di trasmettere l’energia sonora proveniente dall’aria al fluido che
riempie l’orecchio interno. I tre ossicini denominati martello, incudine e staffa, fanno sì che le
oscillazioni sonore trasportate dall’aria mettano in vibrazione il fluido dell’orecchio interno.
4) Orecchio interno: è costituito dalla coclea, che trasforma gli impulsi di pressione provenienti
dall’orecchio medio in impulsi nervosi (elettrici) che portano al cervello tutte le informazioni
(frequenza, intensità...) relative al suono.
Limiti fisiologici della percezione acustica
L’orecchio non riesce a trasmettere al cervello informazioni sui suoni troppo gravi (meno di 20
oscillazioni al secondo) o troppo acuti (più di 20.000 oscillazioni al secondo – detti ultrasuoni)
Inoltre i suoni di sottofondo (passi, voci lontane, musiche a basso volume, …) normalmente percepiti
dall’orecchio, tendono a scomparire (non sono più trasmessi al cervello, pur essendo presenti) in
presenza di suoni forti e chiari (ad esempio una voce o un suono emessi a pochi metri dall’ascoltatore).
La conoscenza approfondita di questi limiti fisiologici dell’apparato uditivo umano permette oggi la
rappresentazione e l’elaborazione al calcolatore di suoni e musiche che occupano poca memoria, pur
presentandosi all’ascoltatore come di buona/ottima qualità, il che, come si vedrà in seguito, è di
fondamentale importanza per la diffusione dell’audio digitale.
I programmi e gli algoritmi che eliminano dalle registrazioni audio ciò che l’orecchio non recepisce, o a
cui è poco sensibile, sono detti “algoritmi di compressione audio” perché riducono (“comprimono”) la
quantità di memoria necessaria a rappresentare un suono o una voce al calcolatore.
2. Dal suono al computer
Prima di tutto è necessario capire come è possibile inserire dei suoni in un computer. Un suono si
propaga nell’aria sotto forma di onda. Questa onda viene trasformata da analogica a digitale attraverso
un processo chiamato campionamento. Durante questa fase il suono viene scomposto in un certo
numero di informazioni al secondo. Maggiori sono le informazioni, più fedele sarà la riproduzione
digitale della forma d’onda.
Le variabili su cui si può intervenire in fase di campionamento sono tre:
•
Tipo di canale (mono o stereo).
•
Frequenza del campione.
Indica il numero di campioni presi al secondo. Esempio: 22 Khz=22.000 campioni al secondo.
11025 Hz è adatto per la registrazione della voce, 22050 Hz è adatto per la registrazione di
qualità nastro mentre 44100 Hz si addice alla registrazione di qualità CD. Ridurre la frequenza
di campionamento comporta una perdita di risoluzione, ovvero di qualità audio.
•
Dimensioni del campione di un'onda (8 – 16 bit).
Possiamo immaginare il segnale campionato come formato da tanti livelli che visivamente
somigliano ad una scala, la quale segue un andamento il più fedele possibile alla forma d’onda
originale. Gli 8 bit offrono una qualità acustica inferiore rispetto a quella di un nastro perchè
rendono in 256 valori le informazioni sui livelli dei campioni. I dati d'onda a 16 bit producono
invece la massima qualità sonora (16 bit =65.536 valori sui livelli) paragonabile a quella di un
CD. Convertendo campioni da 16 bit a 8 bit si dimezza il file originario ma
contemporaneamente si riduce pesantemente la qualità della musica.
Figura 2: Frequenza e dimensioni di un campione d’onda
L’elaborazione di files audio
L’elaborazione di files audio con un computer è sempre stata una delle attività più esose sia dal punto di
vista della potenza di calcolo, sia dal punto di vista della memoria volatile (RAM) e di massa (Hard
Disk) richieste. Questo deriva dal fatto che un segnale audio analogico, se tradotto in digitale con la
qualità cosiddetta 'da CD', implica la memorizzazione di 176400 byte ogni secondo: una mole
ragguardevole di dati, soprattutto per i computer di qualche anno fa. Per questo e per altri motivi oggi,
nel mondo dei computer multimediali, c’è bisogno di dischi fissi e memorie sempre più capienti e
sempre più veloci, nonché di processori in grado di sviluppare potenze di calcolo sempre maggiori.
Ma perché un segnale audio richiede tanti byte/secondo per essere memorizzato? La risposta deriva dal
teorema del campionamento, o 'Teorema di Shannon'. In breve questo dice e dimostra che, per non
perdere informazione durante il campionamento (passaggio da analogico a digitale) di un segnale, la
frequenza di campionamento, cioè la frequenza con cui si va a leggere il valore analogico del segnale e
lo si traduce in digitale, deve essere almeno doppia della frequenza massima contenuta nel segnale. Se
così non si fa, non solo si perde parte del segnale di partenza, ma si introducono frequenze spurie nel
segnale campionato che saranno evidenti nel successivo passaggio da digitale ad analogico.
Tornando in particolare al suono, l'orecchio umano riesce a sentire frequenze massime attorno ai
18KHz (la cosa è soggettiva e può variare da 17KHz a 19KHz, ma molto raramente si oltrepassano
questi limiti). Per garantire quindi che un suono venga campionato completamente senza perderne la
parte più acuta, supponendo una frequenza massima di 20KHz, si dovrà campionare ad una frequenza
di almeno 40KHz. C’è però un particolare: un segnale sonoro analogico contiene anche frequenze
superiori ai 20KHz (anche se noi non le sentiamo) che possono causare l'insorgere di altre frequenze
nella gamma udibile se si campiona a 40KHz. Per questo è necessario, prima di campionare un suono,
sottoporlo a filtraggio in modo da ridurre quanto più possibile le frequenze non desiderate, ovvero
quelle superiori a 20KHz. Siccome i filtri analogici non hanno un andamento del tipo 'passa/nonpassa', ma hanno un'attenuazione che aumenta all'aumentare della frequenza seguendo una curva,
bisognerà fare in modo che questo filtro non tagli troppo le frequenze uguali o inferiori a 20KHz, ma
appena oltrepassato tale limite l'attenuazione aumenti parecchio. Si è calcolato che l'attenuazione
diventa sufficiente a ridurre molto gli effetti indesiderati introdotti dalle alte frequenze quando si
superano i 22KHz: per questo i CD e tutti gli apparati che trattano segnali audio digitali lavorano alla
frequenza di 44.1KHz, un po' più del doppio di 22KHz. In realtà le apparecchiature professionali
lavorano generalmente a 48KHz o anche a frequenze superiori, questo per garantire un'ottima qualità
anche quando il segnale digitale viene manipolato più volte (cosa che a 44.1KHz porterebbe ad
apprezzare la leggera attenuazione introdotta dal filtro e le distorsioni dovute alle alte frequenze
indesiderate).
Da quanto detto si può subito calcolare la quantità di dati risultante da un campionamento audio
eseguito a 44.1KHz, 16bit (per garantire un ottimo dinamismo e un alto rapporto segnale/rumore) in
stereofonia:
Mole_di_dati=44100[Hz]*16[bit]*2[canali]=1411200bit/secondo
Dividendo per 8 questo valore si ottengono i byte/secondo, ovvero 176400, che è il valore inizialmente
citato.
Ridurre la mole: i “famosi” files MP3
Su cosa si basa la codifica degli mp3?
La codifica MPEG Layer 3 si basa sul principio che l'orecchio umano non è in grado di udire tutto lo
spettro di frequenze sonore, a differenza degli apparecchi elettronici o digitali. Per cui taglia tutto ciò
che l'orecchio non sente, riducendo notevolmente la quantità di informazioni da memorizzare. Sarà
poi compito del software dedicato per la riproduzione ricostruire l'informazione sonora originale. Ciò
ha reso possibile la trasmissione di audio ad alta qualità tramite Internet in tempi ragionevoli e anche
la deprecabile pratica di siti Web, in cui si rendono disponibili tutte le ultime novità di artisti famosi,
da scaricare sul proprio computer liberamente e senza pagare alcunché.
Cosi ci si ritrova hard disk pieno di top "song", che potranno essere riprodotte tramite il PC o
addirittura trasformate in normali CD Audio (e quindi ascoltabili in qualsiasi lettore CD, da auto o
portatile). La situazione riportata è il lato illegale degli MP3: le persone oneste possono crearsi
compilation dai propri CD e portarsele in ufficio su lettori appositi come il noto iPod, oppure
scaricare da Internet nuove canzoni, da siti autorizzati, che esistono e sono reali.
Come funziona la COMPRESSIONE Mpeg 1 Layer 3 (mp3)?
Da sempre nel campo dell'elaborazione dell'informazione si è cercato di ridurre al minimo
indispensabile la quantità di dati da memorizzare per evitare di sprecare spazio nei dispositivi di
immagazzinamento di massa, un tempo molto meno capienti e molto più costosi di adesso. La stessa
cosa dicasi nel campo della trasmissione dell'informazione (ovvero permettere di trasferire file audio
via Internet), dove una riduzione dell'effettiva quantità di dati da trasmettere permette un aumento
della velocità di trasmissione degli stessi. Per questi motivi sono stati messi a punto diversi algoritmi
di compressione dati che permettono di ridurre i 'vuoti' o le ridondanze di informazione e, di
conseguenza, di ridurre fisicamente la quantità di dati senza però perdere l'informazione utile.
Esistono in generale due tecniche di compressione: non distruttiva e distruttiva. La prima permette di
comprimere dei dati e di riottenerli identici dopo la decompressione, ma generalmente si hanno
rapporti di compressione nell'ordine del 2:1, rapporto che può variare a seconda del tipo di dati che
si stanno comprimendo. La seconda può arrivare a rapporti molto più elevati, a seconda della
'qualità' che si intende ottenere in fase di decompressione: infatti si basa su algoritmi che, essendo
fatti per un particolare tipo di dati, ne riducono la quantità riducendo la qualità dell'oggetto che
rappresentano, sia esso un'immagine o un suono. I metodi non distruttivi vengono utilizzati per la
compressione di file contenenti archivi, database, programmi o qualsiasi altra cosa che non può
tollerare alterazioni, mentre i metodi distruttivi servono per la compressione di immagini e suoni,
cose che possono subire piccole alterazioni senza perdere il significato di ciò che rappresentano (un
ottimo esempio, in tal senso, è il diffusissimo algoritmo di compressione delle immagini JPG che
permette di ottenere immagini molto ridotte in termini di kilobytes con modifiche in alcuni casi
appena percettibili dell’immagine stessa).
Venendo al sodo, la compressione Mpeg fa parte di quelle a tecnica distruttiva, infatti si usa per
ridurre la dimensione di filmati e/o suoni. Il più diffuso nella famiglia Mpeg è il formato Mpeg 1
Layer 3 (abbreviato in MP3), appositamente studiato per l'audio e in grado di dare risultati
sorprendenti: basti pensare che si può comprimere un campionamento con un rapporto 11:1 senza
praticamente perdita di qualità! Un minimo di differenza dall'originale lo si può avvertire solo se si
è di orecchio fine, ma per la maggioranza delle applicazioni, escludendo l’utilizzo professionale,
vale la pena di utilizzare questa compressione.
Oltre a venire a vantaggio dello spazio occupato, la compressione MP3 favorisce la diffusione di
materiale musicale tramite reti informatiche, soprattutto Internet. Infatti si può dire che
comprimendo un file .WAV in qualità CD col rapporto 11:1 si ottiene un file .MP3 le cui
dimensioni sono di circa 1MB al minuto: un intero brano musicale di 5 minuti, che normalmente
occuperebbe più di 50MB, si può ridurre a meno di 5MB senza alterarne la qualità!
La domanda che sorge spontanea a questo punto è: "Ma com’è possibile che si possa ridurre tanto la
quantità di dati in un file audio senza perdere qualità?". A questa domanda si può dare una risposta
pensando a quanto affermato in precedenza sui limiti dell’orecchio umano: tale algoritmo, a
differenza dei precedenti che si basavano sulla riduzione della banda audio e della dinamica, trae
primario vantaggio dal fatto che la compressione viene fatta tenendo conto delle imperfezioni e
della limitata sensibilità dell'orecchio umano.
Per approfondire il concetto di compressione audio digitale si può consultare la pagina di
Wikipedia: http://it.wikipedia.org/wiki/Compressione_audio_digitale