Debido a la explosión del llamado “Audio HD” se viene hablando mucho sobre el audio digital, además con los servicios en streaming se está empezando a poner en servicio audio “lossless”. Aquí se intentará explicar de una manera sencilla lo que es el audio digital.
Frecuencia y profundidad
Lo primero de todo se deben dejar claro estos dos conceptos ya que todo el audio digital está creado en base a ello.
Cuando hablemos de frecuencias hablaremos siempre en su magnitud, hertzios. Dentro del termino de frecuencia hay dos usos:
- Frecuencia de muestreo: Es la que indica la cantidad de muestras por segundo habrá en un archivo.
- Frecuencia sonora: Es la frecuencia audible mediante nuestros oidos.
Cuando hablemos de profundidad estaremos hablando de la profundidad de bit, que viene siendo algo así como la cantidad de niveles de volumen que puede tener una muestra.
Tanto en la creación de un archivo de sonido como en su reproducción encontraremos estos terminos. Con ellos podremos saber la cantidad de muestras por segundo que vamos a capturar o reproducir con su respectiva profundidad. Para entenderlo lo mejor es recorrer el camino de una onda sonora desde que se produce en un instrumento hasta que es grabada.
Ejemplo práctico
Leemos de izquierda a derecha:
El instrumento en cuestión al ser tocado produce unas variaciones en la presión del aire que se desplazan por un medio que es el aire, ahora es una onda sinusoidal. Una vez llegan al microfono este las convierte en señales eléctricas, sigue siendo una onda sinusoidal en forma de señal eléctrica. Una vez llegada al ADC (Analog to digital converter, conversor de analógico a digital) la onda pasará a ser analizada.
Es en el analisis donde entran en juego estos dos terminos. Esto no es más que ir cogiendo valores de la señal eléctrica que está llegando. Para entender mejor el proceso es mejor ayudarse de la siguiente gráfica:
Vamos a explicar que es cada cosa:
- Linea verde: Señal sinusoidal que nos llega en forma de corriente eléctrica desde el microfono.
- Bolos azules: Cada muestra que tomamos periódicamente según la frecuencia de muestro que hemos elegido, el tiempo de muestreo queda determinado por T.
- Longitudad de la linea azul (vertical): Valor que tendrá la profundidad de bit de la muestra que acompaña, dependeria del voltaje que tiene dicha señal.
Como podemos ver estamos representando la cantidad de muestras con su voltaje que hay cada X tiempo. De está manera podemos representar los ciclos de la onda de manera digital
De esta manera hemos conseguido tomar una fotografia digital de esa señal, ya que a partir de estas muestras luego podemos ser capaces de volver a crear la onda. Esta información ya puede ser almacenada de manera digital para acceder a ella en otro momento. Ahora tendriamos un archivo en formato .WAV.
Nyquist
Hasta ahora ya sabemos como podemos almacenar una onda sinusoidal, pero nos falta saber que frecuencia de muestreo y profundidad de bit debemos utilizar. Para la fecuencia de muestreo tenemos que recurrir a Nyquist. Harry Nyquist (1889-1976) fue un físico sueco que contribuyo a la teoría de la información y nos dio las bases para el audio digital.
El teorema de Nyquist nos dice que para reconstruir una señal analógica a partir de datos digitales, debemos digitalizar una señal analógica de X Hz con una frecuencia de muestreo de 2X Hz.
Resumiendo, que si quieres digitalizar una señal de 1000Hz (el tono de las televisiones cuando no hay señal) vas a tener que digitalizar a 2000Hz/s. De aquí podemos deducir lo siguiente: Si el oído humano es capaz de escuchar entre 16Hz y 20 000Hz de frecuencia sonora, necesitaremos entre 32Hz y 40 000Hz para poder digitalizar todos los sonidos que podemos escuchar.
Profundidad de bits
Para medir la intensidad de un sonido usamos los decibelios, que para poder tener una idea de como representan la intensidad de los sonidos (es una medida logaritmica, como nuestros oídos) lo mejor es mirar la siguiente tabla:
Como podemos ver, desde el entorno más silencioso en nuestro día a día que es una biblioteca al entorno con mayor nivel que sería un concierto hay 90dB de diferencia, así que podemos decir que en nuestro día a día nuestros oídos están siempre oyendo sonidos dentro ese margen.
A la hora de digitalizar estos valores utilizaremos un valor numerico que vendrá limitado por la cantidad de bits que se utilicen para representar dicho dato. Por no liar la perdiz estableceremos que tenemos 6dB de margen por cada bit que añadimos, así que para tener un margen de 90dB tendriamos que digitalizar con 15bits (6dB*15bits=90d.
¿Pero no habiamos dicho antes que eran escalones de volumen?
Sí. Lo anterior es correcto y una vez entendido eso podemos llegar a la verdad. Los bits en verdad nos diran la cantidad de escalones de volumen en los que podremos situar cada muestra, si una muestra tiene mucho volumen tendrá un valor alto y viceversa.
¿Qué pasa entonces con ese margen?
Que es el margen en el cual nuestro oído no detecta saltos de volumen. Simplificando: Si tenemos que grabar una señal que tiene una variación entre 1dB y 90dB, tendremos que digitalizar a 15bits para tener suficientes escalones.
¿Cuántos escalones obtenemos?
Elevamos 2 (un bit puede ser 1 o o) por la cantidad de bits, en este caso 15, que nos da un total 32 758 escalones. Si hay menos escalones tendremos que colocar las muestras en el que más se aproxime a su valor original, de tal manera que podemos acabar situando esa muestra con un volumen que no esté correctamente representado. Si a esto le sumas, que la siguiente muestra también se desvie mucho de su nivel original, la transición entre una y otra será brusca.
CD
A partir de todo esto se creo lo que se conoce como El libro rojo del CD, que viene siendo para el técnico de sonido lo que El libro rojo de Mao es para los comunistas. En el se recogen las especificaciones de los CD que venimos usando desde que se empezaron a comercializar.
En se establecen entre otras cosas dos valores:
- 44100Hz de frecuencia de muestreo: Ahora ya podemos saber que frecuencia sonora máxima podremos encontrar en un CD, 44100/2 = 22050Hz. Todo sonido superior a 22050 Hz jamás podrá estar en un CD. Comparado con nuestro rango auditivo podemos decir que el CD puede almacenar incluso señales que no podemos escuchar.
- 16bits de profundidad de muestreo: Que haciendo el calculo, 216, sabemos que tendremos un margen de 96dB y 65536 escalones. Esto es algo un poco subjetivo pero podemos decir que cumple perfectamente con nuestras necesidades.
Así pues podemos decir que con el CD y su estandar conseguimos almacenar una señal analógica en un medio digital sin perder información, pudiendo reconstruir la onda exactamente igual más adelante.
Como curiosidad digitalizar a 44100Hz/16bits nos da que almacenamos a 1411kbps, correspondería a un formato .WAV.
Superando al CD
Desde hace un tiempo en el mercado de la reproducción empezamos a ver datos más altos que los establecidos para el CD como pueden ser 96000Hz o 24bits. Profesionalmente esto no es nada nuevo, en los estudios de sonido se han trabajado con frecuencias así de altas desde hace tiempo por diferentes motivos, por lo tanto detrás de los CDs de toda la vida se ha trabajado a frecuencias de muestreo y profundidad de bits más elevadas desde hace tiempo. Comercialmente desde hace un tiempo se han empezado a vender discos en la llamada “Calidad HD“, que viene siendo 96000Hz y 24bits, intentando convencer al consumidor que gracias a ello va a escuchar la música con mayor fidelidad.
Acompañado a ese negocio los fabricantes han sacado también sus productos capaces de reproducir “Audio en HD”. De hecho podriamos hablar de dos tipos de fabricantes, los que simplemente te venden dispositivos que pueden reproducir archivos por encima del CD y los que te venden lo anterior pero llamandolo “Audio en HD”. Lo primero está bien, lo segundo es muy cuestionable.
Con lo escrito anteriormente, si se ha entendido, cualquiera es capaz de deducir si ese “Audio en HD” que venden es verdaderamente superior al CD de toda la vida, así que evitaré hablar de tal y cual, dejando que cada uno saque sus conclusiones con lo aprendido. Como siempre uno puede tomar dos muestras de audio y compararlas con sus propios oídos.