Audio Analogico Digital PDF
Audio Analogico Digital PDF
Audio Analogico Digital PDF
1
Alan Oppenheim, Alan Willsky e Ian Young: Signals and systems.
Englewood Cliffs. New Jersey. USA. Prentice hall, Inc.
1
AUDIO ANALÓGICO / AUDIO DIGITAL
mantisa y el exponente. Si el número anterior se expresa como
Tabla 1: Equivalencias entre el sistema decimal y binario
0,1416x102, la mantisa sería 31416 y el exponente 2.
Los números binarios que un ordenador manipula pueden
Un byte es un grupo de 8 bits. Con un byte se puede
representar no sólo números sino también programas y datos de
representar cualquier valor dentro de un rango de 256 unidades (de 0
cualquier tipo. Los caractéres del alfabeto y los signos de puntuación
a 255 ó de -128 a 127 del sistema decimal) Cada uno de los ocho
se representan codificados en forma de números, para lo cual hay
bits de un byte, de acuerdo a su ubicación dentro del grupo,
varios sistemas, siendo el código ASCII el más extendido, en éste
representa un valor. De derecha a izquierda los valores
cada carácter corresponde a un byte determinado, por ejemplo la A
representados son 1, 2, 4, 8, 16, 32, 64, 128. Por lo tanto, si el valor o
es 11000001, la B11000010, etc. también hay normas como la MIDI
estado de los ocho bits es 1 (11111111, en binario), esta cifra binaria
para codificar la música.
representa el valor 255 del sistema decimal, como resultado de cada
uno de los ocho valores representados. Por el contrario el numero
4- AUDIO ANALÓGICO / AUDIO DIGITAL
00000000 representa el 0 del sistema decimal. El byte se utiliza
también como medida de almacenamiento de información, sus Los aparatos que generan o procesan el sonido operan
múltiplos son: el Kilobyte= 1024 bytes, el Megabyte= 1024 Kilobytes, siempre sobre una representación del mismo. En la actualidad los
el Gigabyte= 1024 Megabyte, el terabyte y el Petabyte. dos métodos más comunes para esta representación son el
analógico y el digital.
Byte 8 bits En el caso de los aparatos analógicos, la variación de presión
Word 2 bytes 16 bits en el tiempo se representa como variación de otra magnitud también
Dword 4 bytes 32 bits continua, normalmente la tensión o intensidad eléctrica. Se llama
Kilobyte 1024 bytes analógico porque las mismas oscilaciones de la presión se
Megabyte 1.048.576 bytes reproducen de manera análoga en forma de oscilaciones de tensión
Gigabyte 1.073.741.824 bytes eléctrica. También es analógico un disco de vinilo, en el cual las
Terabyte 1.099.511.622.776 bytes
oscilaciones de los surcos se corresponden con las del sonido, o un
Petabyte 1015 bytes
casette en la que se representa por la mayor o menor magnetización
Tabla 2: bits y bytes de la cinta.
Para representar números en la computadora se agrupan los En un aparato digital el sonido es representado como una
bits en unidades mas grandes llamadas words (palabras: grupo de serie de números, llamados muestras, que son las medidas de la
bits que representan una única muestra). Si se utilizan por ejemplo onda en instantes sucesivos. Es decir, el audio digital es
palabras de 2 bits sólo se pueden representar cuatro números (00, la codificación digital de una señal eléctrica que representa
01, 10 y 11), es decir, 22, en general, la cantidad de números que se una onda sonora. Consiste en una secuencia de números
pueden representar es 2 elevado al número de bits. Para los binarios y se obtiene del muestreo y cuantificación de la señal
números enteros se suelen utilizar palabras de 2 bytes (16 bits), analógica. Posteriormente se puede codificar o comprimir, dando
dejando un bit para el signo (positivo o negativo) se pueden lugar a formatos más compactos (compresión de audio).
representar 215 valores, es decir desde -32768 a +32767. Para Es decir que para registrar y manipular sonidos con un
representar números mayores se emplean 4 bytes. Para los números sistema digital es necesario que las ondas sonoras transformadas en
fraccionarios, como el 3,1416, se utiliza la representación en coma señales análogas (voltaje eléctrico) se conviertan en señales
flotante, que consiste en descomponer el número en dos partes, la digitales, las señales de audio analógicas deben ser codificadas de
2
AUDIO ANALÓGICO / AUDIO DIGITAL
acuerdo a los métodos y patrones de los sistemas digitales. La onda
analógica, por tanto, es convertida en datos que la representan
mediante dígitos binarios o bits.
4
AUDIO ANALÓGICO / AUDIO DIGITAL
La cuantización y codificación: consiste en convertir el valor de las produce ningún tipo de degradación. El formato más usado de audio
muestra obtenidas en el proceso de muestreo, normalmente un nivel digital PCM lineal es el del CD de audio: 44,1 kHz de tasa de
de tensión, en un valor entero de rango finito y predeterminado (o lo muestreo y cuantificación lineal de 16 bits (que mide 65536 niveles
que es lo mismo, asignar un valor más próximo en una escala de de señal diferentes) y que, en la práctica, permite registrar señales
niveles discretos de amplitud). Cuantos mayores niveles de analógicas con componentes hasta los 20 kHz y con relaciones señal
cuantización tenga la escala, menor será el error o el ruido de a ruido de más de 90 dB.
cuantización, es decir, el grado de ajuste o corrección sobre el valor
original de las muestras. Depende de la cantidad de bits utilizados en - Conversión DA
la digitalización que dicha escala discreta posea mayor o menor
cantidad de grados. Por ejemplo, utilizando cuantización lineal, una Una vez que se ha llevado a cabo la conversión AD, la señal
codificación lineal de 8 bits discriminará entre 256 niveles de señal digital es plausible de ser manipulada de diversas maneras por medio
equidistantes (28). El parámetro para ajustar este valor se denomina de la implementación de procesadores digitales.
comúnmente resolución, profundidad o ancho de la muestra (en
inglés: Resolution, Sample Size o Bit Depth) en la codificación, el Para escuchar cualquiera de los procesos llevados a cabo en
valor cuantizado de cada muestra es representado por una secuencia la computadora es necesario que se realice con la señal el camino
de bits. inverso, es decir convertirla de digital a analógico. Para lograr esto el
conversor DA recibe sucesiva y regularmente las muestras
cuantificadas y codificadas y luego las transforma en un flujo de
ANCHO DE corriente por medio de un factor de escala. Como resultado se
RANGO obtiene una onda escalonada, gracias a que cada muestra
LA DEFINICIÓN VALORES
DINÁMICO representa un valor de tensión estable que se mantiene hasta la
MUETSRA
siguiente muestra. Por este motivo, la onda obtenida no es idéntica a
8 BITS 48 dB 256 niveles De -128 a 127
la onda analógica original (que es de fluctuaciones constantes) se
12 BITS 72 dB 896 niveles De -2.648 a 2.647
introduce de esta manera un ruido de digitalización, cuyas
16 BITS 96 dB 65.536 niveles De -32.768 a 32.767 consecuencias se atenúan a medida que aumenta la resolución en
De -524.288 a bits en la conversión AD.
20 BITS 120 dB
524.287
16.777.216 De -8.388.608 a
24 BITS 144 dB
niveles 8.388.607 Filtrado de la señal: para atenuar los efectos del escalonamiento de
la onda y evitar la aparición de frecuencias que produzcan batidos, se
Tabla 4: cuanto mayor cantidad de bits se asignen a la Resolución, más
precisión se logra para representar la dinámica de la onda sonora, es decir vuelve a filtrar la señal con un filtro FPB. La señal analógica obtenida
sus matices de amplitud. no es igual a la original, aunque sus diferencias pueden llegar a no
ser percibidas auditivamente si se utilizan valores altos en los
Existen en la actualidad dispositivos que internamente llevan a cabo parámetros de digitalización.
operaciones con 32 y 64 bits en coma flotante. Estas resoluciones se
utilizan en audio digital con el fin de efectuar procesos complejos que
requieren enormes cantidades de operaciones de cálculo, con el Dither: recibe este nombre un tipo de ruido aleatorio que se utiliza en
objetivo de alcanzar resultados más precisos. A la salida del determinados casos para ser agregado con un nivel muy bajo a una
conversor A/D se obtiene la señal PCM, a partir de la cual ya no se
5
AUDIO ANALÓGICO / AUDIO DIGITAL
señal, con el propósito de enmascarar y reducir el ruido de que permiten a uno o varios programas descifrar o interpretar el
digitalización o error de cuantificación. contenido de un determinado tipo de archivo multimedia. Cada Códec
define la manera en que está codificada una señal y cómo se
Duración del Tamaño decodifica. También se denominan de este modo las técnicas de
frecuencia tamaño de cantidad de
archivo X X X = del
de muestreo la muestra canales compresión y descompresión de datos
(en segundos) archivo
Este proceso de codificación puede lograrse mediante
882.000 bits programas (softwares), por medio de dispositivos físicos (hardware) o
5” X 22.050 Hz X 8 bits X 1 mono =
= 861,3 Kb
por una combinación de ambos.
El formato, en tanto, sirve para organizar los datos y para que
Figura 3: Fórmula para calcular el espacio de un archivo de audio sin
comprimir
su estructura pueda ser identificada por los programas y por el
hardware.
RUIDO DIGITAL
Wave (Microsoft) (*.wav)
En las señales de poca amplitud el ruido de digitalización se hace
más notorio debido a que puede ocurrir que los saltos entre grados Soun Forge Project File(*.frg)
contiguos de la escala de cuantificación (que varían según la resolución) Audio Interchange File Format AIFF(*.aif)
superen la amplitud de la onda digitalizada introduciendo distorsión.
Dolby Digital AC3 (*.ac3)
También aparece ruido de cuantificación cuando se trucan bits,
por ejemplo, al reducir la resolución de 24 a 16. Intervoice (*.ivc)
MainConcept MPEG-1 (*.mpg)
MainConcept MPEG-2 (*.mpg)
5- ARCHIVOS DE AUDIO: MP3 Audio(*.mp3)
CÓDECS Y FORMATOS: PCM (uncompressed) Next/Sun (Java)(*.au)
CC1TT A-Law Quick Time 6 (*.mov)
El audio digitalizado se CC1TT u-Law Raw Audio (*.raw)
almacena en forma de archivos. DSP Group TrueSpeech(TM) Real Media 9 (*.rm)
Resulta necesario que los datos GSM 6.10 Scott Studios Wave (*.wav)
que hay en ellos estén organizados IEEE Float (uncompressed) Sony Perfect Clarity Audio (*.pca)
de alguna manera en particular. IMA ADPCM
SonyWave 64 (*.w64)
Las diferentes formas de guardar Sound Designer 1(*.dig)
Microsoft ADPCM
los datos que conforman un Video for Windows (*.avi)
MPEG Layer-3
archivo de sonido se conocen Wave Microsoft (*.wav)
PCM (uncompressed)
como FORMATOS. Existen Windows Media Audio V9(*.wma)
diversos formatos que se ajustan a distintas normas o que son Windows Media Video V9(*.wmv)
específicos para diferentes plataformas, entornos, aplicaciones o
soportes. Los formatos son conocidos por la extensión que sigue al
nombre del archivo; por ejemplo .wav (formato wave), .aiff (formato
Aiff), .mp3 (Formato MP3 Layer 3). Cada formato puede, a su vez, Figura 4: listado de formatos y codec´s del
admitir varios CÓDECs. menú Save del programa sound Forge
CÓDEC: apócope del inglés derivado de Coder/decoder
(codificador/decodificador). Son archivos residentes en el ordenador
6
AUDIO ANALÓGICO / AUDIO DIGITAL
En los archivos de sonido se pueden diferenciar la cabecera Existen distintos métodos de compresión, los más utilizados
(header), que es la primera parte del documento, en la que se se basan en modelos psicoacústicos, cuyo principio es el de eliminar
establece su resolución, tasa de muestreo, duración y cantidad de datos que el oído no es capaz de distinguir. Características
canales (mono o estéreo) entre otros aspectos; a continuación se perceptuales y fenómenos como el enmascaramiento y la división del
encuentran las muestras (samples). Así, las distintas formas en que rango de frecuencias audibles en bandas críticas son especialmente
se organizan los datos determinan los distintos formatos. estudiados para definir algoritmos que permitan eliminar información
que en forma un tanto imprecisa se podría denominar redundante.
SIN COMPRIMIR Y COMPRIMIDOS Uno de los pasos, como se da en uno de los métodos más difundidos
de compresión: el MPEG (Motion Picture Expert Group), consiste en
Se pueden diferenciar los formatos de audio que analizar los componentes del espectro del sonido y dividir la señal en
comprimen los datos para generar archivos más livianos, de los sub bandas (codificación sub banda – sub band coding) el propósito
formatos que almacenan audio sin comprimir. En este último caso es lograr codificaciones con menores cantidades de bits a partir de
no hay pérdidas en la información, lo que permite trabajar en alta una señal PCM, teniendo en cuenta que el largo de la palabra en la
calidad. Se utilizan en audio profesional, y es recomendable emplear codificación PCM está determinado por el rango dinámico de la
este tipo de formatos cuando no hay limitaciones para almacenar o componente espectral más alta. El resultado es que disminuye el
para transmitir y distribuir. ancho de banda debido a la eliminación de frecuencias
Con los formatos comprimidos, el objetivo consiste en lograr enmascaradas.
archivos más livianos, que ocupen menos espacio de Estudios demuestran que la distorsión generada es
almacenamiento y que sean más fáciles de mover y de compartir. imperceptible para el oído experimentado en un ambiente óptimo
Los formatos comprimidos mejor logrados son aquellos que desde los 256 kbps y en condiciones normales. Para el oído no
equilibran la menor pérdida de calidad con la máxima compresión experimentado, o común, con 128 kbps o hasta 96 kbps basta para
posible. Un parámetro importante para estos formatos es el bit rate, que se oiga "bien" (a menos que se posea un equipo de audio de alta
que está referido al ancho de banda con que se puede transmitir la calidad donde se nota excesivamente la falta de graves y se destaca
información. el sonido de "fritura" en los agudos). En personas que escuchan
mucha música o que tienen experiencia en la parte auditiva, desde
192 o 256 kbps basta para oír bien. La música que circula por
Internet, en su mayoría, está codificada entre 128 y 192 kbps.
ARQUITECTURAS DE DIGITALIZACIÓN Actualmente, el formato de audio comprimido más popular es
PCM lineal (Pulse Code Modulation o modulación de código de pulso) el MP3 o MPEG 1 layer 3. Se puede optar entre relaciones de
es la calificación estándar de audio no comprimido (Lossless)
mantienen constantes los parámetros para todo el proceso. compresión que van de 4:1 a 70:1. En una relación de compresión
PCM no lineal. Aumenta la resolución en las partes en las que se 10:1 se logran niveles aceptables de calidad (cerca de 128kbps). El
incrementa la amplitud. formato MP3 se convirtió en el estándar utilizado para streaming de
audio y compresión de audio de alta calidad (con pérdida en equipos
de alta fidelidad) gracias a la posibilidad de ajustar la calidad de la
compresión, proporcional al tamaño por segundo (bitrate), y por tanto
el tamaño final del archivo, que podía llegar a ocupar 12 e incluso 15
veces menos que el archivo original sin comprimir. Fue el primer
formato de compresión de audio popularizado gracias a Internet, ya
LA COMPRESIÓN que hizo posible el intercambio de ficheros musicales. Tras el
7
AUDIO ANALÓGICO / AUDIO DIGITAL
desarrollo de reproductores autónomos, portátiles o integrados en medida cuya unidad, el Kbps (kilo bits por segundo), expresa el flujo
cadenas musicales (estéreos), el formato MP3 llega más allá del de datos con que se puede transmitir un archivo. Para anchos de
mundo de la informática. bandas mayores se utiliza Mbps o Gbps (M= mega; G= giga).
8
AUDIO ANALÓGICO / AUDIO DIGITAL
- Mono: un solo canal de sonido 6a1 256
Layer 2
- Dual chanel (canal doble): dos canales mono independienes. 8a1 192
- Stereo: los canales izquierdo y derecho se codifican 10 a 1 128
Layer 3
independientemente 12 a 1 112
- Join Stereo: aprovecha la redundancia de datos entre los canales
izquierdo y derecho que muchas veces contienen la misma En el siguiente cuadro vemos los datos del MP3 para diversas
información para reducir la tasa de bits. acepta dos codificaciones calidades:
posibles: Mid/side stereo e Intensity stereo:
ancho
- La técnica M/S stereo, en vez de codificar los canales calidad
banda
canales Kb/seg proporción %
izquierdo y derecho, codifica la información de un canal
central (la que es igual en los canales izquierdo y derecho) y teléfono 2.5 mono 8 96 a 1 1.04 %
de uno lateral, que es el que contiene la información onda corta 4.5 mono 16 48 a 1 2.08 %
diferencial entre ambos canales. Es decir, lo que queda en onda
cada canal después de restarle a cada uno la información 7.5 mono 32 24 a 1 4.16 %
media
que va al canal central. Los canales izquierdo y derecho se
56 26 a 1 3.84 %
reconstruyen durante la decodificación. radio FM 11 estéreo
64 24 a 1 4.16 %
- La técnica Intensity Stereo se vale de la limitación del
oído humano para reconocer la ubicación espacial de casi CD 15 estéreo 96 16 a 1 6.25 %
determinadas frecuencias, por lo que estas son reducidas a 112 14 a 1 7.14 %
una señal mono. CD 15 estéreo
128 12 a 1 8.33 %
¿Cuánto espacio ahorra el MP3? Como podemos ver en la tabla anterior, para grabar locución
Aplicando las técnicas de MP3, se consigue reducir el (voz hablando), podemos conseguir una proporción de 96 a 1, o, lo
tamaño que ocupa una pieza musical en un factor entre 10 y 12 a 1, que es lo mismo, reducir el tamaño de la grabación a casi el 1% del
es decir, que se reduce a menos de una décima parte. Así, un minuto original. Estas mejoras van reduciéndose, como es lógico, si
de música estéreo de alta calidad ocuparía alrededor de 1 Mb el queremos aumentar la calidad resultante.
formato MP3 consigue lo que los especialistas denominan "calidad En muchas ocasiones, cuando vamos a efectuar la descarga
casi CD". Es decir, dado que sabemos que se ha eliminado parte de de un archivo de audio en mp3 o queremos llevar a cabo la
la información sonora, de hecho tiene que sonar algo peor que el conversión de un wav a este formato nos preguntamos ¿Cuánto
original. puede ocupar?.
Existen algunas páginas que ofrecen la misma canción o
Los otros formatos MPEG 1
archivo sonoro en diferentes calidades o con distintos ratios de bits.
Si el MP3 es el MPEG 1 Layer 3, ¿cómo son los Layer 1 y Layer 2? Obviamente, no ocupará igual un archivo que tenga más bitrate que
Veamos una comparativa, para obtener sonido estéreo en calidad uno que disponga de menos. Por lo tanto, ¿Cómo saber qué tamaño
"casi CD": puede tener un archivo en mp3? Es fácil, tan sólo hay que realizar
una sencilla fórmula: Hay que dividir el ratio de bits del archivo en
formato compresión Kb/seg cuestión entre 8 y multiplicarlo por los segundos de duración de la
Layer 1 4a1 384 canción. Por ejemplo, si tenemos un archivo que dispone de una
9
AUDIO ANALÓGICO / AUDIO DIGITAL
calidad o ratio de bits de 96 Kbps (frecuente para voz y música) con BIBLIOGRAFÍA:
una duración de 5 minutos (300 segundos) su tamaño sería el
Bas, Pablo (2005): Audio Digital. Ed. Manual Users. Bs.As.
siguiente: 96:8=12... 12x300=3600 KB o lo que es lo mismo 3,51 MB
(resultado de dividir 3600/1024). Nuñez, Adolfo: Informática y Electrónica Musical. Editorial Paraninfo.
España.
STREAMING
Valenzuela, José: Audio Digital. Conceptos Básicos y Aplicaciones.
La traducción literal del término es corriente o flujo. Se Editorial: Miller Freeman Books. USA.
denomina de este modo al método utilizado para transferir archivos
de audio y video con el fin de que se reproduzcan mientras se
descargan. Antes de que la tecnología "streaming" apareciera en
abril de 1995 (con el lanzamiento de RealAudio 1.0), la reproducción
de contenido Multimedia a través de internet necesariamente
implicaba tener que descargar completamente el "archivo
contenedor" al disco duro local. Como los archivos de audio —y
especialmente los de video— tienden a ser grandes, su descarga y
acceso como paquetes completos se vuelve una operación muy
lenta. La tecnología de streaming se utiliza para aligerar la descarga
y ejecución de audio y vídeo en la web. Se hace streaming, por
ejemplo, cuando se transmite una radio, o un canal de televisión en
vivo por internet. Los formatos para streaming, como rm o wma,
posibilitan reproducir audio sin tener que esperar a descargar la
totalidad del archivo en el disco rígido. La información baja
segmentada en “paquetes” o “trenes” ordenados, que se alojan en el
buffer y comienzan a reproducirse mientras siguen descargándose
sucesivamente los paquetes restantes hasta completarse la totalidad
del archivo. Cuando cada paquete termina de reproducirse desde el
buffer, es reemplazado por los siguientes.
La calidad de los archivos comprimidos depende del Códec y
del ancho de banda disponible para la conexión.
Los archivos que no son para streaming son “bajables”
(dounloables), es decir, si no utilizamos streaming para mostrar un
contenido multimedia en la Red tenemos que descargar primero el
archivo entero en nuestra PC y más tarde ejecutarlo, para finalmente
ver y oír lo que el archivo contenía.
10