Compresión de Video
Compresión de Video
Compresión de Video
SUMARIO
NECESIDAD DE LA COMPRESIÓN EN VIDEO
REDUNDANCIA ESPACIAL
CODIFICACIÓN INTRA CAMPO – INTRA CUADRO
CODIFICACIÓN INTRA o ESPACIAL
1
NECESIDAD DE COMPRESIÓN EN VIDEO
La compresión digital en el mundo audiovisual reduce drásticamente el flujo, volumen, peso...
de los datos binarios que se generan al digitalizar la imagen de video, sin que dicha imagen
sufra ningún deterioro a ojos del espectador.
Por compresión se entienden los métodos de reducción de flujo binario, sin perdida de calidad
subjetiva de la imagen y el sonido. Su medida se expresa a través del factor o ratio de
compresión: flujo salida / flujo de entrada.
Para comprimir hay que ver primero el sector del que hablamos:
Broadcast (el que más nos importa)
Multimedia (cualquier soporte óptico, dvd), o
Aplicación en red.
Tanto la digitalización de la señal como los niveles de compresión son diferentes.
En difusión o distribución, el producto está acabado y los datos no sufrirán ningún proceso
más.
Aunque, como hemos visto, existen herramientas que nos permiten disminuir el ancho de
banda necesario para transmitir una imagen digital, el resultado dista mucho de poder
adaptarse a los requerimientos de frecuencia de que se dispone en las bandas de radiodifusión
comercial. Esto se debe, en parte, a que los sistemas de reducción del ancho de banda
estudiados hasta ahora se aplican únicamente sobre el flujo de datos, por lo que la reducción
tendrá efectos limitados. Si nuestro objetivo es reducir aún más el canal de transmisión,
deberemos aplicar técnicas sobre el resto de los procesos de la digitalización. Por otro lado, si
deseamos poder almacenar las señales de televisión digital en soportes magnéticos, habremos
de plantear una drástica reducción de la cantidad de información, sin que ello suponga una
reducción notable de la calidad de imagen.
2
Donde Ф1 es el flujo de salida y Ф2 el flujo de entrada. Es decir, de cada n muestras sale una
(cuanto mayor sea n, más compresión).
Betacam Digital tiene un nivel de compresión de 2:1 (quita la mitad de las muestras).
Difusión: Se mide en función del número de canales digitales que caben dentro del ancho de
banda de un canal analógico PAL (5'5 .Mhz).
Por ejemplo 6 canales digitales por ancho de banda en satélite. En TDT (TV hertziana) es 4.
En cable, depende del cable. Los canales que meteremos irán en función del contenido (fútbol,
dibujos animados...). Cuantos más canales haya en un ancho de banda, más compresión
tendrán.
3
TEORÍA DE LA INFORMACIÓN DE LA IMAGEN TELEVISIVA
Teoría matemática de la información (Shanon / Weaver):
"La información se compone de dos conceptos igualmente importantes:
Entropía y
Redundancia.
Entropía: Información necesaria mínima para que el receptor comprenda y recomponga un
mensaje completo.
Redundancia: toda la información que no es necesario transmitir porque la puede deducir el
destinatario a través de la información entrópica"
I= H +R
Siempre que comprimimos perdemos información. El objetivo es evitar que se note. Por eso
para comprimir la información digital tenemos que trabajar sobre la redundancia. Así, se hace
una compresión sin pérdidas.
La imagen audiovisual es altamente redundante, es decir, tiene grandes márgenes de
compresión.
Si por el contrario comprimimos parte de la información entrópica, se producen artefactos, es
decir, pérdida de parte de la señal que el espectador percibe de forma visible en la imagen
debido a la manipulación o deterioro de la información entrópica al ser comprimida.
Es como un drop en analógico, y ocurre si comprimimos lo entrópico.
Los sistemas analógicos de televisión transmiten una imagen tras otra, barriendo
secuencialmente la pantalla sin tener en cuenta cuál es el contenido de la escena. Pero en
realidad, en una imagen de vídeo aparece una gran cantidad de información redundada, que
no es necesario enviar una y otra vez, al no modificarse en grandes lapsos de tiempo.
Además de esta redundancia temporal, se puede apreciar que existe otra de tipo espacial.
Frecuentemente, un punto de la imagen es igual a los que le rodean, puesto que rara vez se
utilizan imágenes de elevada complejidad.
Esto nos da una nueva posibilidad de ahorro de información: podemos enviar la información
completa correspondiente a algunos puntos, repartidos estratégicamente por la imagen, y que
servirán como referencia. Para el resto, bastará con decir si son iguales que su referencia (lo
que se producirá a menudo) o, en su caso, en qué medida difieren de ésta. Si utilizamos un
código muy corto para definir «punto igual a su referencia», podremos economizar en la
cantidad de información transmitida.
La mayor parte de las escenas se graban con la cámara estática, por lo que el fondo, o una
parte de él, permanece estable en la imagen durante mucho tiempo. Además, ese fondo está
formado, en la mayoría de los casos, por grandes áreas del mismo color. Esto supone que si
enviamos la información de ese fondo una vez, podremos mantenerlo en la memoria del
receptor hasta que se modifique ahorrando así una sustancial cantidad de información.
5
Partiendo de las premisas anteriores, el sistema MPEG-2 plantea métodos de compresión de
imágenes desde varios frentes, aplicándose todos ellos simultáneamente para conseguir la
máxima reducción posible. Según sea el ámbito de aplicación en el que se desarrolla, podemos
diferenciar los siguientes sistemas de codificación: codificación ultra- campo y predicción de
imágenes.
6
REDUNDANCIA ESPACIAL
CODIFICACIÓN INTRA CAMPO – INTRA CUADRO
CODIFICACIÓN INTRA o ESPACIAL
Un análisis de las imágenes de televisión revela que existe un alto contenido de frecuencias
espaciales debido al detalle en algunas áreas de la imagen, generando una cantidad pequeña
de energía en tales frecuencias. A menudo las imágenes contienen considerables áreas en
donde existen pixeles con un mismo valor espacial.
La redundancia espacial es aquella que tiene en cuenta la igualdad o similitud de píxeles
sucesivos en el espacio.
La primera pregunta que nos hacemos es ¿Existe mucha redundancia espacial en la imagen?
En otras palabras ¿Se parecen o son casi iguales muchos píxeles dentro de una misma
imagen? La respuesta es afirmativa.
En efecto, si tomamos dos píxeles sucesivos de imagen y lo observamos en la señal analógica
de video, veremos que en general tienen valores muy próximos, lo que traducido a números en
la conversión analógica/digital significarán números próximos. Sea por ejemplo un píxel de
valor 10010001. El píxel siguiente podría ser el 10010010. Ambos píxeles se diferencian en los
dos últimos bits.
Supongamos que transmitimos el primer píxel, pero del segundo solo transmitimos las cifras
que difieren del anterior en nuestro ejemplo los dos últimos bits. En el receptor se estarían
renovando píxel tras píxel los bits que difieren que son realmente pocos. El flujo binario habrá
bajado drásticamente y la señal de video se estaría transmitiendo a un flujo binario muy bajo.
Una vez más tenemos que decir que esta transmisión adolece al día de hoy de dificultades de
operatividad electrónica, velocidad de cálculo y solución aceptable de los cambios abruptos en
el valor de los píxeles que ocurren en la imagen en los bordes de objetos donde ésta cambia
abruptamente.
Con todo, esta es la base conceptual de la eliminación de la redundancia espacial de imagen y
el principio en que se basan los dispositivos de eliminación de redundancia espacial.
Los métodos de compresión que actúan sobre la redundancia espacial están basados en
diferentes funciones matemáticas, uno de los algoritmos (otras técnicas de compresión
aplicadas a imagen son las Transformadas Discretas Wavelet y Fractales. Actualmente sus
resultados no se consideran óptimos para sistemas de alta calidad Alesso 2001) más
destacados por su buen resultado es la DCT o Transformada Discreta del Coseno, una
función derivada de la Transformada de Fourier (pero que reduce a la mitad el número de
coeficientes respecto a la anterior).
Esta función no “comprime” en sí misma, sino que separa la información entrópica de la
redundante, permitiendo así un tratamiento diferenciado para ambas a través de posteriores
técnicas de procesamiento.
Tras analizar la imagen a través de la DCT, se aplican técnicas de reducción entre las que
destacan:
Redondeo:
Se igualan a cero todos aquellos coeficientes con valor menor a uno dado. Aquí se
determina el valor de referencia de compresión, según el coeficiente de redondeo
considerado se actuará en mayor o menor medida sobre la información entrópica.
Codificación de Longitud Variable (VLC):
Se aplican valores cortos a los coeficientes más frecuentes y valores largos a los de menor
presencia. La variante más común es el método Huffman.
Codificación de Trayectoria Variable (RLC):
Es una codificación sin pérdidas que reagrupa los elementos repetidos a través de
expresiones más cortas.
7
La DCT es un sistema de procesamiento en bloques, basado
en dividir la imagen en 64 macrobloques, cada uno
compuesto a si mismo por bloques de 8x8 elementos. Al
procesar estos bloques a través de la DCT se obtiene una
matriz de coeficientes cuyos valores son adecuados para
posteriores procesos matemáticos.
Un serio problema se plantea cuando se aplica una transformada discreta del coseno a una
imagen de mala calidad que contiene mucho ruido de fondo. Al analizar los bloques, se
obtienen muestras que ahora, precisamente por el carácter aleatorio del ruido añadido,
presentarán puntos con información muy diferente y, por lo tanto, muchos coeficientes distintos
de cero.
Ante esta situación, la compresión será muy poco
efectiva, por lo que nos conviene tomar alguna medida
correctora previa a la transformación. El submuestreo
anterior a 4:2:0 reduce, al dividir el número de muestras
de color tomadas, el nivel de ruido cromático detectado.
Asimismo, reducir a 8 bits las muestras disminuye
también el número de valores aplicables a cada punto,
por lo que dos puntos con valores originales cercanos
(como resultado de sumar a la señal de luminancia un
pequeño nivel de ruido) ahora se entenderán como
iguales, permitiendo así un mayor grado de compresión.
Esto se produce en el proceso de cuantificación,
encargado de asignar valores de 8 bits a los coeficientes
obtenidos en la transformación.
8
Una vez obtenidos los coeficientes correspondientes a cada bloque, debemos ordenarlos para
realizar una transmisión coherente con la menor extensión posible. A este proceso se le
denomina codificación, y consiste en leer los coeficientes obtenidos y definir grupos de estos
coeficientes con pares de cifras.
El primer número de cada par indicará cuántos coeficientes de valor cero aparecen de forma
consecutiva; mientras que el segundo representa el valor del siguiente coeficiente distinto de
cero. Se deduce inmediatamente que cuantos más valores cero consecutivos obtengamos,
menor será el número de pares necesarios para transmitirlos. Como los puntos más parecidos
son los adyacentes en las dos dimensiones, la lectura de los coeficientes adoptada es en forma
de zigzag, barriendo horizontal y verticalmente el bloque al mismo tiempo.
La forma en la que transmitiremos estas series de pares de datos supondrá un avance más en
la reducción de la cantidad de información transmitida. En este caso se utilizará el sistema
Huffman, un código de longitud variable que asigna a los valores que se producen con mayor
frecuencia códigos de transmisión muy cortos, reservando los le mayor longitud para aquellos
que se presentarán de forma esporádica. Esto supone que, a largo plazo, seremos capaces de
transmitir una gran cantidad de información en
pocos bits de salida; lo más común es utilizar
únicamente dos bits por cada pixel codificado,
como resultado le combinar las diferentes técnicas
estudiadas.
Con el fin de detectar y corregir posibles errores de transmisión, los macrobloques pueden
asociarse formando porciones (slices) de imagen. Estas porciones se conforman con
macrobloques adyacentes; podrán tener tamaños variables según la necesidad, aumentando el
número de bits transmitidos conforme se establecen lonchas más pequeñas, ya que cada una
forma una subtrama.
A estas informaciones de bloque, macrobloque y ion. chas se les añadirán, como es habitual,
otros datos de sincronización, identificación y corrección de errores en cada nivel, hasta crear
una trama digital con entidad propia a la que llamaremos imagen de tipo I. Esta se convertirá,
al contener la información de todos los puntos de la pantalla, en la referencia para poder
reconstruir otras imágenes, que se transmitirán con un nivel de compresión mayor.
9
REDUNDANCIA TEMPORAL. PREDICCIÓN DE IMÁGENES
CODIFICACIÓN INTER CAMPO – INTER CUADRO
CODIFICACIÓN INTER o ESPACIAL
En el video existe mucha Redundancia Temporal, ya que un píxel de una determinada línea de
imagen se repite con el mismo o con un valor similar a lo largo del tiempo en imágenes
sucesivas hasta que ésta cambie drásticamente como consecuencia de un corte o una edición.
Si el movimiento de los objetos en la imagen es muy rápido habrá menos redundancia
temporal. Si es lento habrá más redundancia temporal.
El dispositivo explicado es más teórico que práctico debido a muchas cuestiones que deben
objetarse sobre variabilidad de los píxeles en el tiempo con imágenes reales, problemas con
los cambios bruscos de imágenes y errores de transmisión, pero en él se fundamenta la
eliminación de la redundancia temporal y los sorprendentes efectos conseguidos con la
compresión en las transmisiones digitales.
10
MODELO REAL
Los métodos de compresión intercuaduadro actúan sobre la redundancia temporal, aquella
información común entre imágenes contiguas. Aprovecha la ventaja que existe cuando las
imágenes sucesivas son similares.
Para ello, se convierten las imágenes de una secuencia en un conjunto de nuevas imágenes
con diferentes niveles de compresión que permita, a través de su conjunto, la recuperación de
la información omitida.
En lugar de enviar la información de cada imagen por separado, el codificador inter envía la
diferencia existente entre la imagen previa y la actual en forma de codificación diferencial.
Por tanto, una vez transmitida la información correspondiente a la imagen I, se puede recrear la
siguiente imagen observando los cambios que se han producido entre la captación de ambas y
recolocando los objetos en sus nuevas ubicaciones. Ahora bastará con añadir aquellos
elementos nuevos que han aparecido en la escena para tener toda la información necesaria.
Esta operación precisará de una cantidad de datos muy inferior a la que se necesita de la
imagen completa, por lo que se plantea como una opción interesante de compresión.
El codificador necesita de una imagen, la cual fue almacenada con anterioridad para luego ser
comparada entre imágenes sucesivas y de forma similar se requiere de una imagen
previamente almacenada para que el decodificador desarrolle las imágenes siguientes.
Para analizar los movimientos producidos entre dos imágenes, se comparan macrobloques (16
x 16 píxeles) correspondientes a dos imágenes distintas, tomadas en áreas de 64 x 48 píxeles
de extensión. Estas zonas son lo suficientemente grandes para que en ambas aparezcan los
objetos, incluso ante movimientos rápidos, por lo que entre ambos macrobloques se apreciará
un desplazamiento en el lugar que ocupa cada elemento de la imagen que se ha movido.
Las imágenes P también denominadas ancla, definen una secuencia llamada M, que
comprende de la imagen intracuadro a la última imagen bidireccional anterior a la primera
predictiva.
Una secuencia de imágenes que está constituida por una imagen I y las siguientes imágenes P
hasta el comienzo de otra imagen I, se denomina grupo de imágenes GOP (Group Of Pictures).
Para factores de compresión altos se utiliza un número grande de imágenes P, haciendo que
las GOPs aumenten de tamaño considerablemente; sin embargo un GOP grande evita
recuperar eficazmente una transmisión que ha llegado con errores.
CODIFICACIÓN BIDIRECCIONAL
Cuando un objeto se mueve, este oculta lo que hay detrás de él, pero esto va cambiando a
medida que se va moviendo, permitiendo observar el fondo. El revelado del fondo exige nuevos
datos a ser transmitidos, ya que el área del fondo había sido ocultada anteriormente y la
información no pudo ser obtenida desde una imagen previa.
Un problema similar ocurre si se hace una toma panorámica con una cámara de video;
aparecen nuevas áreas al observador y nada se sabe acerca de ellas. MPEG ayuda a
minimizar este problema utilizando codificación bidireccional, la cual deja información para ser
tomada de imágenes anteriores y posteriores a la imagen observada.
Si el fondo ya ha sido revelado, y este será presentado en una imagen posterior, la información
puede ser movida hacia atrás en el tiempo, creando parte de la imagen con anticipación.
Imágenes Tipo B
Las imágenes predichas no se transmitirán inmediatamente después de la imagen de
referencia utilizada, sino que entre la predicción y la original se insertarán otras imágenes
bidireccionales o de tipo B.
13
En el centro del diagrama un objeto se mueve revelando su fondo, pero éste no se conoce
hasta la siguiente imagen. Entonces se toman los datos de las imágenes anteriores y
posteriores, o incluso se utiliza el promedio de los datos, descubriendo de esta forma el fondo.
En la figura se muestra una codificación bidireccional. Primero se toma una imagen I y, con la
ayuda de una imagen P se pueden obtener imágenes B, las cuales son llamadas también
imágenes bidireccionales.
Codificación
bidireccional
Estas imágenes «de relleno», distintas entre sí, se forman por comparación no sólo con la
referencia pasada, sino también con la imagen P que se transmitirá posteriormente.
Interpolando estas dos imágenes conseguimos una predicción bidireccional en el tiempo, que,
con una mínima cantidad de datos, permite obtener imágenes con un alto grado de precisión.
Para rizar aún más el rizo, una imagen predicha, recompuesta a partir de los vectores de
desplazamiento y sus diferencias con otra anterior, se puede convertir en nueva referencia para
la siguiente imagen de tipo P.
Esto supone que se pueden formar grupos de imágenes (Groups Of Pictures, GOP), que se
iniciarán necesariamente a partir de una imagen I.
De este modo, los sistemas con este tipo de compresión MPEG definen su estructura a partir
del GOP utilizados en su construcción, expresado por el número M y N. E
n los anteriores casos 12/5 y 6/3, con lo que se informa de su extensión y grado de
compresión.
La ITU ha desarrollado una familia de formatos comprimidos bajo la denominación común
MPEG, 1, 2,4, 7 y actualmente el 21 en desarrollo.
14
TRANSMISIÓN DE LA SEÑAL DIGITALIZADA
Si en televisión analógica se establecía una estructura de cuadro, campo y línea que ordenaba
la transmisión de la señal de vídeo, también en el sistema MPEG-2 se utiliza una composición
estructurada para la trama de imagen. En esta trama podemos encontrar, como elemento de
mayor amplitud, la secuencia de imagen. Las secuencias se transmitirán una detrás de otra y
se iniciarán con un código de sincronización, detrás del cual aparecen codificados los
parámetros fundamentales de la imagen (resolución, relación de aspecto, etc.) y los parámetros
de transmisión. A continuación se podrá observar un campo de datos adicionales, para
ampliaciones futuras del sistema. La secuencia concluye con la transmisión de los diferentes
grupos de imágenes que forman la secuencia.
Cada uno de los grupos de imágenes integrados en la secuencia se podrá identificar con un
tren de impulsos conocidos, que forma la primera parte de la subtrama. El código de tiempo
que se inserta a continuación servirá para facilitar la búsqueda rápida de escenas y su edición.
Como los GOP pueden tener longitud variable, se insertará un campo donde se establezcan los
parámetros de las imágenes que forman el grupo, seguido de la información correspondiente a
las imágenes propiamente dichas.
De modo similar a los elementos de mayor tamaño, cada imagen contendrá campos de
identificación, información, etc., antes de enviar las porciones que forman cada imagen. Cada
porción incluirá también entre sus campos de datos auxiliares la posición que ocupa en la
pantalla, así como la información de los macrobloques que la integran. El macrobloque es la
estructura de subtrama más pequeña que maneja el sistema MPEG-2. En ella se podrán incluir
los vectores de movimiento y los bloques de información de la imagen, que serán de tipos
distintos en función de su pertenencia a imágenes 1, P o B, por lo que se incorpora un campo
que lo definirá.
15
LA COMPRESIÓN EN LA PRODUCCIÓN Y EN LA DIFUSIÓN DE LA OBRA
AUDIOVISUAL
Un criterio en el sector de la Producción Audiovisual es exigir factores de compresión bajos ya
que es en el origen donde se exige la mayor calidad para la obra audiovisual.
Por tanto en la producción de calidad “Broadcast” se demanda una compresión sin pérdidas.
Por ejemplo, si en la norma 4:2:2 que como sabemos tiene un flujo binario completo de 166
Megabits/seg. se aplica una compresión moderada de 3,3, se obtienen 50 Megabits/segundo y
esta compresión se consigue con la aplicación de la “Transformada Discreta del Coseno sin
redondeo de coeficientes”, lo que aconseja no bajar de 50 Megabits/seg. en la producción de
calidad Estudio.
Esta es la razón por la que existen formatos de 50 Megabits/seg. como el DVC-PRO 50, el
Digital-S de JVC, y otros.
El Betacam Digital de Sony en particular aplica una compresión de 2, situándose en un muy
alto nivel de calidad “Broadcast”. Este nivel de calidad lo comparte el formato D5 de Panasonic.
Por otro lado, si la norma de partida es la de Periodismo Electrónico 4:1:1 o 4:2:0 y se aplica
una compresión no degradante basada igualmente en la DCT, se obtiene un flujo binario de 25
Mbits/seg. que es una calidad aceptada por su alto nivel para la actividad periodística y la
producción ligera de video.
Estaríamos entonces manejando equipos del tipo DV-CAM y DVC-PRO 25 y de Sony y
Panasonic respectivamente.
Es así como hoy día se manejan dos estándares de flujo en la producción audiovisual:
- 50 Megabits en Calidad Estudio y
- 25 Megabits/seg. en Calidad Periodismo Electrónico y Producción Ligera.
La reducción de flujo binario significa menos circuitos integrados, menos consumo, equipos
más ligeros, cinta de menor ancho y un conjunto de beneficios operativos que reclama
fundamentalmente el Periodismo Electrónico.
En cambio en las transmisiones de señal por satélite, cable o vía hertziana la televisión digital
debe acomodar el flujo binario a la capacidad del canal disponible. En las transmisiones, el flujo
binario se puede bajar aún más y de manera ostensible, puesto que la obra audiovisual ya está
culminada y no existe inconveniente en aplicar fuertes compresiones para la reducción de la
redundancia temporal. Este panorama favorable conduce a la disminución del flujo binario
16
hasta valores tan bajos como de 6 a 8 Megabits/seg. para las transmisiones de calidad Estudio
en TV convencional y de 3 a 6 Megabits para calidades equivalentes al actual PAL.
Flujos tan bajos como 1,5 a 3 Megabits/seg. se usan en ciertas transmisiones por cable, en las
que el Operador de Distribución fuerza la situación de compresión para ofrecer más cantidad
de canales al usuario.
En las transmisiones por satélite se consiguen hoy en día factores de compresión del orden de
6 a 7 por canal, lo que significa que por donde cabe un canal analógico, se transmiten hoy 6 a
7 canales digitales de igual calidad. Esta propiedad de la compresión digital de multiplicar las
posibilidades de uso del espectro radioeléctrico sitúa a esta tecnología en la mayor vanguardia
dentro del dominio digital. Este hecho ha modificado totalmente los planteamientos de
distribución de frecuencias y canales del espectro y ha puesto en acelerado proceso la
amortización de la televisión analógica tradicional NTSC, PAL y SECAM.
En España, la fecha del año 2010 marca el fin de las transmisiones de la televisión analógica
por vía terrestre hertziano.
17