Compresión de Video

COMPRESIÓN DE VIDEO
SUMARIO
NECESIDAD DE LA COMPRESIÓN EN VIDEO
TEORÍA DE LA INFORMACIÓN DE LA IMAGEN TELEVISIVA
REDUNDANCIA ESPACIAL
CODIFICACIÓN INTRA CAMPO – INTRA CUADRO
CODIFICACIÓN INTRA o ESPACIAL
REDUNDANCIA TEMPORAL. PREDICCIÓN DE IMÁGENES

CODIFICACIÓN INTER CAMPO – INTER CUADRO
CODIFICACIÓN INTER o ESPACIAL
MODELO REAL
LAS IMÁGENES TIPO P O PREVISTAS O PREDICHAS
UN SISTEMA BÁSICO DE CODIFICACIÓN INTER
CODIFICACIÓN BIDIRECCIONAL
IMÁGENES TIPO B
TRANSMISIÓN DE LA SEÑAL DIGITALIZADA
LA COMPRESIÓN EN LA PRODUCCIÓN Y EN LA DIFUSIÓN DE LA OBRA AUDIOVISUAL
1
NECESIDAD DE COMPRESIÓN EN VIDEO
La compresión digital en el mundo audiovisual reduce drásticamente el flujo, volumen, peso...
de los datos binarios que se generan al digitalizar la imagen de video, sin que dicha imagen
sufra ningún deterioro a ojos del espectador.
Por compresión se entienden los métodos de reducción de flujo binario, sin perdida de calidad
subjetiva de la imagen y el sonido. Su medida se expresa a través del factor o ratio de
compresión: flujo salida / flujo de entrada.
La compresión es imprescindible en la digitalización audiovisual , debido a sus grandes flujos

que no se pueden manejar. Con la norma 601, los fabricantes empiezan a crear algoritmos de
compresión.
Para comprimir hay que ver primero el sector del que hablamos:
Broadcast (el que más nos importa)
Multimedia (cualquier soporte óptico, dvd), o
Aplicación en red.
Tanto la digitalización de la señal como los niveles de compresión son diferentes.
Dentro del Broadcast hay dos campos de compresión según la aplicación:

Producción o
Difusión.
Producción permite menores niveles de compresión que difusión, porque en producción, al

igual que en analógico, se hace posproducción, se manipula.
La compresión de video surge de la necesidad de transmitir imágenes a través de un canal que
contenga un ancho de banda aceptable.
Hemos visto el enorme flujo binario que maneja la señal de video digitalizada:
- 166 Megabits/seg en la norma 4:2:2 de calidad Estudio y
- 125 Megabits/seg. en las normas 4:1:1 y 4:2:0 de Periodismo Electrónico.
Como comparación con otros flujos binarios, citamos el caso del sonido con calidad estéreo
digitalizado que tiene como máximo 1,5 Megabits/seg.
Esta cantidad de información resulta inmanejable en los procesos de producción de video, de
almacenamiento y de transmisión de señales tanto en distribución como en difusión al público.
Baste comprobar que por ejemplo grabar el flujo de 166 Megabits/seg. en un disco duro de 4
Gigabytes supone solamente 3 minutos y 12 segundos de programa.
Resulta por tanto necesaria la compresión digital, entendiendo por tal la reducción drástica del
flujo binario sin pérdida de la calidad subjetiva de imagen, o como mucho con una pérdida
controlada y aceptada por el usuario del sistema.
En difusión o distribución, el producto está acabado y los datos no sufrirán ningún proceso
más.
Aunque, como hemos visto, existen herramientas que nos permiten disminuir el ancho de
banda necesario para transmitir una imagen digital, el resultado dista mucho de poder
adaptarse a los requerimientos de frecuencia de que se dispone en las bandas de radiodifusión
comercial. Esto se debe, en parte, a que los sistemas de reducción del ancho de banda
estudiados hasta ahora se aplican únicamente sobre el flujo de datos, por lo que la reducción
tendrá efectos limitados. Si nuestro objetivo es reducir aún más el canal de transmisión,
deberemos aplicar técnicas sobre el resto de los procesos de la digitalización. Por otro lado, si
deseamos poder almacenar las señales de televisión digital en soportes magnéticos, habremos
de plantear una drástica reducción de la cantidad de información, sin que ello suponga una
reducción notable de la calidad de imagen.
La forma de medir la compresión también es diferente en producción que en difusión.
2
Donde Ф1 es el flujo de salida y Ф2 el flujo de entrada. Es decir, de cada n muestras sale una
(cuanto mayor sea n, más compresión).
Betacam Digital tiene un nivel de compresión de 2:1 (quita la mitad de las muestras).
Difusión: Se mide en función del número de canales digitales que caben dentro del ancho de
banda de un canal analógico PAL (5'5 .Mhz).
Por ejemplo 6 canales digitales por ancho de banda en satélite. En TDT (TV hertziana) es 4.
En cable, depende del cable. Los canales que meteremos irán en función del contenido (fútbol,
dibujos animados...). Cuantos más canales haya en un ancho de banda, más compresión
tendrán.
3
TEORÍA DE LA INFORMACIÓN DE LA IMAGEN TELEVISIVA
Teoría matemática de la información (Shanon / Weaver):
"La información se compone de dos conceptos igualmente importantes:
Entropía y
Redundancia.
Entropía: Información necesaria mínima para que el receptor comprenda y recomponga un
mensaje completo.
Redundancia: toda la información que no es necesario transmitir porque la puede deducir el
destinatario a través de la información entrópica"
I= H +R
Siempre que comprimimos perdemos información. El objetivo es evitar que se note. Por eso
para comprimir la información digital tenemos que trabajar sobre la redundancia. Así, se hace
una compresión sin pérdidas.
La imagen audiovisual es altamente redundante, es decir, tiene grandes márgenes de
compresión.
Si por el contrario comprimimos parte de la información entrópica, se producen artefactos, es
decir, pérdida de parte de la señal que el espectador percibe de forma visible en la imagen
debido a la manipulación o deterioro de la información entrópica al ser comprimida.
Es como un drop en analógico, y ocurre si comprimimos lo entrópico.
En resumen: hay que comprimir la redundancia
Los sistemas analógicos de televisión transmiten una imagen tras otra, barriendo
secuencialmente la pantalla sin tener en cuenta cuál es el contenido de la escena. Pero en
realidad, en una imagen de vídeo aparece una gran cantidad de información redundada, que
no es necesario enviar una y otra vez, al no modificarse en grandes lapsos de tiempo.
Además de esta redundancia temporal, se puede apreciar que existe otra de tipo espacial.
Frecuentemente, un punto de la imagen es igual a los que le rodean, puesto que rara vez se
utilizan imágenes de elevada complejidad.
Esto nos da una nueva posibilidad de ahorro de información: podemos enviar la información
completa correspondiente a algunos puntos, repartidos estratégicamente por la imagen, y que
servirán como referencia. Para el resto, bastará con decir si son iguales que su referencia (lo
que se producirá a menudo) o, en su caso, en qué medida difieren de ésta. Si utilizamos un
código muy corto para definir «punto igual a su referencia», podremos economizar en la
cantidad de información transmitida.
La mayor parte de las escenas se graban con la cámara estática, por lo que el fondo, o una
parte de él, permanece estable en la imagen durante mucho tiempo. Además, ese fondo está
formado, en la mayoría de los casos, por grandes áreas del mismo color. Esto supone que si
enviamos la información de ese fondo una vez, podremos mantenerlo en la memoria del
receptor hasta que se modifique ahorrando así una sustancial cantidad de información.
El talón de Aquiles está en la transmisión de objetos móviles. Al ser cambiantes, se deberán

transmitir íntegramente, por lo que la reducción en este caso parece que no será posible... ¿o
quizá sí? En realidad, casi todos los movimientos (excepto los iniciales y los cambios de
escena) son continuos, y por lo tanto predecibles, por lo que si analizamos varias imágenes
podremos saber, con un alto grado de acierto, cuál será la siguiente.
Para desarrollar esta idea se puede seguir el método de comparar puntos adyacentes con sus
referencias, y extrapolarlo a imágenes completas. Así, transmitiremos imágenes de referencia
«íntegras» (en realidad, habremos reducido el número de puntos transmitidos, según lo que
apuntábamos en el párrafo anterior) cada cierto tiempo, y entre ellas se enviarán otras con los
movimientos detectados. Con esta información, será el receptor el encargado de restaurar las
imágenes originales. Naturalmente, todas estas modificaciones de la señal deberán producirse
de forma controlada y organizada, por lo que el proceso que nos espera es amplio y complejo.
4
Por tanto, la compresión digital se basa en un principio bien estudiado por los teóricos de la
comunicación, que es la eliminación de la redundancia de la imagen, esto es la eliminación de
la información «repetitiva» o «fácilmente deducible» en el receptor.
Esta redundancia es enorme en la señal de video y se produce a dos niveles:
Redundancia Temporal (Rt)
Redundancia Espacial (Re).
Es decir: 1= H + Rt + Re
Redundancia espacial o intracuadro (intraframe).

Redundancia dentro del frame.
Se produce por el parecido entre pixels situados en zonas colindantes.
Depende de los matices de la imagen (filigrana). Por eso, los dibujos se pueden comprimir más
que la imagen real.
La figura muestra que cuando las imágenes individuales son comprimidas sin
referencia a las demás, el eje del tiempo no entra en el proceso de compresión,
esto por lo tanto se denomina codificación intra (intra=dentro) o codificación
espacial.
A medida que la codificación espacial trata cada imagen independientemente,
esta puede emplear ciertas técnicas de compresión desarrolladas para las imágenes fijas.
El estándar de compresión ISO (International Standards Organization) JPEG (Joint
Photographic Experts Group) y MJPEG, está en esta categoría. Donde una sucesión de
imágenes codificadas en JPEG también se usan para la televisión, esto es llamado "JPEG en
movimiento".
Redundancia temporal o intercuadro (interframe).

Redundancia entre frames.
Se produce entre pixels que tienen la misma posición relativa en imágenes
sucesivas. Depende de la cantidad de movimiento.
Se pueden obtener grandes factores de compresión teniendo en cuenta la
redundancia entre imágenes sucesivas. Esto involucra al eje del tiempo,
la siguiente figura muestra esto. Este proceso se denomina codificación
inter (inter=entre) o codificación temporal.
La codificación temporal permite altos factores de compresión, pero con
la desventaja de que una imagen individual existe en términos de la diferencia entre imágenes
previas. Si una imagen previa es quitada en la edición, entonces los datos de diferencia pueden
ser insuficientes para recrear la siguiente imagen.
El estándar ISO MPEG (Motion Pictures Experts Group) utiliza esta técnica.
Del tratamiento de ambos tipos de redundancia derivan los principales sistemas de

compresión: la compresión intracuadro actuará sobre la redundancia espacial, mientras que la
compresión intercuadro trabaja en torno a la redundancia temporal. La combinación de ambas
técnicas se demostrará muy eficaz en la compresión de la imagen televisiva ya que ésta posee
gran redundancia espacial y temporal, aumentando la entropía con el detalle (menor
redundancia espacial), así corno con el movimiento interno y externo (menor redundancia
temporal)
A continuación se examinarán cuales son los métodos más utilizados que permiten obtener
este resultado, y las diferentes normas que se utilizan hoy día.
Estos métodos de compresión, recurren a los procedimientos generales de compresión de
datos, aprovechando además la redundancia espacial de una imagen (áreas uniformes), la
correlación entre puntos cercanos y la menor sensibilidad del ojo a los detalles finos de las
imágenes fijas (JPEG) y, para imágenes animadas (MPEG), se saca provecho también de la
redundancia temporal entre imágenes sucesivas.
5
Partiendo de las premisas anteriores, el sistema MPEG-2 plantea métodos de compresión de
imágenes desde varios frentes, aplicándose todos ellos simultáneamente para conseguir la
máxima reducción posible. Según sea el ámbito de aplicación en el que se desarrolla, podemos
diferenciar los siguientes sistemas de codificación: codificación ultra- campo y predicción de
imágenes.
6
REDUNDANCIA ESPACIAL
CODIFICACIÓN INTRA CAMPO – INTRA CUADRO
CODIFICACIÓN INTRA o ESPACIAL
Un análisis de las imágenes de televisión revela que existe un alto contenido de frecuencias
espaciales debido al detalle en algunas áreas de la imagen, generando una cantidad pequeña
de energía en tales frecuencias. A menudo las imágenes contienen considerables áreas en
donde existen pixeles con un mismo valor espacial.
La redundancia espacial es aquella que tiene en cuenta la igualdad o similitud de píxeles
sucesivos en el espacio.
La primera pregunta que nos hacemos es ¿Existe mucha redundancia espacial en la imagen?
En otras palabras ¿Se parecen o son casi iguales muchos píxeles dentro de una misma
imagen? La respuesta es afirmativa.
En efecto, si tomamos dos píxeles sucesivos de imagen y lo observamos en la señal analógica
de video, veremos que en general tienen valores muy próximos, lo que traducido a números en
la conversión analógica/digital significarán números próximos. Sea por ejemplo un píxel de
valor 10010001. El píxel siguiente podría ser el 10010010. Ambos píxeles se diferencian en los
dos últimos bits.
Supongamos que transmitimos el primer píxel, pero del segundo solo transmitimos las cifras
que difieren del anterior en nuestro ejemplo los dos últimos bits. En el receptor se estarían
renovando píxel tras píxel los bits que difieren que son realmente pocos. El flujo binario habrá
bajado drásticamente y la señal de video se estaría transmitiendo a un flujo binario muy bajo.
Una vez más tenemos que decir que esta transmisión adolece al día de hoy de dificultades de
operatividad electrónica, velocidad de cálculo y solución aceptable de los cambios abruptos en
el valor de los píxeles que ocurren en la imagen en los bordes de objetos donde ésta cambia
abruptamente.
Con todo, esta es la base conceptual de la eliminación de la redundancia espacial de imagen y
el principio en que se basan los dispositivos de eliminación de redundancia espacial.
Los métodos de compresión que actúan sobre la redundancia espacial están basados en
diferentes funciones matemáticas, uno de los algoritmos (otras técnicas de compresión
aplicadas a imagen son las Transformadas Discretas Wavelet y Fractales. Actualmente sus
resultados no se consideran óptimos para sistemas de alta calidad Alesso 2001) más
destacados por su buen resultado es la DCT o Transformada Discreta del Coseno, una
función derivada de la Transformada de Fourier (pero que reduce a la mitad el número de
coeficientes respecto a la anterior).
Esta función no “comprime” en sí misma, sino que separa la información entrópica de la
redundante, permitiendo así un tratamiento diferenciado para ambas a través de posteriores
técnicas de procesamiento.
Tras analizar la imagen a través de la DCT, se aplican técnicas de reducción entre las que
destacan:
Redondeo:
Se igualan a cero todos aquellos coeficientes con valor menor a uno dado. Aquí se
determina el valor de referencia de compresión, según el coeficiente de redondeo
considerado se actuará en mayor o menor medida sobre la información entrópica.
Codificación de Longitud Variable (VLC):
Se aplican valores cortos a los coeficientes más frecuentes y valores largos a los de menor
presencia. La variante más común es el método Huffman.
Codificación de Trayectoria Variable (RLC):
Es una codificación sin pérdidas que reagrupa los elementos repetidos a través de
expresiones más cortas.
7
La DCT es un sistema de procesamiento en bloques, basado
en dividir la imagen en 64 macrobloques, cada uno
compuesto a si mismo por bloques de 8x8 elementos. Al
procesar estos bloques a través de la DCT se obtiene una
matriz de coeficientes cuyos valores son adecuados para
posteriores procesos matemáticos.
En este sentido, una diferencia fundamental que encontramos

entre este estudio teórico y un dispositivo práctico de
eliminación de la redundancia espacial es la necesidad de
fraccionar la imagen en pequeños cuadros, generalmente de
8 x 8 píxeles para simplificar los cálculos operativos entre
píxeles homólogos y comparar grupos de puntos que
contengan información parecida
A esta división de la imagen en grupos de 8 x 8 píxeles, se la
denomina bloque.
Al muestrear las señales Y, CR Y CB por separado,
obtendremos bloques de estas componentes también por
separado. Analizando estos bloques se detecta el elevado
índice de redundancia que contienen entre sus puntos, por lo
que se pueden comprimir.
Se realiza una transformación previa del valor real de los
píxeles a valores que expresan “variaciones” entre ellos,
basándose en la Transformada Discreta del Coseno (DCT,
Discrete Cosine Transform), aumentando el rendimiento de la
compresión espacial.
Por tanto, la herramienta utilizada para la reducción de la información es la DCT. Esta
transformada fue estudiada por el matemático Fourier. Una operación matemática que analiza
los puntos del bloque y les asigna un coeficiente en función de su variación respecto de otros
puntos adyacentes. Esto supone que al inicio del análisis se definirán los valores reales de los
puntos iniciales, mientras que para el resto únicamente se indicarán las variantes que se
aprecian respecto de los anteriores. Estadísticamente se demuestra que un alto número de
puntos cercanos contiene información muy parecida, por lo que muchos coeficientes tomarán
un valor cero.
Un serio problema se plantea cuando se aplica una transformada discreta del coseno a una
imagen de mala calidad que contiene mucho ruido de fondo. Al analizar los bloques, se
obtienen muestras que ahora, precisamente por el carácter aleatorio del ruido añadido,
presentarán puntos con información muy diferente y, por lo tanto, muchos coeficientes distintos
de cero.
Ante esta situación, la compresión será muy poco
efectiva, por lo que nos conviene tomar alguna medida
correctora previa a la transformación. El submuestreo
anterior a 4:2:0 reduce, al dividir el número de muestras
de color tomadas, el nivel de ruido cromático detectado.
Asimismo, reducir a 8 bits las muestras disminuye
también el número de valores aplicables a cada punto,
por lo que dos puntos con valores originales cercanos
(como resultado de sumar a la señal de luminancia un
pequeño nivel de ruido) ahora se entenderán como
iguales, permitiendo así un mayor grado de compresión.
Esto se produce en el proceso de cuantificación,
encargado de asignar valores de 8 bits a los coeficientes
obtenidos en la transformación.
8
Una vez obtenidos los coeficientes correspondientes a cada bloque, debemos ordenarlos para
realizar una transmisión coherente con la menor extensión posible. A este proceso se le
denomina codificación, y consiste en leer los coeficientes obtenidos y definir grupos de estos
coeficientes con pares de cifras.
El primer número de cada par indicará cuántos coeficientes de valor cero aparecen de forma
consecutiva; mientras que el segundo representa el valor del siguiente coeficiente distinto de
cero. Se deduce inmediatamente que cuantos más valores cero consecutivos obtengamos,
menor será el número de pares necesarios para transmitirlos. Como los puntos más parecidos
son los adyacentes en las dos dimensiones, la lectura de los coeficientes adoptada es en forma
de zigzag, barriendo horizontal y verticalmente el bloque al mismo tiempo.
La forma en la que transmitiremos estas series de pares de datos supondrá un avance más en
la reducción de la cantidad de información transmitida. En este caso se utilizará el sistema
Huffman, un código de longitud variable que asigna a los valores que se producen con mayor
frecuencia códigos de transmisión muy cortos, reservando los le mayor longitud para aquellos
que se presentarán de forma esporádica. Esto supone que, a largo plazo, seremos capaces de
transmitir una gran cantidad de información en
pocos bits de salida; lo más común es utilizar
únicamente dos bits por cada pixel codificado,
como resultado le combinar las diferentes técnicas
estudiadas.
La secuencia analizada anteriormente se aplicará a

los 400 bloques de luminancia y 1.350 bloques de
cada una le las señales diferencia de color, que
conforman una imagen con resolución estándar,
obteniendo la información digital completa con un
grado de compresión moderado. Esos bloques se
intercalarán entre sí para la transmisión, formando
unidades mayores llamadas macrobloques.
Cada macrobloque está formado por cuatro bloques de luminancia pertenecientes a líneas
consecutivas, más un bloque de la componente CR y otro de CB. Recordemos, para entender
este agrupamiento, que en el muestreo 4:2:0 durante una línea se muestreaba únicamente una
de las señales diferencia de color, mientras que la otra componente cromática se obtenía
durante la línea siguiente.
Con el fin de detectar y corregir posibles errores de transmisión, los macrobloques pueden
asociarse formando porciones (slices) de imagen. Estas porciones se conforman con
macrobloques adyacentes; podrán tener tamaños variables según la necesidad, aumentando el
número de bits transmitidos conforme se establecen lonchas más pequeñas, ya que cada una
forma una subtrama.
A estas informaciones de bloque, macrobloque y ion. chas se les añadirán, como es habitual,
otros datos de sincronización, identificación y corrección de errores en cada nivel, hasta crear
una trama digital con entidad propia a la que llamaremos imagen de tipo I. Esta se convertirá,
al contener la información de todos los puntos de la pantalla, en la referencia para poder
reconstruir otras imágenes, que se transmitirán con un nivel de compresión mayor.
9
REDUNDANCIA TEMPORAL. PREDICCIÓN DE IMÁGENES
CODIFICACIÓN INTER CAMPO – INTER CUADRO
CODIFICACIÓN INTER o ESPACIAL
En el video existe mucha Redundancia Temporal, ya que un píxel de una determinada línea de
imagen se repite con el mismo o con un valor similar a lo largo del tiempo en imágenes
sucesivas hasta que ésta cambie drásticamente como consecuencia de un corte o una edición.
Si el movimiento de los objetos en la imagen es muy rápido habrá menos redundancia
temporal. Si es lento habrá más redundancia temporal.
¿Cómo se saca provecho de la redundancia temporal?

Aunque ésta era conocida desde hace mucho tiempo, en el dominio analógico nada podía
hacerse porque la señal no puede memorizarse, y tampoco podemos comparar píxeles de una
imagen con la siguiente, contrastar valores numéricos, etc. Es el dominio digital el que nos
ofrece la maravillosa posibilidad de realizar estas operaciones necesarias para la eliminación
de la redundancia.
En la Figura 8 se dispone un sistema capaz de bajar el flujo binario de la señal de televisión a
valores realmente bajos.
Aunque no es exactamente lo que se hace en la práctica, nos da idea de cómo se elimina la

redundancia temporal. Sea la sucesión de imágenes en el tiempo 1, 2, 3, 4, 5, ... transmitimos
la imagen 1 completa y la almacenamos en la Memoria M3 del receptor. A partir de ahí, solo
transmitimos los píxeles que sean diferentes entre la imagen 1 y la 2, entre la 2 y la 3, entre la
3 y la 4, y así sucesivamente. La comparación píxel a píxel entre las dos imágenes se realiza
en el circuito comparador C entre las memorias M1 y M2. Esta comparación tiene lugar cada
1/25 de segundo, ya que se transmiten 25 imágenes por segundo.
Y puesto que en la imagen de televisión (como ocurre también en el cine) la redundancia
temporal es enorme, cabe esperar que una imagen sea casi igual a la siguiente, excepto en
aquellos píxeles que correspondan a objetos en rápido movimiento.
El dispositivo explicado es más teórico que práctico debido a muchas cuestiones que deben
objetarse sobre variabilidad de los píxeles en el tiempo con imágenes reales, problemas con
los cambios bruscos de imágenes y errores de transmisión, pero en él se fundamenta la
eliminación de la redundancia temporal y los sorprendentes efectos conseguidos con la
compresión en las transmisiones digitales.
10
MODELO REAL
Los métodos de compresión intercuaduadro actúan sobre la redundancia temporal, aquella
información común entre imágenes contiguas. Aprovecha la ventaja que existe cuando las
imágenes sucesivas son similares.
Para ello, se convierten las imágenes de una secuencia en un conjunto de nuevas imágenes
con diferentes niveles de compresión que permita, a través de su conjunto, la recuperación de
la información omitida.
En lugar de enviar la información de cada imagen por separado, el codificador inter envía la
diferencia existente entre la imagen previa y la actual en forma de codificación diferencial.
Por tanto, una vez transmitida la información correspondiente a la imagen I, se puede recrear la
siguiente imagen observando los cambios que se han producido entre la captación de ambas y
recolocando los objetos en sus nuevas ubicaciones. Ahora bastará con añadir aquellos
elementos nuevos que han aparecido en la escena para tener toda la información necesaria.
Esta operación precisará de una cantidad de datos muy inferior a la que se necesita de la
imagen completa, por lo que se plantea como una opción interesante de compresión.
La figura siguiente muestra este principio.
Sistema de codificación inter, que usa un retraso para calcular

la diferencia de pixeles entre imágenes sucesivas
El codificador necesita de una imagen, la cual fue almacenada con anterioridad para luego ser
comparada entre imágenes sucesivas y de forma similar se requiere de una imagen
previamente almacenada para que el decodificador desarrolle las imágenes siguientes.
Para analizar los movimientos producidos entre dos imágenes, se comparan macrobloques (16
x 16 píxeles) correspondientes a dos imágenes distintas, tomadas en áreas de 64 x 48 píxeles
de extensión. Estas zonas son lo suficientemente grandes para que en ambas aparezcan los
objetos, incluso ante movimientos rápidos, por lo que entre ambos macrobloques se apreciará
un desplazamiento en el lugar que ocupa cada elemento de la imagen que se ha movido.
Del análisis de estos macrobloques se obtienen dos informaciones importantes:

- Vectores de movimiento, que definen el cambio de posición de cada macrobloque de la
imagen.
11
- Información de la diferencia entre el contenido de cada imagen, con los elementos nuevos
surgidos en la segunda imagen y que no estaban en la primera.
Estos procesos denominados “estimación de movimiento”, aunados a técnicas de compresión

intracuadro, desarrollan un sistema de compresión donde una secuencia de imágenes será
sustituida por otro tipo de imágenes con el mismo valor en su conjunto pero con una gran
reducción en cantidad de información.
En estas técnicas de codificación se crean nuevos tipos de imágenes que según su nivel de
compresión se clasifican en:
Imágenes i o “intracuadro”. imágenes donde sólo se elimina la redundancia espacial.
A la imagen original se le aplican técnicas de compresión intracuadro obteniéndose una
nueva imagen con un bajo nivel de compresión. Conservando toda la información
entrópica.
Imágenes P o “predictivas”. Son imágenes que se obtienen a partir de una imagen I o de
otra P, donde el nivel de compresión es mayor, afectando incluso a la información
entrópica.
Imágenes B o “bidireccionales”. Son imágenes construidas a través de las imágenes
anteriores y posteriores, de ahí el sentido del término bidireccional. Con un alto grado de
compresión y error son las imágenes donde más se economiza en información, aunque
por ello no se utilizarán en procesos posteriores, y así no propagar su nivel de error.
A partir de estas imágenes se construirán unas secuencias de imágenes denominadas GOP

(Group Of Pictures), con diferentes niveles de extensión y compresión según el tipo y cantidad
de imágenes I, P, y B que contengan.
GOP, Conjunto de imágenes comprendidas de una imagen intracuadro (incluida) a la siguiente
imagen intracuadro (excluida). También denominado numero N
GOP largo I B B B P B B B P B B B I GOP de 12 imágenes M=4
GOP corto I B B P B B I GOP de 6 imágenes M=3
Las imágenes P también denominadas ancla, definen una secuencia llamada M, que
comprende de la imagen intracuadro a la última imagen bidireccional anterior a la primera
predictiva.
LAS IMÁGENES TIPO P O PREVISTAS O PREDICHAS:

Se denominan así las imágenes que han sido creadas usando una diferencia entre imágenes,
llamada imágenes P o previstas.
Estas imágenes contendrán los dos tipos de información indicados en el apartado anterior.
Estos datos generados al hacer la diferencia entre dos imágenes, también se pueden tratar
como una nueva imagen, y como tal se pueden someter al mismo proceso de compresión
espacial (visto en el apartado anterior) que se aplicaron a la imagen I. Esto supone que a los
macrobloques con las diferencias entre las imágenes y a los vectores de movimiento se les
aplicará la transformada discreta del coseno, el proceso de cuantificación y la codificación de
longitud variable.
Si al aplicar la DCT se obtenían muchos valores cero en la señal original, al transformar
únicamente las diferencias aparecerá un número aún más alto de estos valores, por lo que el
grado de compresión conseguido aumentará notablemente.
Desafortunadamente existe la posibilidad de transmitir errores, si se utiliza una secuencia

ilimitada de imágenes previstas. Por esto es mejor utilizar un número limitado de imágenes
previstas para de este modo garantizar una mejor transmisión de los datos.
En MPEG periódicamente se envía una imagen la cual no ha sido tratada con algún método de
compresión con pérdidas y que a su vez es idéntica a la imagen original, refrescando los datos
en la secuencia de transmisión.
12
UN SISTEMA BÁSICO DE CODIFICACIÓN INTER
En la figura se muestra el recorrido de una imagen original, llamada imagen I o intra, la cual es
enviada entre imágenes que han sido creadas usando una diferencia entre imágenes, llamada
imágenes P o previstas.
La imagen I requiere grandes cantidades de información, mientras que las imágenes P
requieren una cantidad menor.
Esto ocasiona que el flujo de transmisión de datos sea variable hasta cuando llegan a la
memoria intermedia, la cual genera a su salida una transmisión de datos de forma constante.
También se puede observar que el predictor necesita almacenar datos de menor proporción
puesto que su factor de compresión no cambia de una imagen a otra.
I=Imagen codificada intra

D=Imagen codificada diferencialmente
Uso periódico de una imagen I
Una secuencia de imágenes que está constituida por una imagen I y las siguientes imágenes P
hasta el comienzo de otra imagen I, se denomina grupo de imágenes GOP (Group Of Pictures).
Para factores de compresión altos se utiliza un número grande de imágenes P, haciendo que
las GOPs aumenten de tamaño considerablemente; sin embargo un GOP grande evita
recuperar eficazmente una transmisión que ha llegado con errores.
En el caso de objetos en movimiento, puede que su apariencia no cambie mucho entre

imágenes, pero la representación de los bordes si cambia considerablemente. Esto es de gran
ventaja si el efecto de movimiento se representa por la diferencia entre imágenes, generando
una reducción en la codificación de datos. Este es el objetivo de la compensación de
movimiento.
CODIFICACIÓN BIDIRECCIONAL
Cuando un objeto se mueve, este oculta lo que hay detrás de él, pero esto va cambiando a
medida que se va moviendo, permitiendo observar el fondo. El revelado del fondo exige nuevos
datos a ser transmitidos, ya que el área del fondo había sido ocultada anteriormente y la
información no pudo ser obtenida desde una imagen previa.
Un problema similar ocurre si se hace una toma panorámica con una cámara de video;
aparecen nuevas áreas al observador y nada se sabe acerca de ellas. MPEG ayuda a
minimizar este problema utilizando codificación bidireccional, la cual deja información para ser
tomada de imágenes anteriores y posteriores a la imagen observada.
Si el fondo ya ha sido revelado, y este será presentado en una imagen posterior, la información
puede ser movida hacia atrás en el tiempo, creando parte de la imagen con anticipación.
Imágenes Tipo B
Las imágenes predichas no se transmitirán inmediatamente después de la imagen de
referencia utilizada, sino que entre la predicción y la original se insertarán otras imágenes
bidireccionales o de tipo B.
La figura muestra en qué se basa la codificación bidireccional con imágenes de tipo B.
13
En el centro del diagrama un objeto se mueve revelando su fondo, pero éste no se conoce
hasta la siguiente imagen. Entonces se toman los datos de las imágenes anteriores y
posteriores, o incluso se utiliza el promedio de los datos, descubriendo de esta forma el fondo.
En la figura se muestra una codificación bidireccional. Primero se toma una imagen I y, con la
ayuda de una imagen P se pueden obtener imágenes B, las cuales son llamadas también
imágenes bidireccionales.
Codificación
bidireccional
Estas imágenes «de relleno», distintas entre sí, se forman por comparación no sólo con la
referencia pasada, sino también con la imagen P que se transmitirá posteriormente.
Interpolando estas dos imágenes conseguimos una predicción bidireccional en el tiempo, que,
con una mínima cantidad de datos, permite obtener imágenes con un alto grado de precisión.
Para rizar aún más el rizo, una imagen predicha, recompuesta a partir de los vectores de
desplazamiento y sus diferencias con otra anterior, se puede convertir en nueva referencia para
la siguiente imagen de tipo P.
Esto supone que se pueden formar grupos de imágenes (Groups Of Pictures, GOP), que se
iniciarán necesariamente a partir de una imagen I.
En la Figura 8.10 se puede observar este intercalado

de imágenes, con las relaciones de predicción
existentes entre las imágenes I y P, y las
interpolaciones bidireccionales de las imágenes B.
En un grupo de imágenes usual, inicialmente se
transmitirá una imagen de tipo I.
A continuación le seguirán tres imágenes
bidireccionales, seguidas de una de tipo P. Este sería
el grupo más pequeño, pero se podría ampliar con
nuevos grupos de tres imágenes B más la
correspondiente referencia posterior de imagen
predicha.
De este modo, los sistemas con este tipo de compresión MPEG definen su estructura a partir
del GOP utilizados en su construcción, expresado por el número M y N. E
n los anteriores casos 12/5 y 6/3, con lo que se informa de su extensión y grado de
compresión.
La ITU ha desarrollado una familia de formatos comprimidos bajo la denominación común
MPEG, 1, 2,4, 7 y actualmente el 21 en desarrollo.
14
TRANSMISIÓN DE LA SEÑAL DIGITALIZADA
Si en televisión analógica se establecía una estructura de cuadro, campo y línea que ordenaba
la transmisión de la señal de vídeo, también en el sistema MPEG-2 se utiliza una composición
estructurada para la trama de imagen. En esta trama podemos encontrar, como elemento de
mayor amplitud, la secuencia de imagen. Las secuencias se transmitirán una detrás de otra y
se iniciarán con un código de sincronización, detrás del cual aparecen codificados los
parámetros fundamentales de la imagen (resolución, relación de aspecto, etc.) y los parámetros
de transmisión. A continuación se podrá observar un campo de datos adicionales, para
ampliaciones futuras del sistema. La secuencia concluye con la transmisión de los diferentes
grupos de imágenes que forman la secuencia.
Cada uno de los grupos de imágenes integrados en la secuencia se podrá identificar con un
tren de impulsos conocidos, que forma la primera parte de la subtrama. El código de tiempo
que se inserta a continuación servirá para facilitar la búsqueda rápida de escenas y su edición.
Como los GOP pueden tener longitud variable, se insertará un campo donde se establezcan los
parámetros de las imágenes que forman el grupo, seguido de la información correspondiente a
las imágenes propiamente dichas.
De modo similar a los elementos de mayor tamaño, cada imagen contendrá campos de
identificación, información, etc., antes de enviar las porciones que forman cada imagen. Cada
porción incluirá también entre sus campos de datos auxiliares la posición que ocupa en la
pantalla, así como la información de los macrobloques que la integran. El macrobloque es la
estructura de subtrama más pequeña que maneja el sistema MPEG-2. En ella se podrán incluir
los vectores de movimiento y los bloques de información de la imagen, que serán de tipos
distintos en función de su pertenencia a imágenes 1, P o B, por lo que se incorpora un campo
que lo definirá.
15
LA COMPRESIÓN EN LA PRODUCCIÓN Y EN LA DIFUSIÓN DE LA OBRA
AUDIOVISUAL
Un criterio en el sector de la Producción Audiovisual es exigir factores de compresión bajos ya
que es en el origen donde se exige la mayor calidad para la obra audiovisual.
Por tanto en la producción de calidad “Broadcast” se demanda una compresión sin pérdidas.
¿GARANTIZAN LOS ALGORITMOS DE COMPRESIÓN/DESCOMPRESIÓN UNA IMAGEN

DE CALIDAD EQUIVALENTE A LA DEL FLUJO BINARIO COMPLETO?
La respuesta es que solamente algunos permiten la recuperación original del flujo, pero
desgraciadamente estos no consiguen la gran reducción requerida para un buen
almacenamiento y transmisión de señales.
Por tanto, en la práctica tenemos que aceptar compresiones/descompresiones de “degradación
controlada”. Dicho en otras palabras, tenemos que admitir en ocasiones pequeños “artefactos”
o errores que se presentan en la imagen recuperada.
Existen así dos tipos de compresión:
a) sin pérdidas y
b) de degradación controlada.
Otros algoritmos y procedimientos se aplican para conseguir al final una reducción neta final
del flujo binario, sin pérdida de la calidad subjetiva de la imagen.
Claro está que en el receptor habrá que realizar todas las operaciones inversas de la
transmisión para recuperar el valor original de cada píxel antes de la conversión D/A, porque
como dijimos al principio, la señal que ataca al tubo o pantalla receptora tiene que ser
analógica. Por ello se dice que en la transmisión se utiliza compresión y en la recepción la
descompresión.
Por ejemplo, si en la norma 4:2:2 que como sabemos tiene un flujo binario completo de 166
Megabits/seg. se aplica una compresión moderada de 3,3, se obtienen 50 Megabits/segundo y
esta compresión se consigue con la aplicación de la “Transformada Discreta del Coseno sin
redondeo de coeficientes”, lo que aconseja no bajar de 50 Megabits/seg. en la producción de
calidad Estudio.
Esta es la razón por la que existen formatos de 50 Megabits/seg. como el DVC-PRO 50, el
Digital-S de JVC, y otros.
El Betacam Digital de Sony en particular aplica una compresión de 2, situándose en un muy
alto nivel de calidad “Broadcast”. Este nivel de calidad lo comparte el formato D5 de Panasonic.
Por otro lado, si la norma de partida es la de Periodismo Electrónico 4:1:1 o 4:2:0 y se aplica
una compresión no degradante basada igualmente en la DCT, se obtiene un flujo binario de 25
Mbits/seg. que es una calidad aceptada por su alto nivel para la actividad periodística y la
producción ligera de video.
Estaríamos entonces manejando equipos del tipo DV-CAM y DVC-PRO 25 y de Sony y
Panasonic respectivamente.
Es así como hoy día se manejan dos estándares de flujo en la producción audiovisual:
- 50 Megabits en Calidad Estudio y
- 25 Megabits/seg. en Calidad Periodismo Electrónico y Producción Ligera.
La reducción de flujo binario significa menos circuitos integrados, menos consumo, equipos
más ligeros, cinta de menor ancho y un conjunto de beneficios operativos que reclama
fundamentalmente el Periodismo Electrónico.
En cambio en las transmisiones de señal por satélite, cable o vía hertziana la televisión digital
debe acomodar el flujo binario a la capacidad del canal disponible. En las transmisiones, el flujo
binario se puede bajar aún más y de manera ostensible, puesto que la obra audiovisual ya está
culminada y no existe inconveniente en aplicar fuertes compresiones para la reducción de la
redundancia temporal. Este panorama favorable conduce a la disminución del flujo binario
16
hasta valores tan bajos como de 6 a 8 Megabits/seg. para las transmisiones de calidad Estudio
en TV convencional y de 3 a 6 Megabits para calidades equivalentes al actual PAL.
Flujos tan bajos como 1,5 a 3 Megabits/seg. se usan en ciertas transmisiones por cable, en las
que el Operador de Distribución fuerza la situación de compresión para ofrecer más cantidad
de canales al usuario.
En las transmisiones por satélite se consiguen hoy en día factores de compresión del orden de
6 a 7 por canal, lo que significa que por donde cabe un canal analógico, se transmiten hoy 6 a
7 canales digitales de igual calidad. Esta propiedad de la compresión digital de multiplicar las
posibilidades de uso del espectro radioeléctrico sitúa a esta tecnología en la mayor vanguardia
dentro del dominio digital. Este hecho ha modificado totalmente los planteamientos de
distribución de frecuencias y canales del espectro y ha puesto en acelerado proceso la
amortización de la televisión analógica tradicional NTSC, PAL y SECAM.
En España, la fecha del año 2010 marca el fin de las transmisiones de la televisión analógica
por vía terrestre hertziano.
17

Compresión de Video

Cargado por

Copyright:

Formatos disponibles

Compresión de Video

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Compresión de Video

Cargado por

Copyright:

Formatos disponibles

COMPRESIÓN DE VIDEO

TEORÍA DE LA INFORMACIÓN DE LA IMAGEN TELEVISIVA

REDUNDANCIA TEMPORAL. PREDICCIÓN DE IMÁGENES

TRANSMISIÓN DE LA SEÑAL DIGITALIZADA

LA COMPRESIÓN EN LA PRODUCCIÓN Y EN LA DIFUSIÓN DE LA OBRA AUDIOVISUAL

La compresión es imprescindible en la digitalización audiovisual , debido a sus grandes flujos

Dentro del Broadcast hay dos campos de compresión según la aplicación:

Producción permite menores niveles de compresión que difusión, porque en producción, al

La forma de medir la compresión también es diferente en producción que en difusión.

En resumen: hay que comprimir la redundancia

El talón de Aquiles está en la transmisión de objetos móviles. Al ser cambiantes, se deberán

Redundancia espacial o intracuadro (intraframe).

Redundancia temporal o intercuadro (interframe).

Del tratamiento de ambos tipos de redundancia derivan los principales sistemas de

En este sentido, una diferencia fundamental que encontramos

La secuencia analizada anteriormente se aplicará a

¿Cómo se saca provecho de la redundancia temporal?

Aunque no es exactamente lo que se hace en la práctica, nos da idea de cómo se elimina la

La figura siguiente muestra este principio.

Sistema de codificación inter, que usa un retraso para calcular

Del análisis de estos macrobloques se obtienen dos informaciones importantes:

Estos procesos denominados “estimación de movimiento”, aunados a técnicas de compresión

A partir de estas imágenes se construirán unas secuencias de imágenes denominadas GOP

LAS IMÁGENES TIPO P O PREVISTAS O PREDICHAS:

Desafortunadamente existe la posibilidad de transmitir errores, si se utiliza una secuencia

I=Imagen codificada intra

En el caso de objetos en movimiento, puede que su apariencia no cambie mucho entre

La figura muestra en qué se basa la codificación bidireccional con imágenes de tipo B.

En la Figura 8.10 se puede observar este intercalado

¿GARANTIZAN LOS ALGORITMOS DE COMPRESIÓN/DESCOMPRESIÓN UNA IMAGEN

También podría gustarte