Teoria de La Informacion y La Codificacion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 7

Introducción (traducción resumida de la introducción del libro de Abramson)

Qué no es la teoría de la información

Los orígenes de la teoría de la información se remontan a la publicación del paper “A


mathematical theory of communication” en 1948 por Claude Shannon.

Esta teoría trata con los portadores de la información (los símbolos) y no con la información
en sí misma. Ella trata con la comunicación y los medios de la comunicación más bien que
con el elusivo producto final de la comunicación: la información. El objetivo es aprender que
los símbolos deben obedecer ciertas leyes para ser capaces de transmitir información.
Relacionaremos estas propiedades de los símbolos con la cantidad de información que ellos
pueden portar. Si un símbolo en particular porta o no realmente información dependerá de
factores que están fuera del alcance de esta teoría, los factores psicológicos y semánticos
también lo están y pueden hacer que las mismas palabras porten varios significados para
diferentes oyentes.

Shannon decía que “los aspectos semánticos de la comunicación son irrelevantes para el
problema de ingeniería”. Sin embargo Weaver apuntaba que, por el contrario, los aspectos
técnicos de la comunicación podrían ser relevantes a los aspectos semánticos, psicológicos y
lingüísticos.

Se tratarán las ideas centrales de la teoría de la información con énfasis particular en la


medida de la información y su interpretación. Se verá por ejemplo que el concepto de
entropía, como se trata aquí, tiene al menos una equivalencia formal con la entropía en
termodinámica.

Que si es la teoría de la información

El primer paso en nuestro estudio será definir una medida de la información e investigar las
propiedades de esta medida. Estas propiedades darán un aire de plausibilidad a nuestra
medida y ayudarán a relacionar la teoría matemática con el modelo físico que motiva la teoría.

Es importante sin embargo observar que la justificación de nuestra definición de una medida
de la información no puede ser obtenida por relaciones contenidas enteramente dentro del
marco de la definición.

Es claro que podemos levantar un marco de la teoría de la información el cual tomado en sí


mismo es auto consistente y muy razonable. Aún tal marco sin justificación adicional podría
constituir meramente una disciplina matemática. Es solo en la relación del marco que
erigimos con cantidades enteramente aparte de este marco que la justificación para la teoría
puede encontrarse. Así derivaremos una definición de información y un conjunto de
relaciones para nuestra definición las cuales tomadas por sí mismas son muy razonables. La
definición de información sin embargo no será justificada por la consistencia interna de las
relaciones, sino que muestra como estas relaciones aplican a cantidades no envueltas en el
marco de la teoría de la información.
Para enfatizar esta necesidad de correspondencia entre nuestro modelo matemático y el
mundo físico usaremos este capítulo introductorio para hacer varias preguntas interesantes
que pueden ser formuladas de manera completamente independiente de cualquier medida
particular de información.

Codificando la información

La discusión que sigue está restringida a un tipo particular pero importante de información:
la información binaria.

Un ejemplo simple de información binaria se muestra en la representación de los números


del 0 al 9 de la tabla 1.1

Dígito decimal Representación binaria

𝟎 𝟎𝟎𝟎𝟎

𝟏 𝟎𝟎𝟎𝟏

𝟐 𝟎𝟎𝟏𝟎

𝟑 𝟎𝟎𝟏𝟏

𝟒 𝟎𝟏𝟎𝟎

𝟓 𝟎𝟏𝟎𝟏

𝟔 𝟎𝟏𝟏𝟎

𝟕 𝟎𝟏𝟏𝟏

𝟖 𝟏𝟎𝟎𝟎

𝟗 𝟏𝟎𝟎𝟏

Tabla 1.1: codificación binaria de los dígitos decimales

Esta correspondencia es un ejemplo simple de código. Las 10 secuencias binarias que se


muestran son llamadas palabras de código (codewords) y los 10 dígitos decimales se llaman
símbolos mensaje (message symbols). Claramente se pueden obtener una secuencia de
dígitos binarios para cualquier secuencia de dígitos decimales y viceversa, podemos trabajar
hacia atrás para obtener una secuencia de dígitos decimales.

La posibilidad de trabajar hacia atrás a partir de una tira de códigos binarios para lograr los
correspondientes símbolos mensaje no siempre es posible como se observa en la tabla 1.2:

Símbolos mensaje Palabras de código

𝑺𝟏 𝟎

𝑺𝟐 𝟎𝟏

𝑺𝟑 𝟎𝟎𝟏

𝑺𝟒 𝟏𝟏𝟏

Tabla 1.2: Un código binario

Si se nos da una secuencia de palabras código de este código no somos capaces de trabajar
hacia atrás a un único conjunto de símbolos mensaje.

Por ejemplo la secuencia 111001 pudo haber provenido de


𝑆4 𝑆3 o de 𝑆4 𝑆1 𝑆2 .

Se podría objetar que la inserción de una coma o espacio es todo lo que se necesita, sin
embargo esto contradice la suposición de lo que es un código binario, ya que entonces este
sería un código ternario.

Es fácil hallar un código que no tenga el problema anterior, como en la tabla 1.3:
Símbolos mensaje Palabras código

𝑺𝟏 𝟎

𝑺𝟐 𝟏𝟎

𝑺𝟑 𝟏𝟏𝟎

𝑺𝟒 𝟏𝟏𝟏𝟎

Tabla 1.3: Otro código binario


Un problema en la transmisión de información.

Para ilustrar algunas de las ideas de codificar y su relación con la medida de la información
consideremos el siguiente problema.

Se desea instalar un sistema de comunicación entre Nueva York y San Francisco. El sistema
se usa para transmitir el estado del clima en San Francisco a intervalos dados. Se requiere
que el sistema use solo equipo de encendido apagado (binario). Para simplificar se clasifica
el estado del clima en San Francisco en uno de cuatro posibles condiciones: Soleado,
nublado, lluvioso o Brumoso como se muestra en la tabla 1.4:

Mensaje Probabilidad

Soleado 𝟏/𝟒

Nublado 𝟏/𝟒

Lluvioso 𝟏/𝟒

Brumoso 𝟏/𝟒

Tabla 1.4: El estado del clima en San Francisco

En esta tabla se muestran las cuatro posibilidades de clima además de las probabilidades
asumidas para cada uno de los estados.

Un posible método de codificar estos mensajes en una secuencia de símbolos binarios es


construir la siguiente correspondencia llamada el código 𝒂

Soleado… … … . 00

Nublado… … … .01

Lluvioso… … … .10

Brumoso… … … .11

Tabla 1.5: Código 𝒂


Así, usando este código, “soleado, brumoso, brumoso, nublado” se codificará como
𝟎𝟎𝟏𝟏𝟏𝟏𝟎𝟏”

Es claro que el código 𝒂 es aceptable para la transmisión de esta información en el sentido


que dada una secuencia de palabras código, podemos devolvernos para reconstruir una
secuencia única de mensajes.

También es claro que usando el código 𝒂 es necesario enviar dos dígitos binarios (binits) por
cada mensaje. Además no es posible encontrar otro código aceptable que permita usar menos
de dos binits por mensaje.

Ahora consideremos un problema similar presentado a un ingeniero en los Ángeles. Se desea


construir un sistema binario similar para transmitir el estado del clima en los Ángeles a Nueva
York. Sabemos que hay diferencias meteorológicas importantes entre el clima de San
Francisco y el de los Ángeles. Una de estas se tiene en cuenta al clasificar el estado del clima
de los Ángeles como Soleado, nublado, lluvioso o contaminado (smoggy). Ahora, debido a
que la diferencia entre brumoso y contaminado no es considerable para los residentes de uno
de estas dos ciudades, esto no parece ser un factor a tener en cuenta en el diseño del sistema
de comunicaciones. Desde que los cuatro estados son codificados en secuencias binarias, el
significado o sentido de una secuencia particular es irrelevante desde el punto de vista de las
comunicaciones.

Sin embargo puede existir otra diferencia meteorológica que es definitivamente no


irrelevante para el problema de las comunicaciones. En toda justicia al clima de Los Ángeles,
debemos asignar diferentes probabilidades a los cuatro posibles estados. Estos se muestran
en la tabla siguiente:

Mensaje Probabilidad

Soleado 𝟏/𝟒

Nublado 𝟏/𝟖

Lluvioso 𝟏/𝟖

contaminado 𝟏/𝟐

Tabla 1.6: El estado del clima en Los Ángeles

Si usamos el código 𝒂 para transmitir esta información, lo hacemos igual de bien que en el
caso anterior pero no mejor. Consideremos sin embargo otro código, llamado el código 𝑩
para transmitir la información:
Mensaje Código

Soleado 10

Nublado 110

Lluvioso 1110

contaminado 0

Tabla 1.7: Código 𝑩

Usando el código 𝑩 para transmitir el mensaje “soleado, contaminado, contaminado,


nublado” deberíamos enviar la secuencia “𝟏𝟎𝟎𝟎𝟏𝟏𝟎”.

Nuevamente, cualquier secuencia binaria proveniente de este código conduce a una secuencia
única de mensajes. Esto es cierto dado que cada secuencia binaria correspondiente a un
mensaje termina en un 0 y así el 0 puede ser pensado como el indicador de un fin de palabra
código. La longitud promedia de una palabra código usando el código 𝐵 se puede calcular
como

𝟏 𝟏 𝟏 𝟏 𝟕
𝑳̅ = 𝟐 ∗ + 𝟑 ∗ + 𝟒 ∗ + 𝟏 ∗ = 𝟏 + 𝒃𝒊𝒕/𝒔𝒊𝒎𝒃𝒐𝒍𝒐
𝟒 𝟖 𝟖 𝟐 𝟖

Se puede verificar que si se usa el código 𝑩 para transmitir el clima en San Francisco se
obtiene un valor de

𝟏 𝟏 𝟏 𝟏
𝑳̅ = 𝟐 ∗ + 𝟑 ∗ + 𝟒 ∗ + 𝟏 ∗ = 𝟐. 𝟓 𝒃𝒊𝒕/𝒔𝒊𝒎𝒃𝒐𝒍𝒐
𝟒 𝟒 𝟒 𝟒

Se ha mostrado que se puede transmitir el mismo tipo de información usando un 𝟔% menos


de binits por mensaje en promedio. Una reducción del 𝟔% en el número de dígitos binarios
para ser transmitidos en un sistema de comunicaciones práctico es una ganancia de alguna
importancia. Además esta ganancia se obtuvo por el expediente simple de usar etiquetas
diferentes para los mensajes enviados.

Algunas cuestiones

El ejemplo dado previamente levanta algunas preguntas de naturaleza fundamental.

Primero que todo, alcanzar una ganancia del 6% de una manera tan simple ha abierto el
apetito para mejoras adicionales.
 ¿Podemos, entonces, obtener mejoras adicionales de esta clase al re etiquetar los
mensajes en una forma aún más inteligente?

 ¿Si es posible una mejora adicional, que tan lejos podemos ir?

O sea,

 ¿Cuál es el número mínimo de binits por mensaje que se requiere usar en orden
a transmitir esta información?

Una vez establecido el mínimo valor de la longitud promedia, aparece el problema de


realmente construir un código que alcance este mínimo valor.

 ¿Cuáles son algunos métodos prácticos de sintetizar tales códigos?

La última de las preguntas sugeridas por el ejemplo simple es

 “¿Por Qué?”.
 ¿Cuáles son las diferencias en las situaciones descritas para Los Ángeles y San
Francisco que nos permiten usar menos binits para transmitir el estado del clima
de Los Ángeles?

Esta última cuestión es la más fundamental. En otros términos, la pregunta puede re-
formularse como

 “¿Cuál es la naturaleza de la información?”

El hecho de que necesitemos menos binits para el clima en Los Ángeles implica que, en algún
sentido, proveer el estado del clima en los Ángeles da menos información que proveer el
estado del clima en San Francisco. Veremos que esta vaga noción de cantidad de información
puede ser hecha precisa por una definición apropiada de una medida de información.

Del ejemplo anterior es claro que la definición de información está relacionada con la
probabilidad de ocurrencia de los diferentes mensajes.

En los siguientes tres capítulos encontraremos respuestas a estas preguntas definiendo una
medida de información basada en las probabilidades de los mensajes.

También podría gustarte