Detección de Tramas de Audio Con Sound Blaster
Detección de Tramas de Audio Con Sound Blaster
Detección de Tramas de Audio Con Sound Blaster
INGENIERIA EN TELECOMUNICACIN
Autor: Tutor:
Octubre 2001
I.
MEMORIA DESCRIPTIVA.
1) INTRODUCCIN.
2) ANLISIS.
2.1)
2.1.1) Tramas de audio. Introduccin. 2.1.2) Estructura de las tramas. El formato WAV. 2.1.3) Cabecera de un fichero WAVE. 2.1.4) Ventajas e inconvenientes.
2.2)
Anlisis de necesidades.
2.2.1) Mtodos de comparacin y deteccin de tramas de audio. 2.2.2) Convolucin y correlacin de seales. Propiedades. 2.2.3) Carga computacional de la funcin correlacin. Mtodos de bloque:
______________________________________________________________________________________________________________1
2.3)
q q
Introduccin. Caractersticas de la aplicacin 'wavread.m' de Matlab 5.0. Caractersticas y particularidades del mtodo de comparacin.
q q q q
Implementacin del algoritmo Overlap & Add. Longitud de los bloques. Seal correlacin resultante: coeficientes de correlacin tiles. Normalizacin de los coeficientes de correlacin.
3.4)
4.1) 4.2)
______________________________________________________________________________________________________________2
4.3) 4.4)
4.4.1) Introduccin. Anlisis del proceso correlacin. 4.4.2) Funcin de distribucin Beta. Caractersticas y ajuste. 4.4.3) Pruebas realizadas. Probabilidad de prdida y de falsa alarma. 4.4.4) Resultados y conclusiones.
4.5)
q q q
II. III.
APNDICE A: ESTRUCTURA DEL FORMATO WAVE. APNDICE B: CARACTERSTICAS TCNICAS DEL HARDWARE EMPLEADO EN LA REALIZACIN DEL PROYECTO.
______________________________________________________________________________________________________________3
IV.
V.
BIBLIOGRAFIA.
______________________________________________________________________________________________________________4
I.
MEMORIA DESCRIPTIVA.
______________________________________________________________________________________________________________5
PROYECTO DE COMPARACION Y DETECCION DE TRAMAS DE AUDIO CON TARJETA SOUND BLASTER APLICADO A LA RADIODIFUSION COMERCIAL
1) INTRODUCCION:
Hoy en da la publicidad y el marketing han cobrado una importancia desproporcionada, estn presentes en todo momento y en todos los sectores, pero los medios por excelencia a travs de los cuales se lleva a cabo un bombardeo de anuncios para el consumidor son la radio y la televisin. Debido a la relevancia de dichos anuncios en la economa de la sociedad actual, y por lo tanto a los ingresos que se generan a travs de ellos, hay un complejo proceso en torno al mundo de la publicidad. En este proceso las emisiones de dichos anuncios son controladas de una forma muy estricta, ya sea la emisin en s como la franja horaria en que se emite.
Este proyecto se centra en este campo, tratando de ser un medio o dispositivo de control de la emisin de anuncios. A continuacin veremos de una forma breve y rpida cul es el problema y la motivacin de este proyecto, describiendo sus directrices principales, as cmo su mbito de aplicacin y su alcance.
1.1) Generalidades:
El reconocimiento de anuncios de radio (FM y AM) o televisin por computador en tiempo real es un amplio campo de investigacin y desarrollo hoy en da. Existen multitud de empresas de marketing que se encargan de controlar las emisiones de los anuncios, y estas empresas buscan aplicaciones capaces de
______________________________________________________________________________________________________________6
comparar y reconocer tales anuncios, con el objetivo de comprobar el correcto cumplimiento de los contratos con las diferentes emisoras.
Mientras en emisoras importantes es habitual guardar un registro de las transmisiones efectuadas, esto no ocurre en emisoras de carcter local, lo que obliga a realizar un control en tiempo real de la programacin emitida. En la mayora de las ocasiones en que se vara la emisin de un anuncio no se debe a la negligencia de estas emisoras, sino a los problemas de tiempo que tienen, entrevistas, programas en directo..., esto causa que los anuncios muchas veces sean desplazados de la franja horaria concertada y ubicados en una franja diferente, en ocasiones en programas con una cuota de "share" o de audiencia diferente a la contratada.
El desarrollo de una aplicacin de estas caractersticas se puede abordar desde diferentes niveles de precisin y complejidad:
Evidentemente la mejor y ms completa aplicacin ser aquella que reconozca tanto el sonido como las imgenes del anuncio publicitario, pero la deteccin y reconocimiento de secuencias de vdeo es un proceso complejo que consume muchsimos recursos, y que hace que sea muy costoso trabajar en tiempo real cuando no se dispone de los dispositivos adecuados (microprocesadores de alta velocidad, DSPs programables, ...). Adems no tiene sentido trabajar con secuencias de vdeo cuando se trata de reconocer anuncios en las emisoras de FM y AM. Las seales de audio son ms rpidas y fciles de procesar, y al trabajar con ellas podremos monitorizar anuncios comerciales tanto en emisoras de televisin como en emisoras de radio.
______________________________________________________________________________________________________________7
En este proyecto se desarrolla una aplicacin que detecta y reconoce nicamente secuencias de audio, debido a ello se puede utilizar para reconocer anuncios en ambos medios de radiodifusin. Adems nos dar algunos datos de inters para el anunciante, como son la hora y fecha de emisin cada vez que se detecta el anuncio y una tabla en la que se recogen todas las detecciones realizadas.
Se hace notar que en ocasiones se emiten diferentes versiones del mismo anuncio, y una de las caractersticas de estas versiones es la variabilidad de la duracin de la emisin, que se realiza con el objetivo de reducir el costo por parte de los anunciantes. Para este tipo de anuncios habra que realizar un estudio individual, ya que son anuncios de distinta duracin y por lo tanto se considerarn anuncios distintos, aunque sean de la misma marca o producto.
Para llevar a cabo dicha comparacin nos ayudamos de una de las principales propiedades de la funcin correlacin, ya sabemos que la correlacin cruzada de dos seales mide cun parecidas son stas. Este mtodo implica una alta carga computacional, siendo la comparacin un proceso lento que dificulta la posibilidad de trabajar en tiempo real, sin embargo hay tcnicas que hacen que se reduzca dicha carga computacional considerablemente. Utilizando una de estas tcnicas se
______________________________________________________________________________________________________________8
consigue trabajar en tiempo real, y aunque no podamos hacerlo con varios anuncios y emisoras simultneamente la eficiencia de este mtodo hace que sea el ms apropiado para comprobar la similitud de dos seales.
Adems los coeficientes de la funcin correlacin normalizada varan entre cero y uno, dependiendo del grado de similitud entre las muestras de las seales a comparar. Esta caracterstica no slo hace que dichos coeficientes sean fciles de interpretar y manejar a la hora de implementar el algoritmo de deteccin, sino que nos es de gran ayuda para el anlisis estadstico del proceso de reconocimiento de patrones de audio, sin el cual nos veramos obligados a hacer multitud de pruebas para determinar cul es el formato de la seal de audio ms apropiado: frecuencia de muestreo, nmero de bits por muestra, tiempo de captura de seal, ...
Por lo tanto la correlacin entre las dos tramas de audio, el anuncio y el trozo de seal capturado por la Sound Blaster, es una tcnica con grandes ventajas para el reconocimiento de anuncios:
Es eficiente.
De ah que esta sea la tcnica escogida para llevar a cabo la aplicacin que nos ocupa.
El anlisis estadstico del que hablamos consiste en encontrar una funcin de distribucin cuyas caractersticas sean tales que podamos ajustar el proceso de correlacin de dos seales a dicha funcin, de forma que se pueda realizar un estudio estadstico. Dicho de otro modo, buscamos una funcin de distribucin cuyo dominio vare entre 0 y 1, igual que el rango de valores de la funcin correlacin, de esta manera se podr representar estadsticamente el conjunto de
______________________________________________________________________________________________________________9
pruebas o detecciones, tanto positivas como negativas, que se realicen para cada formato de la seal que proviene de la tarjeta Sound Blaster. As tendremos una representacin estadstica para cada pareja frecuencia de muestreo-tiempo de captura, que es la que define el formato de la seal, pues el nmero de bits por muestra se considerar constante e invariable, y con dicha representacin se obtendrn datos, como la probabilidad de falsa alarma y la probabilidad de prdida, que nos ayudarn a elegir el formato (frecuencia de muestreo- tiempo de captura) ms apropiado para la deteccin.
Una vez escogido el formato de la seal de audio slo nos queda aplicarlo y hacer un algoritmo decisor que sea robusto, o sea que las probabilidades de falsa alarma y de prdida lo ms pequeas posible.
A lo largo de este documento se hablar de deteccin positiva y negativa, entendindose por deteccin el proceso de comparacin de la trama de audio obtenida de la radio con el anuncio grabado en memoria, as como la posterior decisin de si dicha trama coincide con algn trozo del anuncio o no, y por lo tanto si forma parte de l. Si es coincidente entonces hablaremos de deteccin positiva, si no la deteccin ser negativa. Hay que dejar claro que una deteccin positiva no implica que en ese momento se est emitiendo el anuncio buscado, pues hay una pequea probabilidad de error que hace que a veces haya falsas alarmas (cuando se obtiene una deteccin positiva pero no se trata de nuestro anuncio) o prdidas (cuando se est emitiendo nuestro anuncio y hay una deteccin negativa). Siempre intentaremos llevar a cabo el mayor nmero posible de detecciones o pruebas cuando se est emitiendo el anuncio y en funcin de todas ellas se decidir si es el anuncio en cuestin o no.
1.3)
______________________________________________________________________________________________________________10
esfuerzos en este rea estn enfocados hacia el estudio del audio que contiene alguna estructura de informacin semntica incorporada, como es el caso de noticias de radiodifusin y publicidad subliminal. Otros lo enfocan desde otro punto de vista, y estudian el audio que contiene un solo tipo de sonido, ya sea msica, discurso, ..., entre ellos el ms extendido es el de reconocimiento de voz.
En otras muchas investigaciones se trabaja con seales de audio mezcladas, en las que nos encontramos con una mezcla de msica, discurso, rudo de fondo, efectos sonoros, etc. La segmentacin del audio mezclado tiene aplicaciones en la deteccin de bandas de publicidad para que el vdeo deje de grabar automticamente, en sistemas de recuperacin de audio, ...
Asmismo, este proyecto se basa en el estudio de seales audio formadas por componentes que proceden de diversas fuentes, pues es as como aparecen normalmente en radio y televisin. Sin embargo no estamos interesados en desgranar la seal en cada una de sus componentes y estudiarlas por separado. La seal de audio tiene unas propiedades y caractersticas que hacen que los sonidos sean casi inconfundibles, an cuando son resultado de la suma de varias fuentes simultneas. De esta manera no es necesario separar dichas fuentes para reconocer y detectar la emisin de patrones de audio conocidos a priori.
Por lo tanto nuestro nico objetivo es, como ya hemos dicho, el reconocimiento de anuncios comerciales que se emiten tanto por radio como por televisin, y no nos vamos a preocupar en absoluto de la segmentacin y clasificacin de la seal de audio.
A continuacin tenemos un diagrama en el que se muestra, sin entrar en detalles, el mtodo utilizado para llevar a cabo nuestra tarea:
______________________________________________________________________________________________________________11
PC
En el diagrama se puede observar que la seal de audio tras pasar por la tarjeta Sound Blaster adquiere un cierto formato, llamado formato WAV, el cual facilita enormemente el procesado de la seal de audio bajo el entorno de Windows, y en definitiva bajo el entorno de trabajo de la aplicacin Matlab.
La versatilidad y capacidad de la tarjeta Sound Blaster para convertir y procesar los distintos formatos en que nos podemos encontrar la seal de audio hace de ella una candidata ideal para desarrollar este proyecto.
______________________________________________________________________________________________________________12
2) ANALISIS:
A continuacin se va a realizar un estudio de la situacin de la que partimos y a dnde queremos llegar, dando algunas nociones bsicas sobre seales audio, de forma que se vaya comprendiendo poco a poco el alcance de este proyecto.
Este captulo se ha concebido con el fin de proporcionar unos principios rpidos pero esenciales que permitan entender los conceptos y las tecnologas del audio (sin entrar en detalles de carcter analtico). Una vez aprendidos estos conceptos ser posible trabajar con la computadora o con un dispositivo de audio con un cierto grado de confianza.
El sonido es una vibracin que se propaga a travs del aire, gracias a que las molculas del aire transmiten la vibracin hasta que llega a nuestros odos. Se aplican los mismos principios que cuando se lanza una piedra a un estanque, la perturbacin de la piedra provoca que el agua se agite en todas las direcciones hasta que la amplitud de las ondas es tan pequea que dejan de percibirse. La figura muestra las vibraciones fsicas de un diapasn que ha sido golpeado. Las
______________________________________________________________________________________________________________13
vibraciones del diapasn fuerzan a las molculas de aire a agruparse en regiones de mayor y menor densidad, dando lugar a que la presin del aire aumente o disminuya instantneamente. El diapasn es un excelente ejemplo de fuente de sonido por dos razones: la primera es que puede observarse el movimiento de vaivn de sus brazos mientras se escuchan los resultados de esta vibracin; la segunda es que el diapasn vibra a una frecuencia (vibraciones por segundo) constante hasta que toda su energa se ha disipado en forma de sonido. Una perturbacin que viaja a travs del aire se denomina onda y la forma que adopta esta se conoce como forma de onda.
______________________________________________________________________________________________________________14
La forma de onda del diapasn es la ms sencilla de las formas de onda, denominada onda sinusoidal.
La frecuencia de sonido se mide en unas unidades denominadas Hertzios (Hz). Un sonido que vibra una vez por segundo tiene una frecuencia de 1 Hz. Las frecuencias se escriben normalmente en Kilohercios (kHz), unidad que representa 1.000 Hz. Una persona joven con unos odos saludables puede or sonidos que estn en el rango de los 20 a los 20.000 Hz (20 kHz).
En la figura se observa cmo la amplitud de la onda disminuye a medida que el sonido se aleja de su fuente, extendindose en todas las direcciones. (La figura exagera la rapidez con la que la onda disminuye en el aire).
El odo y un micrfono incorporado en la tarjeta de sonido se comportan de manera similar. Ambos transforman pequeas variaciones en la presin del aire en seal elctrica que puede ser comprendida y almacenada por sus respectivos "cerebros" (ya sea el humano o la CPU de la computadora). Esta seal elctrica puede ya ser guardada, manipulada o reproducida mediante los medios electrnicos adecuados.
Amplitud:
La medida de la amplitud de una onda es importante porque informa de la fuerza, o cantidad de energa, de una onda, que se traduce en la intensidad de lo que omos, su unidad de medida es el decibelio. Un decibelio, abreviado como dB, es una unidad de medida de la fuerza de la seal y es til en la comparacin de la intensidad de dos sonidos. La sensibilidad del odo humano es extraordinaria, con un rango dinmico o variacin en intensidad muy amplio. La mayora de los odos humanos pueden capturar el sonido del murmullo de una hoja y, despus de haberse sometido a ruidos explosivos como los de un avin, siguen funcionando.
______________________________________________________________________________________________________________15
Lo que es sorprendente es que la fuerza de la explosin en un avin es al menos 10 millones de veces mayor que el murmullo que una hoja produce con el viento.
El odo necesita un porcentaje elevado de variaciones en la fuerza de un sonido para detectar un cambio en la intensidad percibida, lo que significa que la sensibilidad del odo a la fuerza del sonido es logartmica, de manera que el decibelio, unidad de medida logartmica, es la eleccin ms adecuada para medir la fuerza del sonido. El aspecto prctico de la amplitud es que un incremento de slo 3 dB duplica la intensidad de un sonido. Por ejemplo, un sonido con 86 dB tiene, el doble de fuerza que un sonido con 83 dB y cuatro veces ms que un sonido con 80 dB. Desde la perspectiva de nuestra percepcin de la intensidad, un incremento de 3 dB, que da lugar a que se duplique la fuerza, provoca que el sonido se perciba slo ligeramente ms alto. Es necesario un aumento en 10 dB para que nuestros odos perciban un sonido con el doble de intensidad.
Rango dinmico:
La calidad de los sonidos musicales grabados no es demasiado importante, ya que nunca son comparables a los reales. La razn principal es que el equipo estreo no puede duplicar el rango dinmico completo de una orquesta o de un concierto de rock. Una orquesta puede alcanzar los 110 dB en su clmax y en el punto ms suave bajar hasta los 30 dB, dando lugar a un rango dinmico de 80 dB. Este rango es superior al rango dinmico de un sistema estreo tpico y, de hecho, superior a la capacidad de grabacin de medios tales como un disco de vinilo y una cinta de audio.
Ancho de banda:
Profundizamos ahora en aspectos prcticos, como el rango de frecuencia con el que es capaz de trabajar un reproductor CD, nuestro odo o nuestra voz. El ancho de banda es muy importante para disfrutar de la msica y es un criterio bsico a la hora de seleccionar un equipo de audio para utilizar con la tarjeta de sonido. Por
______________________________________________________________________________________________________________16
ejemplo, el ancho de banda terico de la radio FM es aproximadamente tres veces el ancho de banda de la radio AM, por lo que la FM ser capaz de reproducir frecuencias que no entran dentro del campo de trabajo de la AM.
A menudo el ancho de banda se simboliza mediante un nico nmero cuando la frecuencia baja est bastante prxima a cero. Por ejemplo, el ancho de banda de una voz femenina se sita en torno a los 9 kHz, aunque realmente puede estar en el rango que va desde los 200 Hz hasta los 9 kHz.
Existe una medida estndar para definir el ancho de banda: el rango de frecuencias sobre el que la amplitud de la seal no difiere del promedio en ms de 3 dB, es decir la diferencia de las frecuencias en la que se produce una cada de 3 dB, ya es el punto donde su amplitud cay a la mitad, y ste es el mnimo cambio en la fuerza de la seal que puede ser percibido como un cambio real en la intensidad por la mayora de los odos.
______________________________________________________________________________________________________________17
Es importante tener en cuenta que el ancho de banda de un equipo de sonido depende del enlace ms dbil del canal, que normalmente no es la tarjeta de sonido. La calidad del sonido producido por la computadora refleja el esfuerzo de muchas componentes, y la salida no ser mejor que la interpretacin del miembro menos capacitado de un grupo. En el caso del sistema de sonido de la computadora, una seal debe pasar por muchas fases de transformacin de audio y por diferentes dispositivos. Por ejemplo, consideremos el sonido grabado mediante un micrfono y que luego es reproducido. La tarjeta de sonido transforma el sonido recogido del micrfono en una seal elctrica que, posteriormente, se transforma en audio digital y se almacena en disco. El audio digital del disco es transformado de nuevo en una seal elctrica y reproducido a travs de los cascos o de los altavoces. El ancho de banda efectivo del sistema de sonido est limitado por el dispositivo con el ancho de banda ms estrecho de todos los dispositivos que procesan el sonido.
El enlace ms dbil en grabacin suele ser el micrfono, que tiene probablemente un ancho de banda aproximadamente de 12 kHz.
Ruido:
Del mismo modo que perturban los ruidos y ecos en una habitacin, tambin puede generarse ruido y distorsin en la tarjeta de sonido, en los altavoces y en el micrfono. El ruido (sonidos aleatorios que transforman y enmascaran el sonido deseado) se mide tambin en decibelios. Dado que es tan poco probable disponer de un entorno de audio digital en perfecto silencio, lo que interesa realmente es saber la cantidad de ruido en relacin con la seal que se introduce en el equipo de sonido, especialmente en la tarjeta de sonido. La fuerza de la msica, del habla o de cualquier otro sonido, comparada con la fuerza promedio del ruido, se conoce como relacin seal/ruido. A medida que aumenta la relacin s/n, es mejor el trabajo realizado en grabacin. La relacin seal ruido de una tarjeta digital sencilla es del orden nada despreciable de 85 dB. Esto significa que la fuerza de la
______________________________________________________________________________________________________________18
seal es 85 dB mayor que la fuerza del ruido. Una relacin de 70 dB se considera vlida para propsitos musicales y una relacin de 65 dB est en el lmite de aceptacin.
Antes de que la computadora pueda grabar, manipular y reproducir sonido, debe transformarse el sonido de una forma analgica audible a una forma digital aceptable por la computadora, mediante un proceso denominado conversin analgica-digital (ADC).
Una vez que los datos de sonido se han almacenado como bytes en la computadora, puede hacerse uso de la potencia de la CPU de la computadora para transformar este sonido de miles de modos. Con el software adecuado es posible, por ejemplo, aadir reverberacin o eco a la msica o a la voz, pueden eliminarse trozos de sonido grabado, pueden mezclarse archivos de sonido, ajustarse el tono de la voz de manera que no pueda reconocerse y muchas cosas ms.
Finalmente, cuando se est dispuesto a escuchar el resultado, el proceso de conversin digital-analgica (DAC) transforma de nuevo los bytes de sonido a una seal elctrica analgica que emiten los altavoces.
Comenzaremos con la captura del sonido haciendo uso del micrfono. Cuando las ondas de sonido llegan al micrfono, el movimiento mecnico se traduce en una seal elctrica. Esta seal se denomina seal analgica porque es una seal continua en el tiempo, anloga al sonido original.
______________________________________________________________________________________________________________19
Dada una seal analgica, se van tomando valores discretos de su amplitud a intervalos de tiempo pequeos, evidentemente ser ms fiable la reproduccin cuantas ms muestras por segundo se tomen. A estos valores obtenidos se les asigna un valor digital que el computador puede entender y procesar como se requiera.
A cada muestra obtenida se le asigna un equivalente binario ya que es en este sistema en el que trabajan los computadores, su unidad de informacin es el bit. Un bit slo puede tomar dos posibles valores, "1" "0", es lgico pensar que ser necesario ampliar esta unidad de informacin para as poder asignar a cada valor de muestra tomada un equivalente binario. Por esta razn y dependiendo de la fidelidad con que queramos trabajar podemos utilizar palabras de 8 16 bits, pudiendo obtener as 256 65536 combinaciones distintas y obtener mayor resolucin.
El proceso inverso es mucho menos complejo ya que solo se trata de ir poniendo los valores de las muestras en el mismo orden que fueron tomados y unos filtros electrnicos se encargan de convertir esa seal resultante de valores discretos en una seal analgica.
______________________________________________________________________________________________________________20
La fidelidad, terminologa empleada por los entusiastas del audio para expresar la exactitud en la rplica de la msica original del sonido audio digital, depende de la seleccin de la correcta frecuencia de muestreo y del correcto tamao de muestra, siendo este ltimo el nmero de bytes utilizados para almacenar cada muestra.
FRECUENCIA DE MUESTRA:
La frecuencia de muestra (tambin denominada frecuencia de muestreo) debe ser lo suficientemente alta para que los sonidos de alta frecuencia, como el sonido del cristal de una copa de vino o el del arqueo de un violn, puedan recogerse con precisin. Segn el teorema de Nyquist, es posible repetir con exactitud una forma de onda si la frecuencia de muestreo es como mnimo el doble de la frecuencia de la componente de mayor frecuencia. La frecuencia ms alta que puede percibir el odo humano est cercana a los 20 kHz, de modo que la frecuencia de muestreo de
______________________________________________________________________________________________________________21
44.1 kHz de las tarjetas de sonido es ms que suficiente. Este valor es el utilizado hoy en da por los reproductores de audio CD.
Los archivos de audio digital pueden grabarse seleccionando la frecuencia de muestreo. A medida que aumenta la frecuencia de muestreo, aumenta la calidad del sonido. Por ejemplo, una velocidad de 6.000 Hz (6.000 muestras por segundo) es buena para una voz masculina tpica, pero no lo es para una voz femenina tpica, que tiene componentes con una frecuencia ms alta. Una frecuencia de muestreo de 8.000 Hz proporciona una grabacin de la voz femenina de mayor calidad. La siguiente tabla ofrece una lista de algunas tarjetas de sonido Sound Blaster y de sus frecuencias de muestreo:
Tarjeta Grabacin-Reproduccin
Sound Blaster 16
15.000 (mono)
44.100 (mono)
23.000 (mono)
La Sound Blaster 16 puede grabar en estreo, grabando hasta 44.100 muestras por segundo, con un canal izquierdo y otro derecho que producen una frecuencia de muestreo combinada de 88.200 muestras por segundo. Las tarjetas Sound Blaster Pro y la Sound Blaster 16 son capaces tambin de trabajar en estreo con una velocidad mxima de reproduccin de 22.050. Ambas tarjetas, la Sound Blaster y la Sound Blaster Pro, toman muestras de sonido de 8 bits (1 byte); cada medida consume 1 byte de almacenamiento de la memoria de la computadora o del disco. La Sound Blaster 16 maneja muestras de 16 bits (2 bytes), emitiendo voz y msica con una fidelidad equivalente a los reproductores CD actuales.
______________________________________________________________________________________________________________22
Existen varias razones para no utilizar las frecuencias de muestreo ms altas. En primer lugar, las frecuencias de muestreo altas necesitan gran capacidad de almacenamiento.
TAMAO DE MUESTRA:
El tamao de muestra es la otra componente de mayor influencia en la fidelidad del audio digital. Las tarjetas de sonido de 16 bits ofrecen la posibilidad de elegir entre un tamao de muestra de audio digital de 8 bits (1 byte) o de 16 bits (2 bytes).
El tamao de muestra controla el rango dinmico que puede grabarse. Por ejemplo, las muestras de 8 bits limitan el rango dinmico a 256 pasos (rango de 50 dB). Por el contrario, una muestra de 16 bits tiene un rango dinmico de 65.536 pasos (rango de 90 dB), lo que supone una mejora sustancial. El odo humano percibe todo un mundo de diferencias entre estos dos tamaos de muestra. Los odos son ms sensibles a la deteccin de diferencias en el tono que en la intensidad, pero son an ms sensibles a la fuerza del sonido. Los odos humanos, que estn acostumbrados a detectar sonidos con variaciones de varios rdenes de magnitud en la fuerza, perciben el sonido de 8 bits con un tono apagado o desafinado si se compara con el sonido de audio digital de 16 bits.
COMPROMISOS EN EL MUESTREO:
Se podra asumir que todo lo que hay que hacer para obtener buen sonido es grabar a la velocidad lmite de 44,1 kHz con muestras de 16 bits (2 bytes). El nico problema que aparece si se graba en estreo, tomando muestras simultneamente en los canales izquierdo y derecho a 44,1 kHz, es que una muestra de sonido de un minuto necesita un espacio para almacenarse de 10,58 MB.
______________________________________________________________________________________________________________23
Lo aconsejable es usar la frecuencia de muestreo ms baja posible. Por ejemplo, supongamos que planeamos grabar una conversacin telefnica. El ancho de banda de un telfono es de slo 3 kHz. De acuerdo con el teorema de Nyquist, la grabacin ser acertada si la frecuencia de muestreo es de 6 kHz o mayor.
Cuando se elige la frecuencia de muestreo, tambin hay que considerar el ancho de banda de todo el sistema. Por ejemplo, no existe ningn problema en la grabacin de audio digital a 44,1 kHz si el micrfono utilizado funciona a 12 kHz y la fuente de sonido es una voz masculina grave que no supera los 7 kHz.
Como hemos visto anteriormente, cada muestra tomada es almacenada en el ordenador ocupando uno o dos bytes de memoria dependiendo de si se ha tomado una resolucin de 8 16 bits. Esto conlleva emplear grandes espacios de disco para almacenar estos ficheros de sonido. Se han desarrollado muchos formatos de archivos comprimidos que permiten realizar grabaciones de alta calidad sin necesidad de utilizar tanto espacio de disco. Estas tcnicas suelen incluir un mtodo para codificar secuencias largas de bytes repetidos. Evidentemente existe una contrapartida y es que una vez comprimido el archivo de sonido, este no puede ser editado para su modificacin.
A continuacin se muestran algunos de los formatos ms utilizados para archivar audio: Archivos AU: es el formato audio estndar en ordenadores Sun. Por lo general son de 8 bits y poseen menor calidad que otros formatos de sonido.
______________________________________________________________________________________________________________24
IFF: es comn en ordenadores Mac. Pueden ser de 8 16 bits, soportan frecuencias de muestreo de hasta 44,1 kHz y por lo general tienen una buena calidad de sonido. IFF-C es un formato de archivo IFF comprimido. Audio WAV: es el formato propio de Windows. Pueden ser de 8 16 bits con ndices de muestreo de 8 kHz, 11,025 kHz, 22,05 kHz o 44,1 kHz y por lo general tienen buena calidad de sonido. VOC: similares a los archivos WAV con la salvedad de que los VOC incluyen unos marcadores de sincronizacin que los programas de presentacin multimedia pueden utilizar para sincronizar la reproduccin de archivos VOC con imgenes o vdeos u otros sonidos. RA: (real audio). Es un formato utilizado para reproducir sonidos en Internet, y ofrece unas caractersticas especiales que lo hacen muy interesante en este campo. Si utilizramos archivos del tipo wav, podemos imaginarnos el tiempo necesario que hara falta para acceder a un archivo cuya capacidad puede llegar a ser de varios Mb. Real Audio permite trabajar con ficheros comprimidos en tiempo real
descomprimiendo el archivo a la vez que lo reproduce, evidentemente la calidad del sonido no ser igual que la obtenida de un CD, pero sirve perfectamente a sus fines. MIDI: el Musical Instrument Digital Interface (MIDI) es el protocolo de comunicaciones estndar utilizado para intercambiar datos entre sintetizadores, ordenadores, software, procesadores de efectos y otros dispositivos MIDI. Los archivos MIDI son significativamente diferentes de los archivos de audio digital como los VOC o los WAV. Los archivos de audio digital contienen sonido real grabado de forma digital a partir de la captura de miles de muestras por segundo. La msica MIDI, por otro lado, contiene slo instrucciones sobre la manera de tocar un instrumento. Los archivos de audio digital pueden necesitar millones de
______________________________________________________________________________________________________________25
bits para almacenar unos minutos de msica, mientras que los MIDI con unos pocos miles de bits pueden reproducir msica durante horas. Un archivo MIDI es completamente editable, pudindose manipular el instrumento que se toca, la duracin de una nota, la intensidad del sonido, etc.
El nombre WAVE proviene de Waveform Audio File Format, y es el estndar 'de facto' desarrollado por Microsoft e IBM como parte del RIFF (Resource Interchange File Format, formato de ficheros para intercambio de recursos) para Windows. Su mbito de aplicacin es en el entorno multimedia y define una serie de formatos y protocolos para el intercambio de informacin multimedia audio, de hecho forma parte de la especificacin Microsoft's Multimedia Programming Interface and Data.
El formato WAVE es un subconjunto de las especificaciones RIFF de Microsoft, el cual puede incluir una gran diversidad de tipos de datos. Originalmente fue desarrollado para archivos multimedia, pero las
especificaciones, estn an abiertas de forma que se permita que en tales ficheros se puedan incluir otros tipos de datos an no definidos sin que por ello haya que cambiar los programas que actualmente leen este formato.
La descripcin que vamos a hacer a continuacin no va a ser muy exhaustiva, simplemente se va a definir el formato de este tipo de ficheros a grosso modo. Sin embargo inclumos una descripcin mucho ms detallada en el Apndice A, en ella se ve la compleja estructura que presentan los ficheros .WAV .
El formato RIFF:
RIFF es un formato capaz de almacenar muchos tipos de datos, principalmente datos multimedia como audio y vdeo. Est basado en conjuntos y subconjuntos
______________________________________________________________________________________________________________26
(chunks and sub-chunks). Cada conjunto tiene un tipo (chunk type), representado por una etiqueta de cuatro caracteres. Lo primero que nos encontramos en un fichero RIFF es el tipo de conjunto, seguido por el tamao de dicho conjunto y a continuacin su contenido (chunk contents).
El fichero RIFF no es ms que un gran contenedor que contiene al resto de conjuntos. El primer campo en el contenido de cada conjunto es el tipo de formato (form type), que describe los tipos de datos que nos vamos a encontrar. Vemos un ejemplo de cmo es esta estructura:
Offset (hex)
Contents
'R', 'I', 'F', 'F' Length of the entire file - 8 (32-bit unsigned integer) form type (4 characters) first chunk type (4 character) first chunk length (32-bit unsigned integer) first chunk's data
Todos los enteros se almacenan con formato Little-Endian, que consiste en ordenar por bytes siguiendo un orden de menor a mayor.
El formato WAVE:
El formato WAVE es uno de los subconjuntos del formato RIFF usado para almacenar datos de audio exclusivamente. Su tipo de formato es WAVE y requiere dos tipos de subconjuntos: El subconjunto fmt (format), que describe la tasa de muestreo, el formato utilizado para los datos de audio, etc.
______________________________________________________________________________________________________________27
WAVE puede contener tambin otros tipos de subconjuntos permitidos por el formato RIFF, entre ellos el subconjunto tipo LIST, que se utiliza para contener opcionalmente tipos de datos como la fecha de copyright, el nombre del autor, ... Los subconjuntos pueden aparecer en cualquier orden.
La especificacin WAVE soporta muchos de los diferentes algoritmos de compresin de datos existentes. La etiqueta de formato (format tag), perteneciente al subconjunto de formato, es la encargada de indicar el tipo de compresin utilizada. Un valor de 1 significa que no se utiliza ningn tipo de compresin en la codificacin de las muestras o que se utiliza compresin por codificacin directa de las muestras, PCM (Pulse Code Modulation). Otros valores indican que existe algn tipo de compresin no directa.
Como se puede ver los ficheros WAVE son una herramienta muy potente, ya que nos podemos encontrar con multitud de variantes, sin embargo para la realizacin de este proyecto vamos a considerar una de ellas solamente, conocida como Formato cannico WAVE. sta consiste bsicamente en dos subconjuntos, el subconjunto de formato y el de datos por este orden, y en el uso del formato PCM para codificar las muestras de audio. Esta es la forma ms simple de escribir y leer datos de ficheros WAVE, adems de ser compatible con cualquiera de los programas creados para el procesado de ficheros WAVE.
Seguidamente vemos la estructura completa de la cabecera del fichero WAVE (formato cannico o estndar), junto con la cabecera del fichero RIFF que lo contiene:
______________________________________________________________________________________________________________28
Posicin Tamao
Nombre
Descripcin
Contiene las letras RIFF en formato ASCII ChunkID (0x52494646 en formato big-endian).
Tamao del resto del conjunto a partir de este ChunkSize byte. Es el tamao del fichero entero en bytes menos los ocho bytes no includos en esta cuenta: ChunkID y ChunkSize
Subconjunto
12
16
16 para PCM. Este es el tamao del resto del Subchunk1Size subconjunto a partir de este byte.
AudioFormat
22
NumChannels
______________________________________________________________________________________________________________29
24
SampleRate
28
ByteRate
SampleRate*NumChannels*BitsPerSample/8
32
BlockAlign
NumChannels*BitsPerSample/8
2
34 2 X
BitsPerSample
ExtraParamSize ExtraParams
36 Subconjunto de datos
40
Subchunk2Size NumSamples*NumChannels*BitsPerSample/8
44
Data
Datos audio.
La ordenacin de bytes asumida por defecto por los fichero WAVE es LittleEndian. Los archivos que utilicen la ordenacin Big-Endian tendrn el identificador RIFX en vez de RIFF.
Las muestras de datos deben terminar en un nmero de byte impar, sea cual sea.
Las muestras de 8 bits son almacenadas como bytes sin signo, con rango de 0 a 255. Las muestras de 16 bits se almacenan como enteros con signo en complemento a 2, con rango de 32768 a 32767.
______________________________________________________________________________________________________________30
Puede haber subconjuntos adicionales en un flujo de datos WAVE. Si es as cada uno tendr un identificador de subconjunto de cuatro caracteres, asmismo el campo SubChunkSize tendr formato largo sin signo y la longitud de los datos vendr definida por SubChunkSize.
Aunque, como se puede observar, la estructura de los ficheros WAVE est muy bien definida y parece que no es probable que obtengamos errores a la hora de extraer los verdaderos datos de audio (PCM) tenemos que ser precavidos, pues a veces se van introduciendo algunas modificaciones o puede que sea el dispositivo de captura y grabacin, en nuestro caso la Sound Blaster, el que d lugar a dichos cambios. De hecho, en el anlisis que se llev a cabo durante la realizacin del proyecto se comprob que los ficheros WAVE con los que trabajamos tienen una ligera variacin en la cabecera respecto de la que acabamos de ver. Por este motivo hubo que programar un lector para poder pasar los datos de audio al entorno de trabajo de Matlab. Ms adelante veremos este problema con ms detenimiento.
Los ficheros WAVE han sido muy utilizados para reproducir audio durante los ltimos aos, de forma que su uso ha sido y es muy extendido. Este predominio slo se est viendo truncado en los dos ltimos aos por la aparicin de nuevos formatos de audio comprimido.
Debido al crecimiento de Internet y al uso masivo de redes de datos se haca necesario un formato que permitiera el traspaso de informacin multimedia, y por lo tanto datos de audio, con cierta velocidad. Para ello se han creado varas estructuras de almacenamiento de datos de forma comprimida, todas basadas en el mtodo de Codificacin Perceptual (codificacin de sub-bandas), que permite reducir a una dcima parte el espacio necesario para almacenar un sonido o el ancho de banda para transmitirlo.
______________________________________________________________________________________________________________31
Un ejemplo es la compresin de sonido contemplada en el estndar ISO MPEG 1 - Layer 3, ms conocida como MP3. Incluso a un odo muy bien adiestrado le cuesta mucho diferenciar la seal original en formato PCM (un WAV por ejemplo) de la convertida en MP3, que ocupa de diez a doce veces menos espacio. Y precisamente ah es donde esta el truco, estos sistemas funcionan "con prdida", pero esta prdida no puede ser percibida por el odo humano.
Sin embargo para nuestro estudio no nos vale ninguno de los formatos de audio que conlleven compresin no lineal, pues sera mucho ms difcil detectar y reconocer cualquier tipo de sonido debido a la distorsin que introducen. Es por ello por lo que elegimos el formato PCM, y por lo tanto el formato WAVE, cuyo nico inconveniente, que es el espacio que ocupa, no tiene mayores consecuencias.
En cuanto a las ventajas: Compresin lineal, muy adecuada para nuestros propsitos (deteccin y reconocimiento de tramas de audio), ya que introduce una distorsin mnima en la seal original. Simplicidad a la hora de leer el contenido del fichero y manejar los datos audio. Versatilidad del formato RIFF, capaz de almacenar y transportar una gran variedad de datos: mapas de bits, audio, vdeo, informacin de control de los dispositivos perifricos, ...
Para finalizar con este anlisis mostramos dos seales WAVE, la primera de ellas estreo, con dos canales, y la segunda mono. Se puede observar que en la primera figura hay una mayor densidad de muestras, esto es debido a que la frecuencia de muestreo de esta seal es casi tres veces mayor (22050/8000= 2.756). Esto significa que por cada muestra de la segunda seal habr aproximadamente tres muestras en cada uno de los canales de la primera seal, o sea, seis muestras, y por lo tanto mayor calidad de sonido. A cambio, la segunda
______________________________________________________________________________________________________________32
seal ocupa una sexta parte del espacio que ocupa la primera y su procesado es mucho ms rpido.
______________________________________________________________________________________________________________33
En el captulo anterior nos hemos centrado en los fundamentos del modelo de seal de audio, y consecuentemente en las propiedades de estas seales. Basndose en dichas propiedades, los algoritmos de procesamiento de seal se encargan de extraer algn tipo de informacin. Esto ocurre para distintos tipos de seales y diferentes aplicaciones.
______________________________________________________________________________________________________________34
En concreto, para aplicaciones como el RADAR, el SONAR, o incluso el procesamiento de arrays de seales se utiliza la misma tcnica que vamos a emplear nosotros. Se trata de captar una seal buscada y tratar de reconocerla mediante la comparacin de dicha seal con diferentes patrones. Aunque el tipo de seal y sus caractersticas y propiedades cambien, el objetivo principal es el mismo, el reconocimiento y deteccin de seales.
La intencin de la teora de la deteccin es la de proporcionar tcnicas racionales para determinar cul de los distintos modelos de generacin y medida de datos es ms consistente con un conjunto dado de datos. En comunicaciones digitales la seal recibida debe ser procesada para determinar si representa un 0 binario o un 1; en RADAR o SONAR, la presencia o ausencia de un blanco debe ser determinada por medidas de los campos de propagacin; en problemas ssmicos, la presencia de depsitos de petrleo debe ser deducida a travs de medidas de la propagacin del sonido a travs de la tierra. Usando la teora de la deteccin, podemos hallar algoritmos de procesamiento de seal que dan buena respuesta a problemas en los que la seal que transporta la informacin est adulterada por otras seales suprfluas, o sea rudo.
En todos los ejemplos vistos anteriormente, RADAR, SONAR, arrays de seales, estudios ssmicos y del terreno, ..., se utiliza una tcnica muy conocida para la deteccin y reconocimiento de seales, lo cual indica que se trata de una tcnica bastante buena, dado que es vlida para trabajar con seales de diferentes caractersticas. Esta tcnica no es otra que la de comparar dos seales mediante el estudio de la correlacin cruzada de ambas. As, de todas las aplicaciones mencionadas las que ms se asimilan a la que ahora nos ocupa son las del RADAR y el SONAR, ya que en ellas se captura un fragmento de seal intermitentemente y se analiza si existe un blanco en funcin de la informacin que nos facilita la correlacin de dicha seal. Adems, en caso que haya blanco, el procesador puede decirnos de qu clase de blanco se trata mediante una anlisis comparativo que se hace a posteriori.
El RADAR trabaja con un receptor de correlacin, que implementa una operacin muy intuitiva, que puede ser consolidada tericamente de muchas
______________________________________________________________________________________________________________35
formas. Es importante, sin embargo, distinguir dos criterios separados: deteccin de un blanco y estimacin de su rango y Doppler. En el problema de deteccin el receptor de correlacin se utiliza para generar una estadstica, que es la base para la comparacin con un umbral y tomar la decisin acerca de la presencia de un blanco dentro de un cierto rango y una regin Doppler. El funcionamiento del detector est normalmente presente en las caractersticas operativas de un receptor que toma la probabilidad de deteccin como la probabilidad de falsa alarma. En el problema de la estimacin el receptor de correlacin es utilizado para generar un estadstico que es funcin de los posibles valores de rango y Doppler del blanco. Entonces este estadstico es maximizado en funcin a estos valores para hacer la estimacin. El funcionamiento del estimador se representa normalmente como la varianza de los parmetros estimados.
En ambos casos, deteccin de un blanco y estimacin de sus caractersticas principales, el mtodo a utilizar es el de la comparacin a travs de la correlacin, y ste ser tambin el que nosotros utilicemos en nuestro proyecto.
La principal razn para utilizarlo es que est presente prcticamente en todos las aplicaciones en las que haya que comparar seales, cualquiera que sea la naturaleza de dichas seales, analgicas o digitales, imgenes, voz,
comunicaciones, ... Este hecho se debe principalmente a que la correlacin es un proceso sencillo y rpido de implementar y muy fiable a la hora de comparar seales.
La otra razn para tomar esta decisin, es que hay muy diversas formas de implementar el proceso de correlacin, algunas de las cuales nos permitirn trabajar en tiempo real, y por lo tanto conseguir el objetivo de este proyecto.
______________________________________________________________________________________________________________36
A continuacin vamos a definir el proceso de correlacin, as como algunas de sus propiedades, para ello es preciso describir la funcin convolucin:
El trmino convolucin describe, entre otras cosas, cmo interacta la entrada a un sistema con ese mismo sistema para producir la salida. Generalmente la salida del sistema ser una versin retrasada y amplificada o atenuada de la entrada. Particularmente hay un caso muy til, es cuando la entrada es la funcin impulso unidad, entonces a la salida se obtiene la respuesta temporal del sistema, o sea la transformada inversa de la funcin de transferencia del sistema. Ya sabemos que cualquier seal se puede representar como una secuencia de impulsos con distintas amplitudes, por lo que si el sistema es LTI y conocemos su respuesta temporal se puede obtener de forma inmediata la salida del sistema ante cualquier seal de entrada. A continuacin se muestra un ejemplo de la salida de un sistema LTI que tiene como entrada la funcin impulso unidad.
2.5
1.5
0.5
0 1 2 3 4 5 6 7 8 9
______________________________________________________________________________________________________________37
Esta figura muestra que en el instante de muestreo m la salida debida al impulso unidad aplicado en el instante de muestreo 0 es h(m), conocida como respuesta impulso del sistema.
Si se utiliza como entrada al sistema una secuencia de impulsos, x(m), aplicados en los instantes de muestreo m, entonces la salida en el instante 0 viene dada por:
y(0) = h(0)x(0)
En el instante de muestreo m=1 la salida vendr dada por h(0)x(1), el efecto de la entrada actual x(1), ms el efecto retardado h(1)x(0) de la entrada aplicada en el instante de muestreo m=0. Esto es:
y(2) = h(2)x(0) + h(1)x(1) + h(0)x(2) y(3) = h(3)x(0) + h(2)x(1) + h(1)x(2) + h(0)x(3) : y(n) = h(n)x(0) + h(n-1)x(1) + . . . + h(0)x(n)
De esta forma se puede escribir la salida para cada instante de muestreo como una combinacin lineal de la entrada en los instantes de muestreo anteriores si el sistema es lineal. Las ecuaciones anteriores describen la salida de un sistema lineal de primer orden.
Si se observan las expresiones anteriores se ve que la salida se obtiene de multiplicar la secuencia de entrada por los puntos correspondientes a la respuesta impulso invertida en el tiempo o viceversa, ya que tambin se puede escribir como:
______________________________________________________________________________________________________________38
Esto no es otra cosa que la suma de convolucin, que es equivalente a la correlacin cruzada de una secuencia con la versin invertida en el tiempo de la segunda secuencia. Si escribimos estas ecuaciones de forma compacta nos queda: y(n) = m=0,n h(n-m)x(m) = x(n) * h(n) y y(n) = m=0,n h(m)x(n-m) = x(n) * h(n)
Estas ecuaciones se conocen como las sumas de convolucin de las entradas por la funcin respuesta impulso, y la salida viene dada por la convolucin de la seal de entrada y la respuesta impulso del sistema.
Las ecuaciones anteriores se pueden extender para seales de duracin infinita: y(n) = m=0, h(n-m)x(m) y y(n) = m=0, h(m)x(n-m)
Si la entrada consiste en una secuencia continua entonces se cambian los sumatorios por integrales y tenemos la integral de convolucin, que se extiende desde - hasta : y(t) = x()h(t-) d
Hasta ahora hemos utilizado el trmino convolucin para describir la respuesta de un sistema ante una secuencia de entrada cualquiera, sin embargo la idea de convolucin se puede extender a cualquier conjunto de datos de forma que el trmino debe ser considerado en un sentido ms general.
______________________________________________________________________________________________________________39
Propiedades de la convolucin:
Supongamos que tenemos dos secuencias de duracin finita de longitud N, x1(n) y x2(n). Sus respectivas DFTs de N puntos son: X1(k) = n=0,N-1 x1(n) e-j2nk/N; X2(k) = n=0,N-1 x2(n) e-j2nk/N;
k = 0, 1, ..., N-1
k = 0, 1, ..., N-1
Si multiplicamos las dos DFTs, el resultado es una DFT, digamos, X3(k), de una secuencia x3(n) de longitud N. Determinemos la relacin entre x3(n) y las secuencias x1(n) y x2(n). Tenemos: X3(k) = X1(k)X2(k); La IDFT de {X3(k)} es: k = 0, 1, , N-1
______________________________________________________________________________________________________________40
x3(m) = (1/N) k=0,N-1 X3(k) ej2km/N = (1/N) k=0,N-1 X1(k) X2(k) ej2km/N
Supongamos que sustituimos X1(k) y X2(k) usando las DFTs calculadas anteriormente. Por lo tanto, obtenemos: x3(m) = (1/N) k=0,N-1 [n=0,N-1 x1(n) e-j2nk/N][ l=0,N-1 x2(l) e-j2lk/N] ej2km/N = (1/N) n=0,N-1 x1(n) l=0,N-1 x2(l) [k=0,N-1 ej2k(m-n-l)/N]
N; k=0,N-1 (ak) =
a=1
(1-aN)/(1-a); a 1
donde a se define como: a = ej2k(m-n-l)/N Observamos que a = 1 cuando m-n-l es un mltiplo de N. Por otra parte, aN = 1 para cualquier valor de a 0. En consecuencia, la ecuacin anterior se reduce a:
N; k=0,N-1 (ak) = 0;
l = m n + pN = ((m-n))N,
p entero
en el resto
Sustituyendo obtenemos la expresin deseada de x3(m) de la forma: x3(m) = n=0,N-1 x1(n) x2((m-n))N = x1(n)x2(n)
m = 0, 1, ..., N-1
______________________________________________________________________________________________________________41
Esta expresin tiene la forma de una convolucin. Sin embargo, no es la convolucin lineal ordinaria que se ha visto, que relaciona la secuencia de salida y(n) de un sistema lineal con la secuencia de entrada x(n) y la respuesta impulsional h(n). A diferencia de sta, la convolucin de la expresin contiene el ndice ((m-n))N y se denomina convolucin circular. Por lo tanto, conclumos que el producto de las DFTs de dos secuencias es equivalente a la convolucin circular de dos secuencias en el dominio del tiempo.
En el clculo de la convolucin circular tienen lugar bsicamente los mismos cuatro pasos que en la convolucin lineal ordinaria: reflexin (en el tiempo) de una secuencia, desplazamiento de la secuencia reflejada, multiplicacin de las dos secuencias para obtener la secuencia producto y, finalmente, suma de los valores de la secuencia producto. La diferencia bsica entre ambos tipos de convolucin es que en la convolucin circular las operaciones de reflexin y desplazamiento se realizan de forma circular calculando el ndice de una de las secuencias mdulo N. En la convolucin lineal no existe ninguna operacin mdulo N.
Se ha visto que los resultados de la convolucin lineal y la convolucin circular de dos secuencias son distintos, as que buscaremos una metodologa en el dominio de la frecuencia equivalente a la convolucin lineal. Ya se ha visto que si tenemos una secuencia de entrada x(n), de longitud L, a un sistema h(n), de longitud M, donde h(n) es la respuesta implusional del sistema. La secuencia de salida en el dominio del tiempo y(n) puede expresarse como la convolucin de x(n) y h(n): y(n) = k=0,M-1 h(k)x(n-k)
Dado que h(n) y x(n) son secuencias de duracin finita, su convolucin es tambin de duracin finita. De hecho, la duracin de y(n) es L+M-1.
Y(w) = X(w)H(w)
Si la secuencia y(n) ha de representarse de forma nica en el dominio de la frecuencia mediante muestras de su espectro Y(w) en un conjunto de frecuencias discretas, el nmero de muestras distintas debe ser igual o superior a L+M-1. Por lo tanto se requiere una DFT de tamao N L+M-1, para representar {y(n)} en el dominio de la frecuencia. Ahora, si:
k = 0, 1, ..., N-1
Y(k) = X(k)H(k);
k = 0, 1, ..., N-1
donde {X(k)} y {H(k)} son las DFTs de N puntos de las secuencias x(n) y h(n), respectivamente. Dado que las secuencias x(n) y h(n) son de duracin menor que N, rellenamos estas secuencias con ceros para hacerlas de longitud N. Este aumento de la longitud de las secuencias no modifica sus espectros X(w) y H(w), que son espectros continuos, dado que las secuencias son aperidicas. Sin embargo, al muestrear sus espectros en N frecuencias equiespaciadas (calculando las DFTs de N puntos), hemos aumentado el nmero de muestras que representan a estas secuencias en el dominio de la frecuencia por encima del mnimo (L M, respectivamente).
Dado que la DFT de N = L+M-1 puntos de la secuencia de salida y(n) es suficiente para representar a y(n) en el dominio de la frecuencia, tenemos que la multiplicacin de las DFTs de N puntos X(k) y H(k), seguida del clculo de la IDFT de N puntos, debe dar la secuencia {y(n)}. Por otra parte, esto implica que la convolucin circular de N puntos de x(n) con h(n) es equivalente a la convolucin lineal de x(n) con h(n). En otras palabras, aumentando la longitud de las secuencias x(n) y h(n) hasta N puntos (aadiendo ceros), y convolucionando circularmente las secuencias resultantes, obtenemos el mismo resultado que habramos obtenido con la convolucin lineal. Por lo tanto, con el relleno con ceros, podemos usar la DFT para realizar la convolucin lineal de dos secuencias.
______________________________________________________________________________________________________________43
Esta caracterstica nos ser de gran ayuda a la hora de realizar el algoritmo de correlacin para la comparacin de seales, ya que el algoritmo de convolucin no es computacionalmente efectivo, pues requiere un alto numero de operaciones. Sin embargo s que se puede trabajar en tiempo real si se multiplican las DFTs de ambas seales y se antitransforma el resultado del producto. A esto se le llama convolucin lineal rpida.
en donde FD-1 denota la transformada discreta inversa de Fourier (IDFT), X1(k) es la transformada discreta de Fourier (DFT) de x1(l), y X2(k) es la transformada discreta de Fourier de x2(r). Consideraremos que la longitud tanto de x1(l) como de x2(r) es N.
Tambin decamos que el mtodo de la convolucin lineal rpida ofrece la ventaja de una mayor velocidad computacional si lo comparamos con el mtodo directo, sin embargo esto slo es cierto si el nmero de valores a convolucionar es suficientemente alto. Para obtener una medida de la eficiencia computacional relativa de ambos mtodos se compara el nmero de multiplicaciones requeridas por cada uno de ellos para llevar a cabo la convolucin.
Para el mtodo directo tenemos que para obtener la convolucin lineal de dos secuencias de N puntos, h(n-m) y x(m), es necesario multiplicar cada valor de h(n-m) por cada valor de x(m), entonces tendremos que multiplicar cada uno de los N valores de h(n-m) por cada uno de los N valores de x(m), por lo tanto tendremos un total de NxN = N2 multiplicaciones.
______________________________________________________________________________________________________________44
Si estudiamos el mtodo de la convolucin rpida para el mismo par de secuencias de longitud N tenemos que considerar el relleno de ceros que hay que llevar a cabo para obtener la convolucin lineal. Por lo tanto tendremos dos secuencias con longitud 2N-1, nosotros consideraremos que la longitud es de 2N para simplificar los clculos. Tambin supondremos N 8, siendo N una potencia de 2 (N = 2d, d entero), ya que entonces se puede utilizar el algoritmo eficaz de la FFT. El nmero de multiplicaciones complejas para calcular la FFT de una seal con N puntos viene dado por (N/2)log2N, para seales con 2N puntos sern (N)log22N multiplicaciones complejas. Se requiere el clculo de dos DFTs y una IDFT, por lo que el nmero de multiplicaciones complejas necesarios es de (3N)log22N, adems hay que tener en cuenta el producto X1(k)X2(k), ambas secuencias de 2N puntos, as tendremos (3N)log22N+2N multiplicaciones complejas. Cada multiplicacin compleja de la forma (A+jB)(C+jD) requiere cuatro multiplicaciones reales, por lo tanto el nmero de multiplicaciones para obtener la convolucin lineal de dos seales mediante el mtodo rpido viene dado por (12N)log22N+8N.
Para comparar la eficiencia computacional de ambos mtodos mostramos una tabla en la que se compara el nmero de multiplicaciones reales para ambos mtodos y para distintos valores de N:
Mtodo Directo 64 256 1024 4096 16384 65536 262144 1048576 4194304
Convolucin Rpida Relacin Directo/Rpido 448 1088 2560 5888 13312 29696 65536 143360 311296 0.1429 0.2353 0.4000 0.6957 1.2308 2.2070 4.0000 7.3153 13.4771
______________________________________________________________________________________________________________45
La tabla demuestra que la convolucin rpida requiere menos operaciones que el mtodo directo para secuencias con ms de N=128 puntos, siendo aproximadamente diez veces ms rpida para secuencias con N=1024 puntos. Esta misma conclusin se puede aplicar a la correlacin directa y la correlacin rpida.
Las secuencias con las que trabajaremos tendrn por lo general longitudes largas, como ejemplo supongamos que la frecuencia de muestreo escogida es de 8 Kbit/s y que vamos tomando de la radio trozos de seal de 1/8 de segundo, entonces tendremos secuencias de longitud N=1000. Por ello resultar muy beneficioso utilizar el mtodo de correlacin rpida, pues tenemos que trabajar en tiempo real. An as es posible modificar el algoritmo rpido de forma que se reduzca la carga computacional considerablemente, se trata de mtodos en los que no se trabaja con la seal entera, sino que dicha seal se secciona y se van procesando las distintas secciones. Estos mtodos se vern ms adelante.
Una operacin matemtica muy parecida a la convolucin es la correlacin. Al igual que en el caso de la convolucin la correlacin es una operacin entre dos secuencias. Pero al contrario que la convolucin, el objetivo de la correlacin es medir el parecido que existe entre dos seales y as extraer informacin que depender de la aplicacin concreta considerada. La correlacin de seales es una operacin que se realiza con frecuencia en distintas reas de la ingeniera y la ciencia como radar, sonar, comunicaciones digitales, geologa, etc.
En concreto, supongamos que tenemos dos secuencias x(n) e y(n) que queremos comparar. En radar y sonar, por ejemplo, x(n) puede representar muestras de la seal que transmitimos e y(n) muestras de la seal que recibimos a la salida del conversor analgico-digital (A/D). Si existe un blanco en el espacio explorado por el radar o sonar, la seal recibida y(n) es una versin retardada de la seal transmitida, reflejada por el blanco y corrompida por ruido aditivo.
______________________________________________________________________________________________________________46
y(n) = x(n-D) + w(n) donde es un factor de atenuacin que contiene las prdidas debidas al trayecto de ida y vuelta recorrido por la seal x(n), D es el retardo debido al trayecto de ida y vuelta y supone que es un mltiplo entero del intervalo de muestreo, y w(n) representa el ruido aditivo captado por la antena y cualquier otra componente de ruido generada por los componentes electrnicos y los amplificadores del receptor. Por otra parte, si no existe ningn blanco en el espacio explorado por el radar o el sonar, la seal recibida constar nicamente de rudo.
Teniendo las dos secuencias, x(n), que se denomina seal de referencia o seal transmitida, e y(n), la seal recibida, el problema radar o sonar consiste en determinar si existe algn blanco comparando x(n) con y(n) y, si es as, determinar el retardo en el tiempo, D, y a partir de l la distancia a la que se encuentra el blanco. En la prctica, la seal x(n-D) se encuentra fuertemente corrompida por ruido, de manera que la observacin visual de y(n) no permite determinar la presencia o ausencia de un blanco. La correlacin nos proporciona una forma de extraer esta informacin de y(n).
Otra de las reas en la que la correlacin se usa con frecuencia es la de las comunicaciones digitales. En comunicaciones digitales la informacin que se va a transmitir de un punto a otro se convierte a forma binaria, es decir, se transforma en una secuencia de unos y ceros que es transmitida hacia el receptor. Para transmitir un 0 podemos enviar una secuencia x0(n) para 0 n L-1, y para transmitir un 1 la secuencia x1(n) para 0 n L-1, donde L es un entero que indica el nmero de muestras en cada una de las dos secuencias. Muy a menudo se selecciona x1(n) como el valor negativo de x0(n). La seal recibida por el receptor se puede representar como: i = 0,1 0 n L-1
______________________________________________________________________________________________________________47
donde ahora lo que hay que determinar es si es x0(n) o x1(n) la seal contenida en y(n), y w(n) representa el ruido aditivo y otras interferencias propias de cualquier sistema de comunicacin. Otra vez, parte del ruido tiene su origen en los distintos componentes del receptor. En cualquier caso, el receptor conoce las dos posibles secuencias transmitidas y su tarea consiste en compararlas con la seal recibida y(n) para determinar cul de las dos se parece ms a sta. Esta comparacin se realiza mediante la correlacin que se describe a continuacin.
Suponiendo que tenemos dos secuencias reales x(n) e y(n), ambas de energa finita, la correlacin cruzada de las secuencias x(n) e y(n) es: rxy(l) = n=-, x(n)y(n-l) o tambin rxy(l) = n=-, x(n+l)y(n) l = 0, 1, 2, ... l = 0, 1, 2, ...
El ndice l es el parmetro de desplazamiento o retardo en el tiempo y los subndices xy de la secuencia de autocorrelacin indican las seales que han sido correladas. El orden de los subndices, con x precediendo a y indica la direccin en que una secuencia es desplazada con respecto a la otra. Es decir, la secuencia x(n) no se desplaza y la secuencia y(n) se desplaza l muestras hacia la derecha si l es positivo y l muestras a la izquierda si l es negativo, esto es para la primera de las ecuaciones. De forma anloga, en la segunda ecuacin la secuencia que se desplaza es x(n), y lo hace l muestras hacia la izquierda si l es positivo y l muestras a la derecha si l es negativo. De ah que ambas ecuaciones produzcan idnticas secuencias de correlacin cruzada.
Si invertimos los papeles de x(n) e y(n), y por lo tanto invertimos tambin los subndices, obtenemos otra secuencia de correlacin cruzada: ryx(l) = n=-, y(n)x(n-l) l = 0, 1, 2, ...
______________________________________________________________________________________________________________48
Por tanto, ryx(l) es simplemente la versin reflejada de rxy(l), donde la reflexin se hace con respecto a l=0. De aqu, que ambas secuencias de correlacin nos proporcionen exactamente la misma informacin con respecto a la similitud entre x(n) e y(n).
Las similitudes entre el clculo de la correlacin cruzada y la convolucin de dos secuencias son evidentres. En el clculo de la convolucin, una de las seales se refleja, se desplaza y entonces se multiplica por la otra secuencia; finalmente se suman todos los valores de la secuencia producto. Con excepcin de la operacin de reflexin, el clculo de la correlacin cruzada supone exactamente las mismas operaciones: desplazamiento de una de las secuencias, multiplicacin de ambas y suma de todos lo trminos de la secuencia producto. En definitiva, si tenemos un programa para el clculo de la convolucin, podemos usarlo para obtener la correlacin cruzada proporcionando como entrada x(n) y la secuencia reflejada y(n). As, la convolucin de x(n) con y(-n) nos da la correlacin cruzada rxy(l), esto es:
rxy(l) = x(l) * y(-l) En el caso especial de que y(n) = x(n), tenemos la autocorrelacin de x(n), que se define como: rxx(l) = n=-, x(n)x(n-l) o tambin rxx(l) = n=-, x(n+l)x(n)
Al tratar con seales de duracin finita es costumbre expresar tanto la autocorrelacin como la correlacin cruzada mediante sumatorios finitos. En particular, si x(n) e y(n) son secuencias causales de longitud N (es decir, x(n) =
______________________________________________________________________________________________________________49
y(n) = 0 para n < 0 y n N), la autocorrelacin y la correlacin cruzada pueden expresarse como: rxy(l) = n=i,N-|k|-1 x(n)y(n-l) y rxx(l) = n=i,N-|k|-1x(n)x(n-l) donde i=l, k=0 para l 0, e i=0, k=l para l < 0.
Las secuencias de autocorrelacin y correlacin cruzada tienen varias propiedades importantes, que presentamos a continuacin. Para desarrollar dichas propiedades consideremos que tenemos dos secuencias x(n) e y(n) de energa finita que combinamos linealmente para obtener
ax(n) + by(n-l)
donde a y b son constantes arbitrarias y l es un desplazamiento en el tiempo. La energa de esta seal es: n=-, |ax(n) + by(n-l)|2 = a2 n=-, x2(n) + b2 n=-, y2(n-l) + 2ab n=-, x(n)y(n-l) = a2 rxx(0) + b2 ryy(0) + 2ab rxy(l)
En primer lugar, observamos que rxx(0) = Ex y ryy(0) = Ey, que son las energas de x(n) e y(n) respectivamente. Es obvio que: a2 rxx(0) + b2 ryy(0) + 2ab rxy(l) 0 ahora, suponiendo que b 0 podemos dividir por b2 y considerar la ecuacin como una ecuacin cuadrtica de coeficientes rxx(0), ryy(0), y 2 rxy(l). Dado que siempre es no negativa el discriminante debe ser no positivo, es decir:
______________________________________________________________________________________________________________50
|rxy2(l) - rxx(0)ryy(0)| 0
En el caso especial de que y(n) = x(n) entonces tendremos que: |rxx(l)| rxx(0) = Ex
Esto significa que la autocorrelacin es una secuencia que alcanza su valor mximo para el retardo cero. Este resultado es consistente con el hecho de que una seal se adapta consigo misma para un retardo cero. En el caso de la correlacin cruzada la ecuacin constituye una cota superior de sus posibles valores.
Observamos que si una de las dos secuencias implicadas en el clculo de la correlacin cruzada se escala, la forma de la correlacin no cambia, simplemente se produce un escalado de la misma de acuerdo con el escalado realizado sobre las secuencias originales. As pues, el escalado carece de importancia y es a menudo conveniente, en la prctica, normalizar las secuencias de autocorrelacin y correlacin cruzada al rango entre 1 y 1. En el caso de la autocorrelacin, simplemente dividiremos por rxx(0), as la autocorrelacin normalizada se define como xx (l) = rxx (l)/rxx (0)
de forma similar definimos la correlacin cruzada normalizada como: xy (l) = rxy (l)/(rxx(0)ryy(0))1/2 Ahora |xx (l)| 1 y |xy (l)| 1, y de aqu que estas secuencias sean independientes del escalado de la seal.
______________________________________________________________________________________________________________51
rxy (l) = ryx (-l) Con y(n) = x(n), esta relacin se traduce en la siguiente propiedad de la autocorrelacin:
rxx (l) = rxx (-l) De aqu que la autocorrelacin sea una funcin par. En consecuencia, es suficiente calcular rxx (l) para l 0.
Anteriormente vimos las diferencias, en cuanto a carga computacional se refiere, entre el mtodo directo para el clculo de la convolucin de dos secuencias y el mtodo de la convolucin rpida. Asimismo se dijo que tales conclusiones se podan aplicar de la misma manera a la correlacin, ya que convolucionar dos seales o hallar su correlacin cruzada requiere el mismo nmero de clculos.
Hasta ahora se ha asumido que las dos funciones a correlar son de duracin finita. Sin embargo puede que no sea ste el caso. Podemos considerar los datos de entrada con duracin infinita debido a que se trata de una seal continua en el tiempo, o con ms probabilidad nos encontraremos con que la memoria disponible no es suficientemente grande para almacenar todos los datos. En nuestro caso particular nos encontramos con que para comparar seales de audio en tiempo real no nos es suficiente aprovechar la carcterstica del mtodo de la correlacin rpida, pues este mtodo an es lento para nuestro propsito. Debido a ello hay que buscar otros mtodos que sean ms rpidos, o lo que es lo mismo ms eficientes computacionalmente.
______________________________________________________________________________________________________________52
En estos casos es necesario implementar la correlacin por etapas, dividiendo los datos de entrada en secciones separadas, realizando los clculos para cada una de las secciones de entrada, y por ltimo, combinando los resultados. Estos son los mtodos de bloque, que se describen a continuacin. Son dos, el Mtodo de Solapamiento y Suma (Overlapp & Add) y el Mtodo de Solapamiento y Almacenamiento (Overlapp & Save).
En este mtodo, el tamao de las secciones o bloques de datos de entrada es de L puntos y el tamao de las DFTs y las IDFTs es de N = L + M 1. A cada bloque de datos se le aaden M-1 ceros y se calcula la DFT de N puntos. Por lo tanto, cada bloque de datos puede representarse como:
Ym(k) = H(k)Xm(k),
k = 0, 1, , N-1
La IDFT da como resultado bloques de longitud N que no se encuentran afectados por aliasing, dado que, tanto el tamao de las DFTs como el de las
______________________________________________________________________________________________________________53
IDFTs, es N = L + M 1 y a las secuencias se les aument el tamao hasta N puntos, aadiendo ceros a cada bloque.
Como cada bloque de datos termina con M-1 ceros, los M-1 ltimos puntos de cada bloque de salida deben de solaparse y sumarse a los primeros M-1 puntos del siguiente bloque. De aqu, que este mtodo se llame de solapamiento y suma. Este solapamiento y suma da como resultado la secuencia de salida:
y(n) = {y1(0), y1(1), ..., y1(L-1), y1(L) + y2(0), y1(L+1) + y2(1), ..., y2(M-1), y2(M), ...}
y1(N-1) +
En este mtodo el tamao de los bloques de entrada es N = L + M 1 y la longitud de cada una de las DFTs y las IDFTs, es N. Cada bloque de datos contiene al menos M-1 puntos del bloque de datos anterior, seguidos de L nuevos puntos, de manera que la longitud de la secuencia as formada es N = L + M 1. Se calcula la DFT de N puntos de cada bloque de datos. La respuesta impulsional del filtro se aumenta en longitud aadiendo L-1 ceros, se calcula la DFT de N puntos y se almacena. La multiplicacin de las dos DFTs de N puntos {H(k)} y {Xm(k)} correspondiente al bloque m-simo de datos da lugar a: m(k) = H(k)Xm(k) k = 0, 1, , N-1
m(n) = {m(0)m(1)...m(M-1)m(M)...m(N-1}) Dado que la longitud del registro de datos es N, los primeros M-1 puntos de m(n) estn distorsionados por el aliasing, y deben ser desechados. Los ltimos L puntos de m(n) son exactamente los mismos que resultaran de la convolucin lineal y, como consecuencia:
______________________________________________________________________________________________________________54
m(n) = ym(n),
n = M, M+1, , N-1
Para evitar la prdida de datos debida al aliasing, se almacenan los ltimos M-1 puntos de cada registro de datos y estos puntos se convierten en los primeros M-1 puntos del registro siguiente, tal como se indic arriba. Para empezar el procesado, los M-1 primeros puntos del primer registro se hacen iguales a cero. Por tanto, los bloques de datos son:
y as sucesivamente. Las secuencias de datos resultantes de la IDFT estn dadas por m(n), rechazndose los M-1 primeros puntos debido al aliasing, de manera que los L puntos restantes constituyen el resultado deseado de la convolucin lineal.
Hemos visto que el esfuerzo computacional de la funcin correlacin puede ser evitado siguiendo alguno de los dos mtodos vistos, o sea, componiendo cada seccin de forma de onda para correlarla. No es necesario analizarlo para darse cuenta de que los requerimientos computacionales de ambos mtodos son similares, de forma que slo vamos a considerar para este estudio el Mtodo de Solapamiento y Suma, que es tambin el que utilizaremos para la realizacin de
______________________________________________________________________________________________________________55
nuestras rutinas de comparacin y deteccin. Vamos a suponer que la secuencia x(n) de longitud N se divide en N/N1 secciones, cada una de longitud N1, que la secuencia h(n) tiene longitud N2, y que las longitudes de las secuencias para la convolucin lineal son N1 = 2d N1 + N2 1. Tambin se ha visto que para llevar a cabo la convolucin o correlacin rpida de dos secuencias de N puntos se requieren 12N1log22N1 + 8N1 multiplicaciones reales. Para implementar el algoritmo de solapamiento y suma tenemos (N/N1) secciones, por lo que el nmero de multiplicaciones ser: (N/ N1) (12N1log22N1 + 8N1) = Rm(S) Esto nos muestra que la longitud de las secuencias a correlar, N1, debera ser pequea, mientras que la longitud de las secciones de datos de x(n), N1, debera ser aproximadamente igual a N1. Idealmente N1 = 2d N1 + N2 1. El nmero de multiplicaciones para la secuencia de N puntos original es:
12N log22N + 8N = Rm(N) A continuacin mostramos una tabla indicativa con estos valores tericos:
N 262000 262000 262000 262000 262000 262000 262000 262000 262000 262000 262000 262000
N1 130073 64537 31769 15385 7193 3097 1049 25 130973 65437 32669 16285
N2 1000 1000 1000 1000 1000 1000 1000 1000 100 100 100 100
Rm(S)/Rm(N) 1.01 0.96 0.92 0.89 0.89 0.97 1.32 25.6 1.00 0.95 0.9 0.84
212 211 2
10 17
216 215 2
14
______________________________________________________________________________________________________________56
213 212 2 2
11 10
29 28 2
7
Se puede observar que se ha tomado un valor elevado para N, pues de lo contrario no tendra sentido este estudio, ya que se trata de analizar la eficiencia de los mtodos de bloque a la hora de calcular la convolucin de seales con un elevado nmero de muestras. N1 toma siempre el valor de una potencia de dos, ya que representa la longitud de las DFTs que se van a calcular. La principal variable de este estudio es N/N1, nmero de bloques en que se divide la seal original para implementar el algoritmo de Solapamiento y Suma. Aunque en la tabla vara tambin el valor de N2 no se le puede considerar como una verdadera variable para este anlisis, ya que su valor vendr determinado por otros criterios, an as vemos como los resultados son ms favorables cuanto menor es el valor de este parmetro. De esta tabla se deduce que se puede conseguir una relacin Rm(S)/Rm(N) 1, siendo posibles ahorros computacionales del orden de hasta el 30%. Se observa que el valor ptimo se obtiene para un valor intermedio del nmero de bloques en que se divide la seal, de forma que cuando se aumenta demasiado N/N1 ya no se obtiene tal ahorro. A continuacin se muestran dos grficas con los valores tericos obtenidos:
______________________________________________________________________________________________________________57
N Secciones
1,6 1,4 Rm(N)/Rm(S) 1,2 1 0,8 0,6 0,4 0,2 0 1669,00 9034,00 134,00 283,00 634,00 16,00 32,00 66,00 2,00 4,00 8,00 Eficiencia computacional (N2=100)
N Secciones
Como se ha dicho se puede observar que el mximo para la eficiencia computacional se da para un valor intermedio del nmero de bloques. Hay que tener en cuenta que en estas grficas se considera que el mtodo de Solapamiento y Suma supone un ahorro computacional cuando el valor de Rm(N)/Rm(S) es mayor que uno.
______________________________________________________________________________________________________________58
En realidad los equipos o harware necesario para llevar a cabo la realizacin del proyecto no son demasiados, adems cualquier persona puede disponer de ellos hoy en da. A continuacin veremos por encima qu elementos hemos utilizado. En el Apndice B se ver con mayor detalle las caractersticas tcnicas de cada uno de los elementos empleados. Ordenador personal (PC), Pentium II-450 MHz, 64 Mbytes SDRAM: con estas caractersticas tcnicas se consigue tener los recursos necesarios para que nuestra aplicacin funcione en tiempo real, aunque cabe la posibilidad de obtener buenos resultados con caractersticas algo ms bajas. Tarjeta con dispositivo de captura de TV/FM: en realidad nos bastara con una tarjeta sintonizadora de FM, sin necesidad de dispositivo capturador ni de sintonizador de televisin. Por supuesto se necesitar tambin una antena de FM, que normalmente viene acompaando a la tarjeta sintonizadora. Tarjeta de sonido Sound Blaster AudioPCI 128: puede grabar y reproducir archivos de sonido en multitud de formatos y con calidad de CD. Adems, y gracias a la aplicacin Recordsound.m de Matlab, permite grabar el sonido
______________________________________________________________________________________________________________59
directamente al entorno de trabajo de Matlab, sin lo cual habra sido mucho ms difcil realizar el reconocimiento de anuncios en tiempo real. Altavoces: podemos utilizar cualquier tipo y modelo de altavoz, siempre que funcione y sea compatible con la salida de la tarjeta de sonido, caso habitual. Tarjeta grfica: tambin nos da igual el modelo y la velocidad de la tarjeta grfica, ya que no hay que ejecutar ningn programa o aplicacin que requiera un procesado de imgenes importante. An as tambin se muestran sus caractersticas en el apndice mencionado. En el caso de reconocimiento de video si tiene relevancia la resolucin grfica y la capacidad de procesado de imgenes.
Al igual que hemos hablado del hardware necesario tambin se har un breve inciso en el software utilizado. Particularmente nos centraremos en dos programas, que han sido los ms utilizados, uno de ellos es el Matlab, en concreto la versin 5.0; el otro es el Wave Studio, programa que viene junto con la Sound Blaster, por lo que su uso es recomendable si se trabaja con dicha tarjeta de sonido.
Matlab es un programa interactivo que ayuda a la computacin numrica y a la visualizacin de datos. Fundamentalmente Matlab est construdo sobre un software basado en sofisticadas matrices que permite analizar sistemas de ecuaciones lineales. Estas herramientas nos permiten resolver problemas en Matemticas Aplicadas, Fsica, Qumica, Ingeniera, Finanzas, etc, o sea, casi todas las reas de aplicacin que traten con clculos numricos complejos. De
______________________________________________________________________________________________________________60
hecho, trataremos las tramas de audio como vectores de datos, lo cual hace ideal el uso de Matlab.
Adems posee multitud de libreras, cada una de las cuales contiene funciones y aplicaciones para un campo en concreto. As, la librera que ms utilizaremos ser el Toolbox de Matlab, que entre otras contiene aplicaciones para el procesado de seales digitales.
Este programa es necesario para programar las rutinas y hacer las pruebas de comparacin y deteccin de anuncios. De hecho la interfaz escogida para ejecutar nuestra aplicacin ser el entorno de trabajo del Matlab.
A continuacin mostramos algunas de las funciones que ms utilizaremos, vienen includas en la librera Datafun de Matlab. Son funciones para el procesado de sonidos y audio:
______________________________________________________________________________________________________________61
WaveStudio es una aplicacin para Windows que permite llevar a cabo fcilmente las siguientes funciones de edicin de sonido: Reproducir, editar y grabar datos de onda de 8 bits (calidad de cinta) y 16 bits (calidad de CD). Mejorar los datos de onda o crear sonidos nicos mediante el empleo de diversos efectos especiales (como el rap, la inversin, el eco, el silencio o la panormica) y operaciones de edicin (como cortar, copiar o pegar). Abrir y editar varios archivos de onda de forma simultnea. Importar y exportar archivos de datos sin formato (.RAW). Hay otras aplicaciones o programas capaces de realizar las mismas o ms funciones que el Wave Studio, sin embargo con las que tiene este programa nos basta. Adems el hecho de venir junto con la tarjeta Sound Blaster ha hecho que nos decantemos por l.
______________________________________________________________________________________________________________62
3.1) Introduccin:
Hasta ahora hemos visto prcticamente propiedades generales del audio y de los archivos de sonido, as como un anlisis introductorio de las herramientas y mtodos que van a ser utilizados. A partir de ahora particularizaremos y ahondaremos mucho ms, exponiendo con mayor grado de detalle cada uno de los pasos a dar en la realizacin del comparador y detector de anuncios comerciales.
El primer paso es conseguir una rutina o aplicacin que sea capaz de comparar tramas de audio. Adems hay que programarla considerando que queremos trabajar en tiempo real, por lo que no se puede escapar ningn detalle y habr que implementarla intentando optimizar el tiempo de ejecucin.
Como hemos dicho antes haremos estas pruebas en el entorno de trabajo de Matlab. En un principio no vamos a trabajar con los datos directamente tomados de la Soundblaster, sino que para mayor comodidad se harn grabaciones de anuncios emitidos en la misma o distintas emisoras. La duracin de estas grabaciones puede ser aleatoria, sin embargo hemos considerado un tiempo medio de 30 segundos, tiempo promedio que suele durar un anuncio. Adems, intentaremos tener varias grabaciones del mismo anuncio, dos tomadas de la misma emisora y una tercera grabada de otra emisora distinta. De esta manera se tendrn en cuenta todos los factores negativos que nos pueden afectar a la hora de la comparacin, pues as tendremos grabaciones de un mismo anuncio que puede haber sido emitido con distinta fase, potencia (amplitud) e incluso frecuencia, ya
______________________________________________________________________________________________________________63
que a veces dos emisiones diferentes de un anuncio pueden tener duraciones desiguales.
Un aspecto muy importante a la hora de realizar las grabaciones es que deben ser completamente aleatorias en todos los aspectos relacionados con la emisin: emisora, hora y da de emisin, etc. As que debemos ser objetivos y grabar los anuncios sin atender a ninguna referencia, de lo contrario estaramos falseando los datos que a posteriori nos servirn para hallar los umbrales de deteccin.
Para llevar a cabo esta tarea se ha optado, como se dijo anteriormente, por el Wave Studio, ya que adems de poseer una interfaz grfica amigable nos ofrece recursos muy interesantes a la hora de preparar la forma de onda y de definir su formato para posteriormente trabajar con ella. As, cada grabacin tendr la duracin exacta de cada emisin y tendremos varias grabaciones para cada anuncio. Adems el formato por el que nos hemos decantado para hacer estas pruebas previas es el siguiente:
______________________________________________________________________________________________________________64
Este hecho no quiere decir que sea el formato definitivo de la aplicacin, pues aunque probablemente el formato final sea codificar las muestras con PCM, 8 bits y un solo canal, an no se sabe si la frecuencia de muestreo ptima ser la de 8 KHz. Si utilizramos dos canales, estreo, o 16 bits para codificar las muestras necesitaramos mucha ms memoria para almacenar dichas muestras y se tardara mucho ms tiempo en procesarlas, de ah que estos dos atributos sean conocidos a priori.
No hay que olvidar que para realizar el estudio estadstico habr que hacer las pruebas pertinentes para todos las frecuencias de muestreo disponibles, por ello se ha optado por realizar las grabaciones de los anuncios a 44100 Hz. De esta manera se puede convertir el formato de la forma de onda a 22050, 11025, 8000 y 4000 Hz paulatinamente y sin producir distorsin en la forma de onda. Si lo hiciramos a la inversa, por ejemplo pasar de un archivo grabado a 8000 Hz a un archivo con una frecuencia de muestreo de 22050 Hz, se acabara produciendo distorsin en las muestras. Esto es debido a que los mtodos utilizados por el Wave Studio para la conversin de frecuencias son el diezmado para pasar a una frecuencia ms baja y la interpolacin para la conversin a una frecuencia superior. Ambos mtodos son efectivos pero el segundo de ellos tiene el inconveniente de distorsionar la seal de audio.
En definitiva, se sugiere hacer las grabaciones a 44100 Hz y guardarlas como tal, segn se vayan haciendo pruebas necesitaremos convertir a otras frecuencias, entonces se har una copia de la grabacin original y convertiremos la frecuencia de la copia. Por ahora ya hemos dicho que vamos a trabajar a 8000 Hz para hacer las pruebas iniciales, posteriormente se harn pruebas a todas las frecuencias.
Por ltimo comentaremos un pequeo matiz que puede darnos algn que otro problema si no lo consideramos. Aunque la interfaz que veamos al realizar las grabaciones sea la del Wave Studio, realmente el dispositivo que se encarga de almacenar los datos es la Sound Blaster. Eso quiere decir que habr que configurarla adecuadamente para que grabe las muestras procedentes de la tarjeta de FM, tarea que se lleva a cabo con el Mezclador de la Sound Blaster, en concreto en el men Control de Grabacin hay que seleccionar como entrada
______________________________________________________________________________________________________________65
la pestaa correspondiente a Lnea, pues esta es la entrada de la Sound Blaster donde se conecta la tarjeta de TV/FM:
Si no lo hacemos as oiremos la emisora que tengamos sintonizada en ese momento, pero nos ser imposible grabar lo que escuchamos, ya que la Soundblaster estar grabando datos de otro dispositivo que no es la tarjeta de FM.
3.2)
______________________________________________________________________________________________________________66
Para realizar este proceso se puede utilizar una funcin de las libreras de Matlab, esta funcin se denomina wavread.m, y es bastante compleja, su cdigo se muestra en el Apartado IV de este documento. Bsicamente, lo que hace es leer todos los campos de la cabecera del fichero WAV, los cuales vimos anteriormente. Una vez ledos dichos campos, que contienen informacin acerca del formato y del tipo de datos audio que hay en el fichero, ya pueden leerse tambin las muestras de audio y almacenarlas en un vector en el entorno de Matlab.
No obstante no utilizaremos dicha funcin por un motivo ya expuesto anteriormente. Si recordamos la estructura de la cabecera de un fichero cannico WAV, en la posicin 34 tenamos los siguientes campos:
2
34 2 X
BitsPerSample
ExtraParamSize ExtraParams
Sin embargo nos encontramos con que este formato vara ligeramente si los ficheros WAV se crean bajo Windows95/98 con la Sound Blaster PCI 128, como es nuestro caso, de forma que la cabecera con la que realmente nos vamos a encontrar es:
2
34
BitsPerSample
2
X
ExtraParamSize ExtraParams
Para PCM tendremos 00 Espacio para parmetros extra (no hay ninguno)
Por ello, cuando la funcin wavread.m termina de leer el campo BitsPerSample, a continuacin espera leer la posicin 36, con lo que hay un
______________________________________________________________________________________________________________67
desfase en el proceso de lectura de la cabecera del fichero WAV, y nos devuelve un error, siendo incapaz de leer los datos de audio.
Para resolver este problema la solucin adoptada es la de crear una rutina con un cdigo muy simple que lea de forma correcta la cabecera de los ficheros con los que trabajamos. El nombre de dicha rutina va a ser waveload.m y tambin podemos ver su cdigo en el Apartado IV del documento. Para evitar que haya desfases en la lectura de los datos de la cabecera del fichero WAV se implementa un bucle, con el operador while, en el que entra justo despus de leer el campo BitsPerSample. Dicho bucle est preparado para que se ignoren los campos ExtraParamSize y ExtraParam, de forma que no sale del bucle hasta que no se encuentre con los caracteres DATA codificados en ASCII. La razn es que el siguiente campo vlido que tiene que leer es el que tiene la posicin 36, y ste es:
36
El hecho de ignorar los campos ExtraParamSize y ExtraParam no tiene ninguna importancia, puesto que, como ya hemos dicho, en el primero de ellos nos vamos a encontrar el valor 0, y este valor indica el tamao que ocupan los datos contenidos en el segundo de ellos.
3.3)
______________________________________________________________________________________________________________68
Ms adelante, cuando se vea la rutina principal de deteccin y reconocimiento de anuncios que va a hacer llamadas a las subrutinas se comprobar que la subrutina que ms problemas nos puede dar para trabajar en tiempo real es la de comparacin, de hecho se ver que acta como cuello de botella. Esto se debe a que el proceso de correlacin de dos seales es complejo y necesita algn tiempo de ejecucin, por lo que habr que afinar bastante esta subrutina.
Como ya hemos dicho el mtodo de comparacin a utilizar es la correlacin de ambas seales y para conseguir que este mtodo sea computacionalmente eficiente se va a implementar el algoritmo de Solapamiento y Suma, ms conocido como Overlap & Add.
Anteriormente estudiamos este algoritmo y se vio su metodologa, as como sus ventajas computacionales. Para implementar este algoritmo en Matlab lo primero a tener en cuenta son las dos seales a correlar.
La seal de mayor longitud, x(n), va a ser el anuncio que elijamos en cada momento para hacer las pruebas, y su longitud Lx depende de la duracin del anuncio. Como ya hemos dicho haremos estas pruebas con grabaciones de anuncios con formato PCM, un solo canal, muestras codificadas con 8 bits y frecuencia de muestreo igual a 8000 Hz. Por lo tanto si los anuncios tienen una duracin media de 30 segundos la longitud media de la seal x(n) ser:
Este nmero de muestras es bastante alto en comparacin con el de la otra seal a correlar. h(n) ser la seal corta, y no es ms que un trozo tomado aleatoriamente de cualquiera de los anuncios que tenemos grabados, si el anuncio del que se toma h(n) es x(n) entonces la correlacin nos debe dar un resultado
______________________________________________________________________________________________________________69
positivo, pues estaramos comparando un trozo de un anuncio con ese mismo anuncio.
Por lo tanto la seal corta, h(n), ser la que iremos desplazando muestra a muestra con respecto a x(n), para realizar la comparacin de las dos seales. Su longitud ser variable, la que nosotros elijamos en cada momento para cada prueba, pues la funcin que implementemos (overadd1.m) para realizar las pruebas tendr dicha variable como parmetro de entrada.
A continuacin vamos a estudiar la funcin overadd1.m, pero antes hay que decir que esta no ser la funcin que utilicemos en la rutina principal de deteccin y reconocimiento, sino que es una versin muy parecida que utilizaremos para hacer las pruebas. Estas pruebas servirn tanto para conseguir hacer la comparacin de forma correcta, como para ir conociendo el tiempo empleado en la deteccin y las longitudes ptimas de las seales. La funcin que se utilizar en la rutina principal es overadd.m. Se puede ver el cdigo de ambas en el Apartado IV del documento.
1. Lh, longitud de la seal h(n). Es una de las principales variables con las que vamos a trabajar, ya que de ella depender ms adelante el tiempo de captura de muestras de la emisora. Por ejemplo, si obtenemos un valor ptimo para Lh = 250 muestras significa que cuando trabajemos en tiempo real habr que capturar datos de la radio durante intervalos de:
2. x, seal x(n). Como hemos dicho se trata de cualquiera de las grabaciones realizadas, que se corresponde con una emisin de un anuncio.
______________________________________________________________________________________________________________70
3. y, seal de la cual se obtendr h(n). y(n) puede ser el mismo anuncio que x(n) u otro distinto. h(n) ser un trozo de longitud Lh tomado aleatoriamente de y(n).
4. M, longitud de las secciones en que se divide x(n) para realizar el algoritmo de solapamiento y suma por bloques. Dividiremos x en L secciones de longitud M. Normalmente Lx no ser mltiplo de M, por lo que habr que rellenar con ceros la ltima de las L secciones, de esta forma todas las secciones tendrn longitud M.
1. s, seal resultado del valor absoluto de la correlacin normalizada entre x(n) y h(n). Contiene el valor absoluto de los coeficientes de correlacin normalizados. Despus se hablar de dicha normalizacin con ms detenimiento. El hecho de trabajar con valores absolutos no influye en nuestros objetivos y hace que se simplifiquen bastante los clculos.
2. noper, nmero de operaciones empleado en realizar la correlacin cruzada de las seales x(n) y h(n). Nos da una idea de la eficiencia computacional del algoritmo.
3. ymax, mximo de la seal de correlacin s(n), vara entre 0 y 1. Este es otro de los parmetros principales, pues se determinar que la comparacin ha sido positiva o negativa en funcin de si su valor est por encima o por debajo del umbral de deteccin, respectivamente.
Aunque no aparezca como parmetro de salida, tambin se utilizan las funciones de Matlab tic y toc, cuyo uso nos facilita el tiempo de ejecucin a la salida de la funcin overadd1. Este parmetro ser el que nos diga si se puede
______________________________________________________________________________________________________________71
trabajar en tiempo real o no, por lo que el objetivo principal es reducir este tiempo al mnimo y conseguir que ymax tenga el valor adecuado en cada momento, cercano a la unidad para detecciones positivas y cercano a cero para detecciones negativas.
Para finalizar, vemos los pasos a seguir en la implementacin del algoritmo de una forma breve, despus se comentarn con ms detalle los aspectos ms relevantes:
1. Seleccionamos la longitud de las secciones para que el clculo de la DFT sea ms eficiente, esto es:
N = M + Lh 1 N = 2 ceil(log2(N)) 2d M + Lh 1
L = ceil(Lx/M)
4. Multiplicamos la DFT de h(n) con las DFTs de cada una de las secciones en que se ha dividido x(n).
______________________________________________________________________________________________________________72
7. Por ltimo, tomamos slo las muestras que nos interesan, pues las colas de la correlacin no nos sirven para nuestro estudio, y normalizamos los coeficientes.
Estos son los pasos a seguir para llevar a cabo la correlacin de dos seales utilizando un mtodo de convolucin por bloques, en nuestro caso el mtodo Overlap & Add.
Longitud de los bloques: Cuando se analiz anteriormente el mtodo Overlap & Add se pudo comprobar
que la eficacia del mtodo depende de varios parmetros, como son las longitudes de las seales involucradas en la correlacin, Lx y Lh, pero hay un parmetro que es decisivo en cuanto a la eficiencia del algoritmo. Dicho parmetro es la longitud de los bloques en que se divide la seal x(n) o anuncio grabado, o sea, el parmetro M. Si su valor es muy bajo entonces trabajaremos con un elevado nmero de DFTs muy cortas y rpidas de calcular; y por el contrario, si su valor es muy alto tendremos que trabajar con algunas DFTs largas y cuyo clculo es muy lento. De ah que haya que llegar a una solucin de compromiso que nos d el valor ms adecuado para nuestros objetivos.
En realidad la longitud de las DFTs necesarias para el clculo de la funcin correlacin viene dada por el parmetro N, cuya expresin hemos visto antes: N = 2 ceil(log2(N)) 2d M + Lh 1
Con esta frmula lo que se hace es redondear el valor de N hasta el valor inmediatamente superior que sea potencia de dos, de esta manera las longitudes de las DFTs son tales que se puede utilizar el algoritmo eficiente para el clculo de la DFT, lo cual ahorra muchas operaciones y por lo tanto tiempo. Sin embargo este redondeo de N no afecta demasiado al valor original de N, que es:
N = M + Lh 1
______________________________________________________________________________________________________________73
Si tenemos en cuenta que se va a trabajar con anuncios que tienen una duracin media de 30 seg., la longitud media de dichos anuncios ser aproximadamente Lx = 240000 muestras. Antes vimos que para que el algoritmo sea realmente efectivo N no debe tener un valor muy alto y adems N y M tendrn valores muy aproximados, sin embargo en nuestro caso la primera condicin es difcil de cumplir, ya que si tomamos un valor demasiado bajo para M tendremos que trabajar con un alto nmero de secciones, y hay un gran retardo al realizar el clculo de la DFT de cada uno de los bloques. No ocurre lo mismo con la segunda condicin, pues al tener M un valor muy elevado con respecto a Lh, entonces N M. A continuacin se muestran los valores de M y N que se han tomado, en funcin de la longitud de Lx: Lx > 1572000 M = (2^19) - Lh + 1 N = (2^19) L 5 secciones 1572000 > Lx > 786000 M = (2^18) - Lh + 1 N = (2^18) L 5 secciones 786000 > Lx > 393000 M = (2^17) - Lh + 1 N = (2^17) L 5 secciones 393000 > Lx > 196000 M = (2^16) - Lh + 1 N = (2^16) L 5 secciones 196000 > Lx > 98000 M = (2^15) - Lh + 1 N = (2^15) L 5 secciones Lx < 98000 M = (2^14) - Lh + 1 N = (2^14) L 6 secciones
Se puede comprobar que siempre se escoge un valor para M tal que N sea una potencia de 2 sin necesidad de redondeo, as se asegura que siempre vamos a trabajar con aproximadamente 5 secciones. De esta manera, como se podr comprobar posteriormente, se consigue trabajar en tiempo real. Si por el contrario se utilizan ms secciones (tomando M ms pequeo) el clculo de las DFT sera algo ms rpido pero habra que procesar demasiados bloques, y ocurre justo lo contrario si se utilizan menos secciones, pues entonces el clculo de cada una de las DFT se hace extraordinariamente largo. As, para el caso ms comn, 393000> Lx > 196000, se trabajar con aproximadamente 5 secciones de longitud
______________________________________________________________________________________________________________74
M = (2^16) - Lh + 1. Suponiendo Lx = 240000 muestras y Lh = 250 muestras se tendra M = 65287 muestras, entonces: Lx / M = 3.6760 L = ceil(Lx / M) = 4 secciones
Al finalizar este apartado se har un anlisis del mtodo Overlap & Add y se evaluar su eficiencia con los valores mostrados.
Cuando se realiza la correlacin para comparar dos seales en realidad lo que se est haciendo es superponer la ms pequea sobre la de mayor longitud e ir desplazando muestra a muestra la seal superpuesta sobre la inferior para
comprobar si encaja ms o menos bien la seal corta en la mayor, como si se tratase de un puzzle.
La primera superposicin que se realiza, la cual da como resultado la primera muestra de la seal correlacin, sera la de la ltima muestra de la seal corta sobre la primera muestra de la seal larga; a continuacin se desplaza una muestra la seal corta sobre la larga, por lo que ya estaran las dos ltimas muestras de la seal corta sobre las dos primeras de la seal larga; y as sucesivamente hasta que se llega al final de la seal larga. La ltima muestra de la seal correlacin se corresponde a la comparacin de la primera muestra de la seal corta con la ltima muestra de la seal larga.
Por lo tanto se puede observar claramente que la seal correlacin tiene dos colas, al principio y al final de dicha seal, que no son tiles a efectos prcticos, pues dichas colas van a ser siempre valores prximos a cero, dado que son resultado de comparaciones no completas de ambas seales. Consideraremos una comparacin completa cuando todas las muestras de la seal corta se comparen con muestras de la seal larga.
______________________________________________________________________________________________________________75
La seal correlacin tiene una longitud de Lx+Lh-1 muestras, pero no necesitamos ni las primeras Lh ni las ltimas Lh muestras de la seal correlacin, por lo que la seal til va desde la muestra nmero Lh hasta la nmero Lx, o sea, tendr una longitud de Lx-Lh muestras.
De esta forma eliminamos muestras que no son tiles con el consiguiente ahorro en recursos, ya que no volveremos a procesar dichas muestras.
s=abs(sum(MAT)); s=s(Lh:Lx); %Tomamos slo las muestras que nos interesan, pues las colas de la correlacin no nos sirven para nuestro estudio.
Por ltimo y para que la evaluacin de los resultados obtenidos sea correcta hay que normalizar los coeficientes de correlacin, de forma que tengamos un valor mximo equivalente a la unidad para una comparacin de dos seales idnticas, y dicho valor se aproxime a cero para la comparacin de seales que no sean parecidas, por ejemplo dos seales aleatorias. De esta manera, aplicando la normalizacin adecuada a los coeficientes de correlacin, se obtendr tras la comparacin una serie de resultados muy explcitos, ya que con slo echar un vistazo a la seal correlacin resultante se sabr si se trata de la misma seal o no en la mayor parte de los casos. Habr otros casos en los que no sea tan fcil tal apreciacin, por lo que como se ver posteriormente habr que analizar la comparacin de ambas seales como un proceso estadstico para despus implementar un algoritmo decisor.
Cuando se estudiaron las propiedades de la funcin correlacin se pudo observar que la correlacin cruzada verifica que: |rxy(l)| (rxx(0)ryy(0))1/2 = (ExEy)1/2
______________________________________________________________________________________________________________76
Esto significa que el valor mximo de la correlacin cruzada es igual a la raz cuadrada del producto de las energas de las seales a comparar.
Adems tambin se vio que si una de las dos secuencias implicadas en el clculo de la correlacin cruzada se escala, la forma de la correlacin no cambia, simplemente se produce un escalado de la misma de acuerdo con el escalado realizado sobre las secuencias originales. As pues, el escalado carece de importancia y es a menudo conveniente, en la prctica, normalizar las secuencias de autocorrelacin y correlacin cruzada al rango entre 1 y 1. De hecho, para nuestro objetivos, nos conviene normalizar la correlacin cruzada entre 0 y 1, lo cual se consigue trabajando con el valor absoluto. Por lo tanto la correlacin cruzada normalizada se define como: xy (l) = rxy (l)/(rxx(0)ryy(0))1/2 Ahora |xy (l)| 1, y de aqu que esta secuencia sea independiente del escalado de la seal.
Para realizar este escalado en Matlab nos basta con tomar ambas seales, x(n) y h(n) y sumar todas sus muestras al cuadrado: Ex = n=-, x2(n) Eh = n=-, h2(n)
Para el caso de h(n) si nos basta con tomar los valores de la seal, multiplicarlos por s mismos y sumarlos, de forma que se obtiene el valor de su energa, pero no podemos hacerlo para el caso de x(n), pues al tratarse de una seal tan larga se tardara demasiado tiempo en hacerlo y no se podra trabajar en tiempo real. Si pensamos que vamos a tratar de detectar siempre el mismo anuncio
______________________________________________________________________________________________________________77
podra realizarse el clculo una vez y almacenarlo, de forma que fuese un parmetro de entrada ms a la funcin que implementa el algoritmo de comparacin. Sin embargo sera un algoritmo muy particularizado y sin modularidad y adems para realizar las pruebas este mtodo no nos vale. Por ello lo que se ha hecho es implementar de nuevo el algoritmo overlap and add, de forma que calcularemos la energa de la seal x(n) por bloques. Basta con calcular la correlacin cruzada de x2(n) con una secuencia de unos: rxy(l) = n=-, x(n)y(n-l) n = 0, 1, 2, ... rxy(l) = n=-, x2(n) l = 0, 1, 2, ...
Para realizar estos clculos se ha implementado la funcin energa.m, cuyo cdigo se puede ver en el Apartado IV del documento.
Eh=sum(h.^2); Ex=energia(Lh,x,M); s=s./sqrt(Ex*Eh); %Normalizamos cada uno de los coeficientes de correlacin por la energa de las seales utilizadas para su clculo. El vector Ex se corresponde con los parmetros de normalizacin calculados con la funcin 'energa.m'.
De esta manera se consigue la normalizacin buscada con un consumo de recursos no excesivo, de forma que trabajamos en tiempo real.
3.4)
______________________________________________________________________________________________________________78
Ya vimos para el mtodo overlap & add que la secuencia x(n) de longitud Lx se divide en Lx/M secciones, cada una de longitud M, que la secuencia h(n) tiene longitud Lh, y que las longitudes de las secuencias para la convolucin lineal son N = 2d M + Lh 1. Tambin se ha visto que para llevar a cabo la convolucin o correlacin rpida de dos secuencias de N puntos se requieren 12Nlog22N + 8N multiplicaciones reales. Por lo tanto para implementar el algoritmo de solapamiento y suma tendremos el siguiente nmero de multiplicaciones reales:
(Lx/ M) (12Nlog22N + 8N) = Rm(S) Esto nos muestra que la longitud de las secuencias a correlar, N, debera ser pequea, mientras que la longitud de las secciones de datos de x(n), M,debera ser aproximadamente igual a N. Idealmente N = 2d M + Lh 1.
A continuacin se muestran algunas tablas en las que se recoge el nmero de operaciones necesario (incluyendo productos, sumas y todo tipo de operacin matemtica) y el tiempo empleado para realizar la comparacin de dos anuncios. En sucesivas pruebas se irn cambiando los valores de N, M, Lh, ... para realizar un estudio comparativo. Cada uno de estos parmetros tendr la funcin de variable en cada una de las tablas, los valores de dicha variable estarn resaltados. Estas pruebas se han realizado con el algoritmo overadd1.m, ste tiene algunas modificaciones con respecto al algoritmo que utilicemos finalmente para la deteccin en tiempo real, como ya se ha dicho antes. Por ello los valores que aparecen en las tablas no son indicativos de los que manejaremos en realidad, especialmente los referentes al tiempo empleado para cada comparacin.
______________________________________________________________________________________________________________79
Lx
Lh
Lx/M (N
Nmero de
Vemos que al aumentar Lh no se obtiene ningn resultado apreciable en el nmero de operaciones a realizar, y por lo tanto y dado que no se modifica ningn otro parmetro el tiempo empleado en la comparacin es aproximadamente el mismo. Esto se debe a los valores que toma cada uno de los parmetros que intervienen en la comparacin. La contribucin de Lh a la longitud de la DFT con la que se va a trabajar (N) es muy pequea: N = M + Lh - 1; M >> Lh; N M N = 2d M, aproximadamente. Por lo tanto, y como se puede observar en la tabla, tanto el nmero de secciones en que se divide el anuncio (Lx/M) como la longitud de la DFT a emplear (N) son los mismos para todos los casos, independientemente del valor de Lh. Si se calculara la correlacin de ambas seales de forma directa en el tiempo el parmetro Lh si tendra una influencia significativa en el nmero de operaciones a realizar, pero al implementar el algoritmo de convolucin rpida y trabajar con DFTs calculadas de forma eficiente (N igual a potencia de dos) nos encontramos con que la longitud de la DFT a calcular apenas depende de Lh. Sin embargo a medida que aumenta Lh la calidad de la comparacin es mucho mayor, dado que se estn comparando ms muestras, el bloque es cada vez un
______________________________________________________________________________________________________________80
orden de magnitud mayor. Por lo tanto ser mucho ms fiable la comparacin cuanto mayor sea Lh.
Por lo tanto se llega a la conclusin de que la variable Lh no afecta en gran medida al nmero de operaciones realizadas al utilizar este mtodo.
Lx
Lh
Lx/M (N
Nmero de
Podemos observar que al ir modificando el valor de M, tambin lo hacen N (N = 2d M + Lh 1), y por supuesto el nmero de secciones con el que se trabaja en cada caso (Lx/M).
En este caso s que hay una dependencia importante del nmero de operaciones realizadas respecto de la variable M, ya que segn la longitud de las secciones, y por lo tanto el nmero de stas, se realizarn ms o menos operaciones. De hecho nuestro algoritmo est basado fundamentalmente en esta idea, dividir las seales muy largas en muchos bloques de pequea longitud, de forma que el clculo de las DFTs de estos bloques sea rpido.
De esta manera, si observamos la columna del nmero de operaciones veremos que conviene tomar M lo ms pequeo posible, ya que cuanto menor es M, menor es el nmero de operaciones. Sin embargo si atendemos a la columna donde se
______________________________________________________________________________________________________________81
muestra el tiempo empleado en realizar la comparacin nos encontramos con unos valores contradictorios, de los cuales se deduce que no hay una dependencia directa y proporcional entre M y el tiempo empleado, al igual que lo hay entre M y el nmero de operaciones.
Buscando una respuesta para explicar este hecho, se han analizado el nmero de operaciones y el tiempo empleado necesarios para realizar cada una de las operaciones internas del algoritmo de comparacin, ms concretamente aquellas operaciones que intervienen en el bucle FOR con el que implementamos el algoritmo de Solapamiento y Suma. stas son tres (se muestran en azul):
En la primera de ellas se calcula la DFT de los bloques en que se divide el anuncio a detectar, en la segunda se realiza el producto de las DFTs de ambas seales (la DFT del trozo de anuncio que se va extrayendo de la emisora se ha calculado con anterioridad, fuera del bucle FOR), y por ltimo se calcula la IDFT de dicho producto y se hace una asignacin de valores: en esta asignacin se va guardando (en una matriz, por filas) el resultado de correlar cada uno de los bloques en que se divide el anuncio con la seal extrada de la emisora, adems se hace de forma que en la matriz queden almacenados los datos con el solapamiento adecuado para despus sumar las filas de dicha matriz, y as obtener la correlacin deseada.
A continuacin mostramos una tabla con los tiempos que se emplean en ejecutar cada uno de estos comandos, as como los de los comandos anteriores y posteriores al bucle:
______________________________________________________________________________________________________________82
Operaci Operaci n 3 Suma Operacin 1 n 2 (IDFT y por (DFT) (Product Asignaci filas o) n) M= 133000 M= 130873 M= 65337
22,63 2,58 4,61 3,19 0,22 0,16 0,16 0,16 0,06 0,06 0,06 0,06 0,06 0,06 0,06 0,44 0,77 0,44 0,44 0,44 0,44 0,44 0,44 0,49 0,49 0,44 0,44 0,39 13,18 0,05 0,72 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 35,60 13,29 1,09 0,93 0,55 0,44 0,44 0,44 0,21 0,16 0,16 0,16 0,16 0,16 0,16 72,89 0,22 0,11 0,11 0,05 0,11 0,49 1,49 0,06 3,02 0,11 1,81 1,10 71,41 15,92 6,42 4,12 0,77 0,60 0,60 0,60 0,27 0,22 0,22 0,22 0,22 0,22 0,22 73,33 0,99 0,55 0,55 0,49 0,55 0,93 1,93 0,55 3,51 0,55 2,25 1,49
Total bucle
87,33 10,54
20,59 0,39
12,03 1,10
119,95 12,03
2,57
0,22
1,05
3,84
M= 32569
1,59
0,16
0,44
2,19
M= 16185
87,67
16,20
28,50
132,37
Antes de pasar a comentar los resultados hay que decir que esta tabla es el resultado de decenas de simulaciones. Los valores que se muestran son indicativos del proceso, ya que en la mayora de las simulaciones se han obtenido valores aproximados en cada una de las celdas. Sin embargo estos tiempos no son totalmente estables y fijos, como ocurre con el nmero de operaciones que siempre toma el mismo valor, sino que dependen en cierta medida del PC con el que trabajemos: tamao de la memoria virtual, potencia del microprocesador,
______________________________________________________________________________________________________________83
tamao del sistema de archivos, ... Este hecho se pone especialmente de manifiesto para la operacin 3 del bucle FOR (IDFT y asignacin de valores), ya que incluye la asignacin de un vector de grandes dimensiones a una matriz. O sea, es una operacin de escritura en memoria, y por lo tanto su tiempo de ejecucin es una variable no controlable que a veces toma valores muy altos, independientemente del tamao del vector.
Se puede observar que los tiempos totales ms bajos se obtienen para M = 65337 y M = 32569, o sea, para un nmero de secciones entre 4 y 7, como ya se vio anteriormente. Para M = 133000 y M = 130873 el tamao de las secciones es muy grande, pues la seal tan slo se divide en dos secciones, por lo tanto los tiempos de clculo de DFT e IDFT son altos, sobre todo en el caso de M = 133000, ya que en este caso el tamao de N es doble: M = 133000 N = 262144 N = 2d M + Lh 1; M = 130873 N = 131072
Para M = 16185 comienza a aumentar de forma desproporcionada el tiempo total, ya que el nmero de veces que se ejecuta el bucle es muy superior y por lo tanto tambin lo es el nmero de accesos a memoria que implica la operacin 3 del bucle.
Por lo tanto al evaluar el tiempo total empleado para realizar una comparacin se observa que siempre se obtiene un mnimo al utilizar un valor de M tal que el nmero de secciones vare entre 4 y 7, de ah que para nuestro algoritmo final de deteccin se haya optado por tomar los siguientes valores para M en funcin de la longitud del anuncio (ya vimos estos valores anteriormente): Lx > 1572000 M = (2^19) - Lh + 1 L 5 secciones 1572000 > Lx > 786000 M = (2^18) - Lh + 1 L 5 secciones
______________________________________________________________________________________________________________84
786000 > Lx > 393000 M = (2^17) - Lh + 1 L 5 secciones 393000 > Lx > 196000 M = (2^16) - Lh + 1 L 5 secciones 196000 > Lx > 98000 M = (2^15) - Lh + 1 L 5 secciones Lx < 98000 M = (2^14) - Lh + 1 L 6 secciones
______________________________________________________________________________________________________________85
Para conseguir que la probabilidad de error en la comparacin de las seales sea pequea se hace necesario un estudio estadstico, ms o menos complejo, en el que analizaremos la representacin estadstica del proceso correlacin cruzada de dos seales a travs de una funcin de distribucin.. A travs del estudio de dicha funcin de distribucin estadstica y del ajuste de sus valores conseguiremos llegar al valor ptimo de los parmetros implicados en la comparacin de tramas de audio, por este motivo se incluir dicho anlisis en este captulo.
Adems, una vez conocidos los valores ptimos que buscamos podremos implementar un algoritmo de deteccin con un decisor. En este algoritmo se tratar de afinar todava an ms la probabilidad de error de la comparacin y deteccin. Por ltimo se realizarn pruebas para comprobar la eficacia real de dicho algoritmo.
4.1) Introduccin.
Como ya hemos dicho, una vez estudiado el mtodo de comparacin que vamos a emplear slo nos queda hacerlo ptimo, y esta optimizacin vendr marcada por dos criterios. El primero de ellos es el de conseguir una comparacin eficaz, de forma que cuando se comparen dos seales que sean iguales el comparador nos d una alarma positiva (en realidad los anuncios nunca van a ser exactamente iguales, sino que nos referimos a emisiones distintas del mismo
______________________________________________________________________________________________________________86
anuncio publicitario, y por lo tanto habr algunas distorsiones y variaciones en la amplitud y fase de las seales), y cuando sean distintas nos d una alarma negativa, o simplemente no d ninguna alarma (con seales distintas nos referimos a anuncios publicitarios diferentes). Por lo tanto estamos buscando reducir el margen de error al mnimo.
El segundo criterio es conseguir hacer las comparaciones en un tiempo suficientemente pequeo como para hacer el seguimiento de una emisora de radio o televisin, o sea, trabajar en tiempo real.
Uno de los parmetros implicados en este proceso de optimizacin es la frecuencia de muestreo de las seales audio con las que trabajamos; una vez decidido qu valor es el mejor para la frecuencia de muestreo se fijar dicho valor para la captura de la seal de radio o televisin. El otro parmetro a estudiar es el tiempo durante el cual se capturarn muestras, o lo que es lo mismo el nmero de muestras necesario para hacer una buena deteccin.
A priori puede parecer que deberamos encontrar primero el valor ptimo para el nmero de muestras (o tiempo de captura) a utilizar en la comparacin, con lo cual se cumplira el criterio de obtener una comparacin eficaz. As, posteriormente y una vez fijado el nmero de muestras, se buscara el valor adecuado para la frecuencia de muestreo, de forma que tambin se cumpla el criterio de trabajar en tiempo real. Sin embargo no es tan trivial, ya que ambos parmetros, nmero de muestras y frecuencia de muestreo estn ntimamente relacionados entre s, y por lo tanto no se puede hacer una correspondendia unvoca entre parmetros y criterios:
Aqu vemos que el nmero de muestras no viene determinado slo por el tiempo de captura, sino tambin por la frecuencia de muestreo, por lo tanto no se puede fijar primero el nmero de muestras para cumplir un criterio y despus variar la frecuencia de muestreo para cumplir el otro, pues al cambiar la
______________________________________________________________________________________________________________87
frecuencia de muestreo cambiaramos de nuevo el nmero de muestras. Por ello habr que hacer un anlisis con detenimiento y llegar a una solucin de compromiso.
Nos interesa conseguir un valor alto para el nmero de muestras, de forma que la calidad de la comparacin sea buena, por otra parte tambin nos interesa obtener un valor bajo para tal parmetro, de manera que el tiempo de procesado sea lo menor posible. Esto mismo ocurre con la frecuencia de muestreo, pues vemos que son parmetros directamente proporcionales.
Hay otros parmetros comos son el nmero de canales a utilizar para la seal audio, un solo canal (mono) o dos canales (estreo), y el nmero de bits a utilizar para codificar cada muestra, ocho bits (un byte) o dieciseis bits (dos bytes), que influyen decisivamente en la calidad de la forma de onda. Sin embargo para nuestra aplicacin no ofrecen ninguna ventaja, sino todo lo contrario como se ha comentado con anterioridad. De ah que estos parmetros se hayan fijado a priori, utilizando un solo canal y ocho bits por muestra.
Los archivos de audio digital pueden grabarse seleccionando la frecuencia de muestreo deseada. A medida que aumenta la frecuencia de muestreo, aumenta la calidad del sonido, de forma que debe ser lo suficientemente alta para que los
______________________________________________________________________________________________________________88
sonidos de alta frecuencia puedan recogerse con precisin. Sin embargo, para aplicaciones como la que nos ocupa, existe una razn para no utilizar las frecuencias de muestreo ms altas, y sta es que las frecuencias de muestreo altas necesitan gran capacidad de almacenamiento y por lo tanto un mayor tiempo de procesado. Adems la degradacin en la calidad no afecta a la probabilidad de error en la comparacin, pues no nos interesa escuchar el anuncio, sino detectar su emisin.
Segn el teorema de Nyquist, es posible repetir con exactitud una forma de onda si la frecuencia de muestreo es como mnimo el doble de la frecuencia de la componente de mayor frecuencia. Si no se cumple el teorema de Nyquist se produce un fenmeno denominado aliasing, que consiste en el solapamiento de muestras en el dominio de la frecuencia. Este solapamiento del espectro se traduce en una fuerte distorsin en el dominio temporal y en una degradacin irreversible de la calidad. Por lo tanto para reproducir la voz humana con un mnimo de calidad se exige al menos una frecuencia de muestreo de 8 KHz.
Sin embargo para la comparacin de muestras de audio nos da igual que haya aliasing, por lo tanto no hay nada que nos impida trabajar con frecuencias de muestreo inferiores a 8 KHz. De hecho las pruebas realizadas para encontrar la frecuencia de muestreo ptima se han llevado a cabo para los siguientes valores de frecuencia: 4 KHz, 8 KHz, 11,025 KHz, 22,050 KHz y 44,1 KHz. Todos los valores, excepto el de 4 KHz, son valores normalizados, que se pueden configurar en la Sound Blaster y en el Wave Studio sin ninguna dificultad, ya que son valores muy habituales en la reproduccin de seales audio.
Para tomar muestras a una velocidad de 4000 Hz ha sido necesario crear una rutina, que no hace otra cosa que tomar una de cada dos muestras procedentes de una seal muestreada a 8000 Hz. Este proceso se conoce con el nombre de diezmado, y las operaciones implicadas apenas consumen recursos,
consiguiendo reducir a la mitad el nmero de muestras del anuncio almacenado y por lo tanto disminuyendo de manera considerable el tiempo de procesado. En contrapartida el tiempo de captura de muestras de la emisora aumentar al doble, lo cual apenas incrementa el tiempo de comparacin. Por lo tanto dicha frecuencia
______________________________________________________________________________________________________________89
de muestreo nos ofrece una gran ventaja, lo cual quedar demostrado ms adelante, cuando se analicen de forma cuantitativa los resultados de las pruebas llevadas a cabo para cada pareja de valores frecuencia de muestreo tiempo de captura.
A continuacin se muestran las grficas del mismo anuncio grabado con distintas frecuencias de muestreo, de forma que se puede comprobar cmo vara el nmero de muestras en funcin de la frecuencia:
a) Fs = 44.1 KHz
______________________________________________________________________________________________________________90
b) Fs = 22.05 KHz
c) Fs = 8.0 KHz
______________________________________________________________________________________________________________91
d) Fs = 4.0 KHz
Se puede comprobar cmo disminuye el nmero de muestras a medida que bajamos la frecuencia de muestreo, sin embargo se sigue conservando la forma de onda para las frecuencias de muestreo bajas ( 4 KHz), y por lo tanto sigue siendo til para trabajar con ella.
Este es el principal parmetro de nuestro estudio, el cual va a estar muy ligado con la frecuencia de muestreo y con el tiempo de captura como hemos dicho antes, pues su valor viene dado por el de estas dos variables. Adems el nmero de muestras con el que trabajemos va a determinar tanto la calidad de las comparaciones como el tiempo necesario para cada una de ellas, y por lo tanto el tiempo total para una deteccin.
______________________________________________________________________________________________________________92
En los algoritmos que se han implementado sta variable est representada por Lh, que es la longitud de la seal corta que interviene en la correlacin. En el algoritmo final Lh se define mediante una expresin que ya hemos visto: Fs Frecuencia de muestreo. Tc Tiempo de captura de muestras de la emisora.
Lh = Fs * Tc ;
Sin embargo para realizar las pruebas no se trabaja adquiriendo muestras de la emisora, sino que se trabaja con formas de onda grabadas y preparadas para realizar este tipo de anlisis, por lo tanto el valor Lh no viene definido por otras dos variables, sino que es una variable con la que jugar hasta que se encuentre un valor que se aproxime al ptimo, ya que es muy difcil encontrar el ptimo de forma exacta. Dicho valor ser el menor nmero de muestras necesarias para obtener una correlacin o comparacin con la calidad suficiente como para decidir si dicha comparacin es positiva o no. Esto es una correlacin con una calidad suficiente para fijar un umbral mximo, tal que cuando algn coeficiente de correlacin supere dicho umbral se deba a que se estn comparando las mismas formas de onda. Por supuesto ser tanto ms fcil calcular dicho umbral cuanto mayor sea el nmero de muestras a comparar, lo cual es contraproducente con la idea de procesado en tiempo real.
Las comparaciones nunca se realizan con los mismos anuncios, sino con diferentes emisiones de estos, por lo tanto nunca dos formas de onda a comparar sern totalmente iguales, en cuyo caso se debera obtener un mximo igual a la unidad, sino que habr variaciones en la amplitud y fase de las muestras. Este hecho hace que no sea nada fcil encontrar el valor ptimo para la longitud de la trama a comparar, y por lo tanto que haya un margen de error superior al que exige la aplicacin que tratamos de desarrollar.
Este es el motivo por el que habr que buscar alguna solucin en el algoritmo decisor, y sta no es otra que hacer que el tiempo de comparacin sea muy corto, de forma que a lo largo de la emisin de un anuncio se puedan realizar varias
______________________________________________________________________________________________________________93
Por lo tanto todas las pruebas que hemos mencionado hasta ahora no tienen otro fin que el de desarrollar un mtodo estadstico que nos permita valorar de forma cuantitativa el proceso de comparacin y en definitiva la aplicacin que se lleva a cabo.
As el objetivo que se persigue ahora es ajustar los valores de la correlacin a una funcin de distribucin, de forma que posteriormente se tenga un proceso monitorizado del que se puedan obtener las probabilidades de deteccin correcta, deteccin incorrecta, fallo, ...
Para ajustar dicha funcin de distribucin haremos mltiples pruebas con varios anuncios. As, se grabarn diferentes emisiones de una misma emisora, y tambin de distintas emisoras, del mismo anuncio, de manera que nos acerquemos lo ms posible al caso real, y que la varianza del proceso estadstico que estamos calculando sea pequea.
Adems esto lo haremos para distintas frecuencias de muestreo y distintas longitudes de la seal a comparar, de manera que para cada pareja frecuencia de
______________________________________________________________________________________________________________94
muestreo-tiempo de captura de seal se obtendr una curva de de distribucin de probabilidad distinta, y consecuentemente diferentes probabilidades de deteccin correcta e incorrecta. As sabremos cul es la longitud de trama de audio mnima necesaria para obtener la calidad deseada en el proceso de correlacin. Con este valor y examinando las distintas curvas obtenidas ser muy sencillo escoger la pareja de valores frecuencia-tiempo de captura ms apropiada a nuestro objetivo.
En los captulos 2 y 3 de este documento se ha hablado del proceso de correlacin entre dos seales y de sus propiedades, y se ha hecho un estudio pormenorizado de su clculo. Sin embargo lo que ms nos interesa en este momento es el valor que alcanza cada uno de los coeficientes de correlacin, de forma que obtengamos los lmites superior e inferior de dichos coeficientes.
Ya vimos que se haca necesario normalizar los coeficientes de correlacin, de forma que se obtenga un valor mximo equivalente a la unidad para una comparacin de dos seales idnticas, y dicho valor se aproxime a cero para la comparacin de seales que sean desiguales. As, aplicando la normalizacin adecuada a los coeficientes de correlacin se conseguir que los lmites inferior y superior sean 0 y 1 respectivamente.
______________________________________________________________________________________________________________95
Tambin se vio que si una de las dos secuencias implicadas en el clculo de la correlacin cruzada se escala, la forma de la correlacin no cambia, sino que simplemente se produce un escalado de la misma de acuerdo con el escalado realizado sobre las secuencias originales. As pues, es conveniente normalizar la secuencia de correlacin cruzada al rango entre 1 y 1.
Cuando se estudiaron las propiedades de la funcin correlacin se pudo observar que la correlacin cruzada verifica que: |rxy(l)| (rxx(0)ryy(0))1/2 = (ExEy)1/2
Entonces el valor mximo de la correlacin cruzada es igual a la raz cuadrada del producto de las energas de las seales a comparar. De esta forma se consigue que los coeficientes de correlacin estn comprendidos entre 1 y 1. Llegados a este punto nos encontramos con multitud de funciones de distribucin
probabilstica vlidas para representar al proceso, pues el nico requisito que hay que cumplir es que el dominio de la distribucin sea (-1,1).
Recordemos, sin embargo, que para comparar dos seales no nos conviene trabajar con nmeros negativos, ya que el proceso de comparacin y deteccin se complica demasiado. Por lo tanto, lo ideal es trabajar con un dominio comprendido entre 0 y 1. Por esta razn, para nuestro objetivos, es adecuado normalizar la correlacin cruzada entre 0 y 1, lo cual se consigue trabajando con el valor absoluto de la correlacin cruzada normalizada, que se define como: |xy (l)| = |rxy (l)/(rxx(0)ryy(0))1/2| 1
Entonces estamos buscando una funcin de distribucin probabilstica que se ajuste a las condiciones vistas, o sea, cuyo dominio venga dado por el valor (0,1).
______________________________________________________________________________________________________________96
As, la funcin que se ajusta a estos requisitos es la funcin Beta, que no siendo de las funciones ms comunes o utilizadas s que es muy adecuada para representar estadsticamente el valor absoluto del proceso correlacin cruzada normalizada. A continuacin se analizarn la funcin Beta y sus parmetros y caractersticas, de forma que quede claro cmo se ajusta el proceso de comparacin o correlacin a la funcin Beta y cmo se pueden calcular las probabilidades de acierto y de error de manera monitorizada por el proceso estadstico.
La funcin de distribucin Beta est relacionada con otras distribuciones continuas que se definen en un intervalo infinito, en concreto con la distribucin Gamma (de hecho esta relacin se define a travs de la funcin Gamma de Euler). Por este motivo vamos a definir en primer lugar la distribucin Gamma, y despus pasaremos a hablar de la funcin de distribucin Beta:
escala y de forma, respectivamente. Es decir, al variar k vara la forma de la distribucin, mientras que al variar slo vara la escala de la distribucin.
______________________________________________________________________________________________________________97
Si p = 1/2 entonces se tiene que (1/2) = . Si p > 1 entonces se tiene que (p) = (p-1)(p-1). Si p es entero, entonces se cumple que (p)=(p-1)!. Si definimos el valor del parmetro en funcin del parmetro k y del parmetro segn la expresin = k/ , se tiene que la funcin de densidad se escribe:
En esta expresin, el parmetro determina la localizacin de la distribucin ( es la media de la distribucin Gamma), y el cociente 2/k determina la forma de la distribucin ( 2/k es la variancia de la distribucin Gamma).
Esta distribucin es usada para modelar datos que presentan asimetra positiva. Veamos algunos casos particulares:
Para k = 1 se tiene la distribucin exponencial. Para k = 1 y = 1 se tiene la distribucin exponencial estndar. Para k = n/2 y = n se tiene la distribucin ji-cuadrado con n grados de libertad.
Esta distribucin se ha aplicado a los tiempos de vida de sistemas elctricos y mecnicos, a la abundancia de especies animales, a perodos de incubacin de enfermedades infecciosas, etc.
En el siguiente grfico se muestran dos funciones de densidad Gamma, una con parmetros de escala (Scale) y de forma (Shape) igual a 30 y otra
______________________________________________________________________________________________________________98
Distribucin Beta:
Las distribuciones de probabilidad continuas normalmente se definen como funciones distintas de cero en un intervalo infinito, pero es muy til disponer de otra clase de distribuciones que se puedan usar para modelar fenmenos restringidos a un intervalo finito de valores posibles. Una distribucin de esta clase, la distribucin Beta, es muy til para modelar el comportamiento probabilstico de determinadas variables aleatorias, como las proporciones, o como la correlacin normalizada de dos tramas de audio, limitadas a caer en el intervalo (0,1).
Como hemos dicho anteriormente la distribucin Beta est muy relacionada con la funcin Gamma de Euler, veamos su forma funcional: f (x) = ( + ) x - 1 (1-x) -1 () ()
=0
0<x<1
x < 0, x > 1
______________________________________________________________________________________________________________99
La distribucin Beta depende de dos parmetros, p (forma) y q (escala), ambos positivos. Se denomina B(p,q).
La funcin Beta tiene la siguiente propiedad, a travs de la cual se relaciona con la funcin Gamma.
En la siguiente figura se presentan tres funciones de densidad Beta, cada una de ellas con parmetros p (Shape 1) y q (Shape 2) distintos.
______________________________________________________________________________________________________________100
En los ltimos aos la distribucin beta ha encontrado importantes aplicaciones en la inferencia bayesiana, donde los parmetros se consideran como variables aleatorias y existe la necesidad de tener una densidad de probabilidad lo suficientemente flexible para el parmetro de la distribucin binomial, que toma valores distintos de cero slo en el intervalo de 0 a 1. Por flexible nos referimos a que la densidad de probabilidad puede tomar una amplia variedad de formas diferentes, as puede tomar las formas vistas en la grfica, la forma de una distribucin Uniforme, U(0,1), ..., como se podr comprobar en el siguiente captulo.
Este hecho hace que prcticamente se pueda modelar cualquier proceso cuyos valores varen entre cero y uno con la funcin de distribucin Beta.
Despus de ver algunas caractersticas de la funcin de distribucin Beta pasaremos a estudiar sus parmetros y la forma de modelar nuestro proceso a travs de dicha funcin. Para ello vamos a estudiar antes las rutinas existentes en Matlab para trabajar con la funcin Beta:
BETAFIT.
Calcula los parmetros (p y q) y sus intervalos de confianza para una serie de datos que tengan una distribucin probabilstica Beta.
Betafit(x) devuelve la estimacin de mxima verosimilitud de los parmetros de la distribucin beta, cuyos datos se pasan como vector de entrada, x.
[phat,pci] = betafit(x,alpha) da la estimacin de mxima verosimilitud de los parmetros, as como un intervalo de confianza para cada parmetro dado por un porcentaje del 100(1-alpha). Los datos se dan en el vector de entrada, x. El parmetro alpha es opcional, y por defecto su valor es 0.05, correspondiendo a un intervalo de confianza del 95 %.
______________________________________________________________________________________________________________101
BETAPDF.
Y = Betapdf(x,a,b) devuelve la funcin densidad de probabilidad Beta, de parmetros a y b, para los valores de abcisas definidos en x. El tamao de Y es el mismo que el del vector x.
BETACDF.
P = Betacdf(x,a,b) devuelve la funcin de distribucin acumulativa para una funcin Beta de parmetros a y b en los puntos designados por el vector x. El tamao de P es el mismo que el del vector x.
BETAINV.
X = Betainv(p,a,b) devuelve la inversa de la funcin de distribucin acumulativa para una funcin Beta de parmetros a y b en los puntos designados por el vector x. El tamao de P es el mismo que el del vector x.
BETARND.
Genera matrices con nmeros aleatorios que siguen una distribucin Beta.
R = Betarnd(a,b) genera una matriz con nmeros aleatorios que siguen una distribucin Beta con parmetros a y b.
______________________________________________________________________________________________________________102
BETASTAT.
Para este proyecto no es necesario emplear todas las rutinas vistas, sino algunas de ellas, especialmente aquella que nos permite ajustar unos determinados datos a una funcin de distribucin Beta (betafit), devolvindonos como argumentos de salida los parmetros de la distribucin. Tambin se obtiene como argumento de salida un intervalo de confianza, que podemos elegir en cierto modo con el parmetro de entrada alpha, aunque dicho dato no ser necesario.
A continuacin se va a describir el proceso a seguir para ajustar los datos obtenidos en alguna de las pruebas de comparacin de tramas de audio a una funcin de probabilidad Beta, en el prximo captulo se hablar con ms detenimiento de cada una de estas pruebas, as como de sus resultados.
Supongamos que realizamos varias comparaciones con distintas emisiones del mismo anuncio publicitario, todas con la misma frecuencia de muestreo, y que para todas las comparaciones se utiliza el mismo nmero de muestras a comparar. Entonces tras hacer cada comparacin, con la funcin overadd1,
almacenaremos el mximo coeficiente de correlacin por un lado y cincuenta coeficientes tomados aleatoriamente de la funcin correlacin por otro lado (en estos cincuenta valores nunca se incluir el mximo coeficiente de correlacin ni ninguno de los valores adyacentes, ya que esto podra conducir a errores).
Si realizamos veinte comparaciones obtendremos dos vectores, el primero de ellos formado por los veinte mximos coeficientes de correlacin. Este vector es representativo de las comparaciones positivas y nos da una ligera idea de cual debe ser el umbral de deteccin que marque el criterio de comparacin positiva o negativa. El segundo vector estar formado por 1000 valores aleatorios, todos distintos del mximo coeficiente de correlacin de cada una de las comparaciones.
______________________________________________________________________________________________________________103
Este vector representa a las comparaciones negativas, ya que est formado por valores correspondientes a comparaciones de dos trozos de seal distintos.
As, con cada uno de estos vectores se obtendr una funcin de distribucin Beta con la funcin Betafit, a la cual se le pasar como argumento de entrada cada uno de los vectores y nos devolver como argumentos de salida los parmetros de cada una de las dos distribuciones.
Una vez conocidos los parmetros de una funcin de distribucin Beta es muy fcil obtener su forma con la funcin Betapdf. La forma de ambas funciones de distribucin es fcil de imaginar, pues la correspondiente a los mximos coeficientes de correlacin tendr un mximo cercano a la unidad del eje de abscisas, y la correspondiente a los coeficientes de correlacin aleatorios tendr dicho mximo prximo al origen. Seguidamente se muestra una de estas grficas como ejemplo:
5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Una vez obtenidas dichas grficas slo hay que saber leer en ellas, pues para un umbral dado y con la funcin Betacdf se calcula de forma rpida y sencilla
______________________________________________________________________________________________________________104
cualquier probabilidad, entre ellas la probabilidad de falsa alarma (probabilidad de que no se emita el anuncio y el detector contabilice una deteccin) y la probabilidad de prdida (probabilidad de que se emita el anuncio y nuestro algoritmo no lo detecte). Con estas probabilidades, para las que nos fijaremos unos valores objetivo, y eligiendo el umbral de decisin adecuado, ser muy sencillo llegar a una conclusin en cuanto a la frecuencia de muestreo y el tiempo de captura ptimos.
A continuacin se vern los resultados de los experimentos realizados, mostrndose cada una de las grficas obtenidas para cada pareja frecuencia de muestreo-tiempo de captura. Asimismo tambin se va a dar un valor umbral, que se corresponde en cada caso con el valor de abscisas del punto en el que se produce el cruce de las dos curvas, y las probabilidades de prdida y falsa alarma que se obtienen para dicho umbral.
Hay que tener en cuenta que los umbrales que se van a mostrar con cada figura no son los umbrales ptimos, dado que umbral ptimo ser aquel que proporcione valores para ambas probabilidades cercanos al objetivo marcado. A priori, para este objetivo vamos a fijar un valor bastante estricto, de forma que sea prcticamente imposible tener una falsa deteccin o una prdida de deteccin. El lmite inferior de ambas probabilidades con el que trataremos de trabajar ser de 1 x 10 6, por lo tanto el umbral escogido para cada una de las parejas frecuenciatiempo no debera ser el correspondiente al cruce de ambas distribuciones, sino que se debe jugar con varios valores hasta que nos aproximemos al objetivo buscado. Sin embargo este proceso sera muy engorroso debido al elevado nmero de experimentos, as que tomando el umbral de decisin como el punto en el que se cortan ambas curvas conseguiremos hacernos una idea muy aproximada de cules son la frecuencia de muestreo y el tiempo de captura ptimo, entonces ser el momento de jugar con el umbral para encontrar los valores deseados.
______________________________________________________________________________________________________________105
Para realizar estos experimentos nos hemos valido de varias rutinas implementadas en Matlab, cuyo cdigo se mostrar al final de este documento. En estos cdigos se podr comprobar que no se han realizado un experimento por cada pareja frecuencia-tiempo, ya que algunos de ellos no tienen ningn sentido debido a que es imposible trabajar en tiempo real. As, para una frecuencia de muestreo de 44.1 KHz se han hecho algunos experimentos a modo de ilustracin, pero resulta evidente que no va a ser esta nuestra frecuencia de muestreo ptima, ya que conlleva un elevadsimo nmero de muestras que hacen imposible trabajar en tiempo real.
Para la realizacin de los experimentos se han realizado 12 grabaciones correspondientes a cuatro anuncios distintos, de forma que a cada anuncio publicitario le corresponden tres grabaciones, dos de ellas son distintas emisiones del anuncio de la misma emisora y la tercera se ha grabado de una emisora diferente, de forma que las pruebas a realizar sean lo ms objetivas posible.
Para cada pareja frecuencia-tiempo vamos a obtener 24 valores del mximo coeficiente de correlacin y 1200 valores aleatorios de dicha correlacin. Estos se obtendrn comparando una emisin de cada anuncio con cada una de las otras dos hasta tres veces, por lo tanto se realizarn seis comparaciones por cada anuncio, que multiplicadas por cuatro anuncios dan como resultado un total de 24 comparaciones para cada pareja frecuencia-tiempo.
Mximo de los coeficientes de correlacin, til para establecer un umbral que nos d la probabilidad de deteccin, as como el valor de la abscisa para el que se obtiene.
Cincuenta
coeficientes
tomados
aleatoriamente
de
la
funcin
correlacin resultante, exceptuando el mximo coeficiente de correlacin y los valores que resultan a su alrededor en una longitud de Lh muestras, pues estos pueden falsear el ajuste de la funcin densidad de probabilidad.
______________________________________________________________________________________________________________106
Esto lo haremos para distintas frecuencias de muestreo y distintas duraciones de la seal tomada de la radio como ya hemos dicho, o sea se har una simulacin para cada una de las parejas resultantes de tomar una frecuencia y un tiempo de captura. Estos son los valores con los que vamos a trabajar:
Frecuencias de muestreo 44.100 KHz 22.050 " 11.025 " 8.000 4.000 " "
A continuacin mostramos los resultados obtenidos para cada pareja frecuencia de muestreo-tiempo de captura.
______________________________________________________________________________________________________________107
______________________________________________________________________________________________________________108
______________________________________________________________________________________________________________109
______________________________________________________________________________________________________________110
______________________________________________________________________________________________________________111
______________________________________________________________________________________________________________112
______________________________________________________________________________________________________________113
______________________________________________________________________________________________________________114
______________________________________________________________________________________________________________115
______________________________________________________________________________________________________________116
______________________________________________________________________________________________________________117
En la cabecera de cada grfica se han incluido los datos correspondientes a cada una de ellas, incluyendo los valores de la pareja frecuencia de muestreotiempo de captura, as como el umbral de deteccin y las probabilidades de prdida y falsa alarma. Se han resaltado en color rojo los mejores valores para cada valor de frecuencia de muestreo, de forma que se pueda hacer un rpido anlisis con slo echar un vistazo. En el siguiente apartado comentaremos los resultados obtenidos.
Como se acaba de decir, los mejores valores para cada frecuencia entre las pruebas realizadas se han resaltado en rojo, estos son:
Frecuencia 4 KHz 4 KHz 8 KHz 11,025 KHz 22,050 KHz 44,1 KHz
Tcaptura seg 1/8 seg 1/8 seg 1/32 seg 1/32 seg 1/64 seg
De estos valores podemos descartar la mayora, pues no debemos olvidar que intentamos trabajar en tiempo real. Por lo tanto descartamos todas las frecuencias, excepto 4 y 8 KHz, debido a que para una frecuencia de 11025 Hz o superior el nmero de muestras de cada anuncio es muy alto y el tiempo de procesado aumenta considerablemente, lo cual se ha podido comprobar durante la realizacin de las pruebas.
Nos quedamos por lo tanto con tres opciones, de stas tambin se descarta la correspondiente a 4 KHz y tiempo de captura igual a un octavo de segundo, pues
______________________________________________________________________________________________________________118
si hacemos los clculos el nmero de muestras a comparar es de 500 muestras, mientras que para las otras dos opciones es de 1000 muestras, resultando este ltimo nmero de muestras mucho ms adecuado para la calidad de la correlacin.
De esta manera slo nos quedan dos opciones entre las que elegir, en ambas el nmero de muestras a comparar es de 1000 muestras y los valores que se obtienen para las probabilidades son muy parecidos. Sin embargo trabajando con una frecuencia de muestreo de 4 KHz el tiempo empleado en la comparacin es menor, dado que el anuncio que tenemos almacenado tiene la mitad de muestras totales que con 8 KHz. A priori este motivo no debera ser decisivo en nuestra eleccin, pues con ambas frecuencias se puede realizar ms de una comparacin en el tiempo que dura cualquier anuncio publicitario que se emita hoy en da, por lo tanto con ambas se puede trabajar en tiempo real.
Sin embargo, como se puede adivinar observando los valores obtenidos estamos muy lejos del objetivo marcado para la probabilidad de prdida y falsa alarma, de forma que haciendo una comparacin de un trozo de cada anuncio que se emita con el anuncio que tenemos almacenado, el nmero de errores que se obtiene es muy alto, o sea, nuestro algoritmo no funciona. Este hecho hace que tengamos que buscar alguna solucin, y la que se ha adoptado es la de hacer ms de una comparacin por cada anuncio que se emita y plantear un algoritmo de decisin adecuado para que la probabilidad de error sea mnima. De esta forma, la probabilidad de error equivale al producto de las probabilidades de error de todas las comparaciones que se hagan por cada emisin de un anuncio, la probabilidad conjunta equivale al producto de las probabilidades marginales cuando los sucesos son independientes, y en este caso lo son.
As, si se muestrea a 4 KHz se pueden realizar ms comparaciones en el tiempo que dura un anuncio que si muestreamos a 8 KHz, por lo tanto la frecuencia escogida para implementar nuestra aplicacin es 4 KHz, y el tiempo de captura es 0.25 segundos, lo cual equivale a decir que Lh = 1000 muestras. Con esta frecuencia de muestreo se estar introduciendo aliasing en el dominio de la frecuencia, pero ya hemos visto antes que no nos afecta para nuestro fin.
______________________________________________________________________________________________________________119
Tan slo nos queda ya por definir el algoritmo de deteccin y el umbral ptimo, y esto es lo siguiente que se va a ver.
4.5.1) Introduccin.
Como ya hemos dicho nuestro objetivo es detectar anuncios en FM AM. Trabajaremos con una tasa de muestreo de 4 KHz y el trozo de seal que iremos capturando de la emisora de radio ser de 1/4 seg (Lh=1000). Trataremos de detectar un anuncio solamente en una emisora en tiempo real.
Para ello se ha implementado un programa principal, cuyo cdigo se ver posteriormente, desde el cual se hacen llamadas a cada una de las subrutinas que hemos visto, especialmente a la de comparacin de dos tramas de audio, ya que, como hemos adelantado, se tratar de hacer todas las comparaciones posibles en el tiempo de duracin del anuncio.
1) Inicializacin de todos las constantes y variables que son necesarias. Las constantes Ex (energa de las muestras del anuncio a detectar, el cual tenemos grabado) y M (tamao de las secciones en que se divide el anuncio para implementar el algoritmo Overlapp & Add) se han calculado previamente y se pasan como parmetros de entrada.
______________________________________________________________________________________________________________120
2) Se captura un trozo de seal de una emisora de radio, la que se tenga sintonizada para la deteccin del anuncio. Este trozo de seal tendr 1000 muestras, ya que la captura se realiza a una frecuencia de 4000 muestras/seg. durante 0.25 segundos.
3) Se compara la seal capturada con el anuncio que tenemos grabado a travs el proceso de comparacin que ya hemos visto, la correlacin cruzada.
4) Si la comparacin es positiva, o sea, hay un fragmento del anuncio que tenemos grabado que coincide con la seal capturada, entonces se entra en el bucle de deteccin positiva. Si la comparacin es negativa, se vuelve al punto 2).
5) Si se entra en el bucle de deteccin positiva se hace prctimente lo mismo, se seguir capturando seal de la emisora de radio y se comparar con el anuncio, as hasta que el anuncio finalice. Una vez en este bucle se evaluarn ciertos parmetros de cada una de las comparaciones que se van sucediendo y en funcin de dichos parmetros se decidir si realmente es el anuncio a detectar o, por el contrario, es una falsa alarma. En ste caso se abandonar el bucle de deteccin positiva inmediatamente.
6) Una vez que acaba el anuncio, si result ser el anuncio que buscamos se da un mensaje de deteccin positiva y se vuelve al punto 2).
Uno de los principales problemas con que nos hemos encontrado para llevar a cabo este proyecto ha sido con el de la adquisicin de datos desde la tarjeta de TV/FM. Si se intentara capturar datos directamente desde dicha tarjeta al Matlab el
______________________________________________________________________________________________________________121
proceso sera realmente complejo y difcil de solucionar, pero gracias a que la tarjeta de audio Sound Blaster funciona como interfaz se pueden capturar datos sin mayor dificultad, aunque con algunas limitaciones. La tarjeta Soundblaster funciona con varios formatos de audio ya conocidos, muchos de los cuales hemos visto con anterioridad. Uno de ellos es el formato wav, por lo tanto no hay que hacer ninguna conversin de datos para trabajar en Matlab.
Antes se ha utilizado la funcin waveload.m para poder trabajar en Matlab con anuncios ya grabados y almacenados en memoria. Vimos que esta funcin sustituye a la funcin wavread.m de Matlab, la cual no funcionaba por una pequea variacin en la cabecera de las seales .wav que utilizamos.
Sin embargo ahora no se trata de pasar seales de audio ya grabadas al entorno de trabajo de Matlab, sino de obtener las seales en dicho entorno de trabajo en tiempo real, sin cabeceras, sino slo datos. O sea, se trata de adquirir o capturar datos de una emisora de radio o televisin en tiempo real.
El Matlab tiene una librera que est dedicada precisamente a la captura de datos en tiempo real desde mltiples dispositivos, se llama Data Acquisition Toolbox, DAQ, sin embargo dicha librera es costosa y no disponemos de ella.
No obstante hemos encontrado una versin limitada de una de las funciones de esta librera que es ideal para nuestro propsito, sta es la funcin recordsnd.m, la cual se describe a continuacin:
Y=RECORDSOUND(SEGUNDOS) graba una seal audio mono, durante un tiempo igual al parmetro de entrada SEGUNDOS y a una tasa de muestreo de 8192 Hz y con muestras de 8 bits, en el vector Y, con rango -1 <= Y <= 1.
______________________________________________________________________________________________________________122
Y=RECORDSOUND(SECONDS,FS,NUMCANALES), donde el parmetro de entrada NUMCANALES indica si la seal audio a grabar es mono (=1) o estreo (=2).
Y=RECORDSOUND(SECONDS,FS,NUMCANALES, BITS), donde el parmetro de entrada BITS sirve para indicar el nmero de bits por muestra en la grabacin, 8 16.
Como se puede observar esta funcin es vlida y adecuada para nuestros propsitos, pero presenta una limitacin por ser una versin de libre distribucin. Esta limitacin consiste en que slo se puede grabar durante un tiempo menor o igual a 1 segundo cada vez que se utiliza. Nosotros trabajamos grabando la seal audio de la emisora de radio o televisin durante 1/4 de segundo, por lo tanto no tendremos ningn problema a priori y hemos resuelto la captura de datos en tiempo real de una forma sencilla y rpida.
No obstante no sera vlida si se dispusiera de los medios suficientes para trabajar en tiempo real con una base de datos que contenga una gran cantidad de anuncios, y un algoritmo de conmutacin que fuera seleccionando las distintas emisoras para monitorizarlas todas simultneamente. Por ello nuestra aplicacin podr detectar un anuncio conocido, cualquiera de los que se emiten tanto por radio como por televisin, en una emisora o cadena, la que est sintonizada en el momento de la deteccin.
Tan slo nos queda por analizar una cuestin, que es el mtodo y los parmetros a utilizar para decidir si la deteccin es positiva o no. El estudio del mtodo de decisin es de muy importante, y de l depender en gran parte el
______________________________________________________________________________________________________________123
funcionamiento y xito de la rutina principal. Por lo tanto a continuacin se va a examinar la implementacin del decisor y de todos sus parmetros. Se estudiar con especial cuidado el ms importante de estos parmetros, que es el umbral de deteccin, y las condiciones impuestas para considerar una deteccin positiva o negativa.
Ya hemos visto el proceso que sigue la rutina principal para comprobar si el anuncio que se est emitiendo es el que estamos buscando. Durante dicho proceso nos ayudaremos de los siguientes parmetros:
Umbral: se trata del umbral de deteccin, en cada comparacin que se haga del fragmento de seal que se captura con el anuncio grabado se comparar el mximo coeficiente de correlacin obtenido con el umbral de deteccin. Si el coeficiente de correlacin es mayor o igual al umbral la deteccin se considerar positiva. Estudiaremos su valor , que es constante, con posterioridad.
Detec: esta variable se inicializa como un vector de 15 ceros. Cuando hay una comparacin positiva se pone el primer elemento del vector a 1, y se entra en el bucle de deteccin. Se vuelve a hacer otra comparacin con otro fragmento de seal capturado unos segundos despus, y si de nuevo la comparacin es positiva se pondr el segundo elemento del vector a 1, en cambio si es negativa se pondr a cero. Este proceso se repetir hasta que se salga del bucle de deteccin, si salimos del bucle por que se ha incumplido alguna de las condiciones, o sea, porque no se trata del anuncio que buscamos, el vector Detec se pone a cero y se comienza de nuevo. Sin embargo si se sale del bucle porque ha transcurrido el tiempo que dura el anuncio este vector ser el que nos informe del nmero de comparaciones positivas y negativas que se han realizado durante la emisin de un anuncio.
______________________________________________________________________________________________________________124
Tdetec: esta variable tiene un funcionamiento parecido al de Detec, ya que ambas se inicializan y actualizan de la misma manera y en los mismos instantes. En Tdetec se irn almacenando los tiempos relativos a la duracin total del anuncio en los que se realiza cada comparacin positiva. As, la primera comparacin positiva que se haga pondr el primer elemento de Tdetec a 0, mientras que el segundo elemento reflejar la ubicacin del fragmento de seal capturado dentro del anuncio en unidades temporales. Una vez dentro del bucle de deteccin los elementos de este vector se irn actualizando tras cada comparacin.
Tanto Detec como Tdetec son vectores de 15 elementos, se ha tomado as porque es probable que se vayan a hacer ms de 15 comparaciones en el caso de una deteccin positiva (muchas menos si no se trata del anuncio que buscamos). Pero si el anuncio a buscar es de muy larga duracin habr que aumentar el nmero de elementos de ambos vectores.
Tdur: es el tiempo que dura el anuncio que tenemos grabado. Es muy fcil de calcular, ya que el anuncio es un parmetro de entrada y sabemos calcular su nmero de muestras (Longitud = length(anuncio)); entonces:
Esta constante, junto con Tdetec ser la que nos diga cundo se ha de salir del bucle de deteccin.
Umbral de deteccin:
ste es el principal de los parmetros, ya que se considerar cada una de las comparaciones positiva o negativa en funcin de su valor. Para su estudio se hace necesario volver al anlisis estadstico, recordemos la grfica y valores obtenidos para una frecuencia de 4000 Hz y un tiempo de captura de 0.25 segundos:
______________________________________________________________________________________________________________125
Asmismo, se muestra a continuacin una tabla con los valores tericos obtenidos para distintos umbrales de decisin:
Umbral 0.10 0.15 0.2 0.2218 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60
Pprdida 3.1569e-004 0.0014 0.0042 0.0061 0.0095 0.0187 0.0327 0.0531 0.0810 0.1177 0.1645 0.2222
Pfalarma 0.1001 0.0267 0.0065 0.0034 0.0014 2.8210e-004 4.9154e-005 7.4206e-006 9.4744e-007 9.9148e-008 8.1589e-009 4.9904e-010
En la tabla se puede observar que hay un valor central (umbral = 0.2218) para el cual las probabilidades de prdida y falsa alarma son similares. Sin embargo las probabilidades obtenidas son muy altas para los objetivos marcados (1x10-6).
______________________________________________________________________________________________________________126
Adems hemos de tener en cuenta que realizaremos varias comparaciones durante la emisin del anuncio, y que jugaremos con los resultados de cada una de ellas imponiendo ciertas condiciones que nos dirn si la deteccin es positiva o no, con lo cual estas probabilidades slo son orientativas.
A continuacin mostramos los valores obtenidos tras realizar una prueba con un umbral de decisin de 0.5, en la primera grfica tenemos el mximo coeficiente de correlacin obtenido en cada una de las comparaciones negativas, aparece en negrita el mayor de todos ellos.
En esta otra grfica podemos observar el mximo coeficiente de correlacin obtenido en cada una de las comparaciones positivas. Tambin se han includo los valores de correlacin que han provocado una falsa alarma en alguna comparacin: aparece en azul el valor del coeficiente de correlacin correspondiente a la comparacin que provoca la entrada en el bucle de deteccin, y en rojo el valor del coeficiente que provoca la salida de dicho bucle por no tratarse del anuncio que buscamos. Asmismo se ha marcado en negrita al menor
______________________________________________________________________________________________________________127
de los coeficientes de correlacin de todas las detecciones positivas, que como se puede comprobar son dos.
Aqu se puede observar que hay una correlacin que provoca que se entre en el bucle de deteccin (0.5006 ), pero la siguiente comparacin confirma que es una falsa alarma (0.2447). Seguidamente se observan los valores de una deteccin positiva (0.9345 0.9290 0.9330 0.9146 0.9637 0.9510 0.4047 0.9718), dos nuevas 0.4203), y de 0.9874
comparaciones que dan falsa alarma (0.5514 nuevo otra deteccin positiva (0.9741 0.9608 0.9482).
0.5311
0.9719
0.9829
0.9794
Recordamos que al hablar de falsa alarma, hay que distinguir entre falsa alarma en una comparacin y falsa alarma en una deteccin, una deteccin va a estar compuesta por varias comparaciones, por lo tanto una falsa alarma en una comparacin no significa que se haya cometido un error. De hecho en las falsas alarmas que comentamos en estas grficas se entra en el bucle de deteccin pero se sale inmediatamente, de forma que no se reconoce el anuncio que se est emitiendo.
En el algoritmo que hemos planteado hemos actuado de la siguiente manera: tras hacer estas pruebas se detect que con un umbral demasiado bajo (como es el valor 0.2218) tenamos demasiados errores por falsa alarma, adems se puede comprobar que para las comparaciones positivas el mximo coeficiente de correlacin es prximo a la unidad. Por lo tanto parece mucho ms adecuado aumentar el umbral de decisin, de ah que el umbral de decisin escogido sea de
______________________________________________________________________________________________________________128
0.5. Tericamente este umbral nos da un valor muy bueno para la probabilidad de falsa alarma (9.9148e-008), pero se obtiene un valor poco aceptable para la probabilidad de prdida (0.1177). Sin embargo tras observar los coeficientes obtenidos cuando hay una deteccin positiva, el menor de ellos tiene un valor de 0.9146, vemos que en la prctica se tiene una probabilidad de prdida muy pequea.
Si adems tenemos en cuenta que vamos a trabajar con varias comparaciones por cada emisin de un anuncio y que tenemos libertad para imponer las condiciones de deteccin positiva, gracias a los parmetros que se obtienen, nos damos cuenta que es necesario tomar un umbral de decisin cercano al valor promedio del dominio en el que trabajamos.
Por lo general en los algoritmos de decisin nos encontraremos con una sla condicin que vendr impuesta por el valor del umbral de decisin: si el valor obtenido es mayor al del umbral de decisin se ejecutarn una serie de secuencias y si es menor se ejecutarn otras sentencias distintas.
Sin embargo aqu tenemos un caso especial, ya que no slo hacemos una comparacin, sino que hacemos todas las posibles mientras dura el anuncio con el propsito de minimizar la probabilidad de error. Por lo tanto hemos de trabajar con los resultados obtenidos de hacer cada una de estas comparaciones. Ello nos da la posibilidad de imponer numerosas condiciones en funcin de las cuales consideraremos la deteccin positiva o negativa.
Si estas condiciones que se imponen son demasiado restrictivas, por ejemplo, que todas las comparaciones realizadas durante la emisin de un anuncio sean positivas, entonces tendremos una probabilidad de falsa alarma despreciable y la probabilidad de prdida ser relativamente alta. Si las condiciones son muy relajadas ocurrir el efecto contrario, difcilmente tendremos una prdida pero habr multitud de falsas alarmas.
______________________________________________________________________________________________________________129
Al poder jugar con tantos parmetros se pueden imponer muchsimas condiciones y de hecho habr muchas combinaciones de ellas que sean adecuadas. Tras hacer numerosas pruebas y obtener buenos resultados stas son las que hemos impuesto:
1) En cuanto haya una comparacin positiva se entrar en el bucle de deteccin, si una vez dentro de este bucle se realizan dos comparaciones negativas se saldr automticamente del bucle, considerando que no es el anuncio buscado.
2) Una vez dentro del bucle de deteccin el valor de los elementos del vector Tdetec debe ser creciente, si no es as se saldr automticamente del bucle de deteccin.
3) Una vez se sale del bucle de deteccin se comprueba cuntas comparaciones positivas ha habido, para considerar que la deteccin es positiva deben realizarse al menos el sesenta por ciento de las comparaciones positivas.
Conjugando estas tres condiciones se obtiene un detector muy robusto, de forma que el nmero de errores, ya sea por falsa alarma o por prdida, es prcticamente despreciable.
Para realizar estas pruebas se ha tomado una emisin de FM, durante la cual se repite un mismo anuncio dos veces. Por otra parte hemos conseguido grabar este anuncio de otra emisora de radio diferente. Tras ejecutar la rutina de deteccin en mltiples ocasiones no se ha observado ninguna falsa alarma ni ninguna prdida.
A continuacin mostramos el mensaje de deteccin que aparece en pantalla cada vez que se reconoce o detecta el anuncio:
______________________________________________________________________________________________________________130
ACTIVE LA EMISORA Y PULSE CUALQUIER TECLA PARA CONTINUAR EL ANUNCIO HA SIDO EMITIDO A LAS 20:35 DEL 16-Sep-2001 DESEA SEGUIR CON LA DETECCIN? NO=0, SI=1 EL ANUNCIO HA SIDO EMITIDO A LAS 20:38 DEL 16-Sep-2001 DESEA SEGUIR CON LA DETECCIN? NO=0, SI=1
La rutina principal devuelve tambin una tabla, llamada Tabla_detecciones, en la que se indican todas las emisiones detectadas:
Adems de realizar este experimento se han realizado muchos otros, con emisiones tanto de radio como de televisin, y anuncios de todo tipo y duracin. En todos ellos el resultado ha sido satisfactorio. Adems este resultado puede incluso ser ms fiable si se graba el anuncio de la misma emisora en la que lo vamos a buscar.
______________________________________________________________________________________________________________131
Como ya hemos visto con el detector de anuncios publicitarios que se ha implementado se puede monitorizar un anuncio en concreto y en una nica emisora de radio o televisin. Tras las pruebas realizadas hemos comprobado como esta aplicacin funciona correctamente con los mnimos recursos: un PC, tarjeta Sound Blaster, tarjeta de radio y televisin y el entorno de trabajo de Matlab. Sin embargo se puede incrementar la capacidad de deteccin de la aplicacin si se dispone de ms recursos. A continuacin se muestran algunas de las ideas o posibilidades de lo que pueden ser las lneas futuras de trabajo, aunque ser necesario un anlisis mucho ms exhaustivo para estudiar la posibilidad de llevar a cabo cada una de ellas: Reconocimiento de anuncios publicitarios utilizando una base de datos en la cual se almacenen dichos anuncios, de esta forma no se trabajara tan slo con un anunciante, sino que se podran monitorizar varios anuncios
simultneamente. El nmero de estos anuncios depender en gran parte de la capacidad de procesado de que se disponga. Realizacin de detecciones monitorizando varias emisoras simultneamente. Para ello sera necesario implementar un algoritmo de conmutacin entre emisoras o canales de radio y televisin, de forma que se haga un barrido de las emisoras que se pretendan controlar. Este barrido se podra realizar programando la tarjeta de radio y televisin, de forma que se capture secuencialmente un trozo de seal en cada una de las emisoras. A la hora de procesar las seales capturadas hara falta una mayor capacidad de procesado, as como una sincronizacin entre el algoritmo detector y el algoritmo conmutador. Tambin se hara necesario un identificador para cada emisora. Monitorizacin de anuncios publicitarios con varios anunciantes y varias emisoras de radio o televisin. Esta sera la aplicacin ms completa, ya que
______________________________________________________________________________________________________________132
abarca a las dos anteriores, no obstante es de una complejidad muy alta y se necesitaran recursos tal vez muy costosos. Reconocimiento de anuncios publicitarios en TV a travs de la comparacin de tramas de audio y de video. Se tendran dos procesos en paralelo, el primero de ellos (reconocimiento de tramas de audio) sera el que ya hemos visto; el segundo (reconocimiento de tramas de vdeo) supondra la captura de imgenes ms un procesado adicional de stas. Es sabido que este procesado adicional sera mucho ms complejo, ya que habra que trabajar con matrices de datos (el audio se puede almacenar en vectores unidimensionales, pero no as las imgenes).
Es evidente que para implementar alguna de estas aplicaciones es necesario disponer tanto de recursos tecnolgicos como humanos, dado que probablemente no sea suficiente un PC, sino que habra que programar una placa DSP de alta capacidad, la cual proporcionara una velocidad de procesado muy superior. Tambin sera conveniente disponer del Data Acquisition Toolbox de Matlab, el cual nos permite trabajar con varios canales en cada uno de los cuales se podra monitorizar una emisora.
Juntos, MATLAB y el Data Acquisition Toolbox ofrecen un entorno integrado nico para soportar todo el proceso de adquisicin y anlisis de datos. Se pueden analizar y visualizar fcilmente datos al vuelo, guardarlos para un procesado posterior y hacer actualizaciones iterativas a su setup de ensayo basndose en los resultados de su anlisis. Las principales caractersticas de esta librera son: Interfaz con dispositivos de adquisicin de datos de estndar en la industria. Acceso directamente desde MATLAB a datos medidos en directo. Entorno integrado nico para adquisicin, anlisis y visualizacin de datos. Entrada analgica, salida analgica y E/S digital. Interfaz directa para caractersticas de circuito soportadas, tales como:
______________________________________________________________________________________________________________133
Triggers de hardware y software. Kit adaptador para crear interfaces personalizadas para hardware no soportado.
______________________________________________________________________________________________________________134
______________________________________________________________________________________________________________135
The WAVE form is defined as follows. Programs must expect(and ignore) any unknown chunks encountered, as with all RIFF forms. However, <fmt-ck> must always occur before <wave-data>, and both of these chunks are mandatory in a WAVE file.< WAVE-form> -> RIFF( 'WAVE' <fmt-ck> [<fact-ck>] [<cue-ck>] [<playlist-ck>] [<assoc-data-list>] <wave-data> )
// // // // // //
Format Fact chunk Cue points Playlist Associated data list Wave data
WAVE chunks are described in the following sections. WAVE Format Chunk The WAVE format chunk <fmt-ck> specifies the format of the <wavedata>. The <fmt-ck> is defined as follows: <fmt-ck> -> fmt( <common-fields> <format-specific-fields> )
<common-fields> -> struct { WORD wFormatTag; WORD wChannels; DWORDdwSamplesPerSec; DWORDdwAvgBytesPerSec; WORD wBlockAlign; } Common Fields Chunk
// // // // //
Format category Number of channels Sampling rate For buffer estimation Data block size
The fields in the <common-fields> chunk are as follows: Field wFormatTag Description A number indicating the WAVE format category of the file. The content of the <format-specificfields> portion of the `fmt' chunk, and the interpretation of the waveform data,on this value. must register any new WAVE format categories. See ``Registering Multimedia Formats'' in Chapter 1, ``Overview of Multimedia,'' for information on registering WAVE format categories. ``Wave Format Categories,'' following this section, lists the currently defined WAVE format categories. The number of channels represented in the waveform data, such as 1 for mono or 2 for stereo. The sampling rate (in samples per second)
wChannels
dwSamplesPerSec
______________________________________________________________________________________________________________136
at which each channel should be played. dwAvgBytesPerSec The average number of bytes per second at which the waveform data should be transferred. Playback software can estimate the buffer size using this value. The block alignment (in bytes) of the waveform data. Playback software needs to process a multiple of wBlockAlign bytes of data at a time, so the value of wBlockAlign can be used for buffer alignment.
wBlockAlign
Format Specific Fields Chunk The <format-specific-fields> consists of zero or more bytes of parameters. Which parameters occur depends on the WAVE format category-see the following section for details. Playback software should be written to allow for (and ignore) any unknown <format-specific-fields> parameters that occur at the end of this field. WAVE Format Categories The format category of a WAVE file is specified by the value of the wFormatTag field of the `fmt' chunk. The representation of data in <wavedata>, and the content of the <format-specific-fields> of the `fmt' chunk, depend on the format category. The currently defined open non-proprietary WAVE format categories are as follows: wFormatTag Value WAVE_FORMAT_PCM (0x0001) Format Category_ Microsoft Pulse Code Modulation (PCM)
The following are the registered proprietary WAVE format categories: wFormatTag Value FORMAT_MULAW IBM_FORMAT_ALAW IBM_FORMAT_ADPCM (0x0101) (0x0102) (0x0103) Format Category_ IBM mu-law format IBM a-law format IBM AVC Adaptive Differential PCM format
Microsoft WAVE_FORMAT_PCM format The following sections describe the Microsoft WAVE_FORMAT_PCM format. If the wFormatTag field of the <fmt-ck> is set to WAVE_FORMAT_PCM, then the waveform data consists of samples represented in pulse code modulation (PCM) format. For PCM waveform data, the <format-specific-fields> is defined as follows: <PCM-format-specific> -> struct { WORD wBitsPerSample; }
// Sample size
The wBitsPerSample field specifies the number of bits of data used to represent each sample of each channel. If there are multiple channels, the sample size is the same for each channel.
______________________________________________________________________________________________________________137
For PCM data, the wAvgBytesPerSec field of the `fmt' chunk should be equal to the following formula rounded up to the next whole number: wBitsPerSample wChannels x wBitsPerSecond x -------------8 The wBlockAlign field should rounded to the next whole number: wBitsPerSample wChannels x -------------8 Data Packing for PCM WAVE Files In a single-channel WAVE file, samples are stored consecutively. For stereo WAVE files, channel 0 represents the left channel, and channel 1 represents the right channel. The speaker position mapping for more than two channels is currently undefined. In multiple-channel WAVE files, samples are interleaved. The following diagrams show the data packing for a 8-bit mono and stereo WAVE files: Data Packing for 8-Bit Mono PCM: Sample 1 --------Channel 0 Sample 2 --------Channel 0 Sample 3 --------Channel 0 Sample 4 --------Channel 0 be equal to the following formula,
Data Packing for 8-Bit Stereo PCM: Sample 1 --------------------Channel 0 Channel 1 (left) (right) Sample 2 --------------------Channel 0 Channel 0 (left) (right)
The following diagrams show the data packing for 16-bit mono and stereo WAVE files: Data Packing for 16-Bit Mono PCM: Sample 1 ---------------------Channel 0 Channel 0 low-order high-order byte byte Data Packing for 16-Bit Stereo PCM: Sample 1 --------------------------------------------Channel 0 Channel 0 Channel 1 Channel 1 (left) (left) (right) (right) low-order high-order low-order high-order byte byte byte byte Data Format of the Samples Sample 2 ---------------------Channel 0 Channel 0 low-order high-order byte byte
______________________________________________________________________________________________________________138
Each sample is contained in an integer i. The size of i is the smallest number of bytes required to contain the specified sample size. The least significant byte is stored first. The bits that represent the sample amplitude are stored in the most significant bits of i, and the remaining bits are set to zero. For example, if the sample size (recorded in nBitsPerSample) is 12 bits, then each sample is stored in a two-byte integer. The least significant four bits of the first (least significant) byte is set to zero. The data format and maximum and minimums values for PCM waveform samples of various sizes are as follows: SampleSize One to eight bits Nine or more bits DataFormat Unsigned integer Signed integer i Max.Value 255 (0xFF) MinimumValue 0
For example, the maximum, minimum, and midpoint values for 8-bit and 16-bit PCM waveform data are as follows: Format 8-bit PCM 16-bit PCM Max.Value 255 (0xFF) 32767 (0x7FFF) Min.Value 0 -32768 (-0x8000) MidpointValue 128 (0x80) 0
Examples of PCM WAVE Files Example of a PCM WAVE file with 11.025 kHz sampling rate, mono, 8 bits per sample: RIFF( 'WAVE' fmt(1, 1, 11025, 11025, 1, 8) data( <wave-data> ) )
Example of a PCM WAVE file with 22.05 kHz sampling rate, stereo, 8 bits per sample: RIFF( 'WAVE' fmt(1, 2, 22050, 44100, 2, 8) data( <wave-data> ) )
Example of a PCM WAVE file with 44.1 kHz sampling rate, mono, 20 bits per sample: RIFF( 'WAVE' INFO(INAM("O Canada"Z)) fmt(1, 1, 44100, 132300, 3, 20) data( <wave-data> ) )
Storage of WAVE Data The <wave-data> contains the waveform data. It is defined as follows: <wave-data> -> <data-ck> -> <wave-list> -> <silence-ck> -> { <data-ck> : <data-list> } data( <wave-data> ) LIST( 'wavl' { <data-ck> : <silence-ck> }... ) slnt( <dwSamples:DWORD> )
// // // //
______________________________________________________________________________________________________________139
Note: The `slnt' chunk represents silence, not necessarily a repeated zero volume or baseline sample. In 16-bit PCM data, if the last sample value played before the silence section is a 10000, then if data is still output to the D to A converter, it must maintain the 10000 value. If a zero value is used, a click may be heard at the start and end of the silence section. If play begins at a silence section, then a zero value might be used since no other information is available. A click might be created if the data following the silent section starts with a nonzero value. FACT Chunk The <fact-ck> fact chunk stores important information contents of the WAVE file. This chunk is defined as follows: <fact-ck> -> fact( <dwFileSize:DWORD> ) about the
// Number of samples
The `fact'' chunk is required if the waveform data is contained in a `wavl'' LIST chunk and for all compressed audio formats. The chunk is not required for PCM files using the `data'' chunk format. The "fact" chunk will be expanded to include any other information required by future WAVE formats. Added fields will appear following the <dwFileSize> field. Applications can use the chunk size field to determine which fields are present. Cue-Points Chunk The <cue-ck> cue-points chunk identifies a series of positions in the waveform data stream. The <cue-ck> is defined as follows: <cue-ck> -> cue( <dwCuePoints:DWORD> // Count of cue points <cue-point>... ) // Cue-point table <cue-point> -> struct { DWORD dwName; DWORD dwPosition; FOURCC fccChunk; DWORD dwChunkStart; DWORD dwBlockStart; DWORD dwSampleOffset; } The <cue-point> fields are as follows: Field dwName dwPosition Description Specifies the cue point name. Each <cue-point> record must have a unique dwName field. Specifies the sample position of the cue point.This is the sequential sample number within the play order. See ``Playlist Chunk,'' later in this document, for a discussion of the play order. Specifies the name or chunk ID of thechunk containing the cue point. Specifies the file position of the start of the chunk containing the cue point. This is a byte offset relative to the start of the data section of the `wavl' LIST chunk. Specifies the file position of the start of
fccChunk dwChunkStart
dwBlockStart
______________________________________________________________________________________________________________140
dwSampleOffset
the block containing the position. This is a byte offset relative to the start of the data section of the `wavl' LIST chunk. Specifies the sample offset of the cuepoint relative to the start of the block.
Examples of File Position Values The following table describes the <cue-point> field values for a WAVE file containing multiple `data' and `slnt' chunks enclosed in a `wavl' LIST chunk:
CuePointLoc. a `slnt'
Value FOURCC value `slnt'. File position of the`slnt' chunk relative to the start of the section in the `wavl' LIST chunk.
data
dwBlockStart
dwSampleOffset
File position of the datasection of the `slnt' chunk relative to the start of the data section of the `wavl' LIST chunk. Sample position of the cuepoint relative to the start of the `slnt' chunk. FOURCC value `data'. File position of the`data' chunk relative to the start of the section in the `wavl' LIST chunk. File position of the cuepoint relative to the start of the section of the `wavl' LIST chunk. Zero value. FOURCC value `data'.
fccChunk dwChunkStart
data
dwBlockStart
data
dwChunkStart
File position of the startof the `data' chunk relative to the start of the data section of the `wavl' LIST chunk. File position of theenclosing block relative to the start of the data section of the `wavl' LIST chunk. The software can begin the decompression at this point. Sample position of the cuepoint relative to the start of the block.
dwBlockStart
dwSampleOffset
______________________________________________________________________________________________________________141
The following table describes the <cue-point> field values for a WAVE file containing a single `data' chunk: CuePointLoc. Within PCM data Field fccChunk dwChunkStart dwBlockStart dwSampleOffset Value FOURCC value `data'. Zero value. Zero value. Sample position of the cuepoint relative to the start of the chunk. FOURCC value `data'.
`data'
fccChunk
dwChunkStart dwBlockStart
Zero value. File position of theenclosing block relative to the start of the `data' chunk. The software can begin the decompression at this point. Sample position of the cuepoint relative to the start of the block.
dwSampleOffset
Playlist Chunk The <playlist-ck> playlist chunk specifies a play order for a series of cue points. The <playlist-ck> is defined as follows: <playlist-ck> -> plst( <dwSegments:DWORD> <play-segment>... ) <play-segment> -> struct { DWORD dwName; DWORD dwLength; DWORD dwLoops; } The <play-segment> fields are as follows: Field dwName Description Specifies the cue point name. This value must match one of the names listed in the <cue-ck> cue-point table. Specifies the length of the section in samples. Specifies the number of times to play the section. // Count of play segments // Play-segment table
dwLength
dwLoops
Associated Data Chunk The <assoc-data-list> associated data list provides the ability to attach information like labels to sections of the waveform data stream. The <assoc-data-list> is defined as follows: <assoc-data-list> -> LIST('adtl'
______________________________________________________________________________________________________________142
<labl-ck> <note-ck> <ltxt-ck> <file-ck> ) <labl-ck> -> <note-ck> -> <ltxt-ck> ->
// // // //
labl( <dwName:DWORD> <data:ZSTR> ) note( <dwName:DWORD> <data:ZSTR> ) ltxt( <dwName:DWORD> <dwSampleLength:DWORD> <dwPurpose:DWORD> <wCountry:WORD> <wLanguage:WORD> <wDialect:WORD> <wCodePage:WORD> <data:BYTE>... ) file( <dwName:DWORD> <dwMedType:DWORD> <fileData:BYTE>...)
<file-ck> ->
Label and Note Information The `labl' and `note' chunks have similar fields. The `labl' chunk contains a label, or title, to associate with a cue point. The `note' chunk contains comment text for a cue point. The fields are as follows: Field dwName Description Specifies the cue point name. This value must match one of the names listed in the <cue-ck> cue-point table. Specifies a NULL-terminated string containing a text label (for the `labl' chunk) or comment text (for the `note' chunk).
data
Text with Data Length Information The `ltxt'' chunk contains text that is associated segment of specific length. The chunk fields are as follows: Field dwName with a data
Description Specifies the cue point name. This value must match one of the names listed in the <cue-ck> cue-point table. Specifies the number of samples in the segment of waveform data. Specifies the type or purpose of the text. For example, dwPurpose can specify a FOURCC code like `scrp' for script text or `capt' for close-caption text. Specifies the country code for the text. See ``Country Codes'' in Chapter 2, ``Resource Interchange File
dwSampleLength
dwPurpose
wCountry
______________________________________________________________________________________________________________143
for
current
list
of
country
Specify the language and dialect codes for the text. See ``Language and Dialect Codes'' in Chapter 2, ``Resource Interchange File Format,'' for a current list of language and dialect codes. Specifies the code page for the text.
The `file' chunk contains information described in other file formats (for example, an `RDIB' file or an ASCII text file). The chunk fields are as follows: Field dwName Description Specifies the cue point name. This value must match one of the names listed in the <cue-ck> cue-point table. Specifies the file type contained in the fileData field. If the fileData section contains a RIFF form, the dwMedType field is the same as the RIFF form type for the file. This field can contain a zero value. Contains the media file.
dwMedType
fileData
______________________________________________________________________________________________________________144
III. APNDICE B: CARACTERSTICAS TCNICAS DEL HARDWARE EMPLEADO EN LA REALIZACIN DEL PROYECTO.
______________________________________________________________________________________________________________145
B:
CARACTERISTICAS EN LA
TECNICAS
DEL DEL
EMPLEADO
REALIZACION
______________________________________________________________________________________________________________146
1. IBM PC compatible, Pentium processor or higher. 2. VGA card with their chipset specific Direct Draw 5.0 driver. 3. One free 32-bit PCI V2.1 slot. 4. Runs under Microsoft Windows 95/98.
Caractersticas tcnicas:
______________________________________________________________________________________________________________147
6. Support major VGA card with their chipset specific Direct Draw 5.0 driver.
______________________________________________________________________________________________________________148
The features described above are general in WinView series products. Please refer to their respective product catalog, manual or packing box for detail product features and specifications.
Adems del software de instalacin, las utilidades de configuracin, los controladores de dispositivo y las utilidades de inicializacin, Sound Blaster AudioPCI 128:
1. Sintetizador:
Incluye lotes de sonidos General MIDI/ Roland MT-32 de 2MB y 4MB as como emulacin de sintetizador AdLib/ SoundBlaster 16 (con OPL2) FM.
Debido a la alta frecuencia de transferencia de datos que es posible conseguir a travs del bus PCI, Sound Blaster AudioPCI 128 puede
utilizar un mtodo flexible para almacenar y acceder a los sonidos de tabla de ondas. Todos los sonidos de los instrumentos de 128 General MIDI estn almacenados en el disco duro del ordenador para acceder a ello utilizando la RAM del ordenador. Esta tecnologa permite lotes de expansin de sonido.
2. Audio Digital:
Permite la grabacin de sonido en estreo con calidad de CD (hasta 16 bits, frecuencia de muestreo de 48.0 Khz) desde entradas de Aux, CD y Lnea as como desde el sintetizador interno.
Permite la grabacin de sonido en mono desde la entrada de Micro con 20 Dbs de mejora.
______________________________________________________________________________________________________________149
3. MIDI:
Proporciona una interfaz MPU-401 compatible con MIDI, incluida una entrada de MIDI y una salida MIDI (requiere un cable externo que no se suministra).
Activa la reproduccin de archivos MIDI estndar de ordenador (p.ej. .MID, .ROL, etc.) tanto en el sintetizador interno como en uno externo.
4. Mezclador:
El
mezclador y de
de
software
permite con
mezclar que
las
salidas de
del las
sintetizador
audio
digital
seales
procedan
4) Tarjeta grfica:
______________________________________________________________________________________________________________150
______________________________________________________________________________________________________________151
FUNCION WAVELOAD.M
function [y,Fs,Format]=waveload(wavefile)
if nargin~=1 error('Waveload tiene un argumento, que es el nombre del fichero .WAV'); end
fid=fopen(wavefile,'rb');
% 'r' es slo lectura y 'b' indica 'big% endian byte ordering' % para fread.
if fid ~= -1
while DataNotFound,
______________________________________________________________________________________________________________152
% Busca de dos en dos bytes header=fread(fid,2,'uchar'); if header-['da']' == 0, DataNotFound=0; end end % hasta que encuentra 'da', % de esta forma ignoramos los % espacios en blanco.
header=fread(fid,2,'uchar'); nsamples=fread(fid,1,'uint32')/Format(5);
if Format(6)==8, y=fread(fid,nsamples,'uchar'); y=y-128; y=y./128; % Las muestras son de 8 bits. % Quita el offset (mean(y) % devuelve la media de y). % y normaliza las muestras. elseif Format(6)==16, y=fread(fid,nsamples,'short'); y=y-0; y=y./32768; end % Las muestras son de 16 bits. % Cuando se codifica con 16 % bits ya se ha eliminado % el offset, slo hay que % normalizar. fclose(fid); end
if fid == -1 error('No se puede abrir el fichero .WAV debido al fichero de entrada!'); end;
______________________________________________________________________________________________________________153
FUNCION OVERADD.M
function [s]=overadd(x,h,Lh,M,Ex)
% Funcin que realiza el procedimiento "overlap and add". % h corresponde a la seal ms corta,o sea, al trozo del anuncio que % queremos detectar. En este caso x corresponde a la seal que nos % llega de la radio. % M es la longitud de las secciones. Dividiremos "x" en L secciones de % longitud M, suponiendo siempre que la longitud de "x", Lx, es % mltiplo de M. Lx=length(x); L=Lx-Lh+1; % En realidad esta es la longitud de la seal de % correlacin que realmente nos es til. N=M+Lh-1; % En primer lugar determinamos N, que va a ser la % longitud de la FFT % con la que vamos a trabajar. N=2^ceil(log2(N)); % Para que el clculo de la DFT sea ms eficiente
L=ceil(Lx/M); h1=flipud(h);
% L=n de secciones de longitud M en que se divide x % Invertimos una de las seales para obtener la % correlacin.
DFTH=fft(h1,N);
s=abs(sum(MAT));
% Tomamos slo las muestras que nos interesan, pues % las colas de la correlacin no nos sirven para
s=s(Lh:Lx); Eh=sum(h.^2);
% nuestro estudio.
% Normalizamos cada uno de los coeficientes de correlacin por la energa if Eh>0 s=s./sqrt(Ex*Eh); end % de las seales utilizadas para su clculo. El vector % Ex se corresponde con los parmetros de normalizacin % calculados con la funcin energa.m. Ex se calcula % de antemano debido al elevado nmero de clculos.
______________________________________________________________________________________________________________154
FUNCION OVERADD1.M
function [s,noper]=overadd1(Lh,x,y,M,Ex)
% Funcin que realiza el procedimiento "overlap and add". % h corresponde a la seal ms corta,o sea, al trozo del anuncio que % queremos detectar en este caso. % x corresponde a la seal que nos llega de la radio. % M es la longitud de las secciones. Dividiremos "x" en L secciones de % longitud M, supo niendo siempre que la longitud de "x", Lx, es % mltiplo de M.
flops(0); tic; i=1; Lx=length(x); L=Lx-Lh+1; % En realidad esta es la longitud de la % seal de correlacin que realmente nos es til.
alea=floor(rand(1,1)*L);
h=y(alea:alea+Lh-1);
N=M+Lh-1;
% En primer lugar determinamos N, que va a ser la % longitud de la FFT con la que vamos a trabajar.
N=2^ceil(log2(N));
L=ceil(Lx/M); h1=flipud(h);
% L=n de secciones de longitud M en que se divide x % Invertimos una de las seales para obtener la % correlacin.
______________________________________________________________________________________________________________155
s=abs(sum(MAT)); s=s(Lh:Lx); % Tomamos slo las muestras que nos interesan, pues % las colas de la coEh=sum(h.^2); s=s./sqrt(Ex*Eh); % rrelacin no nos sirven para nuestro estudio. % Normalizamos cada uno de los coeficientes de % correlacin por la energa de las seales % utilizadas para su clculo. El vector Ex se toc % corresponde con los parmetros de normalizacin % calculados con la funcin energa. Ex se calcula noper=flops; % de antemano debido al elevado nmero de clculos.
[ymax,maxindex]=max(s) plot([1:length(s)],s);
______________________________________________________________________________________________________________156
FUNCION ENERGIA.M
function [Ex]=energia(Lh,x,M)
% Funcin que calcula la energa del anuncio que se le pasa como % entrada. Este valor de la energa se utilizar en la funcin % overadd.m para normalizar el vector resultante de la correlacin. % El mtodo utilizado para calcular la energa es el de correlar las % muestras del anuncio con un vector de 1s que tiene la misma % longitud que la otra seal a correlar, Lh.
unos=ones(Lh,1); Lx=length(x);
N=M+Lh-1; N=2^ceil(log2(N));
x=x.^2;
for i=1:L
end
Ex=abs(sum(MAT));
Ex=Ex(Lh:Lx);
______________________________________________________________________________________________________________157
FUNCION CUATRO.M
% Con esta funcin lo que se hace es diezmar el anuncio que tenemos % grabado, ya que con los dispositivos de los que disponemos la mnima % tasa de muestreo permitida es de 8000 Hz. Para trabajar con 4000 Hz % hay que diezmar las muestras, tomando una de cada dos muestras.
function [salida]=cuatro(entrada)
L=length(entrada); salida=entrada(1:2:L);
______________________________________________________________________________________________________________158
FUNCION ESTADISTICAS.M
function [ro,muestras]=estadisticas(Lh,x,y,z)
% Esta funcin nos va a servir para ajustar los valores de la % correlacin a una funcin de distribucin, de forma que % posteriormente se tenga un proceso monitorizado del que se puedan % obtener las probabilidades de deteccin correcta, deteccin % incorrecta, fallo,... % Para ajustar dicha f. de dist. haremos mltiples pruebas con varios % anuncios. As se tomarn diferentes emisiones de una misma emisora, % y tambin de distintas emisoras, de un mismo anuncio, de manera que % nos acerquemos lo ms posible al caso real.
% Mximo de los coeficientes de correlacin, til para % establecer un umbral que nos d la probabilidad de deteccin, as % como el valor de la abscisa para el que se obtiene-.
% Cincuenta coeficientes tomados aleatoriamente de la correlacin, % exceptuando el mximo coef. de correlacin y los valores que % resultan a su alrededor en una distancia Lh, pues estos % pueden falsear el ajuste de la func. dens. de probabilidad. Estos % cincuenta valores nos servirn para calcular la probabilidad de % falsa alarma (probabilidad de deteccin errnea).
% La funcin dens. de probabilidad que vamos a utilizar es la funcin % beta, que se ajusta muy bien a nuestras necesidades, ya que % trabajaremos con el mdulo de los coefic. de correlacin, que vara % entre 0 y 1.
% Esto lo haremos para distintas frecuencias de muestreo y distintas % duraciones de la seal tomada de la radio, o sea se har una % simulacin para cada una de las parejas resultantes de tomar una % frecuencia y un tiempo de conmutacin:
______________________________________________________________________________________________________________159
% 1/128
ro=zeros(1,6); aleat=zeros(1,50); muestras=zeros(1,300); % La longitud de las otras versiones % del anuncio es la misma. Lx=length(x); % M es la longitud de las secciones % para el overlapp&add (sp. buscamos if Lx>1572000, M=(2^19)-Lh+1; % al menos tres secciones).
elseif 1572000>Lx & Lx>786000, M=(2^18)-Lh+1; elseif 786000>Lx & Lx>393000, M=(2^17)-Lh+1; elseif 393000>Lx & Lx>196000, M=(2^16)-Lh+1; elseif 196000>Lx & Lx>98000, M=(2^15)-Lh+1; elseif Lx<98000, M=(2^14)-Lh+1; end [Ex]=energia(Lh,x,M);
s(1,:)=overadd1(Lh,x,y,M,Ex);
s(2,:)=overadd1(Lh,x,z,M,Ex);
s(3,:)=overadd1(Lh,x,y,M,Ex);
s(4,:)=overadd1(Lh,x,z,M,Ex);
s(5,:)=overadd1(Lh,x,y,M,Ex);
s(6,:)=overadd1(Lh,x,z,M,Ex);
L=Lx-Lh+1;
% L es la longitud de cada vector de correlacin. % Tomamos los valores que posteriormente vamos a
______________________________________________________________________________________________________________160
aleat(j)=floor(rand(1,1)*L); while (posic(i)-Lh)<aleat(j) & aleat(j)<(posic(i)+Lh) aleat(j)=floor(rand(1,1)*L); end end muestras(50*(i-1)+1:50*i)=r(aleat); end
______________________________________________________________________________________________________________161
FUNCION ESTADISTICAS2.M
[ro3,muestras3]=estadisticas(Lh,x3,y3,z3); ro=[ro1 ro2 ro3]; muestras=[muestras1 muestras2 muestras3]; save provisional.mat ro muestras
[ro4,muestras4]=estadisticas(Lh,x4,y4,z4); ro=[ro1 ro2 ro3 ro4]; muestras=[muestras1 muestras2 muestras3 muestras4]; save provisional.mat ro muestras
% Vemos que para cada pareja frecuencia-tiempo vamos obteniendo 24 % valores del mximo coef. de correlacin y 1200 valores aleatorios de % dicha correlacin, almacenados en las matrices ro y muestras % respectivamente.
______________________________________________________________________________________________________________162
FUNCION ESTAD44.M
% Con esta funcin,y apoyndonos en las ya vistas, "estadsticas2.m" y % "estadsticas.m", se calculan los valores buscados para una % determinada frecuencia, en este caso 44.1 KHz. As la frecuencia es % una constante, y la variable ser la duracin del trozo de anuncio: % 2s, 1s, 1/2s, %..., 1/128s. Dependiendo de estos dos parmetros % evitaremos hacer los clculos correspondientes a alguna de las % parejas frecuencia-tiempo, pues se sabe a priori que no va a ser la % pareja ptima por el alto nmero de operaciones a realizar:
%Descartamos las parejas: 44.1 KHz-2 seg (88200 muestras) % % % % % % 44.1 KHz-1 seg (44100 muestras) 44.1 KHz-1/2 seg (22050 muestras) 44.1 KHz-1/4 seg (11025 muestras) 44.1 KHz-1/8 seg (5512 muestras) 44.1 KHz-1/16 seg (2756 muestras) 44.1 KHz-1/32seg (1378 muestras)
%[ro44200,muestras44200]=estadisticas2(88200,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro44001,muestras44001]=estadisticas2(44100,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro44002,muestras44002]=estadisticas2(22050,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro44004,muestras44004]=estadisticas2(11025,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro44008,muestras44008]=estadisticas2(5512,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro44016,muestras44016]=estadisticas2(2756,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
______________________________________________________________________________________________________________163
%[ro44032,muestras44032]=estadisticas2(1378,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
[ro44064,muestras44064]=estadisticas2(689,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro44128,muestras44128]=estadisticas2(344,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
ro44=[ro44064;ro44128]; muestras44=[muestras44064;muestras44128];
______________________________________________________________________________________________________________164
FUNCION ESTAD22.M
% Con esta funcin,y apoyndonos en las ya vistas, "estadsticas2.m" y % "estadsticas.m", se calculan los valores buscados para una % determinada frecuencia, en este caso 22.05 KHz. As la frecuencia es % una constante, y la variable ser la duracin del trozo de anuncio: % 2s, 1s, 1/2s,..., 1/128s. Dependiendo de estos dos parmetros % evitaremos hacer los clculos correspondientes a alguna de las % parejas frecuencia-tiempo, pues se sabe a priori que no va a ser la % pareja ptima por el alto nmero de operaciones a realizar:
% Descartamos las parejas: 22.050 KHz-2 seg (44100 muestras) % % % % % 22.050 KHz-1 seg (22050 muestras) 22.050 KHz-1/2 seg (11025 muestras) 22.050 KHz-1/4 seg (5512 muestras) 22.050 KHz-1/8 seg (2756 muestras) 22.050 KHz-1/16 seg (1378 muestras)
%[ro22200,muestras22200]=estadisticas2(44100,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro22001,muestras22001]=estadisticas2(22050,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro22002,muestras22002]=estadisticas2(11025,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro22004,muestras22004]=estadisticas2(5512,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro22008,muestras22008]=estadisticas2(2756,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro22016,muestras22016]=estadisticas2(1378,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
______________________________________________________________________________________________________________165
[ro22032,muestras22032]=estadisticas2(689,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro22064,muestras22064]=estadisticas2(344,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro22128,muestras22128]=estadisticas2(172,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
ro22=[ro22032;ro22064;ro22128]; muestras22=[muestras22032;muestras22064;muestras22128];
______________________________________________________________________________________________________________166
FUNCION ESTAD11.M
% Con esta funcin,y apoyndonos en las ya vistas, "estadsticas2.m" y % "estadsticas.m", se calculan los valores buscados para una % determinada frecuencia, en este caso 11.025 KHz. As la frecuencia % es una constante, y la variable ser la duracin del trozo de % anuncio: 2s, 1s, 1/2s,..., 1/128s.Dependiendo de estos dos % parmetros evitaremos hacer los clculos correspondientes % a alguna de las parejas frecuencia-tiempo, pues se sabe a priori que % no va a ser la pareja ptima por el alto nmero de operaciones a % realizar:
% Descartamos las parejas: 11.025 KHz-2 seg (22050 muestras) % % % % 11.025 KHz-1 seg (11025 muestras) 11.025 KHz-1/2 seg (5512 muestras) 11.025 KHz-1/4 seg (2576 muestras) 11.025 KHz-1/8 seg (1378 muestras)
%[ro11200,muestras11200]=estadisticas2(22050,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro11001,muestras11001]=estadisticas2(11025,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro11002,muestras11002]=estadisticas2(5512,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro11004,muestras11004]=estadisticas2(2756,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
%[ro11008,muestras11008]=estadisticas2(1378,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4, y4,z4);
[ro11016,muestras11016]=estadisticas2(689,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
______________________________________________________________________________________________________________167
[ro11032,muestras11032]=estadisticas2(344,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro11064,muestras11064]=estadisticas2(172,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro11128,muestras11128]=estadisticas2(86,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
ro11=[ro11016;ro11032;ro11064;ro11128]; muestras11=[muestras11016;muestras11032;muestras11064;muestras11128];
______________________________________________________________________________________________________________168
FUNCION ESTAD8.M
function [ro8,muestras8]=estad8(x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4,z4)
% Con esta funcin,y apoyndonos en las ya vistas, "estadsticas2.m" y % "estadsticas.m", se calculan los valores buscados para una % % % determinada frecuencia, en este caso 8 KHz. As la frecuencia es una % constante, y la variable ser la duracin del trozo de anuncio: 2s, % 1s, 1/2s,..., 1/128s. Dependiendo de estos dos parmetros evitaremos % hacer los clculos correspondientes a alguna de las parejas % frecuencia-tiempo, pues se sabe a priori que no va a ser la pareja % ptima por el alto nmero de operaciones a realizar:
% Descartamos las parejas: 8 KHz-2 seg (16000 muestras) % % % 8 KHz-1 seg (8000 muestras) 8 KHz-1/2 seg (4000 muestras) 8 KHz-1/4 seg (2000 muestras)
%[ro8200,muestras8200]=estadisticas2(16000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4 ,z4);
%[ro8001,muestras8001]=estadisticas2(8000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
%[ro8002,muestras8002]=estadisticas2(4000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
%[ro8004,muestras8004]=estadisticas2(2000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro8008,muestras8008]=estadisticas2(1000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro8016,muestras8016]=estadisticas2(500,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro8032,muestras8032]=estadisticas2(250,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
______________________________________________________________________________________________________________169
[ro8064,muestras8064]=estadisticas2(125,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro8128,muestras8128]=estadisticas2(62,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
______________________________________________________________________________________________________________170
FUNCION ESTAD4.M
function [ro4,muestras4]=estad4(x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4,z4)
% Con esta funcin,y apoyndonos en las ya vistas, "estadsticas2.m" y % "estadsticas.m", se calculan los valores buscados para una % determinada frecuencia, en este caso 4 KHz. As la frecuencia es una % constante, y la variable ser la duracin del trozo de anuncio: 2s, % 1s, 1/2s,..., 1/128s.Dependiendo de estos dos parmetros evitaremos % hacer los clculos correspondientes a alguna de las parejas % frecuencia-tiempo, pues se sabe a priori que no va a ser la pareja % ptima por el alto nmero de operaciones a realizar:
%Descartamos las parejas: 4 KHz-2 seg (8000 muestras) % % 4 KHz-1 seg (4000 muestras) 4 KHz-1/2 seg (2000 muestras)
%[ro4200,muestras4200]=estadisticas2(8000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
%[ro4001,muestras4001]=estadisticas2(4000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
%[ro4002,muestras4002]=estadisticas2(2000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro4004,muestras4004]=estadisticas2(1000,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro4008,muestras4008]=estadisticas2(500,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro4016,muestras4016]=estadisticas2(250,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro4032,muestras4032]=estadisticas2(125,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
______________________________________________________________________________________________________________171
[ro4064,muestras4064]=estadisticas2(62,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
[ro4128,muestras4128]=estadisticas2(31,x1,y1,z1,x2,y2,z2,x3,y3,z3,x4,y4, z4);
______________________________________________________________________________________________________________172
FUNCION GRAFICO.M
function [fdistro,fdistmu,perdida,falarm]=grafico(ro,muestras)
% Funcin que calcula la funcin estadstica beta para las muestras % correspondientes a una determinada pareja frecuencia-tiempo.Tambin % calcula la probabilidad de prdida y de falsa alarma de dicha % distribucin.
t=[0:0.001:1];
[phat1,pci1]=betafit(ro); [phat2,pci2]=betafit(muestras);
y1=betapdf(t,phat1(1),phat1(2)); y2=betapdf(t,phat2(1),phat2(2));
fdistro=y1; fdistmu=y2;
perdida=betacdf(umbral,phat1(1),phat1(2)) falarm=1-betacdf(umbral,phat2(1),phat2(2))
______________________________________________________________________________________________________________173
FUNCION DECISOR.M
function [numdetec,tabla_detecciones]=decisor(anuncio)
% La funcin de este programa es la de detectar anuncios en FM. % Trabajaremos con una tasa de muestreo de 4 KHz y el trozo de seal % que iremos cogiendo de la emisora de radio ser de 1/4 seg % (Lh=1000). Trataremos de detectar un solo anuncio en una sola % emisora en tiempo real. % detec es un vector que contabiliza el nmero de detecciones en una % prueba. % tdetec es un vector que mide el tiempo del anuncio transcurrido % despus de cada deteccin positiva. % numdetec es un entero que mide el nmero de detecciones totales % positivas. % tdur es la duracin del anuncio en cuestin.
clc numdetec=0; detec=zeros(1,15); tdetec=zeros(1,15); umbral=0.5; x=anuncio; Lx=length(x); tdur=Lx/4000; Lh=1000; % Tiempo que dura el anuncio.
if Lx>1572000, M=(2^19)-Lh+1; elseif 1572000>Lx & Lx>786000, M=(2^18)-Lh+1; elseif 786000>Lx & Lx>393000, M=(2^17)-Lh+1; elseif 393000>Lx & Lx>196000, M=(2^16)-Lh+1; elseif 196000>Lx & Lx>98000, M=(2^15)-Lh+1; elseif Lx<98000, M=(2^14)-Lh+1; end
Ex=energia(Lh,x,M);
______________________________________________________________________________________________________________174
if valormax>=umbral T0=datestr(now,15); tdetec(1)=0; tdetec(2)=index/4000; detec(1)=1; i=1; while tdetec(i)<tdetec(i+1)<tdur i=i+1; h=recordsnd(0.25,4000); corr=overadd(x,h,Lh,M,Ex); [valormax,index]=max(corr); if valormax>=umbral detec(i)=1; tdetec(i+1)=index/4000; else % Si se dejara tdetec(i+1) a % T0 es la hora a la que comienza la % deteccin.
tdetec(i+1)=tdetec(i)+1e-6; % cero se saldra del bucle. % Si hay dos detecciones if detec(i-1)==0 break end end end % negativas despus de una % positiva suponemos que ha sido una % falsa alarma y empezamos una nueva % deteccin.
if sum(detec)>=ceil(i*0.6); dia=datestr(now,1); disp('EL ANUNCIO HA SIDO EMITIDO A LAS '),disp(T0), disp('DEL'),disp(dia) numdetec=numdetec+1; resultado=struct('hora',T0,'dia',dia); tabla_detecciones(numdetec,:)=struct2cell(resultado); respuesta=input('DESEA SEGUIR CON LA DETECCIN? NO=0, SI=1 if respuesta==0 return end end ');
______________________________________________________________________________________________________________175
______________________________________________________________________________________________________________176
FUNCION WAVREAD.M
function [y,Fs,bits]=wavread(file,ext)
% % % %
Y=WAVREAD(FILE) reads a WAVE file specified by the string FILE, returning the sampled data in Y. The ".wav" extension is appended if no extension is given. [-1,+1]. Amplitude values are in the range
% % %
[Y,FS,BITS]=WAVREAD(FILE) returns the sample rate (FS) in Hertz and the number of bits per sample (BITS) used to encode the data in the file.
% % % % % % %
[...]=WAVREAD(FILE,N) returns only the first N samples from each channel in the file. [...]=WAVREAD(FILE,[N1 N2]) returns only samples N1 through N2 % from each channel in the file. SIZ=WAVREAD(FILE,'size') returns the size of the audio data contained in the file in place of the actual audio data, returning the vector SIZ=[samples channels].
% %
Copyright (c) 1984-96 by The MathWorks, Inc. $Revision: 5.5 $ $Date: 1996/04/10 15:30:41 $
D. Orofino, 11/95
if nargin>2, error('Too many input arguments.'); end % Append .wav extension if it's missing: if isempty(findstr(file,'.')), file=[file '.wav']; end fid=fopen(file,'rb','l'); if fid == -1, % Little-endian
______________________________________________________________________________________________________________177
% Determine if caller wants data: if nargin<2, ext=[]; end exts=prod(size(ext)); if strncmp(lower(ext),'size',exts), % Caller doesn't want data - just data size: samples = read_wavedat(datack,wavefmt,-1); fclose(fid); if isstr(samples), error(samples); end y = [samples wavefmt.nChannels]; return; elseif exts>2, error('Index range must be specified as a scalar or 2-element vector.'); elseif (exts==1), ext=[1 ext]; end % Prepend start sample index % Default - read all samples
______________________________________________________________________________________________________________178
% end of wavread()
% READ_CKINFO: Reads next RIFF chunk, but not the chunk data.
% % %
If optional sflg is set to nonzero, reads SUBchunk info instead. Expects an open FID pointing to first byte of chunk header. Returns a new chunk structure.
function ck=read_ckinfo(fid,sflg) if nargin<2, sflg=0; end ck.fid = fid; ck.Data = []; [s,cnt] = fread(fid,4,'char'); if cnt~=4, ck='Error reading file header.'; return; end ck.ID = deblank(setstr(s')); if ~sflg, % Read chunk size (skip if subchunk): [sz,cnt] = fread(fid,1,'ulong'); if cnt~=1, ck='Error reading file header.'; return; end ck.Size = sz; end return;
% %
Searches from current file position specified by fid. Leaves file positions to data of desired chunk.
______________________________________________________________________________________________________________179
function ck = find_cktype(fid,type,sflg) if nargin<3, sflg=0; end while 1, ck=read_ckinfo(fid,sflg); if ~isstruct(ck), return; end if strcmp(ck.ID,type), return; end % Return error flag if this is not the desired subchunk type: if sflg, ck='Error reading file header.'; return; end % Skip over data in chunk: if(fseek(fid,ck.Size,0)==-1), ck='Error reading file header.'; return; end end return;
% % % %
Assumes fid points to the wave-format subchunk. Requires chunk structure to be passed, indicating the length of the chunk in case we don't recognize the format tag.
% Read standard <wave-format> data: fmt.wFormatTag fmt.nChannels fmt.nSamplesPerSec = fread(fid,1,'ushort'); % Data encoding format = fread(fid,1,'ushort'); % Number of channels = fread(fid,1,'ulong'); % Samples per second % Avg transfer rate
% Read format-specific info: if fmt.wFormatTag==1, % Read standard <PCM-format-specific> info: [bits,cnt]=fread(fid,1,'ushort'); nbytes=nbytes+2; if (cnt~=1)|(nbytes~=total_bytes),
______________________________________________________________________________________________________________180
fmt='Error reading file format.'; return; end fmt.nBitsPerSample=bits; else % Skip over any remaining bytes for unknown formats: if nbytes>total_bytes, fmt='Error reading file format.'; return; elseif nbytes<total_bytes, if(fseek(fid,total_bytes-nbytes,0)==-1), fmt='Error reading file format.'; return; end end end return;
% % % % % % % %
Assumes fid points to the wave-data chunk Requires <data-ck> and <wave-format> structures to be passed. Requires extraction range to be specified. Setting ext=[] forces ALL samples to be read. Otherwise,
ext should be a 2-element vector specifying the first and last samples (per channel) to be extracted. Setting ext=-1 returns the number of samples per channel, skipping over the sample data.
if wavefmt.wFormatTag==1, % PCM Format: % Determine # bytes/sample - format requires rounding % to next integer number of bytes:
elseif BytesPerSample==2, dtype='short'; % signed 16-bit else dat='Cannot read WAVE files with more than 16 bits/sample.'; return; end total_samples = datack.Size/BytesPerSample; SamplesPerChannel = total_samples/wavefmt.nChannels;
______________________________________________________________________________________________________________181
if ~isempty(ext) & ext==-1, % Just return the samples per channel, and fseek past data: dat = SamplesPerChannel; if(fseek(datack.fid,total_samples,0)==-1), dat='Error reading file.'; end return; end % Determine sample range to read: if isempty(ext), ext = [1 SamplesPerChannel]; else if prod(size(ext))~=2, dat='Sample limit vector must have 2 elements.'; return; end if ext(1)<1 | ext(2)>SamplesPerChannel, dat='Sample limits out of range.'; return; end if ext(1)>ext(2), dat='Sample limits must be given in ascending order.'; return; end end % Skip over leading samples: if ext(1)>1, % Skip over leading samples, if specified: if(fseek(datack.fid, ... BytesPerSample*(ext(1)-1)*wavefmt.nChannels,0)==-1), dat='Error reading file.'; return; end end % Read desired data: nSPCext = ext(2)-ext(1)+1; % # samples per channel in extraction range dat = datack; % Copy input structure to output % Return all samples
extSamples = wavefmt.nChannels*nSPCext; dat.Data = fread(datack.fid, [wavefmt.nChannels nSPCext], dtype); % if cnt~=extSamples, dat='Error reading file.'; return; end % Skip over trailing samples: if(fseek(datack.fid, BytesPerSample * ... (SamplesPerChannel-ext(2))*wavefmt.nChannels, 0)==-1), dat='Error reading file.'; return; end
______________________________________________________________________________________________________________182
if rem(datack.Size,2), fseek(datack.fid,1,0); end % Rearrange data into a matrix with one channel per column: dat.Data = dat.Data'; % Normalize data range: min will hit -1, max will not quite hit +1. if BytesPerSample==1, dat.Data = (dat.Data-128)/128; else dat.Data = dat.Data/32768; end else % Unknown wave-format for data. dat='Unrecognized file format.'; end % [-1,1) % [-1,1)
return;
% end of wavread.m
______________________________________________________________________________________________________________183
V. BIBLIOGRAFA.
______________________________________________________________________________________________________________184
REFERENCIAS
[1] Freund, J. E., Walpole, R. E., Estadstica Matemtica con Aplicaciones.
[2] Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B., Bayesian Data Analisis.
[4] Johnson, D. H., and Dudgeon, D. E, Array Signal Processing (Concepts and Techniques), Prentice-Hall Signal Processing Series.
[5] Oppenheim, A. V., and Schafer, R. W., Digital Signal Processing, Prentice-Hall.
[6] Oppenheim, A. V., and Schafer, R. W., Discrete-Time Signal Processing, Prentice-Hall.
[7] Oppenheim,
A.
V.,
Applications
of
Digital
Signal
Processing,
Prentice-Hall.
[8] Proakis, J. G., and Manolakis, D. G., Tratamiento Digital de Seales, Prentice-Hall.
[9] Schaeaffer and McClave, Probabilidad y Estadstica para Ingeniera, Grupo Editorial Iberoamrica.
[10] Snchez, J. M., y Binefa, X., Reconocimiento Automtico de Anuncios de TV. Artculo Internet.
______________________________________________________________________________________________________________185
[11] Zhu Liu, Adaptative and Multimodal Approach To Multimedia Content Analysis. Proyecto Internet.
[12] Manual
del
Data
Acquisition
Toolbox
1.0,
Manual
Internet
(www.mathworks.com/products).
______________________________________________________________________________________________________________186