Reconocimiento de Voz en La Educación

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 18

PROYECTO CMI

PASO 1 : DEFINICIÓN DE LA TAREA A REALIZAR : ENFOCAR

EL RECONOCIMIENTO DE VOZ EN LA EDUCACIÒN

Gracias a los avances tecnológicos del ser humano , el reconocimiento de voz se ha convertido
en una herramienta útil en el ámbito de la educación porque permite interactuar con el
ordenador , utilizando métodos de comunicación como lo es el habla. Un claro ejemplo es la
ayuda que brindan ciertas aplicaciones virtuales enfocadas en la enseñanza de un idioma
diferente, adquiriendo así conocimientos de una forma más clara y concisa.

El reconocimiento de voz es una disciplina de la inteligencia artificial que tiene como objetivo
permitir la comunicación hablada entre seres humanos y computadoras . El ser humano que
use el reconocimiento de voz deberá utilizar una forma clara al hablar y expresarse.

Las tecnologías del reconocimiento de voz han avanzado progresivamente, existen


herramientas tales como cortana (2014), siri (2011) ,duolingo (2011), que permiten ejecutar
tareas como: dictado automático, control por comandos entre otras funciones que ayudan a los
estudiantes a desarrollar plenamente sus facultades , así los seres humanos nos quedamos cortos
frente a estas herramientas, Considerando que en las clases tradicionales ,el profesor es un ser
humano y tendrá debilidades que podrían ser fácilmente reemplazadas por una de estas
máquinas.

El reconocimiento de voz enfocado en la educaciòn tiene algunos puntos a favor y otros puntos
que lo desacreditan ya que hay varios factores que se deben tener en cuenta. Por ejemplo, es
una herramienta muy útil pero no de fácil acceso ya que no todos pueden disfrutar de esta
herramienta informática . En el campo de la educación se lo usaría comúnmente en
universidades y colegios , pero hay algunas zonas escolares apartadas las cuales no llega el
internet o en el peor de los casos no hay equipos para su uso y por ende no funciona esta
herramienta.

Concluyendo , el reconocimiento de voz permite ayudar de manera significativa a estudiantes


como público en general , gracias a su variedad de funciones que permiten enseñar de una
manera innovadora y no tan tradicional como un profesor tradicional.

● ¿Podría desaparecer la clase magistral en un futuro , al implantarse el


reconocimiento de voz como una tecnología innovadora?
● ¿Cómo ayuda el reconocimiento de voz en el ámbito de la educación?
● ¿Qué aplicaciones con reconocimiento de voz están enfocadas en la enseñanza de de
las áreas de la educación?

PASO 2: ESTRATEGIAS PARA BUSCAR LA INFORMACIÓN: PLANEAR


BÚSQUEDA.

A. Seleccionar los conceptos principales del problema.


B. Realizar un organizador gráfico.
C. Proponer las fuentes y medios de información ( 2 por cada fuente y medio, en total 8,
exceptuando la fuente 3).

DESARROLLO

A. CONCEPTOS PRINCIPALES DEL PROBLEMA

● Avances tecnológicos
● Reconocimiento de voz
● Herramienta
● Educación
● Comunicación
● Aplicaciones virtuales
● Inteligencia artificial
● Seres humanos
● Computadoras
● Tecnologías
● Dictado automático
● Control por comandos
● Facultades
● Clases tradicionales
● Profesor
● Universidades
● Colegios
● Zonas escolares
● Internet
● Estudiantes
● Público
● Funciones
● Innovadora
● Profesor tradicional
B. ORGANIZADOR GRÁFICO

C. FUENTES Y MEDIOS DE INFORMACIÓN

PLAN DE BÚSQUEDA :

El plan de busqueda que hemos desarrollado consiste en dividir el tema de investigación en


cuatro partes ,cada integrante del grupo deberá elegir un medio físico (libros, revistas
,entrevistas ,encuestas ) y un medio digital (blogs, páginas web ,trabajos , bases de datos , libros
digitales) y a partir de ahí se tendrá que investigar una fuente primaria y otra secundaria ,
dando como resultado 8 fuentes de información de las cuales , cuatro fuentes son de primera
mano y las otras cuatro son fuentes de segunda mano.

Como fuente digital buscaremos en sitios web ,trabajos de tesis y podcast que contengan
información real y confiable, documentos científicos que nos dan la seguridad de que la
información es verificada y compartiremos los link de aquellas páginas dando a conocer el sitio
donde fue realizada la consulta.

Como fuente física buscaremos información en bibliotecas y consultando por fuentes


personales que nos ayuden con la investigación de nuestro tema.

FUENTES PRIMARIAS DIGITALES

1. MULTIPLICA.COM
Tecnologías de voz en el sector educativo
20 de Diciembre de 2018
https://www.multiplica.com/diario-de-viaje/podcast-ep-9-tecnologias-de-voz-en-
sector-educativo/

2. RECONOCIMIENTO DE VOZ ,TRABAJO CREADO CON MODELO


GAVILANES
Fuente personal : Profesor: Jhon Jairo Dominguez
https://docs.google.com/document/d/1CCOXVHvDkUNOj8lZO9Me3UMW5gAyUT
1hOgz_K40xQKI/edit

3. VERIFICACIÓN DE PRONUNCIACIÓN BASADA EN TECNOLOGÍA DE


RECONOCIMIENTO DE VOZ PARA UN AMBIENTE DE APRENDIZAJE.
http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/aguas_g_n/

FUENTES SECUNDARIAS DIGITALES

1. EL DIARIO.NET
Cómo funciona el reconocimiento de voz
1 diciembre 2013
https://www.eldiario.es/turing/reconocimiento-voz-biometria_0_201230680.html

2. EL RECONOCIMIENTO DE VOZ COMO PARADIGMA DE INTERACCIÓN


PARA PERSONAS CON DIFICULTADES MOTORAS
Tipo de documento : pdf
http://sedici.unlp.edu.ar/handle/10915/23695
3. HISTORIA DEL RECONOCIMIENTO DE VO

https://www.timetoast.com/timelines/historia-de-los-sistemas-de-reconocimiento-de-voz-
7e6545d2-304c-4ccf-ba36-e096e784a2d9

4. TIPOS DE RECONOCIMIENTO DE VOZ


https://www.lumenvox.com/espanol/resources/tips/types-of-speech-recognition.aspx

PASO 3:LOCALIZACIÓN Y ACCESO: CLASIFICAR

A. Busque y acceda.
B. Evalúe la fuente y la información.
a. Antecedentes
(historial).https://web.archive.org/web/20110601000000*/http://coes.udenar.
edu.co/course/view.php?id=382
b. Origen. http://whois.domaintools.com/udenar.edu.co
c. Datos complementarios.
C. Copie y pegue lo que realmente le sirve y es confiable.

Que es el reconocimiento de voz y en qué ámbitos favorece esta tecnología

Es una inteligencia artificial que permitirá establecer un diálogo o una comunicación entre los
seres humanos y las computadoras este aparato o sistema artificial permite una mejor habilidad
en la vida gracias a su rápido proceso de información dependiendo de la complejidad del mismo
como podemos ver hay dos clases de este sistema diseñados para ofrecer una sencilla interfaz
de voz para funciones de cómputo básicas y aquellos que pueden aceptar un dictado vocal e
insertar el texto hablado.

Tipos de Reconocimiento de Voz (LumenVox)

Existen dos tipos de reconocimiento de voz. Uno es conocido como dependiente del
interlocutor y el otro es conocido como independiente del interlocutor. El software dependiente
del interlocutor es utilizado frecuentemente para software de dictado, mientras que el software
independiente del interlocutor es implementado muy a menudo en aplicaciones telefónicas.

El software dependiente del interlocutor funciona al aprenderse las características de la voz de


una persona; muy similar al software de verificación de voz. Los usuarios nuevos deben
entrenar al software hablándole repetidamente para que la computadora pueda analizar cómo
habla una persona. Esto significa que en algunos casos, el usuario tendrá que leerle algunas
hojas de texto a la computadora antes de que puedan usar el software de reconocimiento de
voz.
El software independiente del interlocutor está diseñado para reconocer la voz de cualquier
usuario, sin entrenamiento previo. Esto señala que es la única opción real para aplicaciones
como IVR — donde los negocios no le pueden preguntar a los interlocutores, configuren sus
sistemas antes de usarlos. La desventaja de usar software independiente del interlocutor, es que
es menos preciso que el software dependiente del interlocutor.

Los mecanismos de reconocimiento de voz que son independientes del interlocutor,


generalmente solucionan este problema al limitar las gramáticas que usan. Al usar una lista
(gramática) más pequeña de palabras reconocidas, el sistema de reconocimiento de voz será
mucho más capaz de reconocer lo que dijo el interlocutor con mayor precisión.

Por estas razones, el software independiente del interlocutor es ideal para la mayoría de los
sistemas IVR y para cualquier aplicación donde varias personas usan ese mismo sistema. El
software dependiente del interlocutor es utilizado con mucho más frecuencia para dictados,
cuando son las únicas personas utilizando el sistema y hay necesidad de tener gramáticas
grandes.

El Mecanismo de Voz LumenVox, el cual habilita todo nuestro software de voz, es


independiente del interlocutor. No es software de dictado, no es lo mismo que la tecnología de
verificación de voz, y no tiene la capacidad de reconocer un número ilimitado de palabras a la
vez. Está diseñado para reconocer información específica, principalmente por interlocutores de
un teléfono IVR. Funciona muy bien con un router de llamadas, contestadora automática, y
para cualquier otra aplicación donde los diseñadores tengan una idea de las palabras que los
interlocutores vayan a decir.

Para construirlo, tomamos cientos de horas de audio transcrito y lo usamos para construir un
modelo de lenguaje. Esto se convierte en nuestra base de datos, la cual le indica a nuestro
Mecanismo de Voz como suenan los sonidos matemáticamente. Las computadoras solo
reconocen matemáticas.

Debido a que el audio que usamos para construir los modelos contienen cientos de
interlocutores, el Mecanismo de LumenVox está capacitado para reconocer una amplia
variedad de voces. Esta función es lo que hace a nuestro Mecanismo independiente del
interlocutor.

Cuando nuestro Mecanismo recibe información de una aplicación de voz, convierte este audio
en una representación matemática y la compara con sus modelos internos. Esto le da una idea
a nuestro Mecanismo de los sonidos que forman ese audio y compara esos sonidos con las
palabras especificadas en la gramática de la aplicación.

Este no es un proceso exacto por que existen muchas variaciones sutiles en como son
pronunciadas las palabras, el Mecanismo de Voz nunca puede estar completamente seguro de
lo que dijo el interlocutor. Considere lo difícil que es distinguir las letras "t" y "b" cuando
alguien está deletreando una palabra.

Nuestro software de reconocimiento de voz se encargará de esta incertidumbre al usar un


método basado en probabilidades. El Mecanismo de Voz brinda una calificación de confianza
para cada audio que trata de reconocer. Esta calificación representa la probabilidad de que el
Mecanismo de Voz reconoció lo que dijo el interlocutor con precisión.

UTILIZACIÓN DEL RECONOCIMIENTO DE VOZ “ VOZ CONTINUA”

OBSTÁCULOS DE MECANISMO:

Variabilidad lingüística: Fonética, sintaxis, semántica....


Variabilidad del usuario: Ritmo, pronunciación, inflexión, fatiga, estrés, ronquera...
Variabilidad del Canal: Ruido, cambios en el medio de transmisión...
Coarticulación: Contexto de los fonemas.

este medio solo es una forma de entrada y salida de informacion que podria llegar hacer muy
importante en varios campos de la sociedad

MEDICINA, APLICACIONES , EN LAS INSTITUCIONES EDUCATIVAS, entre otras

UNA FINALIDAD O VARIAS PARA PODER RESOLVER LOS PROBLEMAS


ANTERIORES PUEDEN SER

a) extracción de índices acústicos de la señal hablada,


b) estimación de la probabilidad de que la cadena índice fue originada por un hipotético
segmento de pronunciación, y
c) determinación de la pronunciación reconocida a través de una búsqueda entre hipotéticas
alternativas.

MODELOS OCULTOS DE MARKOV

La estimación de la probabilidad de una cadena índice incluye un modelo de producción de


índices por cada determinado segmento de pronunciación, por ejemplo una palabra.

El entrenamiento de un sistema de reconocimiento de voz consiste en la lectura de un texto que


proporciona al sistema no sólo un vocabulario más o menos extenso, sino un modelo de
pronunciación. Terminada esta primera fase de lectura, entra el funcionamiento el
entrenamiento de la red neuronal

Es cierto que a mayor entrenamiento del sistema (tanto en la opción inicial como durante el
posterior uso del programa) se comprueba una disminución clara en el índice de errores. Sin
embargo, cada sistema alcanza un plateau que oscila entre un 85% y un 95% en los sistemas
comerciales actuales.
https://www.uninet.edu/conganat/IIICVHAP/conferencias/006/voz.htm#obstac
historia del reconocimiento de voz
A principios del año 1940, los laboratorios de AT&T y Bell desarrollaron un aparato primitivo
que podía reconocer la voz. Estos científicos sabían que el éxito y la globalización de esta
tecnología iba a depender de su habilidad de percibir información verbal compleja, con alta
precisión y constancia.

En 1960 los científicos se empezaron a enfocar, en desarrollar un sistema de reconocimiento


de voz más complejo. Como primer paso, desarrollaron un aparato que podía usar la
conversación discreta, un estímulo verbal puntuado por pausas. Sin embargo en 1970, es
cuando realmente se desarrolló la tecnología de reconocimiento de voz que no requería que el
usuario haga pausas entre palabras.

Esta tecnología se volvió práctica en los años 80 y sigue siendo desarrollada y afinada hasta
hoy en día

https://www.timetoast.com/timelines/historia-de-los-sistemas-de-reconocimiento-de-voz-
7e6545d2-304c-4ccf-ba36-e096e784a2d9

El reconocimiento de voz como paradigma de interacción para personas con dificultades


motoras
Este trabajo se enmarca en el área de interacción hombre-máquina (HCI), en donde se analizan
algunos de sus diferentes paradigmas aplicados al escenario de educación especial. Así, se
presenta aquí una revisión de antecedentes. Luego, se describe la utilización del paradigma de
HCI basado en la utilización de comandos por voz para el desarrollo de una adaptación al
software educativo JClic, con el objetivo de ser utilizado por usuarios/alumnos con deficiencia
motriz sin consecuencias o con consecuencias leves en el desarrollo del lenguaje. Para llevar a
cabo esta aplicación, se estudiaron diferentes motores de reconocimiento de voz(RV), y se
profundizó el análisis del motor de RV Sphinx-4. Se presenta aquí parte de este estudio y los
detalles propios de la implementación de un prototipo (JClicVoice), que lleva adelante la
adaptación a JClic. Finalmente, se describen los resultados y conclusiones obtenidas, luego de
la evaluación del prototipo.
El avance tecnológico ha aportado al ser humano nuevas y mayores posibilidades de desarrollar
un modo de vida más completo, pero al mismo tiempo exige continuamente nuevos y
específicos conocimientos y habilidades en el individuo para poder hacer uso de las
posibilidades que le ofrecen. En las personas con algún tipo de discapacidad, la progresiva
complejidad del medio social puede tener, sin embargo, el efecto contrario al buscado por el
progreso social [9]. Así se encuentra en el reconocimiento de voz una alternativa para la
comunicación con la computadora,permitiendo que las personas con discapacidades motoras
que no pueden acceder al teclado estándar y al mouse, puedan, con el habla, realizar acciones
que sin esta tecnología no le serían posibles. En otras palabras, el objetivo es convertir el habla
humana en acciones interpretables por la computadora. Estos sistemas no cuentan con una
fiabilidad del 100%, por lo que es un área en la que se necesita una profunda investigación, y
que puede colaborar en mejorar la autonomía y calidad de vida de las personas, entre muchas
otras aplicaciones posibles.

http://sedici.unlp.edu.ar/handle/10915/23695
RECONOCIMIENTO DE VOZ ,TRABAJO CREADO CON MODELO GAVILANES

fuente personal :

Profesor : Jhon Jairo Dominguez

Podría considerar que el ritmo que impone el mundo actual es bastante alto cierto y las personas
que vivimos actualmente debemos estar conscientes de eso vivimos en una cultura ahora la
conciben como la uberizacion de la sociedad en donde las máquinas la Inteligencia artificial
está sustituyendo mucho de los tareas que cumple un ser humano y en este sentido el
reconocimiento de voz usa ese tipo de tendencias tecnológicas para permitirle a un ser humano
e interactuar con las máquinas de una manera diferente de esta forma Entonces el
reconocimiento de voz se convierte en un Aliado para la para la educación por cuanto favorece
una comunicación un tanto distinta a qué me refiero, me refiero que por lo general el texto y
el video y la hipermedia como tal actualmente se convertían en un en un mecanismo en una
técnica para poder que exista una cohesión entre la máquina y el ser humano pero el
reconocimiento de voz facilita sea tipo de interacción Y si hablamos del campo educativo
facilita favorece estilos de aprendizaje diferentes y favorece básicamente una educación cada
vez más inclusiva por aquellas personas por ejemplo con déficit de visión sí que no tenga la
posibilidad de utilizar un teclado por supuesto entonces que el reconocimiento de voz se
convierte en una catapulta para favorecerse tipo de procesos formativos.

4. MULTIPLICA.COM
Tecnologías de voz en el sector educativo
https://www.multiplica.com/diario-de-viaje/podcast-ep-9-tecnologias-de-voz-en-
sector-educativo/
Santiago Martinez, UX Digital Project Manager en Multiplica Madrid

Sin duda, las interfaces de tecnologías de reconocimiento de voz están posicionándose a


pasos agigantados, la razón principal que Santiago destaca es que “el reconocimiento de
voz es una tecnología que permite humanizar aún más la interacción con cualquier
producto digital que al final se traduce en conversación.”

No es sorprendente entonces que las interfaces de voz para la tecnología educativa


también estén avanzando rápidamente. Desde su experiencia actual trabajando en un
proyecto de desarrollo de Alexa skills para un cliente del sector educativo, Santiago
enfatiza en la importancia de esta tecnología para mejorar las habilidades de lectura o
aprendizaje de idiomas de los niños actuando como tutores, escuchando a medida que
leen en voz alta, evaluando, corrigiendo y dando indicaciones cuando sea necesario.

“Me parece una tecnología que va a cambiar radicalmente el paradigma de ir a la escuela,


volverte a casa con los libros, hacer las tareas y luego corregirlas con los padres y
madres… si que les va a hacer sentir (a padres y madres) que la escuela es partícipe de
su vida, teniéndola en casa y pudiéndose comunicar con ella de una manera muy fluida y
muy cercano”, destaca Santiago.

¡Pero eso no es todo! Santi también nos contó sobre las limitaciones actuales en el
desarrollo de estas tecnologías, las configuraciones de privacidad, la situación actual en
el desarrollo de las experiencias de usuario auditiva en España con respecto a EE.UU., y
como conclusión se atrevió a contarnos algunas de las tendencias para el 2019.

VERIFICACIÓN DE PRONUNCIACIÓN BASADA EN TECNOLOGÍA DE


RECONOCIMIENTO DE VOZ PARA UN AMBIENTE DE APRENDIZAJE.

Reconocimiento de Voz y Educación

El estado del arte en sistemas con Reconocimiento de Voz ha progresado impresionantemente.


Una interfaz bien diseñada puede tomar las ventajas que ofrece un reconocedor y compensar
sus áreas débiles, también puede implementar los principios básicos para el aprendizaje de un
segundo idioma, con lo cual se tienen todos los componentes necesarios de un instructor del
lenguaje [Eskenazi, 99].

La Tecnología del Habla

La Tecnología del Habla se estructura en cuatro tecnologías básicas principales:


El Reconocimiento de Voz o Reconocimiento del Habla. Es el proceso de conversión de un
mensaje hablado en texto, que permite al usuario una comunicación con la computadora.La
Síntesis de Voz o Conversión Texto a Voz. Se ocupa de la generación de mensajes hablados
mediante la simulación del proceso de lectura de un texto escrito almacenado en formato
electrónico.

El Reconocimiento de Locutores. Es el proceso de identificación o verificación de la


identidad del hablante de forma automática a partir de la señal de voz.

La Codificación de Voz. Su objetivo es la búsqueda de representaciones eficientes en


formato digital de la señal de voz para su almacenamiento y/o transmisión, persiguiendo
obtener la mayor calidad posible, para el menor número de bits por muestra.

Podríamos, por tanto, situar a la Tecnología del Habla como receptora de un amplio
conjunto de conocimientos y procedimientos de actuación sobre la información
representada en la señal de voz.
Conocimientos que se articulan con un alto grado de dificultad y especialización, ya que
pertenecen a un marco científico-técnico multidisciplinario, donde se dan cita diferentes
ramas del saber como son: fisiología, acústica, lingüística, procesado digital de señales,
inteligencia artificial, teoría de la comunicación y de la información, y ciencias de la
computación.

1.1.1 La Evolución de los Sistemas de Reconocimiento Automático de Voz

Las primeras investigaciones en el desarrollo de éstos sistemas fueron realizadas en la


década de los 50's. Los estudios trataron de explotar las ideas fundamentales de la
fonética acústica.

Durante la década de los 60's los estudios se enfocaron,

principalmente, a los problemas de segmentación, clasificación y reconocimiento de patrones.

En los 70's se mejoró la tecnología de reconocimiento para palabras aisladas y continuas.


Se hicieron reconocedores que aceptaban un vocabulario más extenso. También se
desarrollaron técnicas como: time warping, modelado probabilístico y el algoritmo de
retropropagación [Rabiner & Juang, 93; Rumelhart & McClelland, 86].

En la década de los 80's hubo un cambio en la tecnología, del enfoque basado en


reconocimiento de patrones a métodos de modelado probabilístico, como el método de
cadenas ocultas de Markov (HMM) [Rabiner & Juang, 93]. Las redes neuronales se
reintrodujeron para resolver problemas de reconocimiento de voz [Waibel & Lee, 90].
En la actualidad, existen diversos factores que contribuyen al mejoramiento y el progreso
de los sistemas de Reconocimiento de Voz, como los HMM y las redes neuronales. Se
han realizado grandes esfuerzos para desarrollar una base de datos de voz con un
vocabulario grande, el cual pueda ser usado en el entrenamiento, desarrollo y prueba de
los estos sistemas. Por otra parte, el establecimiento de estándares para la evaluación del
desempeño en el reconocimiento permite hacer comparaciones entre distintos sistemas.
Gracias a los avances en la tecnología computacional, los sistemas pueden ser probados
en tiempo real sin la necesidad de hardware adicional [Cole et al., 99].

La evolución de éstos tiene como algunos representantes a los siguientes sistemas


[Hernández et al., 94 ]:

ATR HMM-LR. Sistema japonés desarrollado en ATR. Está basado en


procedimientos específicos de modelado de sonidos que no utilizan estructuras
intermedias de modelos de fonema o palabra.

AT&T y BELL NORTHERN RESEARCH. Ambos Sistemas incorporan


procedimientos específicos para aplicaciones de automatización de servicios
telefónicos.

BYBLOS. Desarrollado por BBN. Byblos es el nombre de una ciudad fenicia donde se
descubrió la primera muestra de escritura fonética. Este detalle marca el énfasis que se
pone actualmente en desarrollar Sistemas sobre una base fonética. Aunque se trata de
un sistema dependiente del locutor, este sistema ha aportado un nuevo y eficiente
procedimiento de reconocimiento rápido (búsqueda rápida) basado en algoritmos N-
best.

CSELT. Desarrollado en el centro italiano del mismo nombre. Su principal innovación


es un sistema de búsqueda rápida basada en un primer descifrado fonético simple y
rápido, seguido por una búsqueda más detallada.

DECIPHER. Desarrollado en SRI International. Su principal novedad fue la


representación detallada de aspectos fonéticos importantes, tales

como la coarticulación entre palabras.

LINCOLN. Desarrollado en el laboratorio del mismo nombre. Su principal aportación


es el modelado de voz rápida, con emoción, tensión, etc.

PHILIPS. Desarrollado por la empresa del mismo nombre. Es un sistema pionero en


procesos de reconocimiento rápidos para habla continua y vocabularios de hasta 10,000
palabras.
SPHINX-II. Desarrollado en la Universidad de Carnegie-Mellon. Es un sistema pionero
en reconocimiento independiente de locutor para grandes vocabularios.

TANGORA. Desarrollado en IBM. Se trata de un sistema dependiente del locutor para


grandes vocabularios. Su principal interés es un proceso de adaptación a un nuevo
locutor que requiere 20 minutos para leer 100 frases de 1200 palabras, 700 de las cuales
son distintas.

En los últimos diez años se ha producido un notable avance que hace posible disponer
de una tecnología básica capaz de soportar aplicaciones y servicios comerciales. En
Reconocimiento de Voz, se han conseguido reconocedores que, aunque limitados en
cuanto al tamaño del vocabulario, poseen una calidad suficiente para soportar un gran
número de aplicaciones. Como productos comerciales, están disponibles reconocedores
de dígitos aislados y concatenados, y reconocedores de palabras aisladas que manejan
vocabularios de miles de palabras y, lo que es más importante, es posible definir el
vocabulario del reconocedor sin necesidad de realizar un largo y costoso proceso de
entrenamiento (reconocedor de vocabulario libre). En fase precompetitiva (prototipos de
laboratorio) existen reconocedores de habla continua capaces de manejar vocabularios
de algunos miles de palabras.

El desarrollo de un componente de diálogo y los aspectos de un modelo de interacción


en sistemas interactivos de voz se encuentran soportados actualmente en términos de
herramientas y técnicas avanzadas como lo son [Ole et al., 98]:

Wizard of Oz. Es un método experimental prototipo en el cual un humano (el mago)


simula una parte o todo el modelo interactivo del sistema a ser desarrollado y puede
ponerse en interacción con los usuarios los cuales creerán que están interactuando con
un sistema real.

Manejo del Corpus. Existen muchas herramientas de éste tipo, el Text Encoding
Initiative (TEI) es la herramienta más amplia que existe para la representación de texto
incluyendo transcripción del habla.

Modelo de implementación del dialogo. Existen muchas herramientas de éste tipo,


DDLTool es un editor gráfico que soporta la representación de un software de manejo
del diálogo en el Lenguaje Descriptor de Diálogo. CSLUrp es un ambiente de gráfico de
desarrollo

de prototipos que es muy similar al DDLTool en muchos aspectos.

Experimentación y desarrollo. Existen muchas técnicas y herramientas para desarrollar


y experimentar, como DDLTool, parte de CSLUrp, Gnu's C++.
Evaluación. En la colaboración DARPA ATIS una herramienta de software fue
desarrollada para comparar automáticamente un conjunto de respuestas con aquellas
producidas por varios sistemas.

Toolkits. El Oregon Graduate Institute (OGI) hizo recientemente un toolkit (caja de


herramientas), disponible en el web, llamado CSLU Toolkit.

Existen sistemas comerciales desarrollados por compañías como AT&T,


SpeechWorks, Dragon Systems y otras, los cuales han tenido gran aceptación pues
desarrollan aplicaciones para el mundo real como bancos, finanzas, seguros, agencias
de viajes, tiempos compartidos, entre otros [Blyth & Piper, 94].

http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/aguas_g_n/

Bibliografía

● cortana. (2014). san francisco: microsoft.


● Cheyer, A. (2011). Siri. EEUU: apple y siri inc.
● von Ahn, L. (2011). duolingo. EEUU: Beca MacArthur.
● Martinez, S. (Productor). (20 de diciembre de 2018). Multiplica.Com [Audio en
podcast]. Recuperado de htpp://www.multiplica.com/

También podría gustarte