JPR504 - El Software Libre y La Linguistica PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

El Software libre y la

lingstica
Maria Francisca Ribeiro de Araujo Santo
Orcero
FCLAR/UNESP (Brasil)
[email protected]
David Santo Orcero
Consultor de soluciones con software libre
[email protected]
La sociolingstica es un rea en la que la informtica an no ha
penetrado completamente. Los autores de este trabajo hemos intentado
informatizar una investigacin sociolingistica completa usando
software libre en todos los lugares donde esto ha sido posible, incluso
implementando software en alguno de los pasos. En este trabajo
estudiaremos las ventajas de la informatizacin con software libre de la
sociolingsitica, qu software est disponible, cual ha sido nuesta
experiencia, y aquellos puntos donde todava no existe reemplazo al
software propietario.
1. Introduccin al problema de la informtica y
1
El Software libre y la lingstica
la sociolingstica
La sociolingstica se encuentra con dos problemas serios en la investigacin de
campo, que son la grabacin y el almacenamiento de datos del audio. Hasta ahora, la
grabacin y el almacenamiento de datos de investigaciones de campo en lingstica se
ha realizado por medio de las cintas cassettes. Esto hace al procedimiento de
transcripcin fontica extremadamente complejo y engorroso, debido al ruido propio
de las cintas, a la prdida de calidad de las grabaciones por su uso, con la prdida de
datos invaluables para la ciencia de hablas, de acentos y hasta de lenguas que han
desaparecido o estn en vias de desaparicin, y las cintas con las conversaciones con
los hablantes se estan degradando, perdiendo toda la informacin.
La propia investigacin y transcripcin fontica de las cintas es destructiva: el
movimiento de ir y venir con la cinta cassette, muchas veces, causa la ruptura de la
cinta y la prdida irrecuperable de los datos grabados. Hacer copias mltiples de las
cintas cassettes presenta disminuciones de la calidad de la cinta original, adems de que
la copia es siempre de peor calidad que el original; adems de esto, las cintas son
vulnerables al moho con el tiempo cuando no son bien conservadas. Dependiendo del
alcance de la investigacin, el nmero de cintas puede llegar a cantidades realmente
enormes y la gestin de estos grandes volmenes de datos de audio se complica mucho.
Por ltimo, a pesar de que automatizramos el proceso de recogida de datos, el
procesamiento de los datos es an engorroso y propenso a fallos. El nico programa
existente que estudia las correlaciones entre datos lingisticos, el VARBRUL, es un
programa de MS-DOS de cdigo cerrado, lento y muy poco amigable para el usuario.
Este trabajo tambin corresponde al aspecto informtico de una investigacin realizada
sobre un dialecto hablado en Caxias, Brasil, una pequea ciudad de 40000 habitantes,
la mayor parte de ellos ancianos, por un impresionante ujo migratorio de los jvenes a
ciudades que presentan posibilidad de empleo, que ha hecho que la poblacin de la
ciudad caiga a su tercera parte en quince aos. Este trabajo de investigacin ha sido
realizado en su integridad con herramientas libres, para analizar la posibilidad de
informatizar todo el proceso de colecta y gestin de datos, as como publicacin de los
resultados usando solo software libre.
Este trabajo ha sido nanciado parcialmente por la FAPESP, organizacin de la que
MFRASO es becaria de investigacin.
2. Descripcin del problema de las cintas
La cinta ha sido hasta el momento un elemento indispensable en las grabaciones de
2
El Software libre y la lingstica
datos sociolingsticos. No queremos negar su gran importancia en el pasado, pero
tampoco queremos negar algunos problemas inherentes a su uso, entre los que los ms
comunes son:
Las cintas se estropean fcilmente con el movimiento continuado de avanzar y
retroceder.
"La cinta se rompi exactamente en el lugar donde yo necesitaba or la grabacin
una vez ms!" "Y ahora? Los hablantes hace tiempo que murieron!" "Perd el
trabajo de un ao! Yo intent encolar los puntos de la cinta con un cinta adhesiva,
pero no se qued bien". sas son algunas frases de desesperacin por perder los
datos de una investigacin por rotura de la cinta. Obtener nuevos datos no es una
tarea fcil, y en el caso de comunidades de difcil acceso, en vas de extincin o
extintas es imposible, y esa parte de la cultura de la humanidad se habr perdido para
siempre. Ir al campo presupone disponer de tiempo, paciencia y habilidad de trabajar
con una comunidad de hablantes (Labov 1994). Muchas veces los hablantes no
aceptan a ser entrevistados temerosos de represalias polticas, lo que hace los datos
difciles de conseguir aunque la comunidad que posea esa variante siga viva.
Con el tiempo, las cintas van perdiendo en calidad, aunque no se usen.
Aunque se tomen los cuidados necesarios en la conservacin de las cintas
magnticas, el tiempo acaba por destruir la calidad de las cintas y esto es inevitable.
Las cintas son sensibles a la humedad, al calor y los campos magnticos, aunque
sean campos pequeos.
El moho es el principal enemigo de las cintas magnticas que se quedan guardadas
por mucho tiempo, llegando incluso a destruirlas. Para resolver ese tipo del
problema, es importante que un especialista realice una limpieza peridica de la
supercie de la cinta. Aun as, una limpieza cuidadosa es econmicamente inviable,
por la gran cantidad de metros de cinta involucrados. Por ello, los datos terminan
perdindose dentro de los laboratorios.
Las cintas ocupan mucho espacio fsico.
Para grabar un hablante, se usa una cinta de 60 minutos, por lo menos. Multiplicando
esos minutos por 12, para construir la muestra de investigacin ms simple posible
con representatividad, tendremos el equivalente de 720 horas de grabaciones que
ocuparn 12 cintas, por lo menos. Si la muestra crece, como son las muestras
3
El Software libre y la lingstica
dialetolgicas (cf. Ferreira &Cardoso 1994), esa equivalencia se triplica y los
perjuicios sern, entonces, la falta del espacio en los laboratorios, la conservacin de
las cintas (comentado en (c)) y su distribucin.
La copia es siempre peor que el original.
As como las cintas se pierden con el tiempo, se daan tambin con el uso. Lo peor
es que la copia es siempre es de peor calidad que el original. La calidad de la
grabacin y los datos lingsticos quedan comprometidos, y siempre se degradan.
3. Los formatos digitales libres, la solucin
denitiva.
Los problemas mencionados arriba pueden resolverse con el uso de formatos digitales
para grabar, copiar, guardar y distribuir datos, con alta calidad y mayor comodidad de
manipulacin de los mismos por parte del investigador. Las ventajas principales son:
Podemos adelantar y retroceder tantas veces como queramos el sonido para
escucharlo cuantas veces queramos, sin el riesgo de daar el medio.
Al contrario de las cintas magnticas que pueden romperse durante ese
procedimiento, los datos digitales pueden adelantarse y retrocederse sin problemas.
Los datos digitales no pierden calidad por este proceso.
Los datos digitales se degradan muy poco con el tiempo.
Los datos digitales prcticamente no se daan con el tiempo. La vida de una cinta
DAT, o de un CD-ROM bien cuidados son mas largas que la de una cinta. Adems,
como las copias recuperan la calidad del original, sacando copias nuevas cada 2 o 3
aos y reemplazndolas por los originales aseguraremos preservar los datos tanto
tiempo como queramos.
Existen medios digitales que se resisten a la humedad y a los campos magnticos
fuertes.
4
El Software libre y la lingstica
La tecnologa digital ha estado desarrollando mucho en este ltimos seis aos y, hoy,
nosotros podemos encontrar en el mercado formatos bastantes resistentes, como es el
caso de los CD-ROM industriales. Con esos formatos, los datos en ellos
almacenados no pierden. Los CDs grabables son mucho ms delicados, y no resisten
la humedad -aunque la resistan mejor que las cintas de audio-, pero si los campos
magnticos fuertes.
En espacios pequeos podemos tener grandes cantidades de grabaciones de
hablantes.
En el mundo moderno, la falta de espacio es un problema que nos afecta
directamente, sobre todo cuando estamos hablado varias horas de horas de
grabaciones para cada hablante, con cientos de hablantes. En un solo CD-ROM, en
formato mono -suciente para un hablante, ya que nos interesa la calidad del sonido,
no el estereo- podemos ahorrar el espacio fsico de aproximadamente 12 o ms cintas
cassettes de 60 minutos, dependiendo de tipo de grabacin seleccionada.
Y el ms importante: la copia tiene la misma calidad que el original.
Al contrario de las cintas magnticas, los datos digitales no pierden su calidad
cuando se copian. La calidad se queda as como en el original y, hacindo copias de
seguridad de los datos guardados, estamos seguros que los datos nunca se perdern.
Este procedimiento es ms simple y mucho ms barato econmicamente que las
limpiezas tradicionales de las cintas cassettes para quitar humedad.
El hecho de que el formato digital sea libre es fundamental si pensamos dentro de una
dcada, o un siglo, cuando no queden hablantes vivos del dialecto estudiado, o sea
necesario hacer un estudio diacrnico -estudio de la evolucin temporal de un dialecto-.
El formato debe ser abierto, para que en el futuro los datos sean legibles por los
investigadores, y libres, para que no sea delito construir un reproductor de dichos
formatos.
4. Formato digital y medio digital escogido.
Como medio digital hemos escogido el CD-ROM grabable, por su alta capacidad, bajo
precio y porque las copias son iguales al original. El problema de ser el CD-ROM
grabable sensible a perforaciones, suciedad y humedad se ha resuelto sacando varias
5
El Software libre y la lingstica
copias de los datos, y guardndolos en lugares distintos. Solo se echa mano de las
copias guardadas para sacar copias de uso, con el matiz de que cuando se saca una
copia de uso se comprueba la copia, y se guarda la copia en lugar del original y se pasa
a usar el original, para asegurar la rotatividad de CD-ROMs. Esta dinmica ha
asegurado dos aos de uso continuo de gran datos lingsticos por un grupo de
investigacin con poca o nula experiencia informtica, sin perdida de datos -algo que
con el mecanismo antiguo de cintas no era posible-.
El formato digital ha sido un problema ms delicado. Cuando comenzamos el proyecto
hace dos aos tuvimos que escoger MP3, a pesar de ser un formato patentado y no
libre, por varias razones: era abierto y la situacin de las patentes no haba llegado a los
niveles actuales -que violan el sentido del ridculo-. Cuando comenzamos a trabajar en
nuestro programa que graba directamente de una forma amigable para el lingista, la
capacidad de grabacin de una corriente de datos "on the y" de forma able de Ogg
Orbis era limitada.
Por ello, hemos grabado muchos datos en formato MP3, primero convirtiendo los datos
de los ltimos aos de investigacin a Wav y posteriormente a MP3 usando bladenc.
Cuando nuestro programa fu desarrollado, los datos fueron codicados directamente
con nuestro programa a formato MP3. Ahora estamos trabajando en portar nuestro
programa a Ogg Orbis, para poder liberarlo sin problemas legales. La prxima versin
de nuestro programa, del que hablaremos ms adelante, soportar Ogg Orbis como
formato nativo.
5. El sistema operativo Linux como alternativa
para el uso de nuestro software
Es muy comn or las expresiones del tipo: " Linux es muy difcil de usar", "Eso es
slo para el gur", entre otras. Entornos como KDE han permitido que el sistema sea
usado por lingistas sin problemas de adaptacin al nuevo entorno, y con abilidad, sin
cuelgues, ni prdida de datos, ni problemas de virus. Todas las aplicaciones usadas,
salvo el VARBRUL, tienen un equivalente para Linux, por lo que el trnsito ha sido
fcil. Por ello, la opcin escogida ha sido Linux+KDE, con un estilo tipo Windows 95.
El uso de KDE ha permitido una adaptacin automtica de los lingistas al nuevo
entorno, siendo poco perceptible para la mayor parte de los usuarios el cambio de
sistema gracias al estilo de Windows 95.
Otro problema distinto es el de la instalacin de Linux. El hecho de que no sea posible
en Brasil comprar mquinas con Linux preinstalado ha hecho que tengamos que
6
El Software libre y la lingstica
depender de un informtico para ensearnos a instalar Linux y congurarlo
adecuadamente. Adems, ha habido que escuchar muchas tonterias de los vendedores
de hardware cuando algo fallaba dentro de la garanta. Como ejemplo, una vez que el
procesador de un ordenador se quem porque el ventilador no haba sido colocado
correctanente, la escusa de la tienda para no responder a la garanta fue que el
procesador se quem porque tena dos sistemas operativos, y "todos saben que con dos
sistemas operativos las mquinas se calientan el doble".
La distribucin empleada para nuestra investigacin ha sido la Mandrake, por su
comodidad de instalacin y por tener todas las herramientas que necesitbamos en los
CDs que pueden ser descargados de Internet gratuitamente. Aunque Debian fue una
primera opcin, el hecho de no tener un mecanismo de instalacin comprensible por un
lingista, y el hecho de no traer KDE por defecto hizo que fracasara el primer intento
con Debian por un exceso de dependencia con el informtico, y nalmente
escogiesemos Mandrake como opcin. Cualquier otra distribucin razonablemente
completa debera ser vlida, incluyendo Debian cuando tenga un mecanismo de
instalacin comprensible por no informticos.
6. EL proceso de grabacin
En un primer paso, tenamos gran cantidad de cintas de investigaciones antiguas que
corran riesgo de perderse. Por ello, digitalizamos todas las cintas con el programa
Broadcast 2000. Despus convertimos los datos de formato WAV a formato MP3 con
bladenc. Estos datos siguen siendo usados en formato MP3 para investigaciones en la
actualidad, sin ninguna prdida asociada al uso continuado por varios investigadores al
que han sido sometidos los datos.
Sin embargo, en el proceso de conversin de cinta a MP3 se perda en calidad, y ello
nos llev a desarrollar un programa, el liverecord. Este programa graba y codica en
formato MP3 en vivo, grabando ya en formato MP3 por lo que podemos grabar horas
de audio sin llenar el disco duro, que en los portatiles suelen ser pequeos. Nuestro
programa tiene los mismos botones que un grabador tradicional, ms dos campos:
frecuencia de grabacin y tiempo de corte. Cada tiempo de corte el programa cierra el
archivo que se est grabando y genera un archivo nuevo, lo que facilitar el uso
posterior para organizar los datos. El proceso grabacin es simple. El investigador en
lugar del grabador y el micrfono puede llevar un porttil y un minimicrfono de
solapa, y activar el programa que hemos desarrollado. El resto lo hace el programa solo.
El programa ha sido desarrollado sobre KDE usando Kdevelop. Ahora no est
disponible por problemas legales relacionados con el formato MP3 -podemos ser
7
El Software libre y la lingstica
procesados legalmente si lo liberamos-; estamos trabajando en la conversin del
programa a Ogg Orbis -conversin que supone no solo cambiar el formato de
grabacin, sino tambin incluir un interfaz amigable para la audicin de datos, vease el
prximo punto-; en el momento que la conversin sea realizada el programa ser
disponibilizado en la red. El coautor de este trabajo, que es el informtico mencionado
en los puntos anteriores, ya no es ms becario de investigacin y trabaja en la industria
privada, por lo que las fechas de terminacin estn abiertas y dependen de su
disponibilidad de tiempo libre.
7. La audicin de los datos
Para el trabajo de audicin de datos, el programa que adoptamos fue el Broadcast 2000.
Es de fcil manejo, y en l hay herramientas que lo hacen indispensable para el
tratamiento acstico de los datos, como: demarcacin de frecuencia y de niveles,
demarcacin espacial en la grabacin que debe repetirse tantas veces como sean
necesarias, y ltros acsticos que permiten limpiar los ruidos, entre otras utilidades.
En total, en los ltimos aos hemos procesado ms de 1500 horas de habla, con una
comodidad impresionante.
Sin embargo, el hecho de mover nuestro programa a Ogg Orbis nos va a suponer un
problema, ya que el Broadcast 2000 no soporta Ogg Orbis. Los programas que existen
para Ogg Orbis estn an muy lejos de lo que necesitamos para nuestra investigacin,
por lo que en la conversin a Ogg Orbis estamos tambin desarrollando el interfaz
grco de audicin.
8. Procesamiento de datos
El procesamiento de datos ha sido realizado con el programa VARBRUL, programa
especializado en el clculo de interdependencias de datos fonticos. Desgraciadamente
no hay equivalente libre, por lo que tuvimos que usarlo desde xdos con freedos. No
conocemos planes de desarrollo de ningn projecto libre para sustituirlo.
9. Procesamiento de textos
Una vez calculados los resultados, hay que publicarlos en revistas cientcas. La mejor
8
El Software libre y la lingstica
solucin para su publicacin sera LaTeX, como veremos en los prximos puntos. De
hecho, uno de los autores de este texto, lingista de formacin, esta usando LaTeX para
redactar su doctorado.
El problema es que ninguna revista de lingstica acepta LaTeX, por lo que hay que
adaptar el artculo a formato Word. El nico de los procesadores de textos para Linux
que exporta a Word y no se cuelga, ni destroza el formato, ni destroza el chero es
StarOfce, que no soporta las fuentes fonticas, por lo que no hay ninguna alternativa
razonable libre a Word que permita exportar a formato Word y soporte el alfabeto
fontico.
Este no es solo un problema de la lingstica: tambin lo encontramos en Linux: las
revistas y los congresos para Linux tienen los mismos problemas. La mayor parte de las
revistas solo aceptan Word; este mismo congreso solo acepta DocBook, con lo que
hemos tenido que aprender otro sistema, mucho menos potente, para poder presentar el
trabajo, y que tampoco nos permite soportar el alfabeto fontico, por lo que DocBook
tampoco valdra para trabajar para lingstica.
Las razones por la que LaTeX sera perfecto es:
Calidad profesional y economa del espacio.
El resultado nal de LaTeX para publicar textos, principalmente artculos, relatorios,
disertaciones, tesis, etc., es excelente. El producto nal tiene calidad profesional, lo
que no se consigue con Word.
La economa de espacio fue otra razn importante. Uno de los autores de este
artculo necesit nueve disquetes para una disertacin de mestrado de 135 pginas, y
con problemas en las impresiones por las imgenes -con fuerte personalidad-. El otro
autor de este artculo realiz un proyecto n de carrera de casi 500 pginas, con gran
cantidad de grcos y ecuaciones de mecnica cuntica. Caba en un disquete, y se
imprima en cualquier impresora sin problemas.
10. Calidad en las publicaciones
Uno de los autores de este artculo ha visto como sus artculos eran destrozados al ser
publicados en revistas del rea. Complejas transcripciones fonticas en IPA eran
convertidas en ristras de olitas, muequitos y smbolos de Yin-Yan. A este mismo
congreso con DocBook habra sido imposible presentar un trabajo de fontica, ya que
DocBook no tiene capacidad de representar el IPA.
9
El Software libre y la lingstica
Por otro lado, con el potentsimo paquete Tipaman de LaTeX podemos realizar
transcripciones fonticas de gran complejidad con sencillez, y con un resultado que no
desaparece, los grcos no saltan, y no depende de la impresora.
Adems, otras caractersticas de LaTeX interesantes son:
Los grcos no desaparecen.
Los grcos no se deshacen por la pgina.
Si se modica el texto, el ndice se ajusta solo.
Si se modica el texto, la bibliografa se ajusta sola.
Las notas de pie de pgina estn siempre donde deben.
Si se imprime dos veces el mismo trabajo tiene el mismo nmero de pginas.
Se pueden imprimir las 100 primeras pginas en una impresora, y otras 100 pginas
en otra sin tener que tocar el texto
El proceso de impresin es fcil y limpio.
Los diacrticos salen siempre encima de la letra donde se ponen -el alfabeto
fontico, con casi una docena de diacrticos, esto es especialmente importante-.
Si se manda el texto a otra persona por correo electrnico, l lo imprimir
exactamente como fue generado. Sobre todo, no cambia el IPA por simbolitos raros.
11. Conclusin
Actualmente un lingista puede utilizar software libre para prcticamente todo el
proceso de su investigacin, salvo en el estudio de correlacin de datos lingsticos,
que se hace con VARBRUL, y en la creacin de los artculos para revistas, que se debe
usar un WinWord antiguo con Wine. El avance de los editores de textos libres hace
suponer que en el futuro el WinWord ser prescindible, aunque no soluciona el
problema principal: la nica forma que hemos encontrado de poder realizar
transcripciones fonticas de calidad con IPA ha sido mediante LaTeX; lo que sirve
apenas para tesis doctorales, ya que no hay revistas lingsticas y prcticamente no hay
revistas de informtica que acepten LaTeX. Por ejemplo, sera imposible incluir una
transcripcin fontica como demostracin en este congreso.
El uso de Linux es fcil para los lingistas; salvo en la instalacin de Linux, y en la
reclamacin ante fallos del hardware en garanta, en el que le echarn los montadores
de ordenadores la culpa a Linux para no responder de la garanta. Vendedores de
10
El Software libre y la lingstica
ordenadores que vendan mquinas con Linux preinstalado y que no se escuden en
Linux para no responder ante la garanta supone un paso fundamental en este aspecto.
Hemos desarrollado un programa para grabacin en vivo, liverecord, para permitir
solucionar uno de los problemas de la investigacin. Nuestro problema fundamental es
que este programa fue desarrollado codicando en MP3, y liberarlo supondra una
quiebra de patente. Estamos convirtiendolo a Ogg Orbis -despacio, desgraciadamente,
ya que el que lo est haciendo lo hace en su escaso tiempo libre-. Esperamos mejorar
este programa y poder desarrollar ms cdigo de lingstica computacional en el futuro.
Maria Francisca Ribeiro de Araujo tiene una beca de doctorado de la FAPESP.
Bibliografa
Carlota Ferreira y Suzana Cardoso, A dialetologia no Brasil: Metodologia do trabalho
lingstico e atlas dialetolgico, regionalismos lxicos, 1a edicin, Contexto,
1994.
William Labov, Principles of linguistic change: Internal factors., 1a edicin,
Blackwell , 1994.
11

También podría gustarte