Guia de Formatos para La Traduccion Esther Gargallo Cherta
Guia de Formatos para La Traduccion Esther Gargallo Cherta
Guia de Formatos para La Traduccion Esther Gargallo Cherta
Guía de formatos
para la traducción
2
Resumen
En este trabajo se abordará la cuestión de los formatos relacionados con la traducción.
En primer lugar, se hará una propuesta de clasificación de los formatos con los que un traductor
profesional se puede encontrar en un encargo. A continuación, se describirán los cuatro formatos de
traducción: TMX, TBX, XLIFF y SRX. Se utilizará un ejemplo de cada uno para explicar la estructura
del formato según sus especificaciones. Además, se estudiará el nivel de aceptabilidad de este formato en
algunas herramientas TAO seleccionadas. Finalmente, se hablará del formato PDF, puesto que hoy en día
es de los que más se utilizan.
Con este trabajo tenemos como objetivo conseguir crear una guía a la que el traductor puede recurrir en
caso de tener dudas sobre el intercambio de formatos o sobre cómo abrir un archivo en un formato en
concreto.
Abstract
This project deals with the formats which are related to translation.
First of all, there will be a proposal of a classification of formats that may appear in a professional
translator’s assignment. Following, four translation formats will be described: TMX, TBX, XLIFF and
SRX. An example of each format will be used to study the structure according to the specifications.
Furthermore, the level of acceptability will be studied in some CAT tools that have been selected. Finally,
we’ll talk about the PDF format, since nowadays it is one of the most used formats. With this work, we’d
like to create a handbook which translators can consult in case they have any doubts regarding the
interchangeability of formats or how to open a file with a certain extension.
3
Índice de contenidos
1 Introducción ......................................................................................................................... 8
1.1 Motivación y justificación.............................................................................................. 8
1.2 Objetivos ...................................................................................................................... 8
1.3 Metodología.................................................................................................................. 9
2 Estado de la cuestión ........................................................................................................ 11
3 Formatos de archivos ........................................................................................................ 12
3.1 Formatos ofimáticos ................................................................................................... 13
3.2 Formatos de compresión ........................................................................................... 15
3.3 Formatos de imagen .................................................................................................. 16
3.4 Formatos de vídeo ..................................................................................................... 17
3.5 Formatos de audio ..................................................................................................... 19
3.6 Formatos de lenguaje de marcado ............................................................................ 20
3.7 Formatos de ficheros ejecutables .............................................................................. 21
3.8 Formatos de maquetación ......................................................................................... 22
3.9 Formatos de subtítulos............................................................................................... 23
3.10 Formatos de localización de software........................................................................ 23
3.11 Resumen .................................................................................................................... 25
4 Estandarización de los formatos ....................................................................................... 29
4.1 Definición de estándar ............................................................................................... 29
4.2 Organizaciones normalizadoras ................................................................................ 29
4.3 Estándares, ¿para qué?............................................................................................. 30
4.4 Estándares de traducción .......................................................................................... 31
4.5 Compatibilidad............................................................................................................ 32
5 Formatos de traducción y sus características ................................................................... 32
5.1 Información básica de XML ....................................................................................... 33
5.2 Memorias de traducción ............................................................................................. 33
5.2.1 TMX (Translation Memory eXchange) ............................................................... 34
5.2.1.1 Estructura........................................................................................................ 34
Elementos .................................................................................................................. 34
Atributos ..................................................................................................................... 37
5.2.2 TAO: aceptación del estándar y otros formatos de memorias de traducción .... 42
5.2.2.1 SDL Trados ..................................................................................................... 43
4
5.2.2.2 MemoQ ........................................................................................................... 45
5.2.2.3 Memsource ..................................................................................................... 45
5.2.2.4 OmegaT .......................................................................................................... 46
5.2.2.5 Heartsome Translation Studio ........................................................................ 46
5.3 Bases de datos terminológicas .................................................................................. 47
5.3.1 TBX (TermBase eXchange) ............................................................................... 48
5.3.1.1 Estructura........................................................................................................ 48
Elementos .................................................................................................................. 50
Atributos ..................................................................................................................... 56
5.3.2 TAO: aceptación del estándar y otros formatos de bases de datos
terminológicas .................................................................................................................... 57
5.3.2.1 SDL Trados ..................................................................................................... 58
5.3.2.2 MemoQ ........................................................................................................... 58
5.3.2.3 Memsource ..................................................................................................... 59
5.3.2.4 OmegaT .......................................................................................................... 60
5.3.2.5 Heartsome Translation Studio ........................................................................ 60
5.4 Archivos bilingües ...................................................................................................... 60
5.4.1 XLIFF (XML Localization Interchange File Format) ........................................... 61
5.4.1.1 Estructura........................................................................................................ 62
Elementos .................................................................................................................. 62
Atributos ..................................................................................................................... 64
5.4.2 TAO: aceptación del estándar y otros formatos de archivos bilingües.............. 67
5.4.2.1 SDL Trados ..................................................................................................... 67
5.4.2.2 MemoQ ........................................................................................................... 68
5.4.2.3 Memsource ..................................................................................................... 68
5.4.2.4 OmegaT .......................................................................................................... 69
5.4.2.5 Heartsome Translation Studio ........................................................................ 69
5.5 Reglas de segmentación............................................................................................ 70
5.5.1 SRX (Segmentation Rules eXchange) ............................................................... 70
5.5.1.1 Estructura........................................................................................................ 70
Elementos .................................................................................................................. 71
Atributos ..................................................................................................................... 73
5.5.2 TAO: aceptación del estándar y otros formatos de reglas de segmentación .... 75
5.5.2.1 SDL Trados ..................................................................................................... 75
5.5.2.2 MemoQ ........................................................................................................... 75
5
5.5.2.3 Memsource ..................................................................................................... 75
5.5.2.4 OmegaT .......................................................................................................... 76
5.5.2.5 Heartsome Translation Studio ........................................................................ 76
6 Archivos y extensiones ...................................................................................................... 77
7 El formato PDF .................................................................................................................. 78
7.1 Herramientas para archivos PDF............................................................................... 78
7.1.1 Creación ............................................................................................................. 78
7.1.2 Visualización ....................................................................................................... 79
7.1.3 Edición ................................................................................................................ 79
7.1.4 Conversión.......................................................................................................... 80
7.1.4.1 Abbyy Finereader ........................................................................................... 80
7.1.4.2 Google Drive ................................................................................................... 81
7.1.4.3 TransPDF........................................................................................................ 81
7.1.4.4 FreeOCR ......................................................................................................... 82
7.1.4.5 Ilovepdf ........................................................................................................... 82
7.1.5 Principales problemas al convertir un PDF en un archivo editable ................... 83
8 Conclusión ......................................................................................................................... 84
9 Bibliografía ......................................................................................................................... 85
10 Anexos ............................................................................................................................... 90
Anexo I: Memoria de traducción en formato TMX extraída del OPUS ................................. 90
Anexo II: Base de datos terminológica en formato TBX de Microsoft .................................. 92
Anexo III: Archivo XLIFF extraído de la herramienta Okapi Rainbow .................................. 95
Anexo IV: Archivo SRX extraído de la herramienta Heartsome Translation Studio ............. 97
Anexo V: Tabla de formatos y herramientas ......................................................................... 99
6
Índice de ilustraciones
Ilustración 1: ¿Qué es un pixel? ................................................................................................ 16
Ilustración 2: Explicación visual de la diferencia entre contenedor y contenido....................... 17
Ilustración 3: Ejemplo de la estructura de un archivo MOV. ..................................................... 18
Ilustración 4: Formatos contenedores. ...................................................................................... 19
Ilustración 5: Códecs ................................................................................................................. 19
Ilustración 6: Funcionamiento de un archivo ejecutable. .......................................................... 22
Ilustración 7: Ejemplo de archivo localizable .po ...................................................................... 24
Ilustración 8: Ejemplo de archivo localizable .json.................................................................... 24
Ilustración 9: Ejemplo de archivo localizable .properties .......................................................... 24
Ilustración 10: Ejemplo de archivo localizable .strings ............................................................. 25
Ilustración 11: Ejemplo de archivo localizable .xml................................................................... 25
Ilustración 12: Triángulo de hierro ............................................................................................. 31
Ilustración 13: Estructura básica de un archivo TMX ............................................................... 34
Ilustración 14: Estructura básica de un archivo TMF según la ISO 16642 .............................. 48
Ilustración 15: Estructura de una base de datos TBX .............................................................. 49
Ilustración 16: Estructura de una entrada terminológica (TE) en TBX ..................................... 50
Ilustración 17: Estructura de un archivo XLIFF ......................................................................... 62
Ilustración 18: Estructura de un archivo SRX. .......................................................................... 71
Ilustración 19: Herramientas de edición de Adobe Acrobat Pro DC ......................................... 79
Ilustración 20: Opciones de conversión en ABBYY Finereader ............................................... 80
Ilustración 21: Interfaz del programa ABBYY Finereader 14 .................................................... 81
Ilustración 22: Opciones de TransPDF ..................................................................................... 81
Ilustración 23: ¿Qué se puede hacer en la página web ilovepdf? ............................................ 82
Ilustración 24: Gráficos sobre el nivel de aceptación de los formatos estándares en las cinco
herramientas escogidas. ........................................................................................................... 84
7
Guía de formatos para la traducción Introducción
1 Introducción
En este trabajo nos hemos centrado en los formatos, tanto los específicos de la traducción como los más
generales.
En primer lugar, hemos definido algunos conceptos necesarios para entender este trabajo y hemos creado
una posible clasificación de formatos con los que se podría encontrar un traductor. Como no existe una
clasificación oficial, lo hemos hecho basándonos en la profesión del traductor. Tras explicar estos
formatos, hemos creado una tabla muy visual que relaciona el tipo de formato con las extensiones.
Seguidamente, hablaremos de los estándares y daremos alguna información general sobre este concepto
para después centrarnos en los estándares de la industria de la traducción. Una vez acabado esto,
cogeremos cada uno de los cuatro estándares (TMX, TBX, XLIFF y SRX) y explicaremos su estructura
basándonos en algunos ejemplos extraídos de diferentes fuentes. Para explicar los elementos y atributos
de cada formato utilizaremos tablas que resultan más visuales. Para cada estándar añadiremos un apartado
donde relacionaremos el formato con las distintas herramientas que hemos escogido.
Tras finalizar la explicación de los estándares de traducción seleccionados, nos centraremos en el formato
PDF e indicaremos cómo podemos crear, visualizar, editar y convertir un archivo PDF. Daremos algunas
herramientas útiles para este propósito y una breve lista de los problemas que suelen aparecer tras
convertir un PDF en formato editable, esto ya desde nuestra experiencia.
Para acabar, añadiremos una tabla con los formatos de los que hemos ido hablando a lo largo del trabajo
y marcaremos con una X las herramientas con las que se pueda abrir cada formato.
1.2 Objetivos
Los objetivos de este trabajo son los siguientes:
8
Guía de formatos para la traducción Introducción
1.3 Metodología
Como veremos, este trabajo es muy descriptivo y hablamos de muchos conceptos necesarios para entender
el tema.
En primer lugar definiremos el concepto de formato para, a continuación, crear una clasificación de
formatos con los que se podría encontrar un traductor durante el ejercicio de su profesión. Los
explicaremos brevemente y escogeremos algunas de sus extensiones, si es que pueden tener más de una.
Con estos formatos crearemos una tabla relacionándolos con sus extensiones para que sea más visual.
SDL Trados y memoQ son las herramientas de pago más utilizadas en traducción, por lo que
hemos estimado oportuno incluirlas en este trabajo.
OmegaT es la herramienta TAO libre por excelencia y, además, acepta todos los formatos
estándares y abiertos de la industria de la traducción.
Memsource es una alternativa a estas dos herramientas que está en la nube. Cada vez más
profesinales y empresas utilizan esta herramienta TAO.
En cuanto a Heartsome Translation Studio, creemos que es una herramienta libre muy
competitiva, pese a que ya no está siendo desarrollada.
En el apartado de cada estándar de traducción, diremos qué formatos soportan con la ayuda de unas tablas
visuales. También introduciremos una lista explicando qué es cada formato (por ejemplo: sdlxliff es el
formato propietario bilingüe de SDL Trados).
A continuación, nos centraremos en el formato PDF, puesto que consideramos que es el formato con el
que más vamos a encontrarnos como traductores y merece especial atención. Explicaremos cómo
podemos crearlo, visualizarlo, editarlo y convertirlo a un formato editable y también los típicos problemas
9
Guía de formatos para la traducción Introducción
Finalmente, añadiremos una tabla con algunos de los formatos/extensiones mencionados a lo largo del
trabajo e indicaremos con qué herramientas pueden abrirse de forma que a primera vista pueda verse
claramente. En la parte izquierda encontraremos los formatos y en la parte de arriba las herramientas. Si
una herramienta puede abrir un formato, lo marcaremos con una “X”. Tenemos que destacar que los
formatos no estándares que veamos en el apartado 5 Formatos de traducción y sus características no los
incluiremos en nuestra tabla, pues ya hablamos de ellos en ese apartado.
10
Guía de formatos para la traducción Estado de la cuestión
2 Estado de la cuestión
En un momento en el que ya no se puede hablar de traducción sin hablar también de las tecnologías,
resulta necesario que los traductores profesionales tengan, por lo menos, un conocimiento básico de las
herramientas y de los formatos con los que se probablemente se encontrarán. La mayoría de los proyectos
que nos llegan vienen en formato electrónico, pocas veces, por no decir nunca, nos llegan archivos en
papel para traducir. Además, los clientes persiguen fundamentalmente dos objetivos: primero, que la
traducción sea de calidad y, segundo, que sea rápida y, por lo tanto, de un precio no demasiado alto. Para
los clientes la traducción es una parte más del proceso de producción, lo que significa que van a necesitar
rapidez y agilidad. Un traductor sin conocimientos de las herramientas ni de los formatos no puede
cumplir con estos requisitos del cliente, pues para gestionar el proyecto necesitará cierta habilidad en el
manejo de las herramientas y de los formatos con los que va a trabajar. Esto se vería claramente con un
ejemplo: el cliente nos manda un archivo XLIFF para traducir y una memoria en formato XLS, pero no
conocemos estos formato y la herramienta TAO con la que trabajamos no los puede leer. Si tuviéramos
que gestionar y aprender cómo se usan estos formatos perderíamos mucho tiempo valioso que podríamos
haber empleado en traducir para que la calidad sea la óptima. En cambio, si ya conociéramos estos
formatos y supiéramos cómo abrirlos, editarlos o gestionarlos, el tiempo de preparación del proyecto sería
el mínimo y, por lo tanto, tendríamos más tiempo para dedicarnos al proceso de traducción y revisión.
Por todo esto, creemos oportuno que el traductor profesional conozca los formatos y las herramientas con
las que trabaja. A continuación, hablaremos de los formatos con los que un traductor se podría encontrar
en un encargo y también de los formatos estándares de la industria de la traducción. Así mismo,
relacionaremos algunos formatos con algunas herramientas TAO e incluiremos una lista de programas y
de los formatos o extensiones que soportan.
11
Guía de formatos para la traducción Formatos de archivos
3 Formatos de archivos
En tecnologías de la traducción, se habla de formato de un archivo como una manera concreta de codificar
la información para que pueda ser consultada y almacenada. Existen diferentes tipos de formatos para los
diferentes tipos de información, por ejemplo, existen los formatos de documentos, los de audio, los de
vídeo, etc.
Inevitablemente hay que hablar de cómo se guarda la información en las tecnologías. Tal como explica
Antoni Oliver, la información se puede guardar en tres sistemas diferentes de codificación (Oliver, Moré
& Climent, 2007):
1. Sistema decimal es el sistema que utilizamos los humanos para todo. Se compone de diez dígitos
(del 0 al 9), que otorgan un valor diferente dependiendo de la posición y del orden.
2. Sistema binario, o también llamado sistema de numeración en base 2, es el que utiliza solo los
números 0 y 1. Este es el sistema con el que trabajan los ordenadores y, además, es el más
utilizado en el mundo de las tecnologías. A cada uno de estos dígitos se les llama bit y el conjunto
de ocho bits conforma un byte.
3. Sistema hexadecimal es el que tiene 16 símbolos. Los diez primeros son los diez primeros dígitos
del sistema decimal, y los otros, es decir, del 10 al 15, por letras del alfabeto (de la A a la F).
Creemos que es interesante aclarar la diferencia entre los términos conjunto de caracteres, conjunto de
caracteres codificados y codificación de caracteres. Un conjunto de caracteres son los símbolos y las
letras utilizadas en un sistema de escritura, mientras que un conjunto de caracteres codificados es un grupo
de caracteres en el que cada uno de ellos tiene asignado un número en concreto. Con codificación de
caracteres nos referimos a la forma en la que un conjunto de caracteres codificados se convierte a bytes
para poder ser procesado en un ordenador. Así pues, según esa descripción, un conjunto de caracteres
puede contener diferentes codificaciones. Los caracteres de cada set pueden ocupar un número distinto
de bytes y cada secuencia de bytes representa un determinado carácter. Por lo tanto, la codificación lo que
hace es convertir esta secuencia de bytes en el carácter específico para que se vea reflejado en el texto.
12
Guía de formatos para la traducción Formatos de archivos
A continuación, nos gustaría crear una clasificación de formatos en función de para qué se utilicen.
Teniendo en cuenta que no existe una tipología estandarizada, hemos creado esta propuesta, de la que
hablaremos en el siguiente punto. Antes de hablar sobre la clasificación, nos gustaría dejar clara la
diferencia entre un formato y una extensión. El archivo “tradumatica.jpg”, por ejemplo, tiene la extensión
jpg, que indica el tipo de archivo que es: un archivo de imagen. Normalmente la extensión del archivo
coincide con el formato, pero no siempre tiene que ser así. Por esto, es necesario diferenciar entre
extensión y formato. En estos casos, la extensión no indica un formato en sí, sino más bien un contenedor
de formatos. Un contenedor de formato es un archivo que contiene información de algún tipo. Por
ejemplo, un archivo con la extensión AVI tiene esta característica, pues AVI no es un formato en sí, sino
un contenedor. Dentro de un archivo AVI podemos encontrar formatos de audio y formatos de vídeo,
ambos necesarios para reproducir un vídeo. Por lo tanto, la extensión de un formato sirve principalmente
para que el programa con el que lo vayamos a abrir sepa qué algoritmo hay que utilizar para leerlo
correctamente. Esta es la razón por la que, aunque cambiemos la extensión de un archivo, si intentamos
abrirlo con un programa que no soporta la extensión que hemos cambiado, no se podrá abrir. Siguiendo
con el ejemplo anterior, si cambiáramos la extensión .jpg por .gif e intentáramos abrirlo con algún
programa, nos aparecería un error puesto que ambas extensiones no forman parte de un mismo formato.
Cambiar la extensión, por lo tanto, solo hace que cambie la forma de interpretar la información del archivo
pero no cambia la información en sí; para convertir un formato a otro necesitamos un programa que
transforme la información.
1. Texto plano: los archivos en este formato contienen simplemente el texto legible, sin ningún tipo
de formato tipográfico. Están formados de bytes que representan los caracteres ASCII (letras,
números y signos de puntuación del alfabeto latino), tal como hemos dicho en el apartado
2 Estado de la cuestión. El formato es comúnmente llamado txt, y su extensión puede ser .txt
o .text. El hecho de solo contener la información textual y ningún tipo de información sobre el
formato hace que sea un formato compatible y flexible, que puede abrirse con la mayoría de los
programas con funciones de edición de textos. A veces en programación se prefiere este formato
con caracteres antes que los archivos binarios porque son más fáciles de editar, aunque por este
motivo un archivo sin formato ocupa más espacio que un binario. Para editar este tipo de archivos
se utiliza un editor de textos, que no debe confundirse con un procesador de textos. Un editor de
textos permite la modificación del texto del documento, mientras que un procesador, además de
la edición, nos permite darle formato y cambiar su apariencia.
2. Texto con formato1: el formato más utilizado de esta subcategoría es el Open XML, desarrollado
1
En este caso, con formato nos refierimos a aquellos textos que no solo pueden mostrar texto sino también
13
Guía de formatos para la traducción Formatos de archivos
por Microsoft. Este formato es un formato estándar validado por la ECMA (European Computer
Manufacturers Association), que engloba tanto a los archivos de texto con formato, como a las
presentaciones y las hojas de cálculo de Microsoft Office. Este formato se basa en XML. Al
guardar un archivo en este formato se le añadirá una “x” o una “m” a la extensión base, que es la
que se usó de forma predeterminada hasta el año 2003. La “x” significa que es un archivo XML
sin macros, mientras que la “m” indica que el archivo contiene macros. En el pasado, se utilizaba
la extensión .doc, pero al ser un archivo propietario de Microsoft Office, algunos programas
tenían problemas para leer este archivo. Así pues, Microsoft quiso crear un archivo que pudiese
ser utilizado por otras empresas y que pudiese ser soportado por otros programas. Como
resultado, se crearon los archivos docx que, como acabamos de explicar, es la unión de “doc” y
“x”. Este formato y esta extensión se convirtieron en el nuevo estándar para el procesamiento de
textos o como se llama en inglés word-processing.
Por otra parte, también encontramos el formato OpenDocument u ODF, desarrollado por OASIS.
Este es un formato de código abierto también basado en XML y que podemos encontrar, al igual
que el formato Open XML en archivos de texto, presentaciones y hojas de cálculo, entre otros.
Estos formatos los utiliza el paquete de software LibreOffice. En 2006 se publicó como un
formato estándar en ISO/IEC 26300 y en 2015 se actualizó el estándar a la última versión 1.2.
Un archivo de texto con el formato ODF tendrá la extensión .odt.
3. Texto enriquecido: formato creado por Microsoft para intercambiar documentos multiplataforma.
El rich text format no debe confundirse con el enrich text, cada uno tiene unas especificaciones
y no tienen nada que ver. Estos archivos tienen la extensión .rtf y se crearon con el objetivo de
que pudieran ser leídos y modificados en los diferentes programas, no siendo necesario el
programa de Microsoft Office. Este formato, por lo tanto, es más sencillo y menos pesado que el
Open XML. De este formato hablaremos más adelante puesto que en las herramientas TAO es
un formato que se utiliza bastante.
4. Formato de documento portable: el formato de documento portable (PDF) es un formato
desarrollado por Adobe en 2008 que se estandarizó en la ISO/IEC 32000. Se creó con el objetivo
de intercambiar y presentar documentos de forma fácil, rápida y segura. El PDF es un formato
libre que hoy en día está en todas partes, sobre todo en internet, donde se utiliza con el fin de
intercambiar documentos. Un archivo PDF puede crearse exportando el archivo desde casi
cualquier programa. Estos archivos pueden contener imágenes, audio, vídeo, marcadores, etc. y
pueden cifrarse para garantizar su seguridad. En nuestro trabajo nos encontraremos con este tipo
de archivos muchas veces. En general se podría decir que existen dos tipos de archivos PDF: los
que se han creado a partir de un archivo de texto (por ejemplo, un archivo DOCX) y los que se
han creado a partir de una imagen (por ejemplo, una imagen JPG de un archivo escaneado). Esto
lo tenemos que tener en cuenta a la hora de enfrentarnos a un encargo de traducción de este tipo
porque dependiendo del tipo de PDF que sea nos va a costar más o menos convertirlo en texto
editable para poder subirlo a una herramienta TAO. Un PDF creado a partir de un archivo de
texto será más fácil de hacerlo editable. Sin embargo, un PDF creado a partir de una imagen será
más complicado. Algunos encargos que podrían contener archivos PDF serían, por ejemplo, la
traducción de un catálogo, de un certificado digital, de un contrato, entre otros. Más adelante
dedicaremos un apartado entero a hablar de este formato, puesto que consideramos que es un
14
Guía de formatos para la traducción Formatos de archivos
formato con el que se trabaja mucho en el ámbito de la traducción. En este momento, es necesario
mencionar el formato XPS, desarrollado por Microsoft y que tiene unas características muy
parecidas a las del PDF.
5. Presentación en diapositivas: los archivos destinados a la presentación tienen como objetivo
enseñar o mostrar información mediante diapositivas. Tal como hemos visto con el texto con
formato, Microsoft Office desarrolló un programa de creación de presentaciones llamado Power
Point, cuyas extensiones pueden ser o bien .ppt o bien .pptx.
OpenDocument cuenta también con un formato específico para la presentación en diapositivas.
La extensión usada es .odp.
6. Hojas de cálculo: archivo en el que podemos editar datos numéricos y alfanuméricos en tablas
donde se pueden realizar cálculos complejos mediante fórmulas y crear gráficos de distinto tipo.
Una hoja de cálculo tiene celdas donde se introduce la información. Tal como ocurre con el texto
con formato y con las presentaciones en diapositivas, Microsoft también tiene un programa
especial para crear y editar hojas de cálculo (Excel), así como unas extensiones propias. En
general, las extensiones más utilizadas de Microsoft en cuanto a hojas de cálculo son .xls y .xlsx,
aunque, tal como ocurre con otras herramientas, la lista de extensiones con las que se puede
guardar un archivo es bastante extensa. También cabe destacar el formato CSV (comma separated
values), muy utilizado para el intercambio de memorias y de bases de datos terminológicas, tal
como veremos más adelante. Este formato se suele utilizar para intercambiar datos entre distintas
herramientas de edición de hojas de cálculo.
En OpenDocuments, la extensión para las hojas de cálculo es .ods.
ZIP: formato de compresión de archivos que utiliza la extensión .zip. Con este formato se puede
comprimir y empaquetar, así como encriptar. Este formato suele utilizarse en mayor medida en
un entorno Windows.
RAR: este formato es muy parecido al ZIP ya que, como en el caso anterior, con este formato se
puede comprimir, empaquetar y encriptar, pero también existe la posibilidad de crear varios
volúmenes. Utiliza la extensión .rar.
7Z: tal como ocurre con el RAR, con un formato 7Z se puede comprimir, empaquetar, encriptar
y generar diferentes volúmenes. La extensión utiliza es .7z.
GZIP: es un compresor pero no empaqueta. Los archivos comprimidos tienen la extensión .gz.
Suele utilizarse junto con el empaquetador TAR (que no comprime). Por lo tanto, el uso conjunto
de los dos forma un archivo .tar.gz o .tgz. Este formato suele utilizarse en Linux.
15
Guía de formatos para la traducción Formatos de archivos
Las imágenes se guardan en el ordenador como mapas de bits, es decir, una unión de puntos pequeños,
llamados píxeles, cada uno de los cuales tiene asignado un color en concreto. Así pues, cuantos más
píxeles tenga una imagen, mayor será la calidad.
El número de bits necesarios para cada imagen varía dependiendo de los colores. Tal como se explica en
la página del Ministerio de Educación, si una imagen está en blanco y negro solo ocupará 1 bit, es decir,
dos colores: 0 para el negro y 1 para el blanco. Una imagen con 8 colores, ocupará 3 bits; una con 256
colores, 8; y así sucesivamente. Esto es lo que mide la profundidad de color de una imagen: más colores,
más profundidad.
BMP (Bit Mapa Picture): es un formato desarrollado por Microsoft e IBM. Puede utilizar hasta
24 bits y no utiliza compresión, razón por la que lo archivos BMP suelen pesar más que el resto.
Este tipo de imágenes no deberían ser editadas una vez se crean, puesto que se suelen pixelar y
pierden calidad. No admiten transparencias. La extensión utilizada es .bmp.
JPG (Joint Photographic Experts Group): al igual que el BMP, utiliza hasta 24 bits y tampoco
acepta transparencias. No tiene tanto peso porque se utiliza un algoritmo que comprime la
imagen, afectando claramente a la calidad. Por este motivo, es el formato que suele utilizarse más
en internet pero el que menos utilizan los diseñadores, pues cuando se comprime ya no se pueden
recuperar los valores anteriores. Sin embargo, para el resto de personas esto no supone un gran
problema porque en la compresión se pierden valores que no son perceptibles para el ojo humano.
Este formato puede utilizar diferentes extensiones, entre las cuales destacamos .jpeg, .jpg o .jpe.
GIF (Graphics Interchange Format): una imagen GIF puede contener entre 2 y 256 colores. Este
tipo de archivo permite transparencias y también animaciones, que simplemente son secuencias
de imágenes. Como ocurre con los archivos JPG, los GIF también comprimen la información,
por lo que no tienen un peso tan alto como los BMP. Este formato se utiliza mucho en internet
16
Guía de formatos para la traducción Formatos de archivos
para incluir pequeñas imágenes o iconos. El algoritmo de compresión de este formato estaba
patentado hasta su caducidad en 2003, por eso hubo un momento en el que dejó de utilizarse y la
atención se desvió hacia otro formato con casi las mismas características. La extensión que utiliza
es .gif.
PNG (Portable Network Graphics): es un formato de hasta 64 bits. Surgió como alternativa al
GIF, ya que el algoritmo del PNG no estaba ligado a ninguna patente. El algoritmo de compresión
que utiliza es sin pérdida, es decir, no afecta a la calidad. Este formato permite transparencias
con bastante profundidad (hasta 256 niveles). La extensión que utiliza es .png.
A parte de estos, existen otros formatos de imagen menos utilizados pero con los que también nos
podemos encontrar, como por ejemplo: TIFF (almacena imágenes de una resolución muy alta), SVG
(formato estándar en el diseño web) o RAW (formato mediante el cual se guarda toda la información de
una imagen desde una cámara, normalmente profesional o semiprofesional).
17
Guía de formatos para la traducción Formatos de archivos
2
Término definido por la Wikipedia como: «Un framework multimedia es un framework que manipula medios
electrónicos en una computadora o a través de una red. Este tipo de framework se usa principalmente por
aplicaciones como reproductores de medios y editores de audio y video, pero también pueden usarse para
aplicaciones de videoconferencias, conversores de medios y otras herramientas multimedia». Para saber más:
https://es.wikipedia.org/wiki/Framework_multimedia.
18
Guía de formatos para la traducción Formatos de archivos
en 3D).
Como vemos, el concepto de vídeo digital es más complejo que el resto de tipos de formato que hemos
visto.
A continuación, añadiremos una lista de los formatos contenedores y los códecs de audio y de vídeo para
que conste la diferencia que hay entre unos y otros:
Ilustración 5: Códecs
19
Guía de formatos para la traducción Formatos de archivos
El audio se reproduce como un sonido digital, que se codifica mediante el sistema binario, que ya hemos
explicado en el apartado 3 Formatos de archivos. Cuanta mayor sea su resolución en bits, mayor será su
calidad. Los formatos de audio más utilizados y comunes son los siguientes:
WAV (WaveForm Audio File): formato sin compresión y sin pérdida desarrollado
originariamente por Microsoft, tienen la extensión .wav. Normalmente se utiliza para guardar
audios originales sin comprimir, lo que significa que la calidad es excelente pero el peso es mayor.
Se suele utilizar en un entorno Windows y no tanto para compartir archivos de audio en internet,
ya que hay otros formatos sin pérdida con un peso inferior.
MP3 (MPEG 1 Layer 3): al contrario que el formato WAV, el MP3 es un formato de audio
comprimido con pérdida, aunque el oído humano no pueda notar la diferencia entre uno y otro.
Este tipo de archivos tiene un peso bastante reducido, razón por la cual se suele utilizar para
compartir música en internet. Además, el MP3 se considera el formato estándar de sonido digital
y puede reproducirse en la mayoría de los programas. Tiene la extensión .mp3.
OGG: es un formato de contenedor multimedia (audio y vídeo) y, al igual que el MP3, es un
formato comprimido con pérdida. La diferencia principal entre este formato y los dos anteriores,
es que este es un formato de código abierto, lo que significa que su algoritmo de compresión
puede utilizarse libremente. Este formato no tiene una compatibilidad tan alta como el MP3,
aunque cada vez son más los reproductores que lo soportan. En un principio se utilizaba solo la
extensión .ogg, pero poco a poco se fueron introduciendo nuevas extensiones para describir los
diferentes contenidos: .ogv (vídeo con o sin audio), .oga (solo audio), o .ogx (incluye datos
codificados con códecs diferentes).
WMA (Windows Media Audio): formato contenedor propietario de Microsoft. Se creó como la
alternativa de Microsoft al formato MP3, aunque el algoritmo de compresión es diferente. Utiliza
el códec WMA, un algoritmo de compresión con pérdida. El peso suele ser inferior al del formato
MP3. La extensión que utiliza es .wma.
Los formatos WAV, MP3 y WMA son propietarios, mientras que OGG es libre. A continuación,
añadiremos una tabla-resumen con los formatos que acabamos de explicar junto con otros con los que nos
podríamos encontrar, diferenciando entre los libres o abiertos y los propietarios o cerrados.
Libres AIFF, AU, FLAC, OGG, MPC, RAW, TTA, VOX, DCT
Propietarios MP3, AAC, MP4, WMA, MOV, WAV, ATRAC, RA, RAM, DSS, DVF, MSV,
IVS, MIDI, AMR
20
Guía de formatos para la traducción Formatos de archivos
adelante.
HTML (HyperText Markup Language): formato estándar de páginas web desarrollado por World
Wide Web Consortium (W3C) que proviene de SGML (anterior lenguaje de marcado). Hoy en
día es el más utilizado. Utiliza el lenguaje html, que es lo que define las estructuras de las páginas
web. Este lenguaje contiene elementos (llamados etiquetas) que rodean al texto, lo que indica
cómo se deben interpretar cada parte del archivo. Este formato puede utilizar la extensión .html
o .htm.
XML (Extensible Markup Language): formato que también proviene de SGML y también creado
por W3C. Se utiliza para el intercambio de información, pero no solo de páginas web, sino
también de bases de datos y otros tipos de archivos. Las etiquetas de este lenguaje se parecen
mucho a las de HTML. La extensión de este formato es .xml.
TMX (Translation Memory eXchange): este formato se basa en el XML y es un estándar para el
intercambio de memorias de la traducción. La extensión del formato TMX es .tmx.
TBX (TermBase eXchange): también se basa en XML y es un formato estándar para el
intercambio de bases de datos terminológicas. La extensión de este formato es .tbx.
XLIFF (XML Localization Interchange File Format): también basado en XML, este formato se
utiliza sobre todo en localización para intercambiar archivos bilingües. El formato XLIFF tiene
como extensiones .xliff o .xlf.
Puesto que los formatos estándares de traducción se basan todos en XML, más adelante explicaré de
forma básica la estructura de este formato para que resulte más fácil entender la estructura de los otros
formatos.
Programa: algoritmo escrito en lenguaje de programación para que el ordenador pueda ejecutarlo.
El programa está compuesto del código fuente.
Código fuente: instrucciones escritas por un programador en un lenguaje de programación en
concreto (por ejemplo java). Suelen almacenarse en ficheros de texto que pueden abrirse con
programas de edición de texto, como el Notepad++. Estas instrucciones son las que tiene que
seguir el ordenador para interpretar el programa. Sin embargo, este lenguaje no lo entiende el
ordenador, motivo por el cual tiene que traducirse a otro lenguaje: lenguaje de máquina o código
objeto. Esta traducción la hacen los compiladores.
Código objeto: conjunto de instrucciones del código fuente escritas en sistema binario. Tras esta
traducción, el ordenador todavía no está listo para interpretar un programa. Este lenguaje sería
intermedio entre el código fuente y el código ejecutable.
Código ejecutable: este es el código que utiliza el ordenador para leer e interpretar el programa
y es, por lo tanto, el código del archivo que el usuario ejecuta para abrir un programa. Un
enlazador se encarga de crear el código ejecutable.
21
Guía de formatos para la traducción Formatos de archivos
1. Código
2. Código fuente
objeto
3. Código
ejecutado
Se conoce como archivo ejecutable cualquier archivo que permite la ejecución de un programa al abrirlo,
gracias a unas instrucciones (de las que ya hemos hablado en el párrafo anterior). La extensión de archivo
ejecutable más utilizada es EXE, de Microsoft. Otras extensiones son BAT, APP o COM.
Veremos que en la tabla final que introduciremos en el apartado 6 Archivos y extensiones, no incluiremos
estos formatos, pues son más especializados y necesitaríamos más tiempo y espacio para hablar de ellos.
InDesign: el programa que crea y edita este tipo de archivos, Adobe InDesign, le da nombre al
formato. Un archivo InDesign contiene información sobre el formato, el texto, los archivos
enlazados y el estilo. InDesign tiene muchas extensiones dependiendo de la función del archivo
(por ejemplo, .int, para una plantilla InDesign). Sin embargo, las extensiones en las que se suele
guardar un archivo maquetado en InDesign son .indd o .ind (para seguir la convención del uso
de tres letras).
SLA: formato desarrollado por Scribus, un programa de maquetación libre. Este archivo se basa
en XML y contiene, igual que los archivos de InDesign, información sobre el texto del
documento, imágenes y formato. La extensión utilizada es .sla, aunque también puede
comprimirse, por lo que en este caso la extensión sería .sla.gz.
QuarkXpress: este formato también tiene el nombre de la herramienta que lo creó. QuarkXpress
es también una herramienta de autoedición. Igual que ocurre con el programa InDesign, las
22
Guía de formatos para la traducción Formatos de archivos
extensiones en las que se pueden guardar archivos con este programa son muchos. Sin embargo,
la que a nosotros nos interesa es la .qxp, que guarda los proyectos de maquetación para poder
abrirlos y editarlos en otro momento o en otro ordenador. En versiones anteriores de QuarkXpress
se utilizaba la extensión .qxd para los proyectos de maquetación pero hoy en día este formato ya
no se suele utilizar.
SubRip: sin duda alguna el formato SRT es el más conocido y utilizado en el mundo de la
subtitulación. Es un formato de subtítulo básico y es soportado por la mayoría de reproductores
de vídeo. Estos archivos pueden contener texto plano con formato, al contrario que los formatos
MicroDVD y SubStatio. La información que contiene este tipo de archivo es la siguiente: tiempos
de sincronización (es decir, punto de entrada y salida del subtítulo) y texto del subtítulo. La
extensión del formato SubRip es .srt.
MicroDVD: este formato se utiliza mayoritariamente para crear subtítulos para DVD. Al igual
que el SubRip, contiene texto plano con formato y la misma información (tiempo de entrada y
salida y texto). La extensión de este formato es .sub.
SubStation Alpha y Advanced SubStation Alpha: estos formatos van más allá que los otros dos
anteriores y pueden introducir más opciones de formatos. El segundo es una extensión del
primero, con más opciones de formato. Las extensiones para este formato son .ssa y .ass.
Para ordenadores, estos son dos de los formatos más utilizados en localización:
23
Guía de formatos para la traducción Formatos de archivos
Strings: este formato lo desarrolló Apple con el fin de separar el código del texto localizable y
facilitar la traducción de sus programas. La extensión es .strings.
24
Guía de formatos para la traducción Formatos de archivos
3.11 Resumen
A continuación, añadiremos una tabla resumen donde podrán encontrarse las categorías, formatos y
extensiones sobre las que hemos hablado en los puntos anteriores. En la primera columna encontraremos
el tipo de categoría; en la segunda columna, el tipo de formato; y en la última, las extensiones de cada
uno de los formatos.
25
Guía de formatos para la traducción Formatos de archivos
.ppt/.pptx
Presentación en diapositivas
.odp
.xls/.xlsx
.ods
ZIP .zip
7Z .7z
Formatos de compresión
.gz
.tgz
.jpg
.jpeg
.jpe
Joint Photographic Experts Group
.jif
.jfif
.jfi
.tiff
Tagged Image File Format
.tif
.svg
Scalable Vector Graphics
.svgz
26
Guía de formatos para la traducción Formatos de archivos
.mpg
Moving Picture Experts Group
.mpeg
.mov
QuickTime Movie
.qt
.flv
.f4v
.f4a
.f4b
.mkv
.mka
Matroska
.mks
.mk3d
MP3 .mp3
.ogg
.ogx
.html
HyperText Markup Language
.htm
Executable .exe
Ficheros ejecutables
Application .app
27
Guía de formatos para la traducción Formatos de archivos
.idd
InDesign
.ind
QuarkXpress .qxp
SubRip .srt
MicroDVD .sub
Formatos de subtítulos
SubStation Alpha .ssa
XML .xml
28
Guía de formatos para la traducción Estandarización de los formatos
La ley española utiliza el término norma para este mismo significado. Así pues, en la Ley 21/1992 de
Industria se define norma como: «La especificación técnica de aplicación repetitiva o continuada cuya
observancia no es obligatoria, establecida con participación de todas las partes interesadas, que aprueba
un Organismo reconocido, a nivel nacional o internacional, por su actividad normativa.»
Los estándares se crean mediante normas técnicas, que son documentos aprobados por organismos de
normalización reconocidos que establecen las especificaciones técnicas según los resultados de la
experiencia y del desarrollo tecnológico. Estas especificaciones hay que cumplirlas en determinados
productos, procesos y servicios. Para crear estándares, participan todas las partes interesadas e
involucradas en una actividad o servicio en concreto y tiene que existir un consenso entre las partes. Por
lo tanto, las normas que se crean son el punto de comunicación entre las partes involucradas, por ejemplo,
entre los consumidores y los fabricantes. Se podría decir que la creación de estándares tiene estos tres
principales objetivos:
Podemos distinguir entre dos tipos de estándar: los oficiales o de jure y los de facto. Los estándares de
jure son aquellos que han sido desarrollados por organismos reconocidos y que han sido aceptados por
convenio y que por lo tanto son oficiales; los estándares de facto son aquellos que no han sido
consensuados de forma oficial pero que se han impuesto en la sociedad y su uso está generalizado. Estos
últimos suelen estar creados por empresas privadas, como ocurre con el formato pdf, desarrollado por
Adobe Systems.
1. Una de las organizaciones regionales podría ser el CEN. Esta asociación y sus 34 miembros, a
través de sus respectivas asociaciones nacionales, trabajan juntos para crear estándares europeos
(EN) sobre productos, servicios, procesos y sistemas en diferentes sectores. Algunos de los
campos en los que trabajan son accesibilidad, seguridad o eficiencia energética.
2. La Asociación Española de Normalización (UNE) es la organización normalizadora nacional
3
Definición extraída de la página web del Comité Europeo de Normalización (ECN en inglés):
https://www.cen.eu/work/ENdev/whatisEN/Pages/default.aspx
29
Guía de formatos para la traducción Estandarización de los formatos
que, como su mismo nombre indica, es la que difunde las normas UNE. Se dedica a crear normas
técnicas o estándares pero también participa en la creación de otras normas, entre las que
destacamos las del Comité Europeo de Normalización (CEN) y las ISO, de la Organización
Internacional de Normalización, entre otras. En España tenemos la norma UNE-EN 15038, que
establece los requisitos para la prestación de servicios de traducción y que se integró en la ISO
17100 en 2015.
3. La Organización Internacional de Normalización, normalmente llamada ISO por sus siglas, es
una organización normalizadora internacional. Esta entidad, junto con otras entidades nacionales
de estandarización, se dedica a la creación de normas internacionales de fabricación, comercio y
comunicación. Para los servicios de traducción, por ejemplo, existen las normas ISO 9001
(gestión de la calidad) e ISO 17100 (calidad en las agencias de traducción).
Por lo tanto, igual que existen estándares en los procesos y servicios, también existen estándares en cuanto
a formatos. En el ámbito de la traducción existen algunas asociaciones que se encargan de establecer
formatos estándar, con el fin de facilitar el intercambio de información entre agencias, entre agencias y
proveedores o entre agencias y clientes. Una de las más conocidas era LISA (Localization Industry
Standards Association). Esta asociación, fundada en 1990, era la más antigua en la industria de la
localización. Dejó de funcionar en 2011 por haberse declarado insolvente. En esta asociación había tanto
empresas de traducción como empresas internacionales de hardware y de software. Estos se reunían de
forma regular para intentar establecer unos estándares que se pudieran utilizar en todas partes. Otra de las
asociaciones que crea estándares de traducción es OASIS (Advancing open standards for the information
society), cuyo objetivo es crear estándares abiertos que pueda utilizar toda la sociedad. GALA
(Globalization & Localization Association) es también una asociación del ámbito de la traducción,
localización e interpretación.
Tal como explica GALA, el mercado de la traducción ha ido ampliándose para llegar a ser hoy en día una
industria muy extensa. Cada empresa tiene su forma de hacer las cosas y de llevar a cabo cada uno de los
pasos necesarios en el proceso de traducción. Como hemos mencionado anteriormente, con el fin de poder
estandarizar el proceso de traducción en todo el mundo, se crearon estándares, como son las normas de
calidad ISO.
30
Guía de formatos para la traducción Estandarización de los formatos
En un mundo informatizado como es el de hoy, tanto las agencias como los lingüistas tienen que utilizar
todas las herramientas que puedan con el fin de optimizar el proceso de traducción y automatizar las tareas
lo máximo posible, puesto que modificar una de las tres variables significa modificar también el resto.
Coste
Calidad
Alcance Tiempo
TMX (Translation Memory eXchange): es el formato estándar abierto basado en XML para el
intercambio de memorias de traducción, creado por la asociación LISA. La última versión es la
1.4b y se desarrolló en 2005. Los archivos TMX pueden utilizar cualquier codificación de
Unicode: UTF-8, UTF-16 o ASCII. La última versión desarrollada es la 1.4b, publicada en 2005.
La extensión de este formato es .tmx.
TBX (Term Base eXchange): es el formato estándar basado en XML para el intercambio de bases
de datos terminológicas, también creado por la asociación LISA. La extensión utilizada es .tbx.
Un archivo TBX puede utilizar diferentes TML (Terminology Markup Language), es decir, puede
codificar la información sobre la terminología de diferentes formas.
XLIFF (XML Localisation Interchange File Format): este es un formato abierto también basado
en XML. Este formato tiene como objetivo facilitar el intercambio de archivos bilingües. La
última versión publicada es la 2.1. La extensión de este archivo es .xlf o .xliff. Este formato lo
desarrolló el grupo OASIS.
SRX (Segmentation Rules eXchange): este formato también se basa en XML y lo creó la
asociación LISA. La extensión es .srx. La última versión es la 2.0, de 2008.
En este apartado hemos dado información básica sobre estos formatos estándares de traducción, puesto
que más adelante nos centraremos más profundamente en cada uno de ellos.
31
Guía de formatos para la traducción Formatos de traducción y sus características
4.5 Compatibilidad
Para hablar de compatibilidad, introduciremos la definición de Sin-wai Chan de su obra The Future of
Translation Technology: Towards a World without Babel (2016): «The concept of compatibility in
translation technology must be considered in terms of file formats, operating systems, translation memory
databases, terminology databases, and languages supported by different systems» (Chan, 2016).
En este caso, lo que nos interesa es la compatibilidad entre formatos y entre programas.
En primer lugar, tenemos que diferenciar los formatos abiertos y los formatos propietarios. De los
primeros ya hemos hablado, pero de estos últimos no. Los formatos propietarios son aquellos
desarrollados por una empresa para su propio programa. Un formato propietario tiene que abrirse con un
programa en concreto, aunque a veces puede tener compatibilidad con otras herramientas. Con esto los
desarrolladores de software se encuentran con dos opciones: la primera es utilizar un formato abierto y
libre para garantizar la compatibilidad con otras herramientas; mientras la segunda es crear un formato
propietario que le dará ventaja porque el usuario tendrá que hacer servir su programa para abrir ese
formato. Otra opción sería tener formatos propietarios pero tener la opción de utilizar formatos libres.
Así pues, con los formatos libres no suelen haber problemas, pues la mayor parte de herramientas TAO
pueden abrirlas. El formato TMX es uno de los más compatibles, pues más de la mitad de herramientas
lo puede leer. Chan Sin-wai explica en su libro que un número estimado de 54 herramientas pueden
importar o exportar este formato, entre las que encontramos Déjà Vu, OmegaT o Transit. El TBX, por
otra parte, no tiene una compatibilidad tan alta, puesto que, como hemos dicho anteriormente, puede
utilizar diferentes TML, lo que significa que existen diferentes nombres para las categorías y los valores
y no siempre coinciden. A pesar de esto, las herramientas más utilizadas sí suelen leer este formato.
El problema aparece cuando nos encontramos con formatos propietarios y no contamos con la herramienta
necesaria para abrirlo. Un ejemplo muy claro es el de SDL Trados, una de las herramientas TAO más
utilizadas. Esta ha desarrollado, entre otros, los formatos SDLXLIFF, SDLTM, TTX o TMW. El hecho
de que cada empresa desarrolle sus propios formatos de intercambio de memorias de traducción dificulta
el intercambio de información. Una memoria SDLTM probablemente no pueda abrirse ni editarse con
otra herramienta TAO, por ejemplo, memoQ. Para utilizarla en otra herramienta deberíamos convertirla a
TMX.
De aquí surge la necesidad de saber qué herramientas abren cada uno de los formatos para evitar perder
tiempo y poder utilizarlo única e íntegramente para la tarea que se nos ha encarado, por ejemplo, traducir.
Tal como hemos dicho en el apartado 4.3 Estándares, ¿para qué?, para ser más eficaces en nuestro trabajo
tenemos que conocer los procesos y saber cómo llevarlos a cabo.
Después de hablar de los diferentes formatos hablaremos más concretamente sobre la compatibilidad entre
herramientas y entre formatos.
32
Guía de formatos para la traducción Formatos de traducción y sus características
En primer lugar definiremos XML como un metalenguaje de etiquetas desarrollado por el World Wide
Web Consortium y que tiene como objetivo es almacenar, organizar y transferir datos de forma que sean
leíbles tanto por humanos como por máquinas. XML no es un lenguaje de marcado, sino un metalenguaje
que permite crear lenguajes de marcado para aplicaciones concretas. XML suele relacionarse o
confundirse con HTML pero son dos cosas distintas. Mientras que HTML define cómo se ven los
elementos en la pantalla (se centra, por lo tanto, en la presentación de los datos), XML le proporciona
información a los elementos. Por lo tanto, un XML separa el contenido y el formato.
Un archivo XML organiza la información de forma que todas las partes estén bien definidas y puedan
reutilizarse fácilmente.
La estructura de este archivo es muy básica y lógica. Debemos tener en cuenta los siguientes aspectos:
Un XML siempre tiene que tener un root element que será el parent de otros elementos.
A veces suele tener una línea introductora que es la primera del archivo (suele llamarse prólogo).
En ella se indica información sobre la versión de XML que se está usando y sobre el tipo de
codificación. Un ejemplo sería este: <?xml version="1.1" encoding="UTF-8"?>.
Todos los elementos deben tener etiquetas de cierre, por ejemplo: <b>Hello</b>. El prólogo no
lleva porque no se considera parte del documento.
Las etiquetas diferencian entre mayúsculas y minúsculas.
Hay que respetar el orden de etiquetas. Si primero abrimos <b> y luego <i>, primero habrá que
cerrar </i> y luego </b>.
Hay que tener en cuenta los atributos de los elementos y ponerlos correctamente.
Se pueden introducir comentarios, que no formarán parte del documento, de la siguiente forma:
<!-- Comment -->.
Algunos caracteres se tienen que representar mediante referencias puesto que si no la
interpretación del archivo podría ser errónea. El símbolo de menor que, por ejemplo, no puede
ponerse con este significado porque el ordenador entendería que es una etiqueta mal puesta. Por
lo tanto, para introducir un menor que tenemos que usar < (less than).
Teniendo la estructura de un archivo XML en la mente nos resultará más fácil entender la estructura de
un archivo TMX.
4
Esta sigla no debe confundirse con la inglesa MT, que hace referencia a la traducción automática (machine
translation).
33
Guía de formatos para la traducción Formatos de traducción y sus características
consistentes y de que una misma frase o término se traduce siempre de la misma forma. Pueden funcionar
como corpus de consulta bilingües.
Para este trabajo vamos a utilizar como ejemplo un archivo TMX extraído de la página web OPUS.
Podemos consultarlo en el Anexo I.
5.2.1.1 Estructura
El TMX, como cualquier archivo basado en XML, contiene elementos y atributos. En cada una de estas
dos partes existen elementos y atributos que no pueden obviarse en el archivo, pues nos dan información
relevante e importante para la lectura e interpretación de la información. Sin embargo, también existen
otros que no son obligatorios. El elemento base de un archivo tmx es <tmx>. Dentro de este, encontramos
los otros dos elementos principales: <header> y <body>.
Dentro del header (encabezado) de cualquier archivo TMX, encontramos la información necesaria para
que el archivo pueda leerse e interpretarse. En esta parte se proporcionan metadatos del documento y
puede contener tanto atributos como elementos.
El body (cuerpo) del archivo es lo que contiene la información sobre las unidades de traducción.
<note>
<header> <prop>
<ude>
<tmx>
<tu> <tuv> <seg>
<body> <note>
<prop>
Elementos
Antes de hablar de los elementos, hace falta diferenciar entre los conceptos block-line element e inline
34
Guía de formatos para la traducción Formatos de traducción y sus características
element. El primero debe empezar en una línea a parte y la ocupa toda entera, por lo que corta el flujo de
texto. El segundo no corta el flujo y ocupa solo el espacio necesario. Con estas imágenes se entenderá
más fácilmente.
Inline
element
Block-
line
element
A continuación, haremos una lista de los elementos existentes para luego hacer una explicación completa
de los que están en negrita, que son los que aparecen en nuestro ejemplo de TMX. Para ir a la explicación
de un elemento, puedes hacer ctrl + clic sobre el elemento de esta lista.
<header> <bpt>
<body> <ept>
<map> <hi>
<note> <it>
<prop> <ph>
<seg> <sub>
<tmx> <ut>
<tu>
<tuv>
<ude>
Ahora daremos más detalles de cada uno de los elementos y veremos que cada elemento tiene o puede
contener diferentes atributos.
35
Guía de formatos para la traducción Formatos de traducción y sus características
<tmx>
<header>
<body>
36
Guía de formatos para la traducción Formatos de traducción y sus características
<seg> (segment)
Texto o cero, uno o más de estos elementos <bpt> y <ept>, <it>, <ph> y
Contenido: <hi>. Hay que tener en cuenta que cada <bpt> (begin paired tag) debe tener
un <ept> (end paired tag). Hablaremos de estos elementos más adelante.
Atributos
En cuanto a los atributos, podemos diferenciar entre los atributos de TMX y los de XML. Igual que en el
caso anterior, analizaremos solo los que aparecen en el ejemplo de TMX que hemos escogido, es decir,
los que están en negrita. Sin embargo, en este caso también hablaremos de otros atributos que
consideramos importantes bien porque son útiles o bien porque es interesante que los conozcamos por si,
en algún momento, nos los encontramos en una memoria.
changedate i tuid
creationtool pos x
37
Guía de formatos para la traducción Formatos de traducción y sus características
Valor: El valor será un código de idioma tal como los establece el RFC 3066.
¿Dónde lo podemos
En <header>.
encontrar?
¿Dónde lo podemos
<header>, <tu>, <tuv>
encontrar?
Valor: Texto.
¿Dónde lo podemos
<header>, <tu>, <tuv>
encontrar?
creationdate
¿Dónde lo podemos
<header>, <tu>, <tuv>
encontrar?
creationid
38
Guía de formatos para la traducción Formatos de traducción y sus características
Valor: Texto.
¿Dónde lo podemos
<header>, <tu>, <tuv>
encontrar?
creationtool
Indica la herramienta con la que se creó el archivo TMX. Puede que el valor
Uso: utilizado no esté estandarizado y por lo tanto el creador de la herramienta
deberá publicar el identificador empleado.
Valor: Texto.
¿Dónde lo podemos
<header>, <tu>, <tuv>
encontrar?
creationtoolversion
Valor: Texto.
¿Dónde lo podemos
<header>, <tu>, <tuv>
encontrar?
datatype
¿Dónde lo podemos
<header>, <tu>, <tuv>, <sub>
encontrar?
lastusagedate
Valor: Fecha, con el mismo formato que los atributos creationdate y changedate.
39
Guía de formatos para la traducción Formatos de traducción y sus características
¿Dónde lo podemos
<tu>, <tuv>
encontrar?
¿Dónde lo podemos
<header>, <tu>, <tuv>, <note>, <prop>
encontrar?
Valor: Texto.
¿Dónde lo podemos
<header>, <tu>, <tuv>
encontrar?
¿Dónde lo podemos
<header>, <tu>
encontrar?
40
Guía de formatos para la traducción Formatos de traducción y sus características
Indica la lengua del texto origen. El atributo xml:lang del <tuv> de la lengua
Uso: origen tendrá el mismo valor que este atributo srclang. Si un elemento <tu>
no especifica un atributo srclang se utilizará el indicado en <header>.
El valor será un código de idioma tal como los establece el RFC 3066.
También puede ser “*all*” si la lengua origen puede ser cualquiera lengua.
Valor:
Al contrario que el resto de atributos de los archivos TMX, los valores del
atributo srclang no distinguen entre mayúsculas y minúsculas.
¿Dónde lo podemos
<header>, <tu>
encontrar?
¿Dónde lo podemos
<tu>
encontrar?
type
bold (negrita)
color (cambio de color)
dulined (subrayado de dos líneas)
font (cambio de tipo de letra)
italic (cursiva)
link (hipervínculo)
Valor: scap (versalita)
struct (estructura XML/SGML)
ulined (subrayado)
41
Guía de formatos para la traducción Formatos de traducción y sus características
¿Dónde lo podemos
<prop><bpt>, <ph>, <hi>, <sub>, <it>
encontrar?
¿Dónde lo podemos
<tmx>
encontrar?
xml:lang (language)
El valor será un código de idioma tal como los establece el RFC 3066. Para
Valor:
saber más de este atributo se pueden consultar las especificaciones de XML.
¿Dónde lo podemos
<tuv>, <note>, <prop>
encontrar?
Antes de hablar de los formatos de memorias de traducción hemos creído oportuno diferenciar entre estas
cinco acciones que se pueden llevar a cabo en una herramienta TAO: crear, abrir, guardar, importar y
exportar:
Al hablar de “crear una memoria” nos referimos al hecho de crear una memoria desde cero que
42
Guía de formatos para la traducción Formatos de traducción y sus características
Así pues, para hacer la información más visual, utilizaremos los siguientes iconos que significarán lo que
indicamos a continuación:
Con este icono nos referimos a los formatos que un programa puede
abrir.
Con este a los formatos con los que un programa puede guardar un
archivo.
Este icono se refiere a los formatos con los que podemos importar un
archivo en una herramienta.
En una TAO, normalmente se puede o bien crear o bien importar una memoria. Por otro lado, también se
puede importar un archivo de intercambio de memorias a una memoria creada o importada. Es decir:
1. Podemos crear una memoria desde cero o abrir una memoria ya creada; o
2. podemos importar los datos de un archivo de intercambio de memorias a una memoria ya creada
o abierta; y viceversa.
En SDL Trados, por ejemplo, se puede hacer una cosa y otra. Sin embargo, en memoQ no se puede abrir
una memoria ya creada, sino que tenemos que crearla primero en el propio programa y después importar
los datos dentro de esta. Esto quedará más claro al ponerlo en contexto y mencionar ejemplos.
43
Guía de formatos para la traducción Formatos de traducción y sus características
que supuso un gran paso en la combinación de la traducción y las tecnologías. SDL Trados Studio cuenta
con una larga historia de versiones: 2009, 2011, 2014, 2015 y, por último, la versión del 2017. Hoy en día
es la herramienta más utilizada en el ámbito de la traducción. Entre todas estas versiones ha ido habiendo
cambios en cuanto a formatos y algunos han ido desapareciendo hasta el día de hoy.
Tal como hemos mencionado en el apartado anterior, hay una diferencia importante que hay que tener en
cuenta a la hora de hablar de formatos de una herramienta TAO. En SDL Trados podemos clasificar los
formatos de la siguiente manera:
5
Trados Tag Editor es un complemento de Trados que permite traducir contenido teniendo especial cuidado
con las etiquetas. El texto queda separado del código y de las etiquetas para facilitar la tarea de traducción. Era
necesario sobre todo en las versiones anteriores a SDL Trados 2006, cuando la interfaz de trabajo no era
integrada.
44
Guía de formatos para la traducción Formatos de traducción y sus características
Como vemos, las memorias en formato estándar TMX pueden tanto abrirse, como importarse y
exportarse, lo cual garantiza un intercambio fácil y seguro. También vemos que Trados tiene un gran
número de formatos propietarios, que cierra las puertas al intercambio de estos con otras herramientas.
5.2.2.2 MemoQ
MemoQ es otra de las herramientas TAO más utilizadas hoy en día. La primera versión de memoQ
apareció en el año 2006 y, actualmente, la última versión comercializada es la 8.3. Estos son los formatos
que memoQ soporta:
Como vemos, memoQ no acepta un número tan alto de formatos de memorias como SDL Trados, puesto
que esta última herramienta ha creado a lo largo del tiempo muchísimas extensiones y formatos que debe
mantener para garantizar un correcto intercambio. Con las opciones que nos da memoQ, podemos
garantizar que podremos utilizar las memorias de traducción en nuestros proyectos.
5.2.2.3 Memsource
Memsource es una herramienta TAO en la nube, por lo que se puede trabajar con un proyecto desde
cualquier parte. La primera versión se publicó en 2011. Utiliza el método freemium, lo que significa que
se puede usar de forma gratuita (con los servicios mínimos) pero hay que pagar una subscripción si se
quieren usar los servicios avanzados.
45
Guía de formatos para la traducción Formatos de traducción y sus características
Como vemos, Memsource también admite el formato estándar y, además, cuenta con un formato
propietario desarrollado por y para el mismo programa.
5.2.2.4 OmegaT
OmegaT es la herramienta TAO libre más utilizada. La primera versión se publicó en 2001 y en la
actualidad la versión que se utiliza es la 4.1.4. Este programa es especialmente particular puesto que
acepta solo formatos estándares abiertos.
El caso de OmegaT es especial, puesto que no tiene ningún wizard con el que podamos abrir o guardar
memorias. Podemos hablar de los formatos que soporta, es decir, los formatos que podemos utilizar en un
proyecto en OmegaT, pero no de los formatos que puede abrir, guardar, exportar o importar, como en los
casos anteriores. Este es el motivo por el cual no vamos a utilizar la tabla visual que hemos utilizado en
los dos casos anteriores.
Por lo tanto, OmegaT puede utilizar memorias de traducción TMX. Sin embargo, como algunas
herramientas exportan los archivos TMX con “información de cosecha propia”, puede que OmegaT no
llegue a leer el archivo completamente. La versión con la que se puede trabajar mejor en OmegaT es TMX
1.4b.
46
Guía de formatos para la traducción Formatos de traducción y sus características
En primer lugar, indicaremos qué extensiones puede utilizar Translation Studio y, a continuación,
hablaremos más concretamente de esta herramienta para TMX.
Este programa puede guardar las memorias con la extensión .hstm, que
es la que el mismo programa será capaz de abrir.
Con la herramienta Heartsome TMX Editor podemos realizar las siguientes acciones:
1. Convertir algunos de estos archivos (.docx, .xlsx, .txt, .tbx o .hstm) a TMX.
2. Convertir un TMX a .hstm, .docx, .xlsx, .txt, o .tbx.
3. Reparar un archivo TMX con errores.
4. Cambiar la codificación de una memoria.
5. Eliminar las etiquetas de una memoria.
6. Cambiar el código de lengua, tanto la de origen como la de meta.
Heartsome Translation Studio junto con la herramienta TMX Editor conforman una potente herramienta
para la gestión y edición de memorias de traducción.
El formato de bases de datos terminológicas estándar es TBX, desarrollado, al igual que el TMX, por la
asociación LISA.
47
Guía de formatos para la traducción Formatos de traducción y sus características
En primer lugar, nos gustaría explicar el concepto de TMF, puesto que sin él, no podríamos entender la
estructura del TBX. TMF (Terminological Mark-up Framework) establece una estructura para definir
TML (Terminological Mark-up Language) basados en XML. Mediante esta estructura se representan
datos terminológicos almacenados en una TDC (Terminological Data Collection). A continuación,
explicaremos algunas definiciones para aclarar la terminología que vamos a utilizar:
Para este trabajo, hemos utilizado un archivo extraído de la base de datos terminológica de Microsoft.
Poemos ver la muestra en el Anexo II.
5.3.1.1 Estructura
Antes de hablar de la estructura interna de una base de datos, es necesario describir la estructura externa
según la ISO 16642. Para hacerlo, podemos basarnos en esta figura, que he extraído de las
especificaciones del formato TBX:
48
Guía de formatos para la traducción Formatos de traducción y sus características
de un término, es decir, el término se divide en partes más pequeñas, como podría ser en palabras o en
sílabas. Esta última sección no la encontramos en TBX.
El elemento principal de un archivo TBX es <martif>. Dentro de este elemento encontramos otros dos
elementos: <martifHeader> y <text>. En el elemento <martifHeader> encontramos información sobre la
base de datos (GI, ver en la Ilustración 14: Estructura básica de un archivo TMF según la ISO 16642) y
contiene los siguientes elementos: <fileDesc>, <encodingDesc> y <revisionDesc> (estos dos últimos son
opcionales). En el elemento <text> encontramos el elemento <body>, que contiene las entradas
terminológicas, y el elemento <back> (también opcional), donde se introduce información
complementaria (CI, ver en la Ilustración 14: Estructura básica de un archivo TMF según la ISO 16642),
como por ejemplo la fuente bibliográfica. Hay que tener en cuenta que los elementos en color verde son
opcionales y pueden o no estar en un archivo TBX.
Ilustración 14
<fileDesc>: información de la
base de datos
<revisionDesc>: historial de
revisiones de la base de datos
<martif>
<body>: entradas
<termEntry>
terminológicas
<text>
Dentro del elemento <termEntry> que representa a la sección TE, encontramos dos apartados: la entidad6
auxInfo y el elemento <langSet>
6
Definimos “ENTITY” como una instrucción que se utiliza para indicar en un archivo XML o, en este caso,
un archivo basado en XML, que estamos haciendo referencia una entidad (en nuestro caso, una entidad interna)
declarada en el DTD (Document type definition). La estructura es la siguiente: <!ENTITY NombreEntidad
ValorEntidad>, donde el NombreEntidad debe estar declarado en el DTD y el ContenidoEntidad
49
Guía de formatos para la traducción Formatos de traducción y sus características
TE LS TS
<term>
auxInfo <termNote>
<termGroup>
auxInfo
<ntig> <termNoteGrp>
<termEntry>
auxInfo
<langSet>
<termCompList>
<term>
<tig> <termNote>
auxInfo
Dado que mencionar todos los elementos, atributos y valores sería una tarea ardua, hemos decidido
basarnos en un archivo TBX para explicar los elementos, atributos y valores que aparecen. Así pues,
incluiremos una lista de todos y cada uno de ellos pero solo hablaremos de los que se utilizan en este
ejemplo. Utilizaremos una base de datos terminológica EN-ES extraída del portal lingüístico de
Microsoft. En el Anexo I, se puede encontrar una muestra de la base de datos que utilizaremos en este
apartado. Hemos añadido unas cuantas entradas solamente porque el texto original era muy largo.
Elementos
Estos son los elementos que puede contener un archivo TBX. Tal como hemos dicho, solo explicaremos
los elementos que se han usado en la muestra que hemos seleccionado. Para que se sepa cuáles
describiremos, los hemos puesto en negrita.
Elementos
50
Guía de formatos para la traducción Formatos de traducción y sus características
<body>
¿Dónde lo podemos
Dentro del elemento <text>.
encontrar?
<descrip>
¿Dónde lo podemos
Dentro del elemento <descriptGrp> y al entidad entity.auxInfo.
encontrar?
51
Guía de formatos para la traducción Formatos de traducción y sus características
¿Qué atributos puede Puede contener el atributo IDLangTgtDtype, que agrupa los atributos id,
contener? xml:lang, target y datatype.
<descriptGrp>
¿Dónde lo podemos
Lo utiliza la entidad entity.auxInfo.
encontrar?
<fileDesc>
¿Dónde lo podemos
Dentro del elemento <martifHeader>.
encontrar?
52
Guía de formatos para la traducción Formatos de traducción y sus características
<langSet>
¿Dónde lo podemos
Dentro del elemento <termEntry>.
encontrar?
<martif>
¿Dónde lo podemos Después del prólogo o línea introductora en la que se da información sobre
encontrar? la versión de XML que se está usando y sobre el tipo de codificación.
<martifHeader>
¿Dónde lo podemos
Dentro del elemento <martif>.
encontrar?
53
Guía de formatos para la traducción Formatos de traducción y sus características
¿Dónde lo podemos
Dentro del elemento <langSet>.
encontrar?
¿Qué elementos puede Puede llevar los elementos <admin>, <adminGrp>, <descrip>,
contener? <descriptGrp>, <note>, <ref>, <termGrp>, <transacGrp> y <xref>.
<sourceDesc>
¿Dónde lo podemos
Dentro del elemento <fileDesc>.
encontrar?
¿Qué atributos puede Puede llevar el atributo idlang, que agrupa tanto el atributo id como el
contener? xml:lang.
<termEntry>
¿Dónde lo podemos
Dentro del elemento <body>.
encontrar?
<termGrp>
¿Dónde lo podemos
Dentro del elemento <ntig>.
encontrar?
¿Qué elementos puede Puede contener los elementos <term>, <termCompList>, <termNote>,
contener? <termNoteGrp> y <ph>.
<termNote>
54
Guía de formatos para la traducción Formatos de traducción y sus características
¿Qué atributos puede Puede contener el atributo IDLangTgtDtype, que agrupa los atributos id,
contener? xml:lang, target y datatype.
<text>
¿Dónde lo podemos
Dentro del elemento <martif>.
encontrar?
<title>
¿Dónde lo podemos
Dentro de los elementos <header> o <titleStmt>.
encontrar?
55
Guía de formatos para la traducción Formatos de traducción y sus características
¿Qué atributos puede Puede llevar el atributo idlang, que agrupa tanto el atributo id como el
contener? xml:lang.
<titleStmt>
¿Dónde lo podemos
Dentro del elemento <fileDesc>.
encontrar?
¿Qué atributos puede Puede llevar el atributo idlang, que agrupa tanto el atributo id como el
contener? xml:lang.
Atributos
En este punto tenemos que aclarar que algunos de estos atributos contienen en su interior varios atributos.
Sin embargo, de ellos no hablaremos en este trabajo, se pueden consultar en las especificaciones.
Atributos
id idlang
target IDLangTgtDtyp
type idtype
xml:lang Target-IDRER
A continuación, utilizaremos una tabla para describir cada uno de los elementos marcados en negrita.
id
56
Guía de formatos para la traducción Formatos de traducción y sus características
xml:lang
¿Dónde lo podemos En el elemento <martif> debe haber un atributo. Cada elemento <langSet>
encontrar? tiene que contener un atributo que determinará la lengua de esa sección
Los valores que puede contener este atributo los podemos encontrar en IETF
¿Qué contiene?
RFC 4646 (Internet Engineering Task Force).
Seguidamente, explicaremos qué formatos pueden usarse en las herramientas de traducción que hemos
escogido.
Tal como ocurre con las memorias de traducción, con las bases de datos terminológicas podemos llevar a
cabo diferentes acciones: crear, abrir, guardar, importar y exportar:
Al hablar de “crear una base de datos” nos referimos al hecho de crear una desde cero que no
contenga ningún tipo de información.
Al hablar de “abrir una base de datos” nos referimos al acto de abrir una ya creada, o bien en la
propia herramienta o bien en otra herramienta distinta.
Al hablar de “guardar una base de datos” nos referimos a guardar la información tal como se ha
creado en la herramienta TAO.
Al hablar de “importar” nos referimos al acto de introducir datos de un archivo de intercambio
de información dentro de una base de datos ya creada.
Al hablar de “exportar” nos referimos al acto de extraer datos de una base de datos para poder
introducirlos en otra base distinta.
Ahora hablaremos de los formatos soportados por las cinco herramientas TAO que hemos escogido.
57
Guía de formatos para la traducción Formatos de traducción y sus características
En SDL Trados se pueden utilizar bases de datos de Multiterm con los formatos .sdltb y .mdb.
En Multiterm solo se pueden abrir bases de datos que han sido creadas
con la misma herramienta, es decir, que tengas los formatos .sdltb
o .mdb.
5.3.2.2 MemoQ
Es necesario aclarar que, para poder importar o exportar información desde una base un archivo,
necesitamos crear una dentro de memoQ, es decir, no se pueden abrir bases de datos.
En memoQ podemos realizar las siguientes acciones y con los siguientes formatos:
58
Guía de formatos para la traducción Formatos de traducción y sus características
MemoQ no puede abrir bases de datos ya creadas, sino que se tiene que
crear una base de datos e importar la información desde un archivo.
Se pueden exportar las bases de datos en dos formatos: .csv o .xml para
multiterm.
5.3.2.3 Memsource
Para poder importar o exportar información desde una base de datos ya creada necesitamos crear una
dentro de Memsource (como ocurre con memoQ).
En Memsource podemos realizar las siguientes acciones y con los siguientes formatos:
59
Guía de formatos para la traducción Formatos de traducción y sus características
5.3.2.4 OmegaT
OmegaT puede utilizar bases de datos en dos formatos: formato plano (txt) o formato estándar TBX.
Este programa puede guardar las bases de datos con la extensión .hstb,
que es la que el mismo programa será capaz de abrir.
60
Guía de formatos para la traducción Formatos de traducción y sus características
no sea la misma que la del que lo envía. Es importante que el archivo bilingüe pueda ser importado
correctamente en la herramienta correspondiente. Si no fuese así, podría causar muchos problemas
técnicos y de traducción (imposibilidad de abrir un archivo bilingüe, pérdida de información o de
etiquetas, exportación de un archivo corrupto, etc.)
Para este formato, utilizaremos como ejemplo un archivo XLIFF exportado de la herramienta Okapi
Rainbow. Intentamos utilizar diferentes archivos bilingües desde diferentes herramientas TAO pero todas
estaban “contaminadas”, por decirlo de cierta manera. Intentamos, por ejemplo, utilizar archivos bilingües
de Trados (.sdxliff), de memoQ (.mqxliff) y de Heartsome Studio (.hsxliff) pero todos ellos tenían
elementos, atributos y valores que no coincidían con las especificaciones, por lo que no nos servía para
explicar las especificaciones. Hemos escogido el XLIFF de Rainbow porque esta herramienta nos permite
exportar un archivo a la versión 2.0 de XLIFF, que sigue las especificaciones establecidas por OASIS.
Podemos consultar el ejemplo utilizado en el Anexo III.
Además, Okapi tiene una herramienta online para comprobar si un archivo bilingüe XLIFF está bien
creado y estructurado, lo cual parece muy interesante para poder anticipar posibles problemas. Se puede
acceder en este enlace: XLIFF 2 Validation.
Me gustaría destacar la definición que se hace del XLIFF en las especificaciones, pues nos parece muy
acertada: XLIFF is a bilingual document format designed for containing text that needs Translation, its
corresponding translations and auxiliary data that makes the Translation process possible (OASIS XML
Localisation Interchange File Format (XLIFF) TC, 2018)
Un archivo XLIFF sirve, en primera instancia, para extraer las partes de un texto que necesitan traducción.
Una vez estas partes ya se han traducido, con un archivo XLIFF se pueden introducir las traducciones sin
tocar el resto de partes. Esto también nos permite editar los segmentos sin tener que preocuparnos del
formato. Este formato también nos permite intercambiar archivos bilingües entre diferentes herramientas,
cosa que con los formatos propietarios desarrollados por las compañías de las herramientas TAO esto no
es posible. Si creamos un proyecto en una herramienta y exportamos un archivo bilingüe en formato
XLIFF, podemos importarlo en cualquier herramienta que deseemos para traducirlo y devolverlo. Esto
garantiza que el intercambio de información entre clientes, empresas y traductores se da sin errores.
Podría decirse, por lo tanto que, de entre todos los formatos estándares de la industria de la traducción,
este sería el más importante. Si trabajamos con empresas es casi seguro que nos mandarán archivos
bilingües creados en su herramienta TAO para que los subamos a nuestra herramienta TAO y se los
devolvamos traducidos. Puede que la herramienta de la empresa y la nuestra sea la misma, pero en caso
de no ser así, comprender este formato nos ayudará a saber con qué estamos tratando y, tal vez, a resolver
61
Guía de formatos para la traducción Formatos de traducción y sus características
5.4.1.1 Estructura
La estructura de un archivo XLIFF también se basa en XML.
El elemento principal es <xliff> y dentro de él debe haber, por lo menos, un elemento <file>. Cada
elemento <file> contiene, por lo menos, un elemento <unit>, que es el que contiene el texto: el texto a
traducir está en el elemento <source> y la traducción está en <target>. Tiene que haber solo un elemento
<source> pero puede haber varios elementos <target>. Hay que tener en cuenta que los elementos en color
verde son opcionales y pueden o no estar en un archivo XLIFF.
<skeleton> <other>
<other>
<notes> <note>
<xliff> <file>
<other>
<notes> <note>
<unit>
<originalData> <data>
<source>
<segment>
<target>
Elementos
Estos son los elementos que podemos encontrar en un archivo XLIFF según sus especificaciones. Solo
hablaremos de los que están marcados en negrita.
<segment> <mrk>
62
Guía de formatos para la traducción Formatos de traducción y sus características
<ignorable> <sm>
<notes> <em>
<xliff>
<file>
Atributos necesarios: id
<unit>
Atributos necesarios: id
<segment>
Un elemento <source><source><source><source><source><source>
Contenido:
seguido de cero o un elemento <target>.
<source>
63
Guía de formatos para la traducción Formatos de traducción y sus características
Texto o cero, uno o más elementos <cp>, <ph>, <pc>, <sc>, <ec>, <mrk>,
Contenido:
<sm> o <em>.
<target>
Texto o cero, uno o más elementos <cp>, <ph>, <pc>, <sc>, <ec>, <mrk>,
Contenido:
<sm> o <em>.
Atributos
Estos son los atributos de los archivos bilingües XLIFF:
Espacios de nombre de
Atributos de XLIFF
XML
category id subState
64
Guía de formatos para la traducción Formatos de traducción y sus características
href
Nos remite a una URI (Uniform Resource Identifier), que es una serie de
caracteres que identifican un nombre o un recurso en Internet. Tiene dos
Uso:
especializaciones conocidas: URL (nos indica cómo acceder a un recurso) y
URN (lo identifica solo).
Valores: Indefinido.
¿Dónde se puede
Dentro del elemento <skeleton>.
encontrar?
id
Depende del elemento dentro del que se encuentre. Para tener más
Valores: información puede consultarse en el apartado Atributos de las
especificaciones.
<file>
¿Dónde se puede <group>
encontrar? <unit>
<note>
<data>
<segment>, <ignorable>, <mrk>, <sm>, <pc>, <sc>, <ec> o <ph>
original
¿Dónde se puede
Se utiliza dentro del elemento <file>.
encontrar?
srcLang
65
Guía de formatos para la traducción Formatos de traducción y sus características
¿Dónde se puede
Se puede encontrar en el elemento <xliff>.
encontrar?
trgLang
¿Dónde se puede
Se puede encontrar en el elemento <xliff>.
encontrar?
type
Depende del elemento dentro del que se encuentre. Para tener más
Valores: información puede consultarse en el apartado Atributos de las
especificaciones.
¿Dónde se puede Se puede utilizar en los siguientes elementos: <group>, <unit>, <pc>, <sc>,
encontrar? <ec>, <mrk>, <ph> y <sm>.
xml:lang
xml:space
Indica cómo deben tratarse los espacios (de ASCII, tabulaciones y saltos de
Uso:
línea).
Depende del elemento dentro del que se encuentre, pero los valores son los
siguientes:
Valores:
default: significa que se aplicarán las reglas de la propia
herramienta para determinar si se preservarán o no los espacios.
preserve: significan que se deben preservar todos los espacios en
66
Guía de formatos para la traducción Formatos de traducción y sus características
blanco.
67
Guía de formatos para la traducción Formatos de traducción y sus características
5.4.2.2 MemoQ
En memoQ, la opción de importar y exportar está más clara, pues al abrir un proyecto, tenemos las
opciones a vista en la parte de arriba de la pantalla (normalmente).
Cabe destacar que en la página oficial de memoQ indica que puede abrir paquetes de SDL Trados en
formato .sdlppx, que son archivos comprimidos dentro de los que podemos encontrar un archivo bilingüe
en formato .sdlxliff y las memorias de traducción y bases de datos del proyecto. También puede abrir
paquetes de STAR Transit7 en formato .pxf y .ppf.
Para saber más sobre el intercambio de archivos entre memoQ y otras herramientas, se puede consultar
este enlace.
5.4.2.3 Memsource
En Memsource podemos utilizar todos los formatos que mencionaremos a continuación.
7
Herramienta TAO privativa desarrollada por STAR Group. Para saber más, se puede consultar su página web.
68
Guía de formatos para la traducción Formatos de traducción y sus características
A continuación, explicaremos qué es cada formato, aunque algunos ya los hemos mencionado
anteriormente.
.docx Documento de Word bilingüe (tiene el texto en dos columnas, una para el texto
origen y una para el texto meta)
Como vemos, Memsource nos permite abrir archivos propios de diferentes herramientas, lo que nos
garantiza una cierta interoperabilidad.
5.4.2.4 OmegaT
En OmegaT podemos abrir archivos bilingües con las extensiones .ttx, .rtf, .txml y .xlf.
Vemos que, aunque Heartsome es una herramienta muy potente para las memorias de traducción, no tiene
tantas posibilidades en cuanto a archivos bilingües.
69
Guía de formatos para la traducción Formatos de traducción y sus características
Un SRX describe las reglas de segmentación de un texto, por lo que si utilizamos las mismas reglas en
nuestra herramienta que las de una memoria de traducción, el número de coincidencias será mayor. Para
crear las reglas de un archivo SRX se utilizan expresiones regulares según la ICU (International
Components for Unicode), que pueden consultarse en esta página web. En este caso utilizaremos las
especificaciones de la versión 2.0, publicada en abril de 2008.
Para hablar sobre los elementos y los atributos de este tipo de archivos tomaremos como ejemplo el
archivo SRX de Heartsome Translation Studio, que podemos encontrar en el Anexo IV. El archivo SRX
original tenía muchas más entradas y contenía información para diferentes idiomas: inglés, catalán,
español, alemán, etc. Sin embargo, para no ocupar demasiado espacio en este proyecto y puesto que solo
lo necesitamos para mostrar la estructura de este formato estándar, hemos acortado el archivo a solo unas
cuantas reglas. Además, es necesario destacar que el archivo que hemos seleccionado como ejemplo está
creado según las especificaciones de la versión 1.0, mientras que las especificaciones que utilizaremos
para explicar la estructura de un SRX son la versión 2.0. Esto, como veremos, conllevará algunas
diferencias entre las especificaciones y el archivo de ejemplo.
5.5.1.1 Estructura
El elemento raíz de un archivo SRX es <srx>, que contiene a la vez dos elementos: <header> y <body>.
El primero puede contener cero, uno, dos o tres elementos <formathandle>; el segundo contiene dos
elementos: <languagerules> y <maprules>. Así pues, el elemento <body> se divide en dos grandes
bloques:
<languagerules>: define reglas para una lengua. Dentro contiene un elemento <languagerule>
(en singular) que define las reglas para un idioma en concreto. Dentro de este elemento
encontramos las reglas, cada una dentro de un elemento <rules>. Cada elemento <rule> contiene
el atributo break cuyo valor puede ser “yes” o “no” dependiendo de si en ese caso habrá o no una
segmentación. Cada elemento <rule> puede contener cero o un elemento <beforebreak> y cero
o un elemento <afterbreak>; en ellos se indica la expresión regular de esa regla.
<maprules>: indica cuándo se utilizará cada una de las reglas.
70
Guía de formatos para la traducción Formatos de traducción y sus características
<header> <formathandle>
<srx> <beforebreak>
<body> <afterbreak>
<maprules> <languagemap>
Elementos
Un archivo SRX puede contener los siguientes elementos:
Elementos
<afterbreak> <languagerule>
<beforebreak> <languagerules>
<body> <maprules>
<formathandle> <rule>
<header> <srx>
<languagemap>
Nuestro archivo de ejemplo contiene todos y cada uno de estos elementos, por lo que vamos a
mencionarlos todos. Sin embargo, en el ejemplo encontramos un elemento, el <maprule>, que no está en
las especificaciones, pues en la versión 2.0 se ha eliminado.
<afterbreak>
<beforebreak>
71
Guía de formatos para la traducción Formatos de traducción y sus características
<body>
En este elemento encontramos las reglas en sí para cada lengua y los mapas
Uso:
para las lenguas.
<formathandle>
Contenido: Nada.
<header>
<languagemap>
Contenido: Nada.
<languagerule>
Uso: Este elemento engloba las reglas de una lengua, dentro de elementos <rule>.
72
Guía de formatos para la traducción Formatos de traducción y sus características
<languagerules>
<maprules>
<rule>
Este elemento define una regla de segmentación para una lengua utilizando
Uso:
los elementos <beforebreak> y <afterbreak>.
Puede llevar el atributo break, que determina si una regla se le aplica una
Atributos opcionales:
excepción o es una regla de segmentación.
<srx>
Atributos
Estos son los atributos de un archivo SRX:
73
Guía de formatos para la traducción Formatos de traducción y sus características
Atributos
break languagerulename
cascade segmentsubflows
include type
languagepattern version
En nuestro archivo de ejemplo encontramos casi todos estos atributos pero, a parte, encontramos también
tres atributos que no están descritos en las especificaciones: encoding, id y maprulename. Esto se debe a
que nuestro archivo de ejemplo está creado basándose en la versión 1.0 mientras que las especificaciones
que describimos aquí son del archivo SRX 2.0. Así pues, el atributo encoding es propio del lenguaje XML,
y este es el motivo por el que no aparece en las especificaciones. El atributo id no está en la lista de
atributos en las especificaciones pero está totalmente aceptado. En cuanto al atributo maprulename, en las
especificaciones se indica que en la versión 2.0 se ha eliminado este atributo y su elemento <maprule>.
break
¿Dónde se puede
Se utiliza en el elemento <rule>.
encontrar?
include
¿Dónde se puede
Se utiliza en el elemento <formathandle>.
encontrar?
languagepattern
Crea una expresión regular para los códigos de lengua que se asocian a cada
Valores:
regla. Los códigos válidos son los establecidos en la RFC 4646.
¿Dónde se puede
Se utiliza en el elemento <languagemap>.
encontrar?
languagerulename
74
Guía de formatos para la traducción Formatos de traducción y sus características
¿Dónde se puede
Se utiliza en el elemento <languagemap> o en el <languagerule>.
encontrar?
type
¿Dónde se puede
Se utiliza en el elemento <formathandle>.
encontrar?
version
¿Dónde se puede
Se utiliza en el elemento <srx>.
encontrar?
5.5.2.2 MemoQ
MemoQ puede importar reglas de segmentación en formato SRX pero también tiene su propio formato,
que es .mqres (de resource).
5.5.2.3 Memsource
Memsource puede tanto importar como exportar reglas de segmentación en formato SRX y xlsx.
75
Guía de formatos para la traducción Formatos de traducción y sus características
5.5.2.4 OmegaT
OmegaT también puede utilizar reglas de segmentación en formato SRX.
76
Guía de formatos para la traducción Archivos y extensiones
6 Archivos y extensiones
Hemos creado una tabla con las extensiones que consideramos las más utilizadas y algunas herramientas,
relacionando unas con las otras con la finalidad de ver con qué herramientas podemos abrir cada uno de
los formatos incluidos en el punto 3 Formatos de archivos.
Dado que la tabla que hemos creado tiene un tamaño demasiado grande como para caber en esta página,
la hemos añadido en el anexo, concretamente en el Anexo V.
77
Guía de formatos para la traducción El formato PDF
7 El formato PDF
El formato PDF se ha ido convirtiendo en uno de los más utilizados hoy en día en la sociedad. Tanto los gobiernos
como las empresas confían en el PDF para intercambiar documentos. Tiene algunos puntos que le han ayudado a
convertirse en el tipo de documento más utilizado: es multiplataforma, puede contener diferente tipo de
información, no pierden el formato, es abierto, puede cifrarse, puede generarse muy fácilmente, etc.
En traducción, el PDF es probablemente uno de los formatos con los que más nos encontraremos. Puede deberse
a dos causas:
1. Que el cliente no tenga el archivo original en formato editable porque no lo guardó o no sabe dónde está
y, por lo tanto, solo cuenta con el archivo en PDF que exportó para bloquear el formato.
2. Que el PDF sea una imagen escaneada de un documento que tampoco es editable.
Por lo tanto, en el caso de que recibamos un archivo PDF para traducir, tenemos que organizarnos y saber actuar
para no perder más tiempo del debido.
Es necesario saber, pues, que la gran mayoría de herramientas TAO no pueden gestionar un archivo PDF puesto
que no es editable.
7.1.1 Creación
Crear un archivo PDF es de lo más sencillo, existen varias formas de crear un PDF:
1. Exportarlo desde una herramienta cuyo objetivo sea crear o editar contenido.
2. Crearlo a partir de imágenes, normalmente escaneadas, pero esto se podría considerar más bien una
conversión.
3. Guardar una página web como PDF.
Algunas herramientas que permiten crear PDF mediante exportación son las siguientes:
Microsoft Office
LibreOffice
InDesign
En el caso de las imágenes, cuando escaneamos un documento este suele guardar como una imagen. También se
pueden escanear archivos directamente en formato PDF, pues lo más probable es que si formateamos un
documento es porque queremos usarlo como un PDF, no como una imagen. Sin embargo, existen muchas
herramientas que permiten convertir una imagen en un PDF. De esto hablaremos en el apartado 7.1.4 Conversión.
Desde una página web también podemos crear un PDF que contendrá la propia página web con el formato original.
También se conservarán los enlaces y los archivos multimedia, por lo general.
78
Guía de formatos para la traducción El formato PDF
7.1.2 Visualización
Para visualizar un archivo PDF se suele utilizar Adobe Acrobat Reader DC, que es una herramienta gratuita para
ver, comentar e imprimir PDF. Adobe tiene programas que permiten hacer una edición más avanzada de los PDF
pero son de pago.
Para visualizar también podemos utilizar otros programas, aunque menos conocidos, como Foxit Reader
(gratuito). También podemos visualizar un PDF en cualquier navegador (Chrome, Firefox, Edge…). Google Drive
también permite subir archivos PDF y visualizarlos.
7.1.3 Edición
Para editar un archivo PDF tenemos dos opciones:
Para poder editar un PDF directamente en una herramienta sin exportarlo a un formato editable necesitamos una
herramienta que lo permita. Para hablar de esto diferenciaremos entre dos tipos de PDF: los que podríamos llamar
editables, aquellos en los que se puede seleccionar el texto, copiar, etc.; y los escaneados, en los que no se puede
seleccionar nada. Los primeros son los que pueden editarse en algunas herramientas, pero los segundos deben
convertirse para poder editarlos.
Por lo tanto, para poder modificar PDF editables tenemos la herramienta más utilizada y comercializada: Adobe
Acrobat (no hay que confundirlo con el Reader, que es gratuito). Con este programa, propietario y de pago, pueden
hacerse muchas cosas. A continuación, encontramos una captura donde podemos ver todas las acciones que pueden
llevarse a cabo con la herramienta Adobe Acrobat en su versión Pro DC (para ver las versiones, visitar la página
web de Adobe Acrobat).
79
Guía de formatos para la traducción El formato PDF
También existen otros programas que pueden editar PDF directamente pero no se utilizan tanto, pues Adobe es un
programa muy potente en el mercado. Otros programas con unas funciones parecidas, aunque menos potentes
pueden ser: APowerPDF o PDFEscape.
7.1.4 Conversión
Muchas veces la única opción para poder traducir un archivo PDF en una herramienta TAO es convertirlo en
editable pero, ¿cómo? En los siguientes apartados, daré un par de programas u opciones con las que podemos
convertir un PDF en un archivo editable (normalmente se convierte en un archivo Word).
Estos son algunos de los programas que nos permiten convertir un PDF a un archivo editable, los hemos
seleccionado por experiencia propia o porque nos han parecido interesantes. Como veremos, dependiendo de
nuestras necesidades podremos escoger uno u otro, es decir, el que más se nos acople en cada momento.
Con este programa podemos convertir varios tipos de archivos a archivos editables. En este enlace podemos
encontrar los formatos aceptados y, a continuación, incluiremos una lista:
Archivos de entrada: pdf, bmp, pcx, dcx, jpeg, jbig2, png, tiff, xps, djvu o gif.
Formatos a los que se puede guardar:
o Documentos: doc, docx, xls, xlsx, pptx, rtf, pdf,
pdf/a, html, csv, txt, odt, djvu, epub, fb2.
o Imágenes: bmp, tiff, pcx, dcx, jpeg, jbig2, png.
80
Guía de formatos para la traducción El formato PDF
7.1.4.3 TransPDF
TransPDF es un programa basado en la web desarrollado por Iceni Technology. La herramienta principal que esta
compañía ha desarrollado se llama Infix PDF Editor, que es un programa para editar PDF bastante completo.
81
Guía de formatos para la traducción El formato PDF
Además, tiene una API con la que se puede integrar en memoQ y en Memsource.
La versión de prueba del programa nos permite editar un máximo de 25 páginas y, si estamos interesados en seguir
utilizándolo, podemos comprar créditos (cada página cuesta un crédito). Sin embargo, si tenemos una licencia de
Infix, podemos utilizar TransPDF de forma gratuita.
7.1.4.4 FreeOCR
Este programa es una herramienta de reconocimiento óptico de caracteres gratuita para Windows. Es sencilla pero
puede resultarnos útil si no trabajamos de forma continua con archivos PDF.
7.1.4.5 Ilovepdf
Esta es una aplicación en línea que nos permite hacer diferentes cosas con archivos PDF. En la siguiente
ilustración, veremos cuáles son estas acciones, entre ellas unir archivos PDF, poner una marca de agua,
desbloquear, rotar, convertir, etc.
Como vemos en la Ilustración 23, esta página web también podría caber en el apartado 7.1.3 Edición puesto que,
a parte de convertir un PDF, también nos permite comprimirlos, desbloquearlos, etc.
Cabe destacar que hoy en día existen muchas páginas web en las que podemos editar o convertir archivos PDF, la
que hemos mencionado es solo una de las muchas que hay. Destacamos también SmallPDF o PDFtoDoc.
82
Guía de formatos para la traducción El formato PDF
Estos errores aparecen en mayor o menor medida dependiendo del programa que utilicemos y, también, del PDF
que queramos convertir. Está claro que no se convertirá tan bien un archivo escaneado que un PDF seleccionable.
También cabe destacar que todos estos errores no son igual de importantes: algunos afectan solo al formato
mientras que otros podrían afectar a un mayor nivel, por ejemplo la segmentación al subir el archivo a una
herramienta TAO.
83
Guía de formatos para la traducción Conclusión
8 Conclusión
Como hemos visto a lo largo del trabajo, los formatos estándares pueden estar aceptados por la industria en
diferentes niveles: el TMX y el SRX están muy aceptados, el XLIFF está bastante aceptado y el TBX es el que
menos aceptado está. Para hacer más visual este nivel de aceptación del que hablamos, hemos añadido unos
gráficos circulares en los que marcaremos qué porcentaje de las cinco herramientas permiten importar archivos
con ese formato. También sería interesante marcar qué porcentaje permite exportar archivos en el formato estándar
pero nos parece más importante conocer la aceptación en cuanto a la importación, pues es lo que más nos interesa.
La explicación de la estructura de cada uno de los estándares nos ayudará a entender el archivo si lo abrimos en
un editor de texto como Notepad++. A primera vista veremos los elementos necesarios y la información que
queremos consultar o en la que estamos interesados.
En cuanto a la lista de formatos que hemos creado, se trata de una propuesta de clasificación de los formatos desde
el punto de vista del traductor y de su actividad profesional. Creemos que el traductor podrá ser más eficaz en su
trabajo y ahorrarse el tiempo de tener que buscar o comprobar si un programa abre o gestiona un formato en
concreto gracias a la tabla que hemos creado que relaciona los formatos con los programas. En ella hemos incluido
los programas que consideramos más utilizados en la actualidad o los más útiles y hemos escogido algunas
extensiones de las que hemos hablado en el apartado 3 Formatos de archivos.
En cuanto al formato PDF, creemos que con la información que hemos proporcionado puede ayudar al traductor,
o a cualquier persona interesada, a gestionar este tipo de archivos con más facilidad y eficacia.
Teniendo en cuenta la metodología que hemos empleado para llevar a cabo este trabajo y el contenido que hemos
abarcado, creemos que un traductor profesional puede aprovechar la información. Esta se ha presentado de forma
práctica para que el traductor pueda acceder al contenido que le interese de forma sencilla y rápida.
84
Guía de formatos para la traducción Bibliografía
9 Bibliografía
ABBYY (n.d.) Abbyy Finereader 14 [en línea]. Disponible en: https://www.abbyy.com/es-es/finereader/convert/
[Consultado el 10 de mayo de 2018]
Adobe (n.d.) Adobe acrobat reader [en línea]. Disponible en: https://acrobat.adobe.com/es/es/acrobat/pdf-
reader.html [consultado el 12 de mayo de 2018]
Adobe Acrobat DC (n.d.). ¿Qué es el formato PDF? Formato de documento portátil de Adobe [en línea].
Disponible en: https://acrobat.adobe.com/es/es/acrobat/about-adobe-pdf.html [Consultado el 5 de marzo
de 2018].
AENOR (2015). Norma UNE-EN ISO 17100:2015 [en línea]. Disponible en:
http://www.aenor.es/aenor/normas/normas/fichanorma.asp?tipo=N&codigo=N0055778 [Consultado el
25 de febrero de 2018].
Barzanallana, R. (n.d.). Memorias de traducción. [en línea]. Universidad de Murcia. Disponible en:
http://www.um.es/docencia/barzana/TEI/Informatica-Aplicada-a-la-Traduccion-Memorias-de-
Traduccion.html [Consultado el 12 de febrero de 2018].
Chan, S. (2016). The future of translation technology: Towards a World Without Babel. Nueva York: Routledge.
Código fuente, Código objeto y Código ejecutable (2014) [en línea]. Disponible en:
https://prezi.com/cqq7pc8xhy45/coodigo-fuente-codigo-objeto-y-codigo-ejecutable/ [Consultado el 25 de
marzo de 2018]
Comprehensive list of translation memory (TM) file formats (Translator resources) (2015) [en línea]. Proz.
Disponible en: https://www.proz.com/forum/translator_resources/292706-
comprehensive_list_of_translation_memory_tm_file_formats.html [Consultado el 12 de febrero de
2018].
Dahmen-Lhuissier, S. (n.d.). ETSI: What are standards? [en línea]. Disponible en:
http://www.etsi.org/standards/what-are-standards [Consultado el 23 de febrero de 2018].
Diferencias entre extensión y formato de un archivo (2011), [Blog] Pensamientos computables. Disponible en:
http://www.pensamientoscomputables.com/entrada/archivo-extension-formato.html [Consultado el 17 de
febrero de 2018].
ECMA (2017). The JSON Data Interchange Syntax. [en línea] Ginebra. Disponible en: http://www.ecma-
international.org/publications/files/ECMA-ST/ECMA-404.pdf [Consultado el 13 de abril de 2018].
El código ASCII (n.d.) [en línea]. Disponible en: http://www.elcodigoascii.com.ar/ [Consultado el 17 de febrero
de 2018].
European Committee for Standardization (n.d.) What is a Standard? [en línea]. Disponible en:
85
Guía de formatos para la traducción Bibliografía
European Committee for Standardization (n.d.). European Committee for Standardization [en línea]. Disponible
en: https://www.cen.eu/Pages/default.aspx [Consultado el 25 de febrero de 2018]
Exes (n.d.) Manual de XML. Sintaxis de las DTD. Disponible en: http://www.mundolinux.info/sintaxis-de-las-
dtd.htm [Consultado el 5 de mayo de 2018]
File Format Definition (n.d.) [en línea]. TechTerms. Disponible en: https://techterms.com/definition/file_format
[Consultado el 16 de marzo de 2018].
Fixing Corrupt MOV Files (n.d.) [en línea]. Aeroquartet. Disponible en: http://aeroquartet.com/movierepair/fix-
mov-files [Consultado el 25 de febrero de 2018].
Formato GIF (n.d.) [en línea] CCM. Disponible en: http://es.ccm.net/contents/720-formato-gif [Consultado el 18
de febrero de 2018].
Fortin Tam, J.-F. (n.d.). Understanding codecs and containers [en línea]. Disponible en:
http://www.pitivi.org/manual/codecscontainers.html [Consultado el 18 de febrero de 2018].
GALA Global (n.d.) [en línea]. GALA Global. Disponible en: https://www.gala-global.org/ [Consultado el 13 de
febrero de 2018].
GALA Global. (2017). LISA OSCAR Standards [en línea]. Disponible en https://www.gala-global.org/lisa-oscar-
standards [Consultado el 5 de marzo de 2018]
Imágenes vectoriales y de mapa de bits (n.d.) CCM [en línea]. Disponible en: https://es.ccm.net/contents/736-
imagenes-vectoriales-y-de-mapa-de-bits [Consultado el 24 de mayo de 2018]
ISO 30042:2008 (2008). Systems to manage terminology, knowledge and content -- TermBase eXchange (TBX)
[en línea]. Disponible en: https://www.iso.org/standard/45797.html [Consultado el 16 de abril de 2018].
Jefatura del estado (1992). Ley 21/1992, de 16 de julio, de Industria. Disponible en:
https://www.boe.es/buscar/pdf/1992/BOE-A-1992-17363-consolidado.pdf [Consultado el 5 de febrero de
2018]
Lavery, Shea (n.d.). ¿Qué son los archivos SRT? [en línea]. Techlandia. Disponible en:
https://techlandia.com/son-archivos-srt-info_108744/ [Consultado el 09 de abril de. 2018].
Localization Industry Standards Association (2005). TMX 1.4b [en línea]. Disponible en: https://www.gala-
global.org/tmx-14b [Consultado el 4 de febrero de 2018]
Localization Industry Standards Association (2008a). TBX [en línea]. Disponible en: https://www.gala-
global.org/sites/default/files/uploads/pdfs/tbx_oscar_0.pdf [Consultado el 4 de febrero de 2018]
Localization Industry Standards Association (2008b). SRX 2.0 [en línea]. Disponible en: https://www.gala-
global.org/srx-20-april-7-2008 [Consultado el 4 de febrero de 2018]
Locksley, R. (2011). Características y diferencias de los diferentes formatos de imágenes [Blog]. VIX.
Disponible en: https://www.vix.com/es/btg/tech/12737/caracteristicas-de-los-diferentes-formatos-de-
imagenes-png-jpg-gif-tiff [Consultado el 18 de febrero de 2018].
Mata Pastor, M. (2009). Algunas pautas para el tratamiento de imágenes y contenido gráfico en proyectos de
86
Guía de formatos para la traducción Bibliografía
Melby A. K. (2008) TBX-Basic. Translation-oriented Terminology Made Simple. Revista Tradumática, núm. 6,
pp., diciembre de 2009. Disponible en:
ttp://www.fti.uab.cat/tradumatica/revista/num6/articles/02/02art.htm [Consultado el 5 de mayo de 2018]
MemoQ (n.d.) Compatibility with other tools [en línea]. Disponible en:
https://www.memoq.com/en/compatibility-with-other-tools [Consultado el 23 de mayo de 2018]
MemoQ (n.d.) Languages and file formats [en línea]. Disponible en: https://www.memoq.com/en/languages-
and-file-formats [Consultado el 23 de mayo de 2018]
Memsource (n.d.) Memsource Cloud Manual: Supported File Formats [en línea]. Disponible en:
https://help.memsource.com/hc/en-us/articles/360000446911-Supported-File-Formats [Consultado el 24
de mayo de 2018]
Microsoft: soporte técnico (n.d.). Formatos Open XML y extensiones de nombres de archivo [en línea].
Disponible en: https://support.office.com/es-es/article/formatos-open-xml-y-extensiones-de-nombres-de-
archivo-5200d93c-3449-4380-8e11-31ef14555b18 [Consultado el 5 de marzo de 2018].
Ministerio de Economía, Industria y Competitividad (n.d.). Legislación básica e infraestructura para la calidad
y seguridad industrial [en línea]. Disponible en: http://www.minetad.gob.es/industria/es-
ES/Servicios/calidad/Paginas/legislacion-basica.aspx?Faq=Normalizaci%C3%B3n#dt1 [Consultado el
2.25 de 2018].
Morado L. y Torres J. (2015). ‘XLIFF and the Translator: Why does it matter?’ Revista Tradumática, núm. 13,
pp. 584-607, diciembre de 2015. Disponible en:
http://revistes.uab.cat/tradumatica/article/download/88/pdf_4 [Consultado el 13 de mayo de 2018]
NCH Software (n.d.). Formatos de archivo de audio [en línea]. Disponible en:
http://www.nch.com.au/acm/es/formats.html [Consultado el 18 de febrero de 2018].
Norman Francis, Mark (2017). Conceptos básicos de HTML [en línea]. UOC. Disponible en:
https://mosaic.uoc.edu/ac/le/es/m3/ud1/index.html [Consultado el 23 de febrero de 2018].
OASIS XML Localisation Interchange File Format (XLIFF) TC (2018) [en línea] Disponible en:
http://docs.oasis-open.org/xliff/xliff-core/v2.1/cos02/xliff-core-v2.1-cos02.html [Consultado el 4 de
87
Guía de formatos para la traducción Bibliografía
febrero de 2018]
Oliver, A., Moré, J. & Climent S. (2007). Traducción y tecnologías, Editorial UOC, Universitat Oberta de
Catalunya.
OpenDocument Format (n.d.). About OpenDocument Format [en línea]. Disponible en:
http://opendocumentformat.org/aboutODF/ [Consultado el 09 de abril de 2018]
OpenXML (n.d.) OpenXML [en línea].. Disponible en: http://www.openxml.biz/ [Consultado el 5 de marzo de
2018].
Rich Text Format (RTF) Specification, version 1.6 [en línea]. Disponible en:
http://latex2rtf.sourceforge.net/rtfspec.htm [Consultado el 5 de marzo de 2018].
Rico Pérez, C. y Stoeller, W. (2015). ‘How can standards contribute to today’s needs of buyers and providers of
translation?’ [en línea]. Tradumàtica: tecnologies de la traducció, 13, pp.539-544. Disponible en:
https://dialnet.unirioja.es/servlet/articulo?codigo=5330117 [Consultado el 5 de marzo de 2018].
Salgado, F. (2016). Maquetación: ¿De qué estamos hablando? (I). [en línea] Cálamo & Cran. Disponible en:
https://www.calamoycran.com/blog/maquetacion-de-que-estamos-hablando-i [Consultado el 09 de abril
de. 2018].
SDL Trados (n.d.). The history of SDL's language solutions [en línea]. Disponible en:
https://www.sdltrados.com/about/history.html [Consultado el 08 de abril de 2018]
SDL Trados Studio 2017 (n.d.) Specific file types [en línea]. Disponible en:
https://docs.sdl.com/LiveContent/content/ko-KR/SDL%20Trados%20Studio%20Help-v4/GUID-
E1FC4018-82EB-461A-874A-ACD1A15D7CD5 [Consultado el 24 de mayo de 2018]
Shafranovich Y. (2005). RFC 4180: Common Format and MIME Type for Comma-Separated Values (CSV) Files
[en línea]. Disponible en: https://www.rfc-editor.org/pdfrfc/rfc4180.txt.pdf [Consultado el 3 de mayo de
2018]
88
Guía de formatos para la traducción Bibliografía
Traducción asistida por ordenador con OmegaT: Las bases de datos terminológicas (n.d.). [en línea]. UOC.
Disponible en: https://sites.google.com/a/uoc.edu/traduccion-asistida-por-ordenador-con-omegat/unidad-
3-las-bases-de-datos-terminologicas/mt3-las-bases-de-datos-terminologicas [Consultado el 20 de febrero
de 2018].
Verguizas, J. (2011). Java y los ficheros .properties. [Blog] v3rgu1. Disponible en:
http://www.v3rgu1.com/blog/476/2011/programacion/java-y-los-ficheros-properties/ [Consultado el 13
de abril de 2018].
World Wide Web Consortium (2009). Introducción a las codificaciones y a los sets de caracteres [en línea].
Disponible en: https://www.w3.org/International/getting-started/characters.es [Consultado el 17 de
febrero de 2018].
World Wide Web Consortium (n.d.). Character encodings for beginners [en línea]. Disponible en:
https://www.w3.org/International/questions/qa-what-is-encoding [Consultado el 13 de febrero de 2018].
World Wide Web Consortium Schools (n.d.) DTD: Entities [en línea]. Disponible en:
https://www.w3schools.com/xml/xml_dtd_entities.asp [Consultado el 5 de mayo de 2018]
World Wide Web Consortium Schools (n.d.) DTD: Intro [en línea]. Disponible en:
https://www.w3schools.com/xml/xml_dtd_intro.asp [Consultado el 5 de mayo de 2018]
World Wide Web Consortium Schools (n.d.). XML Syntax [en línea]. Disponible en:
https://www.w3schools.com/xml/xml_syntax.asp [Consultado el 27 de marzo de 2018]
XML (Extensible Markup Language) Definition [en línea], (n.d.). Disponible en:
https://techterms.com/definition/xml [Consultado el 18 de marzo de 2018]
89
Guía de formatos para la traducción
10 Anexos
Anexo I: Memoria de traducción en formato TMX extraída
del OPUS
<?xml version="1.0" encoding="UTF-8" ?>
<tmx version="1.4">
srclang="en"
adminlang="en"
o-tmf="unknown"
segtype="sentence"
creationtool="Uplug"
creationtoolversion="unknown"
datatype="PlainText" />
<body>
<tu>
</tu>
<tu>
<tuv xml:lang="en"><seg>He stated merely "I have already received quite a few
promises".</seg></tuv>
</tu>
<tu>
</tu>
<tu>
90
Guía de formatos para la traducción
<tuv xml:lang="en"><seg>His boss, the division director, Czech lawyer Václav Mikulka, follows
what he is saying and occasionally adds something.</seg></tuv>
<tuv xml:lang="es"><seg>Su jefe, director de la División, el abogado checo Václav Mikulka, sigue
la exposición y, a veces, la completa.</seg></tuv>
</tu>
<tu>
</tu>
<tu>
<tuv xml:lang="en"><seg>The ocean floor shelters a thus far little known world rich in natural
resources.</seg></tuv>
<tuv xml:lang="es"><seg>El fondo marino esconde hasta hoy un mundo poco conocido, rico en
fuentes naturales.</seg></tuv>
</tu>
<tu>
</tu>
</body>
</tmx>
91
Guía de formatos para la traducción
<martifHeader>
<fileDesc>
<titleStmt>
</titleStmt>
<sourceDesc>
</sourceDesc>
</fileDesc>
</martifHeader>
<text>
<body>
<termEntry id="14926_6">
<langSet xml:lang="en-US">
<descripGrp>
</descripGrp>
<ntig>
<termGrp>
<term id="6">abort</term>
<termNote type="partOfSpeech">Verb</termNote>
</termGrp>
</ntig>
</langSet>
<langSet xml:lang="es-es">
92
Guía de formatos para la traducción
<ntig>
<termGrp>
<term id="7">anular</term>
<termNote type="partOfSpeech">Verb</termNote>
</termGrp>
</ntig>
</langSet>
</termEntry>
<termEntry id="10234_35">
<langSet xml:lang="en-US">
<descripGrp>
</descripGrp>
<ntig>
<termGrp>
<termNote type="partOfSpeech">Noun</termNote>
</termGrp>
</ntig>
</langSet>
<langSet xml:lang="es-es">
<ntig>
<termGrp>
<termNote type="partOfSpeech">Noun</termNote>
</termGrp>
</ntig>
</langSet>
</termEntry>
93
Guía de formatos para la traducción
<termEntry id="6151_126">
<langSet xml:lang="en-US">
<descripGrp>
</descripGrp>
<ntig>
<termGrp>
<term id="126">adapter</term>
<termNote type="partOfSpeech">Noun</termNote>
</termGrp>
</ntig>
</langSet>
<langSet xml:lang="es-es">
<ntig>
<termGrp>
<term id="128">adaptador</term>
<termNote type="partOfSpeech">Noun</termNote>
</termGrp>
</ntig>
</langSet>
</termEntry>
</body>
</text>
</martif>
94
Guía de formatos para la traducción
<unit id="NFDBB2FA9-tu1">
<segment>
</segment>
</unit>
<unit id="NFDBB2FA9-tu3">
<segment>
</segment>
</unit>
<unit id="NFDBB2FA9-tu4">
<segment>
</segment>
</unit>
<unit id="NFDBB2FA9-tu5">
<segment>
<source xml:space="preserve">Al aplicar los estilos, los títulos cambian para coincidir
con el nuevo tema. Ahorre tiempo en Word con nuevos botones que se muestran donde
se necesiten.</source>
95
Guía de formatos para la traducción
</segment>
</unit>
<unit id="NFDBB2FA9-tu6">
<segment>
</segment>
</unit>
<unit id="NFDBB2FA9-tu8">
<segment>
</segment>
</unit>
</file>
<unit id="tu1">
<segment>
</segment>
</unit>
</file>
</xliff>
96
Guía de formatos para la traducción
<srx version="1.0">
<header segmentsubflows="yes">
</header>
<body>
<languagerules>
<languagerule languagerulename="default">
<rule break="yes">
<beforebreak>[\.\?!]+</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
<rule break="yes">
<beforebreak>\S:+["'”\)]?</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
<rule break="yes">
<beforebreak>\u2029</beforebreak>
<afterbreak/>
</rule>
<rule break="no">
<beforebreak>(^|\s)\w\.+["'”\)]?</beforebreak>
<afterbreak/>
</rule>
<rule break="no">
97
Guía de formatos para la traducción
<beforebreak>\d+\.+["'”\)]?</beforebreak>
<afterbreak/>
</rule>
<rule break="no">
<beforebreak>
\d+[\.\-0-9]+\d+\.+["'”\)]?
</beforebreak>
<afterbreak/>
</rule>
<rule break="yes">
<beforebreak>[\.\?!]+</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
<rule break="yes">
<beforebreak>[。。.?!]+</beforebreak>
<afterbreak/>
</rule>
<rule break="yes">
<beforebreak/>
<afterbreak>\n</afterbreak>
</rule>
</languagerule></languagerules>
<maprules>
<maprule maprulename="default_set">
</maprule>
</maprules>
</body>
</srx>
98
Guía de formatos para la traducción
Subtitle Workshop
Abby Finereader
Herramientas
Microsoft Office
Heartsome T.S.
Memsource
Notepad++
LibreOffice
Photoshop
Audacity
InDesign
OmegaT
MemoQ
Aegisub
WinRar
Scribus
Trados
Gimp
7-ZIP
Extensiones
.txt/.tsv X X X X X X X X X
.doc/.docx X X X X X X X
.odt X X X X X X X
.rtf X X X X X X X
.pdf X X X X X X X X
.odp X X X X
.ppt X X X X X X X
.xls/.xlsx X X X X X X X
.ods X X X
.csv X X X X X X X
.zip X X X
.rar X X
.7z X X
.bmp X X X
.jpg X X X
.png X X X
.gif X X X
.psd X X
.mpg X X
.mov X X
.avi X X
.flv X
.mkv X X
.mp3 X X
.ogg X X
.wma X X
.html X X X X X X X
.xml X* X X X X X X
.tmx X* X X X X
.tbx X X
.xliff/.xlf X X X X X
.exe
.indd X X X X
.sla X
.srt X X X X
.ass X* X X
.sub X* X X X
.po X X X X X
.properties X X X X X
.json X X X
.strings X X X
99