capítulo precedentecapítulo siguientePágina principal

COLABORACIONES


El Observatorio de Tecnologías de la Lengua en la Dirección General de Traducción de la Comisión Europea1

1. La Dirección General de Traducción (DGT)

La DGT cuenta con un personal fijo de aproximadamente 1 750 lingüistas y 600 personas en servicios auxiliares, lo que la convierte en uno de los mayores servicios de traducción del mundo. Proporciona a la Comisión Europea servicios lingüísticos de gran calidad para cubrir sus necesidades de comunicación por escrito en las veintitrés lenguas oficiales de la UE, con lo que contribuye a sostener el multilingüismo en la Unión Europea. La DGT tiene sede en Bruselas y en Luxemburgo y cuenta con delegaciones locales en los demás países de la UE.

En la DGT se traducen unos dos millones de páginas al año, lo que no sería posible si no se utilizasen herramientas informáticas para facilitar la gestión de documentos y el proceso de traducción. La Unidad de Informática se encarga de desarrollar y mantener estas herramientas, así como de adquirir y adaptar productos comerciales.

El paisaje tecnológico cambia con mucha rapidez. Para poder proporcionar continuamente a los traductores y asistentes las mejores herramientas posibles, la DGT tiene que adelantarse a los cambios y reaccionar rápidamente ante las tendencias que aparezcan en el área de las tecnologías de la lengua y que podrían servir para incrementar la eficacia con que se traduce. Todo ello justifica que en la DGT exista con carácter permanente un Observatorio de Tecnologías de la Lengua (OTL; su denominación en inglés es Language Technology Watch, LTW).

2. El Observatorio de Tecnologías de la Lengua de la DGT

Durante años, las actividades del OTL tenían una importancia secundaria y se llevaban a cabo en períodos de calma relativa, hasta que, en junio de 2009, la dirección de la DGT les otorgó un reconocimiento oficial al aprobar su declaración de objetivos. Dentro de la Unidad de Informática, el sector «Aplicaciones Lingüísticas» es el responsable del OTL, que tiene la ambición de convertirse en un centro de referencia fiable sobre tecnologías de la lengua dentro de la DGT y fuera de ella. Para conseguirlo tiene que obtener información sobre las tecnologías de la lengua disponibles, tratar de predecir qué tecnologías es probable que se usen y en qué áreas y difundir esta información, de forma que la DGT pueda hacer frente con eficacia a los desafíos que representan cambios tecnológicos de alcance mundial en el área de las aplicaciones lingüísticas.

Las actividades del OTL consisten tanto en reunir información como en difundirla.

La información se reúne haciendo investigación documental en internet, probando distintos productos, organizando presentaciones de herramientas para el personal de la UE, asistiendo a actos de interés tanto en Europa como fuera de ella y participando en proyectos de innovación y redes financiadas por la Comisión Europea (especialmente la Dirección General de la Sociedad de la Información) en el área de tecnologías del lenguaje y recursos lingüísticos. La información se publica en las páginas web del Observatorio Tecnológico dentro de la intranet de la DGT, se difunde a través de una red de traductores interesados en estos temas y se recoge en informes destinados a facilitar la toma de decisiones. Estos informes tienen carácter interno y no se pueden hacer públicos.

3. Memorias de traducción y traducción automática

En 2009, el OTL se centró principalmente en las memorias de traducción (MT) y la traducción automática (TA).

Se da el nombre de memorias de traducción a las bases de datos utilizadas para ayudar a los traductores humanos a sacar partido de traducciones anteriores. Consta de fragmentos de texto (llamados «segmentos» y que por lo general son frases, epígrafes o casillas de cuadros) almacenados en dos o más lenguas (lengua fuente y traducciones). Cuando hay que traducir un texto nuevo, se compara con el contenido de la MT y, si se encuentran segmentos iguales o parecidos (mediante lo que se ha dado en llamar algoritmos de correspondencia parcial o fuzzy matching), se presenta al usuario una propuesta de traducción.

El sistema de MT usado en la DGT se llama Euramis y consiste en una MT central en veintitrés lenguas, que permite compartir datos a muy gran escala y que fue desarrollada para satisfacer las necesidades específicas de la DGT2. La interfaz frontal con los usuarios se hace mediante un producto comercial. Las principales instituciones europeas usan Euramis junto con dicho producto comercial. En la actualidad, la DGT está organizando una licitación para seleccionar una nueva herramienta de traducción asistida por ordenador (TAO) en colaboración con otras instituciones de la UE y ha invitado a los fabricantes de herramientas de traducción a venir a presentar sus productos. Tanto estas presentaciones como las correspondientes actividades OTL (observación del mercado, investigación documental, etc.) permiten a la DGT hacerse una idea bastante clara de la oferta que hay en el mercado y redactar un pliego de condiciones realista para satisfacer las necesidades existentes.

La segunda área de exploración del OTL es la traducción automática (TA), que consiste en combinar palabras o expresiones traducidas para construir frases que constituyen la traducción. Para ello se utilizan reglas predeterminadas o se procesan corpus textuales existentes, sobre todo corpus paralelos, pero también corpus comparables y monolingües. La DGT ofrece actualmente el sistema de TA en uso en la Comisión bajo el nombre de ECMT (European Commission Machine Translation, servicio de traducción automática de la Comisión Europea), al que pueden acceder únicamente las administraciones públicas europeas y las de los Estados miembros. El ECMT es un sistema basado en reglas, cuyo desarrollo empezó en 1976 sobre la base de un sistema existente también basado en reglas (Systran). En el año 2006, la DGT decidió poner fin a todas las actividades de desarrollo y mantenimiento. Desde entonces solo aquellos departamentos lingüísticos que tienen la capacidad necesaria y que desean asignar a esta labor los recursos humanos suficientes hacen modificaciones y correcciones en los diccionarios. En la actualidad, el ECMT se usa en la Comisión y en las demás instituciones y organismos de la UE, así como en las administraciones públicas nacionales.

En la Comisión, el ECMT se usa para los siguientes fines:

  • Consultar rápidamente documentos recibidos. El ECMT tiene una capacidad de traducción de hasta dos mil páginas por hora y puede ofrecer traducciones en dieciocho pares de lenguas, lo que lo convierte en una opción muy útil para satisfacer algunas de las necesidades diarias de traducción en los departamentos administrativos de la Comisión. El ECMT permite al usuario acceder rápidamente a la información escrita en lenguas que no conoce para decidir si necesita una traducción humana o una postedición rápida, o si la información que proporciona este producto en bruto es suficiente. Este uso convierte el ECMT en un filtro que disminuye los pedidos de traducción humana que llegan a la DGT.

  • Redactar documentos. Algunos funcionarios prefieren escribir un primer borrador en su propia lengua, pedir una traducción automática en otra lengua y, luego, hacer que el servicio de edición de la DGT o un hablante nativo en su propio departamento corrijan el producto de la TA.

  • La DGT también usa la TA como una herramienta más de TAO. Todos los documentos que llegan para traducción en la mayoría de las combinaciones de lenguas existentes son enviados sistemáticamente al sistema de traducción automática, que produce un documento traducido o una MT local. Los traductores pueden usar esta última como una fuente más de información para producir traducciones humanas de gran calidad. La cantidad de trabajo necesaria para editar un texto traducido automáticamente varía según el tipo de texto y la combinación lengua fuente – lengua de destino.

Los sistemas de TA basados en reglas son muy costosos de desarrollar y mejorar. En los últimos años ha hecho su aparición otro tipo de sistemas de TA que podrían sustituir a los basados en reglas o servirles de complemento. Son sistemas basados en datos, lo que implica que dependen de la disponibilidad de recursos lingüísticos de gran calidad, como las MT. La principal tecnología de este campo es la traducción automática estadística (se suelen emplear las siglas SMT, del inglés Statistical Machine Translation), que genera traducciones usando métodos estadísticos basados en corpus de textos bilingües potenciados por baterías de algoritmos muy complejos. La SMT puede aprender directamente de las MT existentes, de bases de datos usadas anteriormente para traducir, de diccionarios electrónicos y, en última instancia, de cualquier tipo de documento electrónico que permita reutilizar material lingüístico. También se están desarrollando en la actualidad sistemas híbridos, que combinan los enfoques basados en reglas y los modernos métodos basados en corpus para crear generalizaciones y sacar así el máximo partido de los ejemplos disponibles. Para tener una visión general exhaustiva de la evolución de la TA en los últimos cincuenta años, véase el sitio web de John Hutchins, una autoridad en el campo de la historia de la TA: http://www.hutchinsweb.me.uk/.

En la actualidad, la Comisión está reconsiderando su estrategia respecto de la TA, movida por el gran potencial que las tecnologías basadas en datos ofrecen para aprovechar mejor las MT de la DGT y los elevados costes que implica el mantenimiento y la mejora del ECMT, el actual sistema basado en reglas. En el presente, la Comisión está recabando información sobre las necesidades no solo de sus funcionarios, sino también de los usuarios de servicios que ofrece o financia la Comisión, con el fin de analizar dicha información y hacer una serie de recomendaciones sobre el camino a seguir. Se está esbozando una nueva estrategia.

Al mismo tiempo, la Unidad de Informática está experimentando con Moses, un sistema de SMT de código abierto. El nombre en clave de la operación es Exodus y se está llevando a cabo con la colaboración de uno de los departamentos lingüísticos y en paralelo con un proyecto similar en colaboración con el Parlamento Europeo. La DGT participa también en un proyecto piloto con un sistema comercial de SMT.

4. El OTL se hace interinstitucional

El Comité Interinstitucional de Traducción e Interpretación (CITI), que es el organismo que gestiona la colaboración entre instituciones de la UE en el ámbito de la traducción y la interpretación, decidió a finales de 2009 crear un OTL interinstitucional en forma de red y siguiendo el modelo que con tanto éxito ha llevado a cabo la DGT. Las instituciones de la UE van a tratar de encontrar la manera de intercambiar información y experiencia y de compartir el trabajo que conllevan las pruebas con el fin de ampliar el alcance del OTL y de aprovechar mejor los recursos humanos de que cada institución dispone para esta actividad. 

Herman Jenné
C
omisión Europea
herman.jenne@ec.europa.eu

 

 

 

 

 

 

 

 

 
1 Traducción del inglés de Paula Álvarez, Comisión Europea
2 A 1 de marzo de 2008, la MT central contenía, sumadas todas las lenguas oficiales, 74 834 179 segmentos de textos originales y 269 113 693 segmentos de traducciones, con lo que el número total de segmentos (originales y traducciones de todas las lenguas) ascendía a 343 947 872. Del total de segmentos de originales, 49 216 542 segmentos correspondían al inglés, 17 846 874 al francés y 1 026 802 al español. Por lo que respecta a los segmentos de traducciones, 7 105 094 correspondían al inglés, 15 955 858 al francés y 14 296 360 al español.

capítulo precedentecapítulo siguientePágina principal