[Volver al resumen] | [Índice del nº 51] | [Puntoycoma] | [Servicio de Traducción] | [Comisión Europea] | [EUROPA]

Informe sobre el sistema de traducción automática
del Periódico de Catalunya


Preliminares

En octubre de 1997 El Periódico de Catalunya inició la publicación diaria de una edición en catalán clónica de la castellana. Por clónico entendemos que ambas ediciones son absolutamente idénticas, que se trata exactamente del mismo periódico y que la versión catalana es íntegramente traducida todos los días a partir de la castellana. La experiencia ha resultado ser un éxito y con unos 60 000 ejemplares catalanes diarios El Periódico se sitúa actualmente muy por delante de cualquier otro rotativo en catalán. Es desde luego una buena noticia para la normalización de esta lengua en Cataluña.

En principio, pues, las condiciones en que se lleva a cabo la traducción catalana parecen guardar ciertas semejanzas con el trabajo que se realiza en el SdT por lo que se refiere a la premura del tiempo y a la carga de trabajo. Hay que traducir mucho y rápido. Por este motivo se consideró la posibilidad de efectuar una visita a la redacción del Periódico para conocer de cerca el sistema de traducción automática allí empleado e intercambiar experiencias. Las conclusiones de la misma constituyen el objeto del presente informe.


Especificaciones técnicas

El Periódico de Catalunya utiliza el sistema operativo MS DOS y su servidor actual es el Netware 312. Está previsto pasar en breve a Windows NT y en el plazo de un año se llevará a cabo la descentralización de los servicios con acceso directo a las bases de datos del Periódico desde cualquier punto del Globo: teletipos, archivo, etc.

Material informático

El ordenador conectado en red que lleva a cabo la traducción automática de la versión castellana es un Pentium 166 con 32 MB (16 MB bastarían) y 1 G de RAM. La base de datos que emplea es Btrieve y la memoria del índice relacional y de comparación es de 16 MB. El equipo de editores o correctores del texto "catalanizado" por la "máquina" dispone también de ordenadores Pentium 166.

Formatos del directorio de entrada y salida de documentos del Periódico

  1. RTF (Word, Wordperfect)
     
  2. ASCI PC 850 (ES)
     
  3. Quark formato extendido
     
  4. Red 1: programa de compaginación del Periódico con entorno gráfico MS DOS

Fases de producción del Periódico

  1. Sección: fase de redacción del artículo en la sección correspondiente (deportes, internacional, espectáculos, etc.).
     
  2. Edición: relectura en la Mesa de Edición.
     
  3. Filmación: filmación del negativo para su envío electrónico a las rotativas.

Organización del work-flow

Regente de talleres y control de colas

El regente de talleres era tradicionalmente la persona al frente de la imprenta encargada de llevar el control del rotativo: que no faltara ningún artículo y que no hubiera ningún error de maquetación. Era el terror de redactores y editores.

Actualmente es el control de colas el programa que realiza ese trabajo controlando las fases de producción de cada página con indicación de la hora. Ello permite en todo momento saber en qué fase de realización se halla cada documento. La máquina no da el visto bueno al redactor hasta que cada página no está definitivamente acabada.

Distribución del trabajo y plazos de traducción

No existe servicio de plánning alguno ni plazos de traducción. La distribución del trabajo se realiza informáticamente a partir de la pantalla del control de colas anteriormente mencionada y el texto se traduce y se corrige inmediatamente. Cada corrector tiene acceso a dicha pantalla y a partir de ella captura y procesa la primera página que sale de Sección o de Edición, independientemente de su temática (Véase el control de colas que figura en el Anexo 2).


El factor lingüístico

Sistema de traducción automática

Por sorprendente que parezca, el programa de catalanización de la edición castellana del Periódico no se basa en los principios de la lingüística computacional. La máquina no realiza ningún análisis lingüístico, no descompone el texto en segmentos ni los analiza, ni conoce de géneros ni de conjugaciones. El programa del Periódico es un simple programa de sustitución similar al corrector ortográfico de cualquier tratamiento de textos. Simplemente, se ha sustituido el análisis lingüístico por la cantidad de información, y téngase además en cuenta que sólo se ha tardado tres meses en alimentar el diccionario. Un sistema de estas características no requiere pues demasiado tiempo para ser configurado y puede llegar a suplir en determinados casos la complejidad de otros sistemas basados en la lingüística computacional. Resulta pues rentable, y ésta es su gran ventaja. Pero veamos a continuación qué otras ventajas e inconvenientes presenta.

Ventajas

En cuanto a las ventajas, no hay más que hacer mención de sus extraordinarios resultados. El Periódico sale todos los días, con una media de 70 páginas, en castellano y catalán, y el nivel de corrección lingüística en ésta lengua es más que aceptable. Por lo que se refiere a las ventajas de orden técnico, está claro que el procesamiento del texto es mucho más rápido que ninguno de los sistemas de traducción automática existentes en el mercado, quizá Systran excluido. Tarda exactamente dos segundos en catalanizar una página en castellano, de aproximadamente 15 K. Éste ha sido siempre el objetivo de la dirección del Periódico: la velocidad. Otros sistemas complejos de traducción automática probados por El Periódico tardaban diez minutos o incluso más, lo cual en opinión de la empresa era excesivo.

Inconvenientes

Por lo que se refiere a los inconvenientes, cabe decir que lógicamente con un sistema de sustitución siempre se repiten los mismos errores. La máquina no reconoce, por ejemplo, las formas conjugadas de los verbos, que deben ser introducidas como unidades léxicas independientes. Esto bien puede parecer una aberración, pero piénsese una vez más que la dirección del Periódico se ha movido siempre por consideraciones de orden práctico: velocidad y rentabilidad. Y lo cierto es que los resultados son sorprendentes. Al fin y al cabo el corpus léxico utilizado por la lengua periodística, artículos de opinión excluidos, es limitado y repetitivo. Y de todos modos, al cabo de un mes ya se había corregido un 50 % de errores de todo tipo.

Ejemplos de errores

Citaremos un ejemplo de error, que nos ayudará a comprender los nuevos desafíos con que se enfrenta actualmente esta experiencia. Una frase como "las mismas dudas" es traducida como "les mateixes dubtes". La máquina traduce las tres unidades léxicas consecutivamente sin pararse a pensar que en catalán "dubte" es masculino y que, por lo tanto, la traducción correcta sería "els mateixos dubtes". Ante este problema caben dos soluciones: o se introduce un mínimo de inteligencia, es decir, de análisis lingüístico atribuyendo a "dubte" la categoría de masculino y concordando en género todos sus determinantes o bien se introduce en la memoria "las mismas dudas" como un "string", es decir, como una tira o segmento cerrado equivalente a "els mateixos dubtes". No parece necesario, sin embargo, optar por la última solución ya que no se trata de una unidad semántica cerrada del tipo "llevar a cabo", y no conviene saturar inútilmente la memoria de la máquina, si bien el Giga de memoria de que dispone el PC que "catalaniza" el texto es más que suficiente. Confrontada con este tipo de errores recurrentes, la dirección se está planteando en la actualidad "mejorar" el sistema introduciendo ese mínimo imprescindible de análisis lingüístico.

Otro ejemplo de dificultad difícilmente resoluble sin el recurso a la lingüística computacional es la supresión en catalán, por lo menos en catalán escrito, de la "a" del complemento directo de persona castellano. Los correctores catalanes deben reiteradamente suprimirla cada vez que aparece y evidentemente no puede introducirse cada caso como un "string".

Segmentación

Hemos hablado de "strings". Profundizaremos en ello porque creemos que aquí radica todo el éxito del sistema. Las entradas del diccionario o léxico están constituidas por palabras, en su sentido más amplio, y por "strings" o segmentos de un máximo de seis palabras, y una media de tres o cuatro. Si bien en un principio se barajaron "strings" más largos, la práctica los ha hecho innecesarios, en primer lugar porque ralentizaban el proceso de traducción y en segundo lugar porque eran poco recurrentes, en el sentido lingüístico de recurrencia, es decir, de repetitividad. Cabe suponer que ha habido que encontrar un equilibrio rentable entre la longitud del "string" y su descomposición en unidades léxicas, es decir, palabras, y que ese equilibrio venía dado por las características lingüísticas de ambas lenguas.

Alimentación del léxico

Un aspecto imprescindible y en el que se basa la rentabilidad y continua mejoría del sistema es la alimentación diaria del diccionario. Al final de la jornada se editan en pantalla unos listados con todas las intervenciones de los correctores, que se expurgan antes de incorporarse a la base. Muchas de las nuevas incorporaciones consisten en formas verbales conjugadas y nombres propios, sea de persona o de películas, espectáculos, etc., que se introducen como "strings" independientes.

Sinonimia y variabilidad lingüística

Otro aspecto que plantea dificultades es que el único factor de variabilidad lingüística lo constituye el corrector. Él es quien decide si mantener la propuesta que le ofrece la máquina o buscar un sinónimo que amenice la lectura y enriquezca el resultado lingüístico final. Para subsanar el exceso de repetitividad, se está pensando actualmente en introducir en la memoria sinónimos alternativos que aparezcan cada dos o tres ocurrencias -apariciones- de una misma palabra. Por ejemplo, "no obstante" no se traduciría siempre por "tanmateix", sino también por "això no obstant", "malgrat això", "amb tot", "nogensmenys".

Terminología

Cabe decir que la terminología no presenta los problemas que plantea en el ámbito comunitario. Dada la proximidad de ambas lenguas entre sí, la catalanización de términos es con frecuencia una tarea mecánica de pura transposición de sufijos.


El factor humano

Método de trabajo y proceso de catalanización

Las fases de realización de la edición castellana y catalana son independientes y paralelas: no hay que esperar a que esté totalmente acabada la edición castellana para "catalanizarla", en la jerga del Periódico. Ello prolongaría innecesariamente el tiempo de realización y para evitarlo el editor catalán puede catalanizar el texto castellano en cualquiera de sus fases de realización: sección o edición. Se consigue con ello no interrumpir el proceso normal de edición de la página castellana permitiendo al mismo tiempo que se vaya trabajando en paralelo en la catalanización de cada página. El editor catalaniza pues la primera página que esté libre en el control de colas, en cualquiera de sus fases, a sabiendas de que, si catalaniza la página castellana en su fase de edición, la mesa ya habrá introducido en ella todas las modificaciones necesarias, luego no habrá que modificar la versión catalana. Si en cambio no tiene ninguna página disponible en la fase de edición, catalanizará la primera que lo esté en la fase de redacción (Sección) debiendo posteriormente introducir las modificaciones que se hayan realizado en la versión castellana, pero sin interrumpir la edición de ésta. De este modo se adelanta trabajo. Nunca se vuelve a traducir al catalán por entero una página ya traducida y modificada. Las correcciones y modificaciones, en una y otra lengua, se hacen siempre en papel.

Para la corrección del texto catalanizado, se puede trabajar dividiendo la pantalla verticalmente en dos mitades, cada una con el texto en una lengua, o bien sin dividirla y cotejando si es necesario la versión castellana en papel. Éste parece ser el sistema más cómodo. Toda traducción pasa luego para revisión por la Mesa de Redacción catalana. La revisión siempre se hace en papel.

Al principio, las cuatro páginas de opinión eran traducidas a mano por dos traductores, pero actualmente ya se está utilizando el sistema de traducción automática con buenos resultados.

Posteriormente, ambas versiones pasan maquetadas en papel por la Mesa de Edición catalana y castellana para su cotejo y aprobación final previos a la filmación y envío a las rotativas.

Equipo de correctores

Como sabe cualquier persona familiarizada con la traducción automática, no hay máquina capaz de ofrecer un producto aceptable al cien por cien. Toda traducción automática requiere pues la colaboración de correctores humanos. Y en este caso ésta es absolutamente necesaria para compensar la falta de análisis lingüístico de que hablamos e introducir todo lo que la máquina no reconoce: formas verbales conjugadas, cambios de género, nombres propios, etc.

El Periódico cuenta con un equipo de 32 correctores -editores, en su jerga-, 16 a tiempo completo, y 16 a tiempo parcial; éstos últimos se incorporan a partir de las seis de la tarde. Se calcula que se necesitan cuatro horas para catalanizar un ejemplar diario de unas 70 u 80 páginas. No se ha siquiera contemplado la eventualidad de prescindir de la traducción automática, pero se estima que se necesitarían unos 80 traductores y el doble de tiempo. Los correctores disponen de 22 PC y tardan entre 30 y 45 minutos en traducir y maquetar una página de aproximadamente 10 ó 15 K (cuatro folios).


Comparación con el trabajo en el SdT

A nadie se le habrá pasado por alto que el sistema de traducción automática del Periódico de Catalunya presenta numerosas semejanzas con Tyman y con el Translator´s Workbench. Los tres sistemas trabajan con memorias y ninguno de ellos se basa en los principios de la lingüística computacional.

Tyman compartía con el sistema del Periódico las unidades léxicas y la segmentación del texto: palabras y segmentos de palabras. Pero no tenía la ambición de ser exhaustivo. Traducía únicamente todo lo que tenía carácter repetitivo o formulario: títulos, fórmulas y modos de expresión acuñados. El traductor debía pues completar los huecos. Y, además, Tyman tenía otro defecto: había que introducir continuamente los nuevos segmentos para mantenerlo al día y el proceso no era automático.

Por el contrario, con el Translator´s Workbench comparte el sistema del Periódico la posibilidad de alimentar la memoria automáticamente. Sin embargo, ambos sistemas difieren en la segmentación del texto. La unidad de traducción del Translator´s Workbench es la frase en sentido lato, es decir, hasta el primer signo de puntuación fuerte, sea punto o punto y coma. Parece evidente que cuanto mayor sea un segmento menor recurrencia tendrá, aunque eso se haya intentado subsanar con la posibilidad de modificar la equivalencia aproximada ("match fuziness") y con la incorporación de la traducción de Systran cuando el sistema no encuentra en la memoria ningún segmento igual o parecido. Ahora bien, Systran es un sistema aleatorio: como no echa mano de una memoria de traducción, nunca se puede tener la seguridad de que lo que traduce haya sido siempre traducido del mismo modo, luego se pierde en coherencia con anteriores versiones del mismo segmento de traducción. En este sentido el sistema del Periódico se sitúa a medio camino posibilitando la coherencia con todo el corpus de traducciones anteriores, pero sin ofrecer el más mínimo análisis lingüístico que agilice la cansina y monocorde tarea del corrector.

Somos pues de la opinión de que no estaría de más reducir de algún modo las unidades léxicas del TW o bien alimentar Systran con grandes cantidades de segmentos cerrados, inanalizables, que tuvieran un alto grado de recurrencia para conseguir así que la máquina reconociera y respetara anteriores versiones. Ello permitiría sin duda optimizar los resultados de Systran en pares de lenguas infrautilizados o con un nivel de análisis lingüístico todavía deficitario.


Conclusiones y bondades del sistema

Todo lo expuesto pone pues en evidencia que, pese a su escasa ortodoxia lingüística, el sistema funciona para pares de lenguas tipológicamente parecidas, con el mismo orden sintáctico y el mismo grado de transparencia morfológica. Sería pues utilísimo para el portugués, el español y el italiano, por ejemplo, y quizá el francés, o las lenguas escandinavas entre sí, y, como dijimos, la alimentación de los diccionarios correspondientes no requeriría más que unos meses, contrariamente a cualquier sistema basado en la lingüística computacional, que necesita mucho estudio y elaboración. Prueba de todo ello es que alguna administración de comunidades autónomas bilingües ya ha mostrado interés por el programa y está incluso pensando en adquirirlo.


Anexo

El catalán y el modelo de lengua

La tortuosa historia de la lengua catalana se ha visto jalonada en estos últimos años por un acerado debate sobre lo que se ha venido en llamar "catalán light" y "catalán heavy". Nuestras patrias siempre se dividen en dos. Eran unos, partidarios de acercar la lengua escrita a la lengua hablada, y otros, adictos a la idea de mantener la pureza y no permitir la entrada en la lengua escrita de coloquialismos ni castellanismos, por más que algunos de ellos se hubieran incorporado ya en el siglo XVI. La lengua, espejo de la realidad circundante, no hacía sino reflejar tendencias políticas y apasionamientos que muy poco tenían que ver con la naturaleza de un sistema lingüístico: un todo polifacético y multiforme lleno de registros y contradicciones. Felizmente, parece que las aguas están volviendo a su cauce habitual y anárquico. Y la edición catalana del Periódico es buena muestra de ello. Se podría decir que el catalán del Periódico es ecléctico y que ha difuminado la línea divisoria entre lo "light" y lo "heavy" incorporando las soluciones y propuestas de uno y otro bando con criterios ciertamente poco claros, pero con un objetivo, éste sí, diáfano: la naturalidad y la legibilidad. De modo que les da igual a gran número de lectores sin instrucción en catalán comprar y leer una edición u otra. Como dijimos y demuestra los más de 60 000 ejemplares vendidos, éste es el gran éxito de la edición catalana del Periódico.

En cuanto al eventual servilismo de la traducción catalana frente al original castellano, no se puede negar que el peligro existe, pero es difícilmente rastreable dada la semejanza tipológica y genética y la arraigada coexistencia de ambas lenguas. De todos modos éste es un fenómeno que afecta al catalán a todos los niveles dada la manifiesta vitalidad y pujanza del castellano en tierras del Principado. La situación sería parecida a la del español frente al inglés en Estados Unidos. Ahora bien, ese servilismo, de existir, se ve compensado por la penetración del catalán en nuevos ámbitos y registros lingüísticos tradicional y sociolingüísticamente ocupados por el castellano. Toda nueva expresión que surja en castellano y que el hablante catalán emplearía en castellano o calcaría burdamente debe hallar obligatoriamente una traducción aceptable en la edición catalana de ese mismo día. El Periódico de Catalunya se revela pues como un poderoso instrumento de normalización lingüística.



César Montoliu
"cesar.montoliu garcia"@ec.europa.eu