capítulo precedentecapítulo siguientePágina principal

La traducción automática en El Periódico de Catalunya

En octubre de 1997, El Periódico de Catalunya inició la publicación diaria de una edición en catalán clónica de la castellana. Por clónico entendemos que ambas ediciones son absolutamente idénticas, que se trata exactamente del mismo periódico y que la versión catalana es íntegramente traducida todos los días a partir de la castellana. La experiencia ha resultado ser un éxito y, con unos 60 000 ejemplares catalanes diarios, El Periódicose sitúa actualmente muy por delante de cualquier otro rotativo en catalán. Es, desde luego, una buena noticia para la normalización de esta lengua en Cataluña.

En principio, pues, las condiciones en que se lleva a cabo la traducción catalana parecen guardar ciertas semejanzas con el trabajo que se realiza en el Servicio de Traducción de la Comisión Europea por lo que se refiere a la premura del tiempo y a la carga de trabajo. Hay que traducir mucho y rápido. Por este motivo se consideró la posibilidad de efectuar una visita a la redacción de El Periódico para conocer de cerca el sistema de traducción automática allí empleado e intercambiar experiencias.

En la versión en papel de puntoycoma, presentamos un resumen de las conclusiones de dicha visita. El informe completo se puede consultar en http://ec.europa.eu/translation/bulletins/puntoycoma/51/periodico.htm

Antes de hablar del sistema de traducción automática, cabe recordar que un artículo del periódico pasa por las siguientes fases: sección, es decir, redacción en cada departamento o sección del periódico (deportes, internacional, espectáculos, etc.); edición, es decir, relectura en la Mesa de Edición, y, por último, filmación, en la que se filma el negativo para su envío electrónico a las rotativas. El regente de talleres era tradicionalmente la persona al frente de la imprenta encargada de llevar el control del rotativo: que no faltara ningún artículo y que no hubiera ningún error de maquetación. Actualmente es el control de colas el programa que realiza ese trabajo, controlando las fases de producción de cada página con indicación de la hora. Ello permite en todo momento saber en qué fase de realización se halla cada documento. La máquina no da el visto bueno al redactor hasta que cada página no está definitivamente acabada.

No existe servicio de plánning alguno ni plazos de traducción. La distribución del trabajo se realiza informáticamente a partir de la pantalla del control de colas anteriormente mencionada y el texto se traduce y se corrige inmediatamente. Cada corrector tiene acceso a dicha pantalla y a partir de ella captura y procesa la primera página que sale de Sección o de Edición, independientemente de su temática.

Sistema de traducción automática

El programa de catalanización de la edición castellana de El Periódico no se basa en los principios de la lingüística computacional. Se trata de un simple programa de sustitución, similar al corrector ortográfico de cualquier tratamiento de textos. Se ha sustituido el análisis lingüístico por la cantidad de información, y téngase además en cuenta que sólo se ha tardado tres meses en alimentar el diccionario. Un sistema de estas características no requiere pues demasiado tiempo para ser configurado y puede llegar a suplir en determinados casos la complejidad de otros sistemas basados en la lingüística computacional. Resulta pues rentable, y ésta es su gran ventaja.

El Periódico sale todos los días, con una media de 70 páginas, en castellano y catalán, y el nivel de corrección lingüística en esta lengua es más que aceptable. Por otra parte, el procesamiento del texto es mucho más rápido que cualquiera de los sistemas de traducción automática existentes en el mercado, quizá Systran excluido. Tarda exactamente dos segundos en catalanizar una página en castellano, de aproximadamente 15 K.

Por lo que se refiere a los inconvenientes, cabe decir que lógicamente con un sistema de sustitución siempre se repiten los mismos errores. La máquina no reconoce, por ejemplo, las formas conjugadas de los verbos, que deben ser introducidas como unidades léxicas independientes; pese a todo, los resultados son sorprendentes, ya que el corpus léxico utilizado por la lengua periodística, artículos de opinión excluidos, es limitado y repetitivo. Un ejemplo de dificultad difícilmente resoluble sin el recurso a la lingüística computacional es la supresión en catalán, por lo menos en catalán escrito, de la «a» del complemento directo de persona castellano. Los correctores catalanes deben suprimirla cada vez que aparece y, evidentemente, no puede introducirse cada caso como un string. Las entradas del diccionario o léxico están constituidas por palabras, en su sentido más amplio, y por strings o segmentos de un máximo de seis palabras, y una media de tres o cuatro. Ha habido que encontrar un equilibrio rentable entre la longitud del string y su descomposición en unidades léxicas, es decir, palabras, y ese equilibrio venía dado por las características lingüísticas de ambas lenguas.

Un aspecto imprescindible y en el que se basa la rentabilidad y continua mejoría del sistema es la alimentación diaria del diccionario. Al final de la jornada se editan en pantalla unos listados con todas las intervenciones de los correctores, que se expurgan antes de incorporarse a la base. Otro aspecto que plantea dificultades es que el único factor de variabilidad lingüística lo constituye el corrector. Él es quien decide si mantener la propuesta que le ofrece la máquina o buscar un sinónimo que amenice la lectura y enriquezca el resultado lingüístico final. En cuanto a la terminología, debe señalarse que esta no presenta los problemas que plantea en el ámbito comunitario. Dada la proximidad de ambas lenguas entre sí, la catalanización de términos es con frecuencia una tarea mecánica de pura transposición de sufijos.

El factor humano

Las fases de realización de la edición castellana y catalana son independientes y paralelas: no hay que esperar a que esté totalmente acabada la edición castellana para «catalanizarla», en la jerga de El Periódico. Ello prolongaría innecesariamente el tiempo de realización, y para evitarlo el editor catalán puede catalanizar el texto castellano en cualquiera de sus fases de realización: sección o edición. Se consigue con ello no interrumpir el proceso normal de edición de la página castellana y se permite al mismo tiempo que se vaya trabajando en paralelo en la catalanización de cada página. Toda traducción pasa luego para revisión por la Mesa de Redacción catalana. La revisión siempre se hace en papel. Posteriormente, ambas versiones pasan maquetadas en papel por la Mesa de Edición catalana y castellana para su cotejo y aprobación final previos a la filmación y envío a las rotativas.

Por último, cabe insistir en que toda traducción automática requiere la colaboración de correctores humanos. Y en este caso ésta es absolutamente necesaria para compensar la falta de análisis lingüístico de que hablamos e introducir todo lo que la máquina no reconoce: formas verbales conjugadas, cambios de género, nombres propios, etc.

Conclusiones

Pese a su escasa ortodoxia lingüística, el sistema funciona para pares de lenguas tipológicamente parecidas, con el mismo orden sintáctico y el mismo grado de transparencia morfológica. Sería pues utilísimo para el portugués, el español y el italiano, por ejemplo, y quizá el francés, o las lenguas escandinavas entre sí.

La alimentación de los diccionarios correspondientes no requeriría más que unos meses, contrariamente a cualquier sistema basado en la lingüística computacional, que necesita mucho estudio y elaboración. Prueba de todo ello es que alguna administración de comunidades autónomas bilingües ya ha mostrado interés por el programa y está incluso pensando en adquirirlo.

César Montoliu
"cesar.montoliu garcia"@ec.europa.eu

capítulo siguientecapítulo siguientePágina principal