capítulo precedentecapítulo siguientePágina principal

En la sección «Colaboraciones» se recogen opiniones y propuestas firmadas por lectores o por miembros de la Redacción cuando intervienen a título personal. La responsabilidad de los cabos sueltos firmados y de las colaboraciones incumbe a sus autores. PUNTOYCOMA

COLABORACIONES


Traducción, computación, utopía

Resumen de la conferencia impartida el 16 y el 17 de enero de 2002 en Luxemburgo y Bruselas, respectivamente.

En sus primeros estadios, tanto la inteligencia artificial (IA) como la traducción automática (TA) desarrollaron programas que tomaban sus decisiones según modelos deterministas basados en el denominado pattern matching o comparación de patrones. En ulteriores estadios, la aplicación de reglas de preferencia sobre los patrones, así como las decisiones basadas en criterios estocásticos, conferían mayor capacidad «creativa» a los sistemas. Para lograr cierto avance, los expertos en IA han dividido la investigación en «subproblemas», después de renunciar al razonador universal. Pero, ¿qué nos dicen los términos IA y TA?

Intelligere procede de legere, elegir, escoger entre varias opciones. Se aplica, en el caso de la IA a un aparato lógico del que se pretende obtener el resultado a partir de un proceso deductivo fijado metódicamente de antemano sobre un conjunto seleccionado de datos. Pero el proceso deductivo que protagoniza el concepto de IA no es el más importante, ni mucho menos el único, de los que caracterizan la inteligencia humana. El mensaje metafórico fundamental del ordenador es que nosotros somos «máquinas» pensantes y que la inteligencia es algo rápido, explícito, definido, basado en datos objetivos y bajo estricto control. Si nos situamos en el terreno de la traducción de textos especializados, el valor de la capacidad de cálculo, la velocidad y el volumen de la información está fuera de toda duda, pero los problemas más serios que afectan al campo de la traducción no son del orden de los que pueden ser resueltos con ayuda del «cálculo». Por este motivo el usuario de un sistema de TA debe poseer la «inteligencia» o la intuición de lo que puede exigir y obtener, y de lo que va a ser silenciado o equivocado.

En cuanto al resultado de un programa de TA, éste depende en gran medida del carácter repetitivo de los patrones ofrecidos y de la especificidad y especialización del texto y del vocabulario. Pero, fuera de campos como la meteorología, con poca innovación terminológica, pocos textos pueden ser traducidos automáticamente sin problemas. ¿Se debe el fracaso de la TA a un desconocimiento del lenguaje y del modo de producción del significado? Así como los hombres no vuelan como los pájaros, deberíamos renunciar a la idea de que las máquinas piensen o traduzcan como los humanos, y observar qué es lo que realmente pueden hacer.

Tal vez una de las primeras trabas en el camino hacia el procesamiento del significado ha podido ser la distinción de disciplinas y la ubicación del significado en el nivel denominado «semántico», al que, en el proceso de computación, se asignaba un espacio ulterior, posterior al procesamiento de los niveles morfológico y sintáctico, en una estrategia marcadamente vertical y ascendente del tipo bottom-up. La semántica, como ciencia del significado, está relacionada con cualquiera de los acontecimientos sígnicos que configuran el lenguaje: el nivel prosódico (pausas, entonación), el fonológico (transición de formantes), el morfológico (diferentes acepciones que se distinguen por la presencia o ausencia del número), el sintáctico (determinación, complementación), el léxico (significado de los nombres propios), etc. Además, cuando comparamos un sistema lingüístico con otro, la dimensión semántica se desfigura, como es el caso del concepto «mujer» al ser traducido al árabe. Por eso no se ha conseguido establecer una unidad de significado, y aún menos, una unidad de traducción. Esta última, sea su forma el término, la frase, el párrafo o el documento entero, es un compendio de las posibilidades comparativas de un texto con otro, y por lo tanto hay tantas unidades de traducción como posibilidades de comparar una lengua con otra. En España, en 1993 la lingüística se escindió de los estudios de Filología, y en 1997 la traducción se independizó de los estudios lingüísticos. A partir de los programas de traducción asistida por ordenador vamos a contemplar un cambio importante del concepto y la función de la TA.

Para ejemplificar algunas de las cuestiones que nos parecen importantes respecto de la TA hemos simulado hallarnos a principios de los años noventa y que lidiamos con la traducción automática de la frase: «A principios de los años noventa se anuncia ya la aparición de los ordenadores de quinta generación como una revolución tecnológica». En primer lugar, es preciso identificar cada una de las denominaciones implicadas como pertenecientes a una categoría gramatical, así como determinar sus propiedades, entre otras el género y el número, para poder controlar las relaciones de concordancia con el resto de la frase en que estén ubicadas. Este proceso se realiza mediante la comparación de cada elemento con el contenido de un diccionario o lexicón, donde la información léxica ha sido almacenada previamente por un lexicógrafo. Existe la posibilidad de almacenar todas las formas posibles de un lema (ordenador, ordenadores) o la de efectuar un cálculo según unas reglas predeterminadas conforme a una heurística. Algunos fenómenos como el género y el número pueden ser sistematizados con exhaustividad, pero otros presentan paradigmas bastante más complejos, aun tratándose de fenómenos de naturaleza aparentemente no muy diferente, como por ejemplo el caso del diminutivo. Naturalmente es preciso restringir las expectativas de análisis a aquella casuística que tiene probabilidades altas de aparecer en un texto especializado.

El paso siguiente en el proceso de análisis de un término como «ordenador de quinta generación» es el de concebir el sintagma como una unidad lexemática compleja, una multi-word unit (MWU). El traductor humano sabe que «ordenador de quinta generación» es un término complejo porque se corresponde con un único concepto, porque aparece recurrentemente en el texto y porque cumple determinadas restricciones sintácticas como la ausencia de determinante en el sintagma nominal modificador. La recurrencia y la carencia de determinante pueden ser detectadas por el ordenador. La existencia del concepto, sin una base de conocimiento, no.

Reconocer la existencia de MWU en los primeros estadios del análisis permite obviar el análisis de las relaciones sintácticas entre el núcleo y sus modificadores y evitar los problemas de sobregeneración de resultados que podrían surgir en el caso de que se produjera algún tipo de ambigüedad estructural, es decir, que el programa considerara la posibilidad de que el sintagma preposicional dependiera de más de un núcleo en la oración (en nuestro ejemplo, «de quinta generación» puede ser considerado modificador de «ordenadores» o de «aparición».) En el caso de que la MWU no fuera identificada como tal, el programa analizaría la secuencia según los constructores previstos para el análisis del léxico simple. Una de las estrategias propuestas, una vez que el término ha sido detectado como término complejo, es la de unir los constituyentes mediante guiones bajos, y otorgar la categoría del núcleo y todas sus propiedades al nuevo lexema, léase 'ordenador_de_quinta_generación'. Las limitaciones de esta aproximación se hacen patentes cuando contemplamos la posibilidad de que exista la siguiente frase: «A principios de los años noventa se anuncia ya la aparición de los ordenadores denominados de quinta generación como una revolución tecnológica».

Esto indica que las unidades complejas deben mantener su estructura, puesto que su naturaleza composicional, cohesionada semánticamente y por lo tanto bastante rígida desde el punto de vista sintáctico, no es absolutamente rígida. De hecho, los términos complejos se comportan como colocaciones, coocurrencias recurrentes dentro de un sublenguaje (especializado) o un sistema lingüístico (un idioma). Se definen 25 tipos de estructura diferentes para las colocaciones terminológicas para un texto de telecomunicaciones, de las cuales la que sigue es una muestra:

%% 23
%% ordenador de quinta generacio1n
%% N1_P1_A_N2

MWU= {/cat=np} [*{},
             {mwu_lu=MWU/cat=n,e_lu=N1},
                        {imwu=yes/cat=pp}[{/e_lu=P1}
                                        {/cat=np}[ *{},
                                                      {/cat=ap,head=A},
                                                      {/cat=n,e_lu=N2},
                                                    *{imwu=no/cat=?}]],
              *{} ].

Para poder asignar estas reglas a los diferentes patrones de colocaciones terminológicas es preciso haberlas detectado antes, lo cual puede hacerse según varios tipos de estrategia: reconocimento de secuencias categoriales (N+Adj, N+de+N, etc.) o estadística, o una combinación de ambos. El cálculo de la aparición de eventos mutuos aplicada a este caso por Smadja fue la base de diversos programas que se emplean actualmente con éxito en la obtención de información léxica: OCP (Oxford Concordance Program), Tact (Universidad de Toronto), WordSmith Tools, Kwick, System Quirck. Son de gran utilidad para el traductor humano.

Sin embargo, aunque estas herramientas pudieran ponerse al servicio de un programa de TA, existen razones sociolingüísticas que afectan al proceso de traducción de tal manera que sólo podemos concebir un proceso de TA que trabaje con la información anteriormente procesada por un traductor humano. En lo que concierne al término «ordenador de quinta generación», en la actualidad ha sido sustituido por el término simple «Pentium». Este es un proceso muy común en todos los lenguajes de especialidad, los únicos lenguajes que, en principio, pueden ser traducidos automáticamente. Por lo general, los términos inician su decurso conceptual con una anatomía fuertemente descriptiva, para luego metamorfosear en formas más analógicas o reducidas. Esto es mucho más acusado en el caso de las lenguas que importan (traducen) tecnología. Este último tipo de cuestiones supone, tal como sugiere el tipo de inversión pública en el sector educativo, un campo de estudio tal vez mucho más apasionante que el de la TA.

Otra de las orientaciones utilizadas en el control de la producción y la síntesis de significado son las ontologías, como la que desarrolla el Computing Research Laboratory de la Universidad de Nuevo México, a cargo de Sergei Nirenburg (http://crl.nmsu.edu/). Una ontología es una representación del mundo donde los conceptos y sus denominaciones se definen en razón de sus características como procesos, entes o propiedades. La ontología es una jerarquía taxonómica que permite desambiguar la polisemia por medio de la selección de los significados próximos en el árbol. Pero el magnífico trabajo ontológico subvencionado por la NASA, que puede traducir titulares de periódico de lenguas como el persa, el coreano o el ruso, no es lo bastante sutil como para acercarse a los lenguajes especializados. Un concepto como «ojo anterior lateral», que pertenece a la anatomía de la araña, no puede ser procesado por la ontología de Nirenburg. En estos casos, la traducción palabra a palabra es la única solución, aunque el resultado puede que no sea muy convincente. Una expresión como «agua física metálica» sería el resultado de traducir del griego, palabra por palabra, el concepto de «agua mineral natural», por poner un ejemplo.

BACUS (Base de Conocimiento Universitario) es una base de datos terminológicos que están organizados en torno a ejes temáticos y que forman una estructura de ontologías especializadas, así como redes de conceptos vinculados gracias a sus características internas y externas. BACUS es un proyecto en el que participan todos los alumnos de la Facultad de Traducción e Interpretación de la Universidad Autónoma de Barcelona en lo que podríamos llamar «olimpiada terminológica». Está basada en los siguientes criterios: relatividad conceptual, atomización del conocimiento, exclusión de la gramática y navegación.

La TA surgió en un contexto de progreso tecnológico, guerras expansionistas, literatura de ficción, sentimiento utópico, azar y necesidad. El objetivo principal era el de lograr substituir al lento, escaso y, posiblemente, ambiguo traductor humano. A pesar de su origen bélico, debemos a la TA importantes avances en la lingüística, en la enseñanza de idiomas, en las «industrias de la lengua». Desde le generalización del uso del correo electrónico, los sistemas de TA han visto dispararse su uso. La mayor parte de los usuarios son personas sin cometidos «lingüísticos» que recurren a la TA para obtener traducciones urgentes, ojear los contenidos de los documentos u obtener versiones preliminares. Pero para poder usar la traducción como un texto es preciso que exista un corrector humano y, a ser posible, veterano. Es importante distinguir entre el uso de un programa para «leer» un texto y el mal uso del mismo para producir un texto que va a ser leído. Con todo, es posible mecanizar la producción plurilingüe del grueso de publicaciones diplomáticas, administrativas, comerciales y técnicas. Esto no será posible sin la Traducción Asistida por Ordenador (TAO). TA y TAO deben dejar de diferenciarse. La TAO se basa en las denominadas memorias de traducción para proponer al traductor la reutilización de material ya elaborado y contrastado. Las bases de datos, la información extraída de la red o de corpus clasificados proporcionan al traductor la posibilidad de aumentar su rendimiento y de hacerlo con mayor rigor. Tanto la TA como la TAO precisan de la intervención humana para efectuar una validación de los resultados. En este sentido, cabe plantearse la automatización de la traducción como un proceso simbiótico de la «inteligencia» del ordenador, deductiva, algorítmica, y de la capacidad creativa del traductor. Proponemos el término de «automación» de la Traducción. La automación es la aplicación de automatismos para conseguir que un proceso de producción aumente la rentabilidad haciendo que se mantenga un nivel uniforme de calidad. Si, de acuerdo con Minsky, la mente es una sociedad, la sociedad es un computador. Actualmente se está produciendo un entramado de memorias de traducción que producirán un corpus global de documentación técnica.

Después del 11 de septiembre y de la cotidianeidad de fenómenos como la inmigración, la nueva utopía tecnológica no puede ser sino multiculturalista.

Anna Aguilar-Amat
Departamento de Traducción e Interpretación
Universidad Autónoma de Barcelona
anna.aguilar-amat@uab.es

capítulo precedentecapítulo siguientePágina principal