La parole aux machines

Avec 23 langues officielles, soit 252 paires de langues différentes, l'Europe est le continent privilégié du développement de la "traductique". Si l'ordinateur progresse lentement face à des textes, un tout autre problème est la traduction directe de "parole en parole". Toute la chaîne du traitement du langage est alors sollicitée dans des exercices complexes, auxquels s'attaquent quelques projets innovants.

Greg

Conséquence de l'élargissement de l'Europe, la Commission gère le plus grand service de traduction au monde, nécessitant un budget de plus de 1,1 milliard d'euros par an (1). Si 1750 professionnels sont aujourd'hui sollicités pour les seuls besoins législatifs et/ou officiels de l'Union, de nombreuses autres prestations de traduction de publications font appel à des ressources externes(2).

Mais la demande privée, que ce soit dans l'audiovisuel ou les services commerciaux et personnels, n'est pas en reste, et l'offre technologique est loin de répondre aux attentes réelles des utilisateurs. Le marché mondial de la traduction se trouve, en effet, confronté aux limitations de la génération des logiciels classiques, décryptant au "mot à mot". Ceux-ci ont très peu progressé depuis de longues années, sauf pour quelques paires de langues pour lesquelles des approches plus sophistiquées sont mises en place (analyse grammaticale, lexique bilingue de transfert, etc.). Face aux ambiguïtés grammaticales et sémantiques, la traductique s'avère encore un exercice hasardeux et source de nombreuses erreurs d'interprétation.

Traductique "statistique"

Le mot français livre signifie-t-il un ouvrage, une unité de poids ou une monnaie, ou une forme de la conjugaison du verbe livrer? En anglais, book désigne-t-il un livre ou l'action de réserver une place? Pour tenir compte du contexte dans lequel un mot prend son sens, les approches nouvelles de traduction informatique s'axent désormais sur des méthodes dites statistiques. Incapable de "comprendre", l'ordinateur, par sa puissance de calcul, est en revanche à même de trouver, en un temps infime, la meilleure solution possible dans un corpus contenant des millions de phrases traduites.

L'approche choisie par le consortium européen TC-Star pour développer son moteur de traduction intègre ainsi près de 3,5 millions de paires de segments de phrases pour les traductions anglais-espagnol et 8 millions pour le mandarin-anglais. "Pour trouver cette meilleure solution, le moteur cherche dans le corpus la paire source-traduction la plus représentée statistiquement", explique l'un des partenaires, Khalid Choukri, directeur de l'Agence pour l'évaluation et la distribution des ressources linguistiques (ELDA). "Cette recherche engendre un arbre de choix possibles, élagué au fur et à mesure par un ensemble de règles qui trient les candidats à l'aide de critères syntaxiques et lexicographiques qui sont appris par les séquences de mots successifs possibles (dits modèle de langage), en utilisant le nombre de mots. Le résultat final est celui qui obtient le meilleur score statistique."

Vers une révolution vocale

L'innovation développée par ce projet ambitieux ne concerne pas seulement l'amélioration de la qualité des moteurs de traductique classique, c'est-à-dire textuelle. TC-Star voit beaucoup plus loin et veut mettre au point des produits révolutionnaires de traduction, en temps réel, de la langue parlée.

Le processus, qui implique des recherches pointues dans les domaines de la reconnaissance et de la synthèse vocales, est acrobatique. Il commence par la récupération du flux de paroles et sa segmentation, afin de séparer les enchaînements de mots prononcés des bruits ambiants et de dissocier les voix des différents locuteurs. Ces segments de paroles sont ensuite transcrits en chaînes de phonèmes et décodées à l'aide d'un modèle de langage et d'un dictionnaire de phonèmes. Il en ressort un texte qui est passé au moteur de traduction. Ensuite, c'est au module de synthèse vocale de restituer le résultat. "Le module utilise, pour ce faire, un vaste corpus d'enregistrements de phonèmes permettant d'avoir de multiples intonations et durées pour un même phonème", poursuit Khalid Choukri. "Un ensemble de règles permet d'y choisir le segment de parole le plus approprié, en prenant en compte la ponctuation et les informations fournies par le module de reconnaissance vocale (hésitations, faux départs, locutions non grammaticales, etc.) On aboutit ainsi à une voix artificielle, mais fluide et expressive, qui respecte les caractéristiques de celle du locuteur source."

A terme, ce système de synthèse vocale pourrait, en outre, être préalablement paramétré avec les caractéristiques propres à la voix d'une personne donnée. La restitution prendrait alors la forme d'une parole aussi proche que possible de celle de "l'original" en termes d'intonation, d'inflexion et de diction…

Si TC-Star s'intéresse avant tout à fournir aux instances européennes un outil de traduction vocale performant, il ne néglige pas pour autant les multiples possibilités d'applications grand public comme la traduction d'émissions télévisées, son intégration à la téléphonie et, pourquoi pas, la création de petits "traducteurs portables". Très optimiste, Khalid Choukri espère que ces technologies se répandront d'ici cinq à dix ans.

François Rebufat

  1. Chiffre cité par Karl-Johan Lönnroth, Directeur général de la DG Traduction – voir Les technologies du langage humain pour l'Europe - www.tc-star.org/pubblicazioni/ITC_francese.pdf
  2. A cet égard, vient de démarrer le projet interuniversitaire EuroMatrix, qui va se pencher spécifiquement sur les besoins linguistiques de l'Europe élargie et jouer le rôle d'un observatoire des progrès de la traductique appliquée aux 21 langues de l'Union. www.euromatrix.net
Haut de page

plus de précisions

Des objets "auto-communiquants"

L'un des champs d'application où les technologies du langage progressent le plus est celui du pilotage des équipements domestiques par la parole. Ainsi le projet européen Talk (Tools for Ambient Linguistic Knowledge) développe des systèmes de reconnaissance de commandes vocales adaptés à la vie de tous les jours. Tout comme dans la recherche TC-Star, le principal défi est l'identification des mots selon leur prononciation par différentes personnes et l'extraction d'une traduction sous forme de commandes exécutables. Pour l'objectif visé, Talk organise la phrase prononcée suivant une grammaire formelle en fonction de critères de pertinence sémantique correspondant à l'exécution d'actions. Interactif, un tel logiciel est capable d'apprentissage, puisque c'est l'utilisateur qui introduit vocalement ses propres règles sémantiques permettant à la machine d'affiner ses critères de pertinence.

Davantage projeté dans l'avenir, le projet ECAgents (Embodied and Communicating Agents) s'intéresse, au développement des structures de "communication entre agents électroniques" –leur permettant d'échanger avec leur environnement, entre eux ou encore avec l'homme. L'objectif, très ambitieux, est d'étendre les fonctionnalités des appareils actuels (téléphones, connexions Wifi, robots domestiques, etc.) pour arriver à créer des outils "auto-communicants". Des innovations qui devront veiller à ne pas se transformer en cacophonie…



Haut de page

En savoir plus