CINQUIEME CHAPITRE

LA TRADUCTION AUTOMATIQUE
 
 

Un vieux rêve

La chair est faible si l'esprit est subtil ... fut traduit par un ordinateur dans une langue étrangère par la viande est tendre si l'alcool est fort. Nombreuses sont les anecdotes de ce type qui circulent. I1 est aisé de se moquer de la traduction automatique. Mais d'immenses progrès ont été réalisés dans ce domaine et les machines sont aujourd'hui capables d'éviter les pièges les plus grossiers du langage. De nouveaux modèles ont vu le jour. A tel point que l'espoir d'une traduction entièrement automatique renaît timidement de ses cendres.
 
 

Une grammaire universelle

La traduction automatique est un vieux rêve que certains pensent pouvoir réaliser un jour. En 1956 des pionniers commencent à mettre au point des programmes de traduction. Les résultats ne sont pas merveilleux mais les chercheurs ont bon espoir de pouvoir les améliorer sensiblement dans un avenir proche. A l'époque, dans la lignée de la linguistique de Chomsky, les laboratoires cherchent à créer un programme génréral fondé sur des dictionnaires spécifiques et sur le fait que les connaissances relatives à un problème doivent être données en dehors du programme luimême. L'apprentissage semble être le problème clé de la traduction . le système doit être capable de dévouvrir lui-même les connaissances qui lui sont nécessaires.

Cette période de recherches intenses engloutit des budgets de plus en plus pharamineux. En effet, pour mettre au point ces programmes, le gouvernement fédéral américain n'hésite pas à investir des sommes supérieures à celles nécessaires au fonctionnement de la NASA. Des équipes analysent le langage en essayant de trouver des catégories formelles qui permettraient un classement automatique du langage. L'idée sous-jacente est que le langage est une faculté innée, une espèce de logiciel commun à tous les hommes, qui diffère formellement d'une société à une autre. Derrière la diversité des langues, Chomsky croit voir une unité de structure. On cherche donc à classer tous les éléments de la langue. Le travail est gigantesque.
 
 

La fin d'un mythe.

Hélas, quinze ans après des débuts prometteurs, les résultats restaient toujours aussi décevants. Des sommes colossales avaient été englouties, des chercheurs avaient bien vécu sans rien trouver et Chomsky était célèbre. L'espoir continuait à tenir haut les coeurs et chacun pensait qu'on y était presque, qu'il suffisait de chercher encore pendant quelques années pour avoir enfin la machine à traduire. A condition de trouver un pigeon qui accepte de payer. C'est alors que surgit un oiseau de mauvaise augure qui ruina la douce quiétude des laboratoires.
 
 

Qui a peur de Bar Hillel ?

Car pendant ce temps, des logiciens, Bar Hillel de l'université de Jérusalem en particulier, avaient déjà annoncé que ces recherches n'étaient pas dirigées dans la bonne direction. Dès 1954 paraissait un article prophétique dans la revue Mind, où Bar Hillel annonçait qu'il était impossible de réduire le sens d'un texte à une suite de symboles. I1 montra par la suite, qu'une traduction automatique est impossible si on ne dispose pas d'une immense banque de données contenant des éléments extralinguistiques. Une traduction nécessite des connaissances extérieures au texte à traduire. Selon lui, le principe d'indexicalité impliquait que le sens d'une proposition dépend non seulement de son contexte linguistique mais surtout de l'ensemble des connaissances du locuteur.

C'est notamment à la suite de ces prises de position que fut rédigé le fameux rapport ALPAC, en 1964, qui conduisit le gouvernement américain à ne plus financer aucune étude sur la traducution automatique. L'idée d'une grammaire universelle était définitivement abandonnée, faute de crédit. Et faute d'espoir.
 
 

Un nouveau départ

Dans les années 70, les Européens ont repris les bases du problème. L'idée d'une grammaire générative est abandonnée. Comme est abandonnée l'idée qu'une traduction directement d'une langue dans une autre est possible. Au lieu d'un dictionnaire complet, on cherche à construire un programme susceptible d'analyser la langue naturelle et de la transposer dans une langue artificielle, dépourvue d'ambiguïtés. Au lieu d'avoir un système où on passe, par exemple, du russe à l'anglais, on ajoute un intermédiaire, celui d'une langue artificielle. C'est par cet intermédiaire qu'on va essayer de représenter le sens du texte. On a donc deux programmes pour chaque langue : d'une part un analyseur qui trouve et représente le sens. Et, d'autre part, un générateur qui part de cette représentation du sens pour aboutir à un texte rédigé dans la langue d'arrivée.

L'avantage de cette approche est qu'elle permet de dépasser le cadre de la traduction automatique. En effet, il s'agit dès lors d'un problème analogue à celui d'une interface Homme/Machine. I1 ne restait qu'à trouver un langage adéquat à cette formalisation du sens.

Vers 1975, Alain Colmerauer définit le langage Prolog (Programmation Logique) qui permet de décrire un problème sous forme procédurale. Jusqu'ici, en effet, on avait surtout insisté sur l'aspect déclaratif des règles du langage. Avec Prolog, il devient possible de remplacer les affirmations par des procédures. Par exemple, une proposition comme l'article s'accorde en genre et en nombre avec le nom auquel il se rapporte sera traitée comme une suite d'instructions. De cette manière, le délicat problème de la reconnaissance des catégories sémantiques est renvoyé à une étape ultérieure (voir ci-dessous). En français, la peut désigner aussi bien un article, un pronom personnel, une note de musique etc. Le système procédural demande à la machine d'appliquer une série de règles, qui sont soumises à des corrections éventuelles grâce au principe du chaînage avant ou du chaînage arrière.

La proposition sera dès lors traitée de la manière suivante : si la, chercher le mot suivant. Si le mot suivant est un nom commun, vérifier son genre dans le dictionnaire. Sinon, chercher si c'est un verbe etc.
 
 

Comment une machine trouve un sens ?

On considère aujourd'hui que 5 étapes sont nécessaires pour comprendre le sens d'une phrase

1. Etape morphologique. La machine identifie tous les mots du texte (ils sont séparées par un blanc qui joue le rôle de marqueur). Les cas douteux comme prends-le ou arrière-got1t (deux mots reliés par un trait d'union dans le premier cas, un seul mot dans le second) sont vérifiés lors de l'étape suivante.

2. Etape lexicale. Les mots sont cherchés dans le dictionnaire.

3. Etape syntaxique. Le programme détermine la structure de la phrase.

4. Etape sémantique. Lors de cette étape, le sens est formalisée à l'aide de symboles. Ces quatre premières étapes sont des phases de compréhension.

5. Enfin, la cinquième étape, dite d'exécution vérifie que le sens est compatible avec les connaissances contenues dans la machine. Soit la phrase . it rains cats and dogs. Le programme vérifiera au cours de la dernière étape que les chiens et les chats peuvent pleuvoir. Cette affirmation est possible dans la base de connaissances de la langue anglaise alors qu'elle est évidemment incompatible avec les données d'une autre langue.
 
 

Un contexte restreint

De plus, ces programmes supposent qu'il existe une base de connaissances assez vaste pour que la machine puisse éliminer les sources d'erreurs et les confusions. Bien entendu, à partir du moment où la traduction est soumise à l'existence d'une base de connaissances, il apparaît qu'un même logiciel ne peut pas traduire n'importe quel texte français. C'est seulemenent dans un contexte donné que la traduction automatique est possible. Le problème est en l'espèce analogue à celui des systèmes experts. Ils ne sont envisageables que dans les cas où une expertise est possible. Dans ces conditions, on comprend qu'il existe déjà des logiciels de traduction automatique dans des domaines techniques (formalisables) mais qu'il n'existe aucun programme de traduction automatique en littérature par exemple. Supposons qu'un informaticien donne Pouchkine en russe à son PC favori pour qu'il le traduise en français. La somme de connaissances relatives aux deux contextes (celui de la Russie du XIXème siècle d'une part, et celui de la France d'aujourd'hui d'autre part) dépasseront largement les capacités mémoires de sa machine.

Mais, même s'il existait une machine ayant les capacités requises, il faudrait encore élaborer un système susceptible de gérer cette grande quantité de connaissance sans revenir à une combinatoire (trop longue pour cet usage, de même que la combinatoire a été abandonnée pour trouver un programme de jeu d'échecs).

Enfin, supposons cette difficulté résolue, il faudrait encore trouver le moyen de réunir l'ensemble des connaissances néecessaires. Certes, un système d'apprentissage est théoriquement envisageable. Mais plus le contexte sera général, plus il fera appel au bon sens du lecteur, plus le nombre de connaissances requises pour comprendre une information nouvelle est élevé.
 
 

La compréhension différentielle

Le problème est d'une rare complexité. Selon H.P. Grice (de l'Université d'Harvard) et F. Recanati (du C.N.R.S.), le texte à comprendre n'est que différentiel. L'auteur n'exprime pas une situation. I1 exprime la différence entre la situation qu'il veut décrire et celle qu'il sait que le lecteur connaît déjà. Toute machine à comprendre des textes digne de ce nom devra donc posséder les connaissances générales du lecteur moyen auquel les textes sont destinés. Contrairement à ce qu'on pourrrait croire, ce ne sont pas les textes les plus pointus qui demandent le plus de connaissances. Celles qui sont requises sont certes plus précises, mais finalement assez peu nombreuses.

Minsky (fondateur de l'IA et chercheur au M.I.T.) arrive à une conclusion analogue un programme de 1956 résolvait de difficiles problèmes de mathématiques ... ce n'est pourtant qu'à partir de 70 que l'on a pu écrire des programmes mettant en jeu des robots capables de voir et de bouger de façon à construire des tours et des maisons aux structures simples à l'aide de cubes pour enfants. Comment se fait-il que nous ayons réussi à écrire des programmes faisant des choses d'adultes avant de parvenir à en produire qui aient des activités enfantines ? La réponse peut sembler paradoxale : une bonne partie du raisonnement "expert" d'un adulte est plus simple que les pensées d'enfants ordinaires qui jouent !

C'est pourquoi la traduction de domaines très pointus demande paradoxalement moins de connaissance que celle de la vie de tous les jours. D'ailleurs, les traducteurs le savent bien le style académique ou technique d'une revue scientifique est incomparblement plus simple à traduire que le style parlé d'un journal comme Libération.

Pour l'instant, et pour de longues années sans doute, les hommes devront se contenter de logiciels de Traduction Assistée. Des résultats très acceptables permettent aujourd'hui d'alléger considérablement la tâche du traducteur. I1 n'est envisageable de pouvoir se passer totalement de lui dans un avenir proche. Quant à la traduction entièrement automatique, elle appartient pour l'instant au domaine de la science fiction.