2.3.2.- Les données sur les produits en train de se faire

Ce sont (entre autres) :

- Une liste des fonctions linguistiques que réalisent ou sont susceptibles de réaliser les automates en cours de développement. Cette liste doit être hiérarchisée par niveaux (subjectifs) de difficulté. La liste des pages suivantes est une première approche de cette hiérarchisation. La méthode permettant d'obtenir la hiérarchisation est la suivante : On ordonne les fonctions linguistiques par le nombre de systèmes différents effectivement commercialisés qui réalisent effectivement la fonction. La liste des systèmes effectivement commercialisés est obtenue dans la rubrique suivante (les données sur les produits et services en train de se vendre). La liste des fonctions linguistiques réalisées par ces systèmes est obtenue soit par la lecture des descriptions de ces produits, soit par tests systématiques. Le nombre de produits réalisant chaque fonction est donc obtenu soit en faisant confiance à la documentation technique du produit, soit en testant le produit, les deux nombres étant également intéressants car leur différence permet de mesurer l'attente du marché telle qu'elle est vue par les fournisseurs. Les listes des pages suivantes sont seulement une première ébauche de l'application de cette méthode. En particulier, il n'a pas été procédé à des tests systématiques des systèmes commercialisés en vue d'ordonner des fonctions linguistiques. L'ordonnancement a été obtenu par simple analyse de la littérature technique disponible. La difficulté est décroissante de gauche à droite et croissante de haut en bas puis de droite à gauche. On n'a pas répété, pour limiter la longueur des listes, tous les segments d'arbre en dessous de chaque niveau. Un intérêt de ces listes est qu'elles sont relativement indépendantes de la langue dans laquelle elles sont exprimées. Cela ne veut pas dire qu'elles sont indépendantes de la langue dans laquelle sont analysées les fonctions linguistiques (d'où l'importance, comme nous le verrons plus loin, de caractériser les produits par les langues sur lesquelles ils travaillent). Ainsi, il est possible, mais cela doit être vérifié, que la fonction linguistique :

" - parler un texte écrit en codes ASCII

-sans prosodie

- sans liaisons entre les mots

- avec silences réguliers entre chaque mot"

ne sera pas ordonnancée de la même façon pour le français et pour le japonais.

Le terme "codes ASCII" utilisé à plusieurs reprises dans les listes peut, évidemment être remplacé par tout autre nom de codage informatique (EBCDIC, par exemple). Le terme de code ASCII a ici été choisi car il correspond à la norme internationale.

Liste de fonctions linguistiques

que pourraient réaliser des automates

__________________

- écouter des mots prononcés par un homme

- seulement des nombres de 0 à 9

- prononcés, en discontinu

- par un homme connu à l'avance

- dans un environnement silencieux

- les transformer en codes sténo

- les transformer en codes ASCII

- dans un environnement bruyant régulier (moteur)

- dans un environnement bruyant quelconque

- par une femme connue à l'avance

- par un enfant connu à l'avance

- par un seul humain connu à l'avance

- par un seul humain inconnu à l'avance

- par plusieurs humains inconnus à l'avance

- prononcés en continu

- par un homme connu

- par une femme connue à l'avance

- par un enfant connu à l'avance

- par un seul humain connu à l'avance

- par un seul humain inconnu à l'avance

- par plusieurs humains inconnus à l'avance

- seulement des nombres

- seulement des nombres et des lettres

- seulement des noms communs (ou propres)

- n'importe quels mots d'une langue

- n'importe quels mots de plusieurs langues

- parler un texte écrit en codes ASCII

-sans prosodie

- sans liaisons entre les mots

- avec silences réguliers entre chaque mot

- avec vocabulaire < 1000 mots

- avec une voix d'homme

- sans accent

- avec accents

- avec une voix de femme

- avec une voix d'enfant

- avec plusieurs voix possibles

- avec vocabulaire complet d'une langue

- avec silences calculés entre chaque mot

- avec liaisons entre les mots

- avec prosodie

- lire des caractères lisibles également par l'homme et les transformer en codes ASCII

- des caractères OCR

- dans un seul corps

- dans une seule graisse

- clairement imprimés

- mal imprimés mais chacun lisible par un humain

- mal imprimés avec certains illisibles et reconstituables par plus de 50% des humains sachant lire

- dans plusieurs graisses

- dans plusieurs corps

- plusieurs polices de caractères connues à l'avance

- des caractères en apprenant les caractères inconnus avec l'aide d'un humain

- des caractères en apprenant les caractères inconnus sans l'aide d'un humain

- traduire des textes écrits en codes ASCII

- texte source dans une seule langue

- ne contenant pas de codes typographiques

- vocabulaire source < 2 000 formes

- sans fautes d'orthographe

- grammaire source < 100 règles

- grammaire source >100 et <200 règles

- avec fautes d'orthographe corrigeables

par 50% des humains sachant lire

- vocabulaire source > 2000 formes et <5000 formes

- contenant des codes typographiques

- texte source dans plusieurs langues

- corriger des textes écrits en codes ASCII

- sans fautes de grammaire

- texte source dans une seule langue

- ne contenant pas de codes typographiques

- vocabulaire source < 100 000 formes

- corriger 10% des doublements de lettres

- détecter 10% des doublements de lettres

- détecter 50% des doublements de lettres

- corriger 10% de absences de lettres

- vocabulaire source > 100 000 et < 500 000 formes

- contenant des codes typographiques

- avec fautes de grammaire

- décrire et résumer des textes écrits en code ASCII

- texte source dans une seule langue

- sans fautes d'orthographe et/ou grammaire

- en résumant avec des mots

- existant dans le texte source

et dans un lexique pré-établi

- lexique de mots simples

- non hiérarchisés

- hiérarchisés

- lexique de mots composés

- en construisant un lexique au fur et à mesure

- avec tous les mots du texte source

- avec certains mots du texte source

- en résumant avec des segments de phrases

- pris dans le texte source

- non pris dans le texte source

- avec fautes d'orthographe et/ou grammaire

- texte source dans deux langues

- chercher dans un ensemble de textes ceux qui répondent à une question écrite

- question dans un langage de requêtes

- textes dans une seule langue

- en prenant les textes qui contiennent les mots de la question

- en passant à travers un langage documentaire

- textes en plusieurs langues

- question en langage naturel

- La liste des produits en train de se faire, que ces produits existent déjà réellement sur le marché (un vérificateur orthographique) ou non (un téléphone traducteur). Un produit est défini comme explicitement destiné à remplir une ou plusieurs des fonctions de la liste précédente ainsi qu'à la commercialisation ;

- La liste des projets dans lesquel au moins une entreprise est impliquée et qui mentionnent explicitement l'un des produits de la liste précédente. Cette liste doit mentionner, pour chacun des projets, la liste des chercheurs et des laboratoires et entreprises impliqués, le montant et l'origine du financement, les langues étudiées, la description du projet telle qu'elle est faite par ses participants ;

- La liste des entreprises participant à l'un au moins des projets de la liste précédente. Cette liste doit mentionner, pour chaque entreprise, son activité principale, le lieu d'implantation de son siège, la liste de ses actionnaires principaux, le chiffre d'affaire dans l'activité principale et, si possible, le montant des investissements sur les projets dans le domaine des industries de la langue. Cette liste doit être ordonnée par produits recherchés, pays et aire linguistique de localisation du service de l'entreprise qui mène la recherche, pays et aire linguistique du siège social.

- La liste des termes utilisés dans les descriptions des projets. Cette liste doit être ordonnée par entreprises et par pays, ou par aires linguistiques (qui parle de quoi), par co-occurrences de termes (comment on parle) ;

- La liste des organismes publics financeurs (et leurs budgets d'intervention), ordonnée par produits financés, par pays et aire linguistique de localisation.

- La liste des responsables des décisions de financements publics et la liste des experts qui analysent les demandes de financement.

- La liste des procédures de financement directes ou indirectes des projets.