courrier des lecteurs :

Origine du langage et applications linguistiques stratégiques

Diverses questions :
Où en est la linguistique mathématique et l'informatique linguistique ? Que faire avec la linguistique ? Quels sont les applications stratégiques en linguistique ? Quel est le rapport avec les controverses epistémologiques soulevées par l'ethnométhodologie ?
Reprise d'une correspondance avec commentaires entre crochets.
Extrait d'un échange daté de octobre 2003.

Texte modifié et corrigé le 01 mars 2004

-----Message d'origine-----
Date : octobre 2003
Objet : traitement du langage naturel / espionnage / origine du langage

Une référence pour débuter une petite recherche sur la linguistique appliquée au renseignement et à l'espionnage. Pour le cas de la France cela débute au début des années 70. A compléter avec les nombreuses révélations entreprises de part et d'autre.

A partir de là, on peut construire différentes théories cognitives dont les applications militaires sont évidentes.
On peut compléter cet état des lieux en explorant encore les applications stratégiques de l'informatique pour la défense et le renseignement.

Pour l'informatique linguistique, on peut s'inspirer des découvertes de différents laboratoires "IA/VA et Simulations" qui sont compatibles avec une approche ETM des théories du langage. Ce sont des recherches publiques dont une partie porte aussi sur l'origine du langage. [ idéophonémique, idéophonologique, etc. Cela équivaut par la simulation et le calcul, à penser l'origine de l'information et sa transformation, à se representer ce support métalinguistique et métamathématique commun à toutes les formes de communications verbalisées ou non, digitales, analogiques, animales]

Bien sûr, tout cela n'est que la partie la plus connue, c'est ce qui est visible. Donc les théories linguistiques non standards qui travaillent sur ce que l'on appelle des approches génératives locales de bas niveau sont très nombreuses. Les applications les plus prometteuses sont classifiées secret défense.

Il y a donc beaucoup de choses à découvrir, mais le plus intéressant est de travailler sur les théories unitaires cognitives et pluridisciplinaires. Malheureusement, cela sert souvent à créer des applications stratégiques performantes pour le renseignement ou l'espionnage. Là, je ne parle que de la partie linguistique. Cela explique le décalage entre ce qui se fait dans les laboratoires associés à la défense (ou aux services secrets) et ce qui se passe à l'université. [Selon les pays et le contexte politique de la recherche. Nous retrouvons des rapprochements et des financements conjoints avec l'université, les grandes écoles privées et publiques. Lorsqu'il y a des possibilités d'applications pour la défense, crise financière oblige, il y a des projets que l'on soutient plus que d'autres]

Par contre pour les USA, c'est encore plus compliqué, du fait de l'existence de la NSA et d'une culture du
renseignement largement diffusée dans le monde de l'enseignement. On peut supposer l'existence de Black Programs qui commencèrent dans les années 50 et dont Echelon ne constitue qu'une facette. [Ce n'est pas vraiment une supposition mais je laisse au lecteur la liberté de vérifier par lui même, c'est un sujet sensible]

Voici un exemple pour le cas de la France.
------------------

page 132 du livre :
Secretes Affaires, Les services secrets infiltrent les entreprises. De Guillaume Dasquié. Editions Flammarion.

[ .... ]
Présentations avec Christian Krumeich. De 1975 à 1993, il a travaillé pour le compte du ministère de la Défense. Chercheur avant-gardiste dans ses jeunes années, il planche sur les calculateurs, ancêtres des ordinateurs que nous connaissons. Spécialiste des sciences cognitives, il participe en 1979 aux premières études sur l'intelligence artificielle.

Des structures juridiques diverses, portant des appellations liées à la recherche, abritent les laboratoires qui, dans les faits, dépendent du ministère de la Défense. Entre 1981 et 1982, il oriente ses travaux vers le traitement du langage naturel, un secteur balbutiant pour les militaires, mais sur lequel ils fondent de grands espoirs. Le pari initial est simple : les masses d'informations reçues par un service de renseignement atteignent un niveau tel qu'elles empêchent une bonne analyse de l'ensemble du contenu. Donc, il s'agit d'inventer un appareil capable d'ingurgiter de grandes quantités de textes, et, à partir de ces données, de produire des analyses pertinentes. Le Miti au Japon, les centres universitaires de Stanford et du Massachusetts Institute aux États-Unis se lancent dans les mêmes travaux. Ces concurrents scientifiques s'appuient sur des modèles morphosyntaxiques pour enregistrer les langages; concrètement, leurs calculateurs parviennent à enregistrer et à additionner des masses importantes de textes rédigés dans toutes les langues, puis réussissent à définir le sens de chaque donnée. Point noir, la machine se montre incapable d'effectuer une analyse de contenu.

Aucune utilité en matière de renseignement. La France bénéficie d'une longue tradition en matière linguistique.
Depuis le début du siècle, à Paris, une école de psychomécanique du langage domine cette science. Sous l'influence d'universitaires, comme l'émérite Bernard Pottier, ce courant évolue et fonde la noémique - du grec noéma, la pensée. Selon Pottier, un noème se définit comme l'unité minimale de sens conceptuel; ce sont des concepts élémentaires impossibles à diviser en sous-concepts. Perplexe, je regarde mon hôte, un véritable savant passionné, parfois difficile à saisir. Devinant mes doutes, il s'arrête un instant et illustre son petit cours privé sur la noémique.

Tenez par exemple: "être" est un noème, la fonction Être est indivisible. De même "voler", au sens de "planer dans les airs", est un concept de base. Idem pour "technologie", au sens des productions de la main de l'homme. Si maintenant vous employez ce métalangage pour effectuer une enquête sur l'aviation, vous n'indexez plus tous les mots voisins d'avions, vous recherchez les idées qui rappellent la suite de noèmes "Être une Technologie qui Vole".

En relation avec le monde universitaire, Christian Krumeich et ses confrères conçoivent depuis leur laboratoire un logiciel destiné à ce langage pivot, c'est-à-dire un système qui identifie les concepts de base, les noèmes, indépendamment des langues qui les véhiculent. Qu'il s'agisse d'idéogrammes ou de langues indo-européennes.
Après de longs tâtonnements, en 1985, ils parviennent à des résultats satisfaisants, bien qu'encore imparfaits. Un premier logiciel voit le jour, il s'appelle Taïga, que son utilisation destine en priorité au renseignement. Taïga reprend les objectifs contenus dans les plans de renseignement de la DGSE. Ainsi le logiciel reçoitil un grand nombre de sources : les agences de presse AFP, Reuter, Tass ; le fil diplomatique, donc toutes les notes d'observation des fonctionnaires du Quai d'Orsay; le fil militaire pour les notes des attachés militaires français à l'étranger; les comptes rendus des interceptions de communications opérées par les services ; plus d'autres sources spécialisées. Provenant du sommet de la DGSE, les plans de renseignement précisent, eux, les réponses à obtenir. Un programmateur les traduit sous la forme d'équations de noèmes.

Le logiciel recherche alors entre toutes les sources des connexions qui rappellent l'addition de ces noèmes. Il trouve des causalités jusque-là ignorées, des relations mal perçues. Taïga apparaît ainsi comme le premier logiciel autorisant des analyses de contenu. Ses créateurs l'améliorent continuellement. En 1995, ils développent une nouvelle génération de programmes, et le logiciel prend le nom de Noemic. En 1997, un nouveau le remplace : Popics. Selon Christian Krumeich, de nos jours, une trentaine d'ordinateurs superpuissants tournent avec ces
logiciels, jour et nuit, dans les sous-sols du ministère de la Défense, et analysent des milliers de sources en temps réel. La noémique permettrait de satisfaire à une dizaine de plans de renseignement : en géopolitique, avec des recherches sur des personnalités internationales et le politique de certains États ; en macroéconomie, avec des recherches dans les secteurs de l'énergie et des télécommunications ; en veille technologique, avec des équations pour tout savoir en acoustique et en furtivité.

Depuis environ cinq ans, ces programmes sophistiqués charment les industriels. Une société de Bâtiment et Travaux publics élabore ainsi des plans de renseignement pour Noemic, afin de devancer la recherche
mondiale sur les nouveaux bétons, ou d'anticiper les offensives de ses concurrents sur les grands marchés. Les logiciels profitent aux entreprises qui interviennent dans des secteurs dominés par de forts volumes d'informations, soumis à des évolutions rapides, comme les hautes technologies. Bien que très couteux, ils sont considérés par les professionnels du renseignement économique comme des outils d'avenir. Conscient de ces évolutions, Christian Krumeich vend lui-même les prestations de ses talentueux engins à des entreprises.Le renseignement économique s'appréhende aujourd'hui à travers plusieurs réalités : il fait appel aux outils les plus sophistiqués, il rassemble des hommes formés aux techniques offensives, l'État lui-même y participe, et des sociétés privées l'encouragent. Ce phénomène nouveau engendre des comportements inédits et des faits divers singuliers dans la vie des affaires. Des services secrets, tels que la CIA, espionnent au nom de l'industrie des loisirs. De grands patrons trébuchent lors d'accidents industriels qui portent la marque d'entreprises de déstabilisation.
[ ....  ]


Outils infométriques :

http://www.uhb.fr/urfist/infomDEF.htm
http://www.geocities.com/WallStreet/Floor/7918/mise_en_place.html

Taiga : Taiga signifie Traitement Automatisé de l’Information Géopolitique d’Actualité. Taiga a été mis au point par Christian Krumeich, un linguiste/informaticien de la société Thomson pour les besoins de la DGSE qui voulait tirer des informations des bases de données de l’ex-URSS. Taiga a été adapté pour servir à la veille technologique et est aujourd’hui vendu 200000F pièce. Ce logiciel est aujourd’hui la propriété de l’entreprise Madicia, détenue par la société Questel, elle-même filiale de France Telecom. Madicia devrait bientôt quitter France Telecom pour rejoindre Intelco, département spécialisé dans le renseignement économique du groupe Défense Conseil International, lui-même département du Ministère de la Défense. En 1995, IBM s’est vu interdire d’acheter l’entreprise Madicia. Le Centre d’Etudes Supérieures de Défense de Marne-la-Vallée, dirigé par l’Amiral Lacoste, ancien directeur de la DGSE, a participé au projet de développement de Taiga. Taiga fonctionne dans n’importe quelle langue, et est expert en sémantique et en linguistique. Le logiciel a été transformé par Pascal Andréi pour pouvoir couvrir aussi bien le domaine géopolitique que celui du renseignement technique. Taiga transforme les textes depuis n’importe quelle langue dans un langage pivot qui regroupe les terminologies autour de champs sémantiques. Taiga, bien que très complexe d’utilisation, est très rapide puisqu’il traite un milliard de caractère par seconde. La Direction du Renseignement Militaire a acquis début 1995 plusieurs dizaines de stations Taiga.


Autres références :

Je vais essayer de recouper les informations dispersées sur mon site. Je procède donc
à une sélection sur des thèmes de recherche largement transdisciplinaires.
 

  • Quelques références consultable sur la page des liens "I.A & V.A"
  • Un dialogue avec un lecteur à propos de "l'ethnomethodologie et la simulation de la conscience"
  • Vidéos à voir sur le sujet sur ma sélection UTLS "Les interfaces"
  • Ethnométhodologies et théories du langage, perspectives de recherche
  • L'ordinateur est-il capable de comprendre un  texte ? L'être humain est-il vraiment stupide face à la machine ?
  • Big Brother, Echelon et T.I.A (Total Information Awarness)

  • Les défis à remporter pour ces recherches :
    - Synthèse entre les diverses recherches pour proposer des applications communes
    - Ouverture des disciplines entre elles par des interfaces pour faciliter le décloisonnement
    - Politique d'aide à la diversification des profils des chercheurs et aide à la transversalité
    - Réflexion éthique sur les NTIC et communication auprès du grand public
    - Controler les effets pervers des outils d'aide à la décision
    - Sciences Cognitives "open source" versus Sciences Cognitives "propriétaires"


    Quelques recherches sur l'origine du langage, l'I.A et la robotique :

    Des nouvelles du Labo SONY CSL,
    http://www.csl.sony.fr/

    Le labo que dirige Luc Steels
    http://www.csl.sony.fr/General/People/index.php
    http://www.csl.sony.fr/General/People/StaffPage.php?username=steels
    http://arti.vub.ac.be/~steels/
    http://www.csl.sony.fr/Research/Topics/Language/index.html

    Les resultat de P.Y. Oudeyer : L'autoarganisation  de la parole
    http://www.csl.sony.fr/General/People/StaffPage.php?username=py
    http://www.csl.sony.fr/~py/

    Presentation de la thèse par P. Y. Oudeyer
    http://www.admiroutes.asso.fr/larevue/2003/50/pyo.htm
    http://www.admiroutes.asso.fr/larevue/2003/50/pyoudeyer.htm