Informatique linguistique

Composition de l'équipe

L'équipe ``Informatique linguistique'' comprend :  
Le rapport prend également en compte les travaux effectués au laboratoire d'informatique de l'IGM par Wahiba Ben Abdesselem, Chung Min-chung, Pierre-Yves Foucou, Lee Chang-yeol, Nam Jee-sun, Métiyé Meydan, Anne Monceaux et Park Sun-nam, qui ont été recrutés dans d'autres laboratoires ou dans des entreprises au cours des trois dernières années.

Par ailleurs, le recrutement de Jean Senellart prend effet à la rentrée 1999.

4.2   Thèmes de recherche

L'équipe d'informatique linguistique se situe dans la perspective du traitement automatique des textes en langues naturelles. Elle privilégie l'utilisation de données précises et explicites : dictionnaires, grammaires, par rapport à l'approximation à partir de données incertaines [Lap97b]. Les applications visées sont nombreuses mais les plus significatives sont liées à la recherche documentaire. Les trois orientations qui nous intéressent le plus actuellement sont les suivantes : Le niveau de couverture lexicale visé est très large, car rien n'indique a priori dans quels domaines se situent les textes susceptibles d'être traités par les applications ; de plus, nous nous intéressons aux applications dans lesquelles on n'impose aucune restriction de vocabulaire aux textes traités, qui sont entièrement libres, c'est-à-dire qui obéissent aux seules contraintes de la langue elle-même. La prise en compte du lexique est donc systématique.

Ces travaux prennent leur place dans le contexte plus général du réseau RELEX de laboratoires de linguistique et d'informatique linguistique. Le réseau RELEX regroupe une douzaine de laboratoires, situés pour la plupart en Europe, qui collaborent à la constitution d'un inventaire d'informations linguistiques précises et exploitables dans les traitements automatiques, sur la base d'exigences méthodologiques : reproductibilité, exhaustivité, cumulativité. Dans cet ensemble, notre équipe, depuis sa création en 1987 sous le nom de Centre d'études et de recherches en informatique linguistique (CERIL), joue avec le Laboratoire d'automatique documentaire et linguistique (LADL) de Paris 7, un rôle central, par l'organisation commune de colloques et à travers des contributions croisées dans l'élaboration des outils fondamentaux : dictionnaires et logiciels.

Le programme global de recherches du réseau RELEX est simple. Les unités élémentaires des langues sont décrites dans des dictionnaires électroniques. Ces unités pouvant se combiner pour former des phrases et des textes, la description formelle des contraintes syntaxiques est mise en oeuvre sous la forme de lexiques-grammaires. Les descriptions linguistiques (grammaticales, morphologiques, syntaxiques, phonétiques) étant destinées à être exploitées dans des applications informatiques, les objectifs sont extrêmement concrets : spécifier les formes effectivement observables. Le passage de la description linguistique à la réalisation informatique est facilité par l'utilisation d'automates finis comme support commun. En effet, du point de vue de la description linguistique, les automates finis, même lorsqu'ils sont utilisés pour abréger l'énumération d'ensembles finis, permettent une mise en facteur des objets sans laquelle toute description précise serait impossible. On peut ainsi décrire des faits de langue de manière à la fois systématique et cumulative. D'autre part, les données étant particulièrement volumineuses, les réalisations informatiques nécessitent des formalismes et des algorithmes économes en temps. La représentation des données par automates et transducteurs est remarquablement adaptée à cette contrainte.

4.3   Résultats

Le site web réalisé par P.Y. Foucou [Fou95] présente un aperçu des informations linguistiques manipulées : dictionnaires, grammaires, corpus de textes, textes étiquetés.

Dictionnaires électroniques

L'analyse morphologique fait appel à de grands dictionnaires représentés sous la forme d'automates acycliques et de transducteurs finis. Le temps de consultation dépend linéairement de la taille du texte et ne dépend pas de la taille du dictionnaire.

Dans les langues à flexion, comme la plupart des langues européennes, le maximum d'efficacité est obtenu avec des dictionnaires électroniques qui comportent toutes les formes fléchies, c'est-à-dire par exemple toutes les formes conjuguées des verbes. Cependant, le nombre de formes fléchies dépend des langues. Par ailleurs, d'autres langues, comme le coréen, sortent nettement de ce cadre.

La question de l'analyse lexicale par consultation du dictionnaire n'est donc pas indépendante du format de codage du dictionnaire. Pour le français, les limites des outils actuels pourront être atteintes avec l'augmentation du nombre total d'étiquettes distinctes pour les mots du dictionnaire. Une méthode de compression du type Ziv-Lempel appliquée à l'arbre lexicographique pourrait apporter une solution à ce problème [RL99].

Nous développons des dictionnaires électroniques d'autres langues que celles pour lesquelles on dispose déjà d'outils fiables. Les langues abordées, préférentiellement les langues maternelles des chercheurs et doctorants, varient au gré de l'accueil des doctorants. Malgré les différences entre langues et entre systèmes d'écriture, ces variations ne nécessitent pas de réorganisations lourdes. D'autres langues sont abordées par l'intermédiaire de coopérations internationales, notamment le hongrois, l'italien, le polonais, le portugais.

Le grec moderne a été traité à l'IGM [Skl99] [SR97]. La description systématique des déclinaisons a abouti à la constitution d'un dictionnaire de formes fléchies des noms et adjectifs. Les mots grammaticaux, fléchis automatiquement, ont été inclus dans le dictionnaire ainsi que les mots invariables. Le dictionnaire obtenu (1 300 000 formes) a pu être traité à l'aide des outils standard d'analyse de corpus du réseau RELEX.

Le polonais a été abordé à travers des collaborations. C'est également une langue plus fléchie que le français. La méthode classique de construction de dictionnaires électroniques a été utilisée. L'analyseur morphologique qui a été construit n'exploite pas de dictionnaire de formes fléchies, mais un dictionnaire de racines associé à un dictionnaire de suffixes [Lap98b].

Le coréen a pu être abordé sérieusement grâce à la présence, maintenant traditionnelle, de plusieurs doctorants coréens, et grâce à des collaborations. Les formes canoniques ont été recensées par catégories grammaticales avec des critères formels d'étiquetage, et la combinatoire des suffixes verbaux et adjectivaux et des postpositions soudées aux substantifs a été décrite par automates finis [Nam97, Nam95, Nam96b, NL97]. Ces informations permettent la segmentation correcte des séquences soudées en unités significatives [Lee97, NL96a, NL96b]. Le coréen est une langue agglutinante, c'est-à-dire que la combinatoire des suffixes attachables aux mots, beaucoup plus abondante que dans une langue fléchie, rend inapplicable, pour l'instant, la solution d'un dictionnaire de formes fléchies. L'exploitation de ces données a toutefois permis la construction d'un analyseur morphologique de textes coréens [Cho99]. La déterminisation et la minimisation des dictionnaires sont économes en espace et en temps (1 mn 3 s). Les dictionnaires comprimés occupent 390 Ko pour un vocabulaire de 148 millions de formes fléchies, soit 47 mots par bit.

Composants logiciels

Les automates finis sont utilisés pour le stockage de dictionnaires avec accès rapide, le calcul de langages formels, l'édition d'éléments de dictionnaires et de grammaires, et la présentation d'ensembles d'analyses de phrases. Ces utilisations sont variées mais liées entre elles. Un composant logiciel de manipulation d'automates en C++ est en cours d'élaboration [Rev97b, LM97b].

De l'analyse lexicale à l'analyse syntaxique

Plusieurs raisons font que la frontière entre l'analyse lexicale et l'analyse syntaxique des langues naturelles est plus difficile à tracer que dans le cas des langages formels : Ainsi, la reconnaissance de structures grammaticales locales à l'aide de grammaires implantées sous la forme d'automates finis est développée en vue de permettre la reconnaissance des structures syntaxiques dans lesquelles elles sont imbriquées [Dir96, Dom99].

L'application de grammaires exprimant des contraintes locales et implantées sous la forme d'automates finis ou de transducteurs finis, permet de lever les ambiguïtés grammaticales. Dans ce domaine, nous nous intéressons à la comparaison des possibilités théoriques des différentes méthodes connues [Lap98a], à l'évaluation quantitative des résultats de la levée d'ambiguïtés sur des textes [Lap96c], et surtout à la réalisation effective d'un système fondé sur des grammaires lisibles [Gar97c]. Le système ELAG [LM97a] a été conçu et réalisé pour permettre l'accumulation de petites grammaires construites indépendamment les unes des autres.

L'analyse syntaxique de textes en langues naturelles sans restriction, aboutissement naturel de toutes ces recherches, n'est pas encore à portée de main. Cependant, nous avons un résultat de faisabilité encourageant concernant l'utilisation d'algorithmes liés aux automates et transducteurs finis pour l'analyse syntaxique lorsque la syntaxe des phrases est formalisée sous la forme d'une grammaire algébrique (context-free) [Lap96a].

Lexique-grammaire

La description syntaxique est développée dans le cadre de la construction de lexiques-grammaires [Lap99]. Ce travail met en jeu, d'une part, la représentation précise des transformations syntaxiques, nécessaire pour la reconnaissance de la structure des phrases complexes, et d'autre part la description du lexique : recensement et classification des éléments lexicaux et codage de leurs propriétés. Les deux aspects, grammatical et lexical, ne sont pas indépendants. Les travaux consacrés à différentes langues ne sont souvent pas indépendants non plus. Enfin, ces travaux s'inscrivent dans un cadre plus large que le laboratoire et sont complémentaires de travaux analogues dus à d'autres équipes du réseau RELEX.

Les travaux récents sur le français ont porté sur : Les adjectifs en relation vivante avec des substantifs en grec moderne ont également été classés et décrits [Skl97b, Skl97a].

Pour le coréen, les travaux récents et en cours incluent :

Autres applications

Les résultats obtenus dans le cadre de notre programme de recherches principal donnent lieu à diverses autres applications sur lesquelles nous tenons à maintenir notre compétence à jour et à manifester notre présence.

Les outils automatiques d'analyse de textes ont été appliqués à l'enseignement des langues : concordances lemmatisées [Gar97b], indexation automatique de scripts [Gar95], dictionnaires éditoriaux spécialisés [ASS95]. Une réflexion est menée sur la place du texte dans les nouveaux supports de communication, sur l'écriture multimédia et sur la combinaison des médias sur écran [Gar97a, Gar98].

Le phonétiseur du français du LADL a été mis sous la forme d'une bimachine. Cette forme est économique en temps et en espace, et conserve la fonctionnalité de phonétisation de mots inconnus [Lap97c]. Ces résultats sont exploités par des sociétés de services en France, et adaptés à l'allemand à l'Université Maximilian de Munich.

Un dictionnaire de syllabes phonétiques fréquentes du français a été construit [Lap96b].

4.4   Activités

Contrats

Collaborations

Nous avons des collaborations régulières avec les membres du réseau RELEX de laboratoires de construction parallèle de dictionnaires électroniques, notamment Maurice Gross (Université Paris 7), Annibale Elia (Université de Salerne, Italie), Mirella Conenna (Université de Bari, Italie), Béatrice Lamiroy (Université de Louvain-la-Neuve), Elisabete Marques Ranchhod (Université de Lisbonne), Franz Guenthner (Université de Munich), Jacques Labelle (Université du Québec à Montréal), Zygmunt Vetulani (Université de Poznan, Pologne) et leurs équipes.

Nous avons également eu des collaborations suivies avec Denis Maurel (Université de Tours), Strahil Ristov (Institut Ruder Boskovic, Croatie), Gábor Prószéky (société MorphoLogic, Hongrie), Tomasz Kowaltowski (Université de Campinas, Brésil), Anna Anastasiadis-Symeonidis (Université de Thessalonique, Grèce), le Centre de la langue grecque (Thessalonique), l'Institut pédagogique d'Athènes (Université d'Athènes).

Diffusion

Activités doctorales



Éric Laporte