Informatique linguistique

Composition de l'équipe

L'équipe ``Informatique linguistique'' comprend :

Farida Aoughlis, doctorante
Olivier Blanc, doctorant
Chung Gohsran, doctorante
Matthieu Constant, doctorant
Blandine Courtois, docteur, collaboratrice bénévole
Eum Du-eun, doctorante
Mylène Garrigues, maître de conférences
Jacqueline Giry-Schneider, maître de conférences (Paris 8)
Huh Hyun-gue, doctorant
Jung Eun-jin, doctorante
Krit Kosawat, doctorant
Éric Laporte, professeur, responsable de l'équipe
Christian Leclère, docteur, ingénieur d'études
Lim Joon-seo, doctorant
Annie Meunier, docteur, collaboratrice bénévole
Mario Monteleone, doctorant
Takuya Nakamura, doctorant
Mavina Pantazara, doctorante
Sébastien Paumier, doctorant
Tahirisoa Rakotonanahary, doctorante
Marta Ungermanová, doctorante
Anastasia Yannacopoulou, doctorante
Zhou Peng-cheng, doctorant

Le rapport prend également en compte les travaux effectués au laboratoire d'informatique de l'IGM par Wahiba Ben Abdesselem, Chung Min-chung, Pierre-Yves Foucou, Lee Chang-yeol, Nam Jee-sun, Métiyé Meydan, Anne Monceaux et Park Sun-nam, qui ont été recrutés dans d'autres laboratoires ou dans des entreprises au cours des trois dernières années.

Par ailleurs, le recrutement de Jean Senellart prend effet à la rentrée 1999.

4.2 Thèmes de recherche

L'équipe d'informatique linguistique se situe dans la perspective du traitement automatique des textes en langues naturelles. Elle privilégie l'utilisation de données précises et explicites : dictionnaires, grammaires, par rapport à l'approximation à partir de données incertaines [Lap97b]. Les applications visées sont nombreuses mais les plus significatives sont liées à la recherche documentaire. Les trois orientations qui nous intéressent le plus actuellement sont les suivantes :

la production de dictionnaires électroniques d'autres langues que celles pour lesquelles on dispose déjà d'outils fiables ;
les traitements intermédiaires entre l'analyse lexicale et l'analyse syntaxique en vue de l'accès aux informations dans les grandes bases de textes : reconnaissance et indexation de terminologie, levée d'ambiguïtés...
à plus long terme, la poursuite de la constitution des lexiques-grammaires, qui consistent en une description systématique et formelle de la syntaxe de langues naturelles.

Le niveau de couverture lexicale visé est très large, car rien n'indique a priori dans quels domaines se situent les textes susceptibles d'être traités par les applications ; de plus, nous nous intéressons aux applications dans lesquelles on n'impose aucune restriction de vocabulaire aux textes traités, qui sont entièrement libres, c'est-à-dire qui obéissent aux seules contraintes de la langue elle-même. La prise en compte du lexique est donc systématique.

Ces travaux prennent leur place dans le contexte plus général du réseau RELEX de laboratoires de linguistique et d'informatique linguistique. Le réseau RELEX regroupe une douzaine de laboratoires, situés pour la plupart en Europe, qui collaborent à la constitution d'un inventaire d'informations linguistiques précises et exploitables dans les traitements automatiques, sur la base d'exigences méthodologiques : reproductibilité, exhaustivité, cumulativité. Dans cet ensemble, notre équipe, depuis sa création en 1987 sous le nom de Centre d'études et de recherches en informatique linguistique (CERIL), joue avec le Laboratoire d'automatique documentaire et linguistique (LADL) de Paris 7, un rôle central, par l'organisation commune de colloques et à travers des contributions croisées dans l'élaboration des outils fondamentaux : dictionnaires et logiciels.

Le programme global de recherches du réseau RELEX est simple. Les unités élémentaires des langues sont décrites dans des dictionnaires électroniques. Ces unités pouvant se combiner pour former des phrases et des textes, la description formelle des contraintes syntaxiques est mise en oeuvre sous la forme de lexiques-grammaires. Les descriptions linguistiques (grammaticales, morphologiques, syntaxiques, phonétiques) étant destinées à être exploitées dans des applications informatiques, les objectifs sont extrêmement concrets : spécifier les formes effectivement observables. Le passage de la description linguistique à la réalisation informatique est facilité par l'utilisation d'automates finis comme support commun. En effet, du point de vue de la description linguistique, les automates finis, même lorsqu'ils sont utilisés pour abréger l'énumération d'ensembles finis, permettent une mise en facteur des objets sans laquelle toute description précise serait impossible. On peut ainsi décrire des faits de langue de manière à la fois systématique et cumulative. D'autre part, les données étant particulièrement volumineuses, les réalisations informatiques nécessitent des formalismes et des algorithmes économes en temps. La représentation des données par automates et transducteurs est remarquablement adaptée à cette contrainte.

4.3 Résultats

Le site web réalisé par P.Y. Foucou [Fou95] présente un aperçu des informations linguistiques manipulées : dictionnaires, grammaires, corpus de textes, textes étiquetés.

Dictionnaires électroniques

L'analyse morphologique fait appel à de grands dictionnaires représentés sous la forme d'automates acycliques et de transducteurs finis. Le temps de consultation dépend linéairement de la taille du texte et ne dépend pas de la taille du dictionnaire.

Dans les langues à flexion, comme la plupart des langues européennes, le maximum d'efficacité est obtenu avec des dictionnaires électroniques qui comportent toutes les formes fléchies, c'est-à-dire par exemple toutes les formes conjuguées des verbes. Cependant, le nombre de formes fléchies dépend des langues. Par ailleurs, d'autres langues, comme le coréen, sortent nettement de ce cadre.

La question de l'analyse lexicale par consultation du dictionnaire n'est donc pas indépendante du format de codage du dictionnaire. Pour le français, les limites des outils actuels pourront être atteintes avec l'augmentation du nombre total d'étiquettes distinctes pour les mots du dictionnaire. Une méthode de compression du type Ziv-Lempel appliquée à l'arbre lexicographique pourrait apporter une solution à ce problème [RL99].

Nous développons des dictionnaires électroniques d'autres langues que celles pour lesquelles on dispose déjà d'outils fiables. Les langues abordées, préférentiellement les langues maternelles des chercheurs et doctorants, varient au gré de l'accueil des doctorants. Malgré les différences entre langues et entre systèmes d'écriture, ces variations ne nécessitent pas de réorganisations lourdes. D'autres langues sont abordées par l'intermédiaire de coopérations internationales, notamment le hongrois, l'italien, le polonais, le portugais.

Le grec moderne a été traité à l'IGM [Skl99] [SR97]. La description systématique des déclinaisons a abouti à la constitution d'un dictionnaire de formes fléchies des noms et adjectifs. Les mots grammaticaux, fléchis automatiquement, ont été inclus dans le dictionnaire ainsi que les mots invariables. Le dictionnaire obtenu (1 300 000 formes) a pu être traité à l'aide des outils standard d'analyse de corpus du réseau RELEX.

Le polonais a été abordé à travers des collaborations. C'est également une langue plus fléchie que le français. La méthode classique de construction de dictionnaires électroniques a été utilisée. L'analyseur morphologique qui a été construit n'exploite pas de dictionnaire de formes fléchies, mais un dictionnaire de racines associé à un dictionnaire de suffixes [Lap98b].

Le coréen a pu être abordé sérieusement grâce à la présence, maintenant traditionnelle, de plusieurs doctorants coréens, et grâce à des collaborations. Les formes canoniques ont été recensées par catégories grammaticales avec des critères formels d'étiquetage, et la combinatoire des suffixes verbaux et adjectivaux et des postpositions soudées aux substantifs a été décrite par automates finis [Nam97, Nam95, Nam96b, NL97]. Ces informations permettent la segmentation correcte des séquences soudées en unités significatives [Lee97, NL96a, NL96b]. Le coréen est une langue agglutinante, c'est-à-dire que la combinatoire des suffixes attachables aux mots, beaucoup plus abondante que dans une langue fléchie, rend inapplicable, pour l'instant, la solution d'un dictionnaire de formes fléchies. L'exploitation de ces données a toutefois permis la construction d'un analyseur morphologique de textes coréens [Cho99]. La déterminisation et la minimisation des dictionnaires sont économes en espace et en temps (1 mn 3 s). Les dictionnaires comprimés occupent 390 Ko pour un vocabulaire de 148 millions de formes fléchies, soit 47 mots par bit.

Composants logiciels

Les automates finis sont utilisés pour le stockage de dictionnaires avec accès rapide, le calcul de langages formels, l'édition d'éléments de dictionnaires et de grammaires, et la présentation d'ensembles d'analyses de phrases. Ces utilisations sont variées mais liées entre elles. Un composant logiciel de manipulation d'automates en C++ est en cours d'élaboration [Rev97b, LM97b].

De l'analyse lexicale à l'analyse syntaxique

Plusieurs raisons font que la frontière entre l'analyse lexicale et l'analyse syntaxique des langues naturelles est plus difficile à tracer que dans le cas des langages formels :

les mots composés, y compris les termes techniques, sont considérés comme des unités élémentaires des langues, ce qui est pertinent d'un point de vue applicatif (par exemple, ils constituent une proportion importante des cibles légitimes des programmes d'indexation documentaire) ; et comme ils sont constitués de plusieurs mots simples, leur reconnaissance n'est pas toujours indépendante de l'analyse syntaxique ;
la plupart des unités élémentaires des textes sont ambiguës, et la levée de ces ambiguïtés met en jeu une reconnaissance du contexte ;
certaines expressions, techniques ou non (mais celles qui sont techniques ont l'intérêt applicatif le plus élevé), donnent lieu à suffisamment de variantes (effacements partiels, conjonctions, insertions...) pour former de petites grammaires, dites grammaires locales, dont l'exploitation est à mi-chemin entre l'analyse lexicale et l'analyse syntaxique.

Ainsi, la reconnaissance de structures grammaticales locales à l'aide de grammaires implantées sous la forme d'automates finis est développée en vue de permettre la reconnaissance des structures syntaxiques dans lesquelles elles sont imbriquées [Dir96, Dom99].

L'application de grammaires exprimant des contraintes locales et implantées sous la forme d'automates finis ou de transducteurs finis, permet de lever les ambiguïtés grammaticales. Dans ce domaine, nous nous intéressons à la comparaison des possibilités théoriques des différentes méthodes connues [Lap98a], à l'évaluation quantitative des résultats de la levée d'ambiguïtés sur des textes [Lap96c], et surtout à la réalisation effective d'un système fondé sur des grammaires lisibles [Gar97c]. Le système ELAG [LM97a] a été conçu et réalisé pour permettre l'accumulation de petites grammaires construites indépendamment les unes des autres.

L'analyse syntaxique de textes en langues naturelles sans restriction, aboutissement naturel de toutes ces recherches, n'est pas encore à portée de main. Cependant, nous avons un résultat de faisabilité encourageant concernant l'utilisation d'algorithmes liés aux automates et transducteurs finis pour l'analyse syntaxique lorsque la syntaxe des phrases est formalisée sous la forme d'une grammaire algébrique (context-free) [Lap96a].

Lexique-grammaire

La description syntaxique est développée dans le cadre de la construction de lexiques-grammaires [Lap99]. Ce travail met en jeu, d'une part, la représentation précise des transformations syntaxiques, nécessaire pour la reconnaissance de la structure des phrases complexes, et d'autre part la description du lexique : recensement et classification des éléments lexicaux et codage de leurs propriétés. Les deux aspects, grammatical et lexical, ne sont pas indépendants. Les travaux consacrés à différentes langues ne sont souvent pas indépendants non plus. Enfin, ces travaux s'inscrivent dans un cadre plus large que le laboratoire et sont complémentaires de travaux analogues dus à d'autres équipes du réseau RELEX.

Les travaux récents sur le français ont porté sur :

la description de plusieurs transformations nouvelles [Moh95],
les noms composés prédicatifs de structure Nom Adjectif, qui comportent une importante proportion de termes techniques exploitables pour l'indexation automatique de documents [Mon96, Mon97],
5 400 adjectifs français en relation vivante avec des verbes, comme conducteur par rapport à conduire [Mey95],
une classe de substantifs appropriés dont l'étude est liée à la description de nombreux adjectifs, comme acoustique par rapport à réverbérant [Lap97a].

Les adjectifs en relation vivante avec des substantifs en grec moderne ont également été classés et décrits [Skl97b, Skl97a].

Pour le coréen, les travaux récents et en cours incluent :

5 300 adjectifs prédicatifs [Nam96a],
les noms prédicatifs avec hata (faire) (Han Sun-hae, thèse soutenue prochainement) et nata (se produire) [Han95],
600 verbes de communication,
les expressions de date et de durée représentables par grammaires locales.

Autres applications

Les résultats obtenus dans le cadre de notre programme de recherches principal donnent lieu à diverses autres applications sur lesquelles nous tenons à maintenir notre compétence à jour et à manifester notre présence.

Les outils automatiques d'analyse de textes ont été appliqués à l'enseignement des langues : concordances lemmatisées [Gar97b], indexation automatique de scripts [Gar95], dictionnaires éditoriaux spécialisés [ASS95]. Une réflexion est menée sur la place du texte dans les nouveaux supports de communication, sur l'écriture multimédia et sur la combinaison des médias sur écran [Gar97a, Gar98].

Le phonétiseur du français du LADL a été mis sous la forme d'une bimachine. Cette forme est économique en temps et en espace, et conserve la fonctionnalité de phonétisation de mots inconnus [Lap97c]. Ces résultats sont exploités par des sociétés de services en France, et adaptés à l'allemand à l'Université Maximilian de Munich.

Un dictionnaire de syllabes phonétiques fréquentes du français a été construit [Lap96b].

4.4 Activités

Contrats

KORELEX, projet coréen de construction de dictionnaires électroniques (1995--96).
GRAMLEX, projet Copernicus (Union européenne) sur la construction, la standardisation et l'exploitation de dictionnaires morphologiques et de terminologie technique (1995--98).
Un contrat de documentation automatique avec le CSTB, avec accueil d'un doctorant (1997--00).
Un projet franco-brésilien financé par le COFECUB et la CAPES sur les automates finis et les lexiques de langues naturelles (1999--01).

Collaborations

Nous avons des collaborations régulières avec les membres du réseau RELEX de laboratoires de construction parallèle de dictionnaires électroniques, notamment Maurice Gross (Université Paris 7), Annibale Elia (Université de Salerne, Italie), Mirella Conenna (Université de Bari, Italie), Béatrice Lamiroy (Université de Louvain-la-Neuve), Elisabete Marques Ranchhod (Université de Lisbonne), Franz Guenthner (Université de Munich), Jacques Labelle (Université du Québec à Montréal), Zygmunt Vetulani (Université de Poznan, Pologne) et leurs équipes.

Nous avons également eu des collaborations suivies avec Denis Maurel (Université de Tours), Strahil Ristov (Institut Ruder Boskovic, Croatie), Gábor Prószéky (société MorphoLogic, Hongrie), Tomasz Kowaltowski (Université de Campinas, Brésil), Anna Anastasiadis-Symeonidis (Université de Thessalonique, Grèce), le Centre de la langue grecque (Thessalonique), l'Institut pédagogique d'Athènes (Université d'Athènes).

Diffusion

Conférences : Paris (Séminaires du LADL, de l'ATALA, séminaire de coréen du CERIL, etc.), Munich (Centrum für Informations- und Sprachverarbeitung), Faro (Université d'Algarve, Portugal), Université de Lisbonne, Université de Sarrebruck.
Colloques : COMPLEX 96, 99 (Budapest), International Conference on Greek Linguistics (Salzburg, 1995 ; Nicosie, 1999), Meetings on Greek Linguistics (Thessalonique, 1995, 96, 97, 98, 99), Colloque européen sur le lexique et la grammaire comparés des langues romanes (Tel-Aviv, 1995 ; Munich, 1996 ; Louvain, 1997 ; Guernesey, 1998), Lexiques-grammaires comparés (Montréal), Journées INTEX (Paris), Meeting of the International Circle of Korean Linguistics (Brisbane, Australie), Word and String Processing (Recife, Brésil), Indo-French Symposium on Natural Language Processing (Hyderabad, Inde), Journées de la Société allemande de linguistique (Constance), Combinatorial Pattern Matching (Warwick, Angleterre).

Activités doctorales

DEA d'informatique fondamentale : transductions (propriétés mathématiques et applications aux traitements sur les textes).
Thèses soutenues :
- Natalie Kübler, janvier 1995, Automatisation de la correction d'erreurs syntaxiques [Küb95].
- Métiyé Meydan, octobre 1995, Transformations des constructions verbales et adjectivales. Elaboration du lexique-grammaire des adjectifs déverbaux [Mey95].
- Park Sun-nam, 1996, Constructions à verbe neutre en coréen [Par96].
- Pierre-Yves Foucou, décembre 1996, Un modèle hypertexte de traitement de langues naturelles [Fou96].
- Wahiba Ben Abdesselem, mai 1997, Analyse par automates et transducteurs des constructions infinitives [BA97].
- Lee Chang-yeol, juin 1997, La construction de lexiques de formes fléchies et l'analyse morphologique du coréen [Lee97].
- Sklavounou Elsa, septembre 1997, Étude Comparée de la nominalisation des adjectifs en grec moderne et en français [Skl97b].
- Chung Min-chung, janvier 1998, Les nominalisations d'adjectifs en coréen : constructions nominales à support issda [Chu98].
Nam Jee-sun, 1997, Système électronique de lexiques coréens DECO, habilitation à diriger des recherches en informatique linguistique.
Choi Sung-woo et Han Sun-hae devraient obtenir leur doctorat en 1999.

Éric Laporte