Informatique linguistique
Composition de l'équipe
L'équipe ``Informatique linguistique''
comprend :
- Farida Aoughlis, doctorante
- Olivier Blanc, doctorant
- Chung Gohsran, doctorante
- Matthieu Constant, doctorant
- Blandine Courtois, docteur, collaboratrice bénévole
- Eum Du-eun, doctorante
- Mylène Garrigues, maître de conférences
- Jacqueline Giry-Schneider, maître de conférences (Paris 8)
- Huh Hyun-gue, doctorant
- Jung Eun-jin, doctorante
- Krit Kosawat, doctorant
- Éric Laporte,
professeur,
responsable de l'équipe
- Christian Leclère, docteur, ingénieur d'études
- Lim Joon-seo, doctorant
- Annie Meunier, docteur, collaboratrice bénévole
- Mario Monteleone, doctorant
- Takuya Nakamura, doctorant
- Mavina Pantazara, doctorante
- Sébastien Paumier, doctorant
- Tahirisoa Rakotonanahary, doctorante
- Marta Ungermanová, doctorante
- Anastasia Yannacopoulou, doctorante
- Zhou Peng-cheng, doctorant
Le rapport prend également en compte les travaux effectués au laboratoire d'informatique de l'IGM par
Wahiba Ben Abdesselem,
Chung Min-chung,
Pierre-Yves Foucou,
Lee Chang-yeol,
Nam Jee-sun,
Métiyé Meydan,
Anne Monceaux et
Park Sun-nam,
qui ont été recrutés dans d'autres laboratoires ou dans des entreprises au
cours des trois dernières années.
Par ailleurs, le recrutement de Jean Senellart prend effet à la rentrée 1999.
4.2 Thèmes de recherche
L'équipe d'informatique linguistique se situe dans la perspective du
traitement automatique des textes en langues naturelles. Elle privilégie
l'utilisation de données précises et explicites :
dictionnaires, grammaires, par rapport à
l'approximation à partir de données incertaines [Lap97b].
Les applications visées sont nombreuses mais les plus significatives
sont liées à la recherche documentaire.
Les trois
orientations qui nous intéressent le plus actuellement sont les suivantes :
-
la production de dictionnaires électroniques d'autres langues
que celles pour lesquelles on dispose déjà d'outils fiables ;
- les traitements intermédiaires entre l'analyse lexicale et
l'analyse syntaxique en vue de l'accès aux informations dans les
grandes bases de textes : reconnaissance et indexation de terminologie,
levée d'ambiguïtés...
- à plus long terme, la poursuite de la constitution des
lexiques-grammaires, qui consistent en une description systématique
et formelle de la syntaxe de langues naturelles.
Le niveau de couverture lexicale visé est très
large,
car rien n'indique a priori dans quels domaines se situent
les textes susceptibles d'être traités par les applications ;
de plus, nous nous intéressons aux applications dans lesquelles
on n'impose aucune restriction de vocabulaire aux
textes traités, qui sont entièrement libres,
c'est-à-dire qui obéissent aux seules contraintes de la
langue elle-même. La prise en compte du lexique est donc
systématique.
Ces travaux prennent leur place dans le contexte plus général
du
réseau RELEX de laboratoires de linguistique
et d'informatique linguistique.
Le réseau RELEX regroupe une douzaine de laboratoires,
situés pour la plupart en Europe, qui collaborent à la
constitution d'un inventaire d'informations linguistiques
précises et exploitables dans les traitements automatiques,
sur la base d'exigences méthodologiques : reproductibilité,
exhaustivité, cumulativité.
Dans cet ensemble, notre équipe, depuis
sa création en 1987 sous le nom de Centre d'études et de
recherches en informatique linguistique (CERIL), joue avec le
Laboratoire d'automatique documentaire et linguistique
(LADL)
de Paris 7, un rôle central, par l'organisation commune
de colloques et à travers des contributions croisées dans
l'élaboration des outils fondamentaux : dictionnaires
et logiciels.
Le programme global de recherches du réseau RELEX est simple.
Les unités élémentaires des langues sont
décrites dans des dictionnaires électroniques.
Ces unités pouvant se combiner pour former des
phrases et des textes, la description
formelle des contraintes syntaxiques est mise en oeuvre sous la
forme de lexiques-grammaires.
Les descriptions linguistiques
(grammaticales, morphologiques, syntaxiques, phonétiques)
étant destinées à être exploitées dans des
applications informatiques,
les objectifs sont extrêmement concrets : spécifier
les formes effectivement observables.
Le passage de la
description linguistique à la réalisation informatique
est facilité par l'utilisation d'automates finis
comme support commun. En effet, du point de vue de la description
linguistique, les automates finis, même
lorsqu'ils sont utilisés pour abréger l'énumération
d'ensembles finis, permettent une mise en facteur des objets sans
laquelle toute description précise serait impossible. On peut
ainsi décrire des faits de langue de manière à la fois
systématique et
cumulative. D'autre part,
les données étant particulièrement volumineuses,
les réalisations
informatiques nécessitent des formalismes et des algorithmes
économes en temps.
La représentation des données par automates et transducteurs est
remarquablement adaptée à cette contrainte.
4.3 Résultats
Le site web réalisé par P.Y. Foucou [Fou95] présente
un aperçu des informations linguistiques manipulées :
dictionnaires, grammaires, corpus de
textes, textes étiquetés.
Dictionnaires électroniques
L'analyse morphologique fait appel à de grands dictionnaires
représentés sous la forme d'automates acycliques
et de transducteurs finis. Le temps de consultation
dépend linéairement de la taille du texte et ne dépend pas
de la taille du dictionnaire.
Dans les langues à flexion, comme la plupart des langues
européennes, le maximum d'efficacité est obtenu avec des
dictionnaires électroniques qui comportent toutes les
formes fléchies, c'est-à-dire par exemple toutes
les formes conjuguées des verbes. Cependant, le nombre
de formes fléchies dépend des langues. Par ailleurs, d'autres
langues, comme le coréen, sortent nettement de ce cadre.
La question de l'analyse lexicale par consultation
du dictionnaire n'est donc pas indépendante du
format de codage du dictionnaire.
Pour le français, les limites des outils actuels
pourront être atteintes avec l'augmentation du nombre total
d'étiquettes distinctes pour les mots du dictionnaire.
Une méthode de compression du type Ziv-Lempel
appliquée à l'arbre lexicographique pourrait
apporter une solution à ce problème [RL99].
Nous développons des dictionnaires électroniques d'autres langues
que celles pour lesquelles on dispose déjà d'outils fiables.
Les langues abordées, préférentiellement
les langues maternelles des chercheurs et doctorants,
varient au gré de
l'accueil des doctorants. Malgré les différences entre
langues et entre systèmes d'écriture, ces variations
ne nécessitent pas de réorganisations lourdes.
D'autres langues sont abordées par l'intermédiaire de
coopérations
internationales, notamment le hongrois,
l'italien, le polonais, le portugais.
Le grec moderne a été traité à l'IGM [Skl99] [SR97]. La description
systématique des déclinaisons a abouti à la constitution
d'un dictionnaire de formes fléchies des noms et adjectifs.
Les mots grammaticaux,
fléchis automatiquement, ont été inclus dans le
dictionnaire ainsi que les mots invariables. Le
dictionnaire obtenu
(1 300 000 formes) a pu être traité à l'aide des outils standard
d'analyse de corpus du réseau RELEX.
Le polonais a été abordé à travers des collaborations.
C'est également une langue
plus fléchie que le français.
La méthode classique de construction de dictionnaires
électroniques a été utilisée. L'analyseur
morphologique qui a été construit n'exploite pas
de dictionnaire de formes fléchies, mais un
dictionnaire de racines associé à un dictionnaire
de suffixes [Lap98b].
Le coréen a pu être abordé sérieusement grâce à la
présence, maintenant traditionnelle, de plusieurs
doctorants coréens, et grâce à des collaborations. Les
formes canoniques ont été recensées par catégories
grammaticales
avec des critères formels d'étiquetage, et
la combinatoire des
suffixes verbaux et adjectivaux et des postpositions soudées
aux substantifs a été décrite par automates finis [Nam97, Nam95, Nam96b, NL97].
Ces informations permettent la
segmentation correcte des séquences soudées en unités
significatives [Lee97, NL96a, NL96b].
Le coréen est une langue agglutinante, c'est-à-dire que la
combinatoire des suffixes attachables aux mots, beaucoup plus
abondante que dans une langue fléchie, rend inapplicable,
pour l'instant,
la solution d'un dictionnaire de formes fléchies.
L'exploitation de ces données a toutefois permis la construction d'un
analyseur morphologique de textes coréens [Cho99]. La déterminisation
et la minimisation des dictionnaires sont économes en espace et en temps
(1 mn 3 s). Les dictionnaires comprimés occupent 390 Ko pour un
vocabulaire de 148 millions de formes fléchies, soit 47 mots par bit.
Composants logiciels
Les automates finis sont utilisés pour le stockage de
dictionnaires avec accès rapide,
le calcul de langages formels, l'édition d'éléments de
dictionnaires et de grammaires, et la présentation
d'ensembles d'analyses de phrases.
Ces utilisations sont variées mais liées entre elles.
Un composant logiciel de manipulation d'automates en C++
est en cours d'élaboration [Rev97b, LM97b].
De l'analyse lexicale à l'analyse syntaxique
Plusieurs raisons font que
la frontière entre l'analyse lexicale et l'analyse syntaxique
des langues naturelles est plus difficile à tracer que
dans le cas des langages formels :
-
les mots composés, y compris les termes techniques,
sont considérés comme des unités élémentaires des langues,
ce qui est pertinent d'un point de vue applicatif (par
exemple, ils constituent une proportion importante des
cibles légitimes des programmes d'indexation documentaire) ;
et comme ils sont constitués de plusieurs mots simples, leur reconnaissance
n'est pas toujours indépendante de l'analyse syntaxique ;
- la plupart des unités élémentaires des textes sont
ambiguës, et la levée de ces ambiguïtés met en jeu une
reconnaissance du contexte ;
- certaines expressions, techniques ou non (mais celles qui
sont techniques ont l'intérêt applicatif le plus élevé), donnent lieu
à suffisamment de variantes (effacements partiels, conjonctions,
insertions...) pour former de petites grammaires,
dites grammaires locales, dont l'exploitation est à mi-chemin
entre l'analyse lexicale et l'analyse syntaxique.
Ainsi, la reconnaissance de
structures grammaticales locales à l'aide de grammaires
implantées sous la forme d'automates finis est
développée
en vue de permettre la reconnaissance des structures syntaxiques dans
lesquelles elles sont imbriquées [Dir96, Dom99].
L'application de grammaires exprimant des contraintes
locales et implantées sous la forme d'automates finis ou de
transducteurs finis, permet de lever les
ambiguïtés grammaticales.
Dans ce domaine, nous nous intéressons à la comparaison
des possibilités théoriques des différentes méthodes
connues [Lap98a], à
l'évaluation quantitative des résultats de la levée
d'ambiguïtés sur des textes [Lap96c],
et surtout à la réalisation effective d'un système fondé sur des
grammaires lisibles [Gar97c]. Le système ELAG [LM97a] a été conçu et
réalisé pour permettre l'accumulation de petites grammaires
construites indépendamment les unes des autres.
L'analyse syntaxique de textes en langues naturelles sans restriction,
aboutissement naturel de toutes ces recherches,
n'est pas encore à portée de main. Cependant, nous avons un résultat
de faisabilité encourageant concernant l'utilisation d'algorithmes
liés aux automates et transducteurs finis pour l'analyse syntaxique
lorsque la syntaxe des phrases est formalisée sous la forme
d'une grammaire algébrique (context-free) [Lap96a].
Lexique-grammaire
La description syntaxique est développée dans le cadre
de la construction de lexiques-grammaires [Lap99].
Ce travail met en jeu, d'une part, la représentation précise
des transformations syntaxiques,
nécessaire pour la reconnaissance de la structure des phrases complexes,
et d'autre part la description du lexique : recensement et classification
des éléments lexicaux et codage de leurs propriétés. Les deux aspects,
grammatical et lexical, ne sont pas indépendants. Les travaux
consacrés à différentes langues ne sont souvent pas indépendants
non plus. Enfin, ces travaux s'inscrivent dans un cadre plus large
que le laboratoire et sont complémentaires de travaux
analogues dus à d'autres équipes du réseau RELEX.
Les travaux récents sur le français ont porté sur :
-
la description de plusieurs
transformations nouvelles [Moh95],
- les noms composés prédicatifs de structure Nom Adjectif, qui comportent une importante proportion de termes
techniques exploitables pour l'indexation automatique de documents
[Mon96, Mon97],
- 5 400 adjectifs
français en relation vivante avec des verbes, comme conducteur par rapport à conduire [Mey95],
- une classe de substantifs
appropriés dont l'étude est liée à la description
de nombreux adjectifs, comme acoustique par rapport à
réverbérant [Lap97a].
Les adjectifs en relation vivante avec des substantifs en
grec moderne ont également été classés et décrits
[Skl97b, Skl97a].
Pour le coréen, les travaux récents et en cours incluent :
-
5 300 adjectifs prédicatifs [Nam96a],
- les noms prédicatifs avec hata (faire) (Han Sun-hae,
thèse soutenue prochainement) et nata (se produire)
[Han95],
- 600 verbes de communication,
- les expressions de date et de durée représentables par grammaires
locales.
Autres applications
Les résultats obtenus dans le cadre de notre programme
de recherches principal donnent lieu à diverses autres applications
sur lesquelles nous tenons à maintenir
notre compétence à jour et à manifester notre présence.
Les outils automatiques d'analyse de textes ont été appliqués
à l'enseignement des langues :
concordances lemmatisées [Gar97b],
indexation automatique de scripts [Gar95],
dictionnaires éditoriaux spécialisés [ASS95].
Une réflexion est menée sur la place du texte dans les nouveaux
supports de communication, sur l'écriture multimédia et sur
la combinaison des médias sur écran [Gar97a, Gar98].
Le phonétiseur du français du LADL a
été
mis sous la forme d'une bimachine. Cette forme est économique
en temps et
en espace, et conserve la fonctionnalité de phonétisation
de mots inconnus [Lap97c].
Ces résultats sont exploités par des sociétés
de services en France, et adaptés à l'allemand à
l'Université Maximilian de Munich.
Un dictionnaire de
syllabes phonétiques fréquentes du français a été construit [Lap96b].
4.4 Activités
Contrats
-
KORELEX, projet coréen de construction de dictionnaires
électroniques (1995--96).
- GRAMLEX, projet Copernicus (Union européenne) sur la
construction, la standardisation et l'exploitation de dictionnaires
morphologiques et de terminologie technique (1995--98).
- Un contrat de documentation automatique avec le CSTB, avec
accueil d'un doctorant (1997--00).
- Un projet franco-brésilien financé par le COFECUB et la CAPES
sur les automates finis et les lexiques de langues naturelles (1999--01).
Collaborations
Nous avons des collaborations régulières avec les membres
du réseau RELEX de laboratoires de construction parallèle
de dictionnaires électroniques, notamment Maurice
Gross (Université Paris 7), Annibale Elia
(Université de Salerne, Italie), Mirella Conenna (Université
de Bari, Italie), Béatrice Lamiroy (Université de
Louvain-la-Neuve), Elisabete Marques Ranchhod (Université de
Lisbonne), Franz Guenthner (Université de Munich), Jacques
Labelle (Université du Québec à Montréal),
Zygmunt Vetulani (Université de Poznan, Pologne) et leurs équipes.
Nous avons également eu des collaborations suivies avec
Denis Maurel (Université de Tours), Strahil Ristov (Institut
Ruder Boskovic, Croatie),
Gábor Prószéky (société MorphoLogic, Hongrie),
Tomasz Kowaltowski (Université de Campinas, Brésil),
Anna Anastasiadis-Symeonidis (Université
de Thessalonique, Grèce), le Centre de la langue grecque (Thessalonique),
l'Institut pédagogique d'Athènes (Université d'Athènes).
Diffusion
-
Conférences : Paris (Séminaires du LADL, de l'ATALA,
séminaire de coréen du CERIL, etc.),
Munich (Centrum
für Informations- und Sprachverarbeitung), Faro (Université
d'Algarve, Portugal), Université de Lisbonne, Université de Sarrebruck.
- Colloques : COMPLEX 96, 99 (Budapest),
International Conference on Greek Linguistics (Salzburg,
1995 ; Nicosie, 1999), Meetings on Greek Linguistics
(Thessalonique, 1995, 96, 97, 98, 99),
Colloque européen sur le
lexique et la grammaire comparés des langues romanes
(Tel-Aviv, 1995 ; Munich, 1996 ; Louvain, 1997 ; Guernesey, 1998),
Lexiques-grammaires comparés
(Montréal),
Journées INTEX (Paris),
Meeting of the International
Circle of Korean Linguistics (Brisbane, Australie),
Word and String Processing (Recife,
Brésil), Indo-French Symposium on Natural Language Processing
(Hyderabad, Inde),
Journées de la Société allemande de linguistique (Constance),
Combinatorial Pattern Matching (Warwick, Angleterre).
Activités doctorales
-
DEA d'informatique fondamentale : transductions (propriétés
mathématiques et applications aux traitements sur les textes).
- Thèses soutenues :
-
Natalie Kübler, janvier 1995, Automatisation de la
correction d'erreurs syntaxiques [Küb95].
- Métiyé Meydan, octobre 1995, Transformations
des constructions verbales et adjectivales.
Elaboration du lexique-grammaire des
adjectifs déverbaux [Mey95].
- Park Sun-nam, 1996, Constructions à verbe neutre
en coréen [Par96].
- Pierre-Yves Foucou, décembre 1996, Un modèle hypertexte
de traitement de langues naturelles [Fou96].
- Wahiba Ben Abdesselem, mai 1997, Analyse par automates
et transducteurs des constructions infinitives [BA97].
- Lee Chang-yeol, juin 1997, La construction de lexiques
de formes fléchies et l'analyse morphologique
du coréen [Lee97].
- Sklavounou Elsa, septembre 1997, Étude Comparée
de la nominalisation
des adjectifs en grec moderne et en français [Skl97b].
- Chung Min-chung, janvier 1998, Les nominalisations
d'adjectifs en coréen : constructions nominales
à support issda [Chu98].
- Nam Jee-sun, 1997, Système électronique de lexiques coréens
DECO, habilitation à diriger des recherches
en informatique linguistique.
- Choi Sung-woo et Han Sun-hae devraient obtenir
leur doctorat en 1999.
Éric Laporte