Publications d'Éric Laporte
1986-1989
1990-1994
1995-1999
2000-2004
2005-
1986-1989
1990-1994
1995-1999
2000-2004
2005-
Résumés
Danlos, Laurence, Françoise Émerard, Éric
Laporte, 1986. "Synthesis
of Spoken Messages from Semantic Representations
(Semantic-Representation-to-Speech System)",
Proceedings of Coling 1986,
Bonn, pp. 599-604.
doi:10.3115/991365.991540
Résumé. Un système de synthèse de parole à partir de représentations sémantiques communique oralement les informations codées dans une représentation sémantique. Un tel système doit comprendre un module de génération de textes, un module de phonétisation, un module prosodique et un synthétiseur de parole. Nous montrons comment les informations syntaxiques élaborées par le module de génération de textes sont utilisées pour la phonétisation et la prosodie, afin de produire les données à fournir au synthétiseur de parole, à savoir une chaîne phonétique augmentée d'informations prosodiques.
Mots-clés : langues naturelles, phonétique,
génération de textes, synthèse de la parole.
1987. "Prise en compte des variations phonétiques
en reconnaissance de la parole", Actes des 16es Journées d'étude
sur la parole, Société française d'acoustique,
Hammamet, pp. 153-156.
Résumé. Cet article est consacré aux méthodes de prise en compte des variations phonétiques dans les systèmes de reconnaissance de la parole. Nous nous intéressons à plusieurs méthodes de reconnaissance, mais plus particulièrement aux systèmes fondés sur la reconnaissance de motifs et dans lesquels l'unité de décision est la portion de parole comprise entre deux centres syllabiques adjacents. Cette méthode nécessite des données phonétiques, notamment une liste de références, qui devrait contenir les variantes. Cette méthode met en évidence l'intérêt applicatif d'une description précise et systématique des variantes. À titre d'exemple d'une telle description, nous présentons une étude détaillée de certaines alternances phonétiques liées aux hiatus en français.
Mots-clés : langues naturelles, phonétique, phonologie,
reconnaissance de la parole.
1988. Méthodes algorithmiques et lexicales
de phonétisation de textes. Applications au français,
Thèse de doctorat, Université Paris 7, 162 p. + vol. 2 (annexes).
Résumé. La phonétisation automatique est
la production de transcriptions phonétiques à partir de textes
ou de mots écrits. Les procédures qui effectuent cette transcription
sont destinées soit à permettre l'utilisation de la parole
dans la communication entre l'homme et la machine, soit à faciliter
la correction de certaines fautes d'orthographe.
Cette thèse expose les méthodes de phonétisation
automatique. Certaines de ces méthodes sont fondées sur des
algorithmes et des systèmes de règles, les autres sur des
dictionnaires phonétiques.
Un dictionnaire phonémique électronique a été
réalisé, ainsi que les algorithmes nécessaires à
sa gestion et à son utilisation. Nous exposons les solutions qui
nous ont permis de satisfaire deux exigences fondamentales :
- incorporer dans le dictionnaire un ensemble de mots représentatif
du français (64 000 entrées),
- élaborer le contenu phonétique du dictionnaire avec
la précision et la cohérence requises pour l'exploitation
informatique.
Un algorithme de phonétisation par règles a été
construit sous la forme d'un transducteur. Ce système spécifie
en détail la correspondance entre l'orthographe et la phonétique.
En relation étroite avec le dictionnaire, il inclut les règles
et les exceptions qui se dégagent de l'examen de ses 64 000 entrées.
Les conjugaisons et les variations en genre et en nombre ont été
prises en compte dans un programme qui produit des transcriptions phonétiques
de toutes ces formes. Par aileurs, nous donnons les représentations
formelles de plusieurs familles de variations phonétiques : l'effacement
de consonnes finales et les alternances entre synérèse et
diérèse.
Enfin, les algorithmes et les données sont été
expoités dans des applications informatiques : un système
de génération de messges oraux et un système d'aide
à la correction orthographique.
Un volume d'annexes regroupe l'algorithme de phonétisation et
des échantillons du dictionnaire.
Mots-clés : lexique, langues naturelles, phonétique,
phonologie, traitement de la parole.
1988. "La reconnaissance des expressions figées
lors de l'analyse automatique", Langages 90, Les expressions
figées, Laurence Danlos éd., Paris : Larousse, pp. 117-126.
Résumé. Les expressions figées empêchent d'atteindre un niveau opératoire tout système de traitement automatique des langues naturelles conçu à partir de la compositionnalité des expressions libres. Cet article aborde le problème de la reconnaissance des expressions figées, problème crucial pour tout système de correction orthographique, de recherche documentaire, de traduction automatique ou d'interrogation de bases de données, et problème qui demande que le système ait accès à des descriptions formelles telles que celles accumulées au LADL.
Mots-clés : lexique-grammaire, expressions figées, langues naturelles, analyse syntaxique.
1990. "Le dictionnaire phonémique DELAP",
Langue
française 87, Dictionnaires électroniques du français,
Blandine Courtois et Max Silberztein éds., Paris : Larousse, pp.
59-70.
Résumé. Le Dictionnaire électronique du LADL pour les représentations phonémiques (DELAP) comporte les mêmes entrées que le DELAS, mais il leur associe des informations concernant leur prononciation et leurs variations phonétiques. Nous présentons le dictionnaire, et discutons plus particulièrement certains problèmes posés par les variations phonétiques, les relations entre transcriptions phonétiques et la réalité observable, la correspondance entre les transcriptions phonétiques et phonémiques ; nous présentons ensuite les algorithmes qui formalisent et réalisent cette correspondance.
Mots-clés : phonétique, phonologie, lexicologie.
1992. "Adjectifs en -ant dérivés
de verbes", Langue française 96, La productivité
lexicale, André Dugas et Christian Molinier éds., Paris
: Larousse, pp. 30-43.
Résumé. Nous étudions des points de vue syntaxique et morphologique la transformation entre phrases verbales et phrases adjectivales construites autour des adjectifs dérivés en -ant (L'ablette frétille = L'ablette est frétillante). L'examen de 1684 emplois verbaux définis dans des constructions intransitives et transitives indirectes permet de recenser 280 exemples de ce type. Nous constatons que cette dérivation transformationnelle est régulière et productive dans la mesure où l'acceptabilité, la structure et les propriétés de la phrase adjectivale se déduisent le plus souvent de la phrase verbale. Mais cette régularité et cette productivité ne sont pas absolues : certains empois verbaux n'ont pas de dérivés en -ant (Cette plante végète, *Cette plante est végétante), et dans de nombreux cas, les propriétés de la phrase adjectivale ne sont pas déductibles d'autres informations syntaxiques concernant la phrase verbale. Il convient donc de noter, dans les tables, ces propriétés des phrases adjectivales.
Mots-clés : lexique-grammaire, syntaxe, morphologie dérivationnelle, lexicologie.
1993. "Separating Entries in Electronic Dictionaries of French", Sprache
- Kommunikation - Informatik. Akten des 26. Linguistischen Kolloquiums,
Poznan 1991, J. Darski and Z. Vetulani eds., Tübingen:
Max Niemeyer,
pp. 173-179.
Abstract. One can note a growing need for natural language processing (NLP) systems able to cope with large texts. With this evolution, large NLP dictionaries are required. Constructors of dictionaries therefore have to pay attention both to extensive coverage and complete formalization of the data. An important type of lexicographical decision is whether to separate a set of homnographic words into distinct entries or to merge them into one entry. We examine criteria of separation in two cases: morpho-syntactic dictionaries and lexicon-grammars.
Keywords : lexicon-grammar, syntax, morphosyntax, lexicology, NLP dictionary, e-dictionary, lexical entry.
1994.
"Experiments in
Lexical Disambiguation Using Local Grammars", Papers
in Computational Lexicography, COMPLEX '94, Ferenc Kiefer, Gabor Kiss
and Julia Pajzs eds., Budapest: Linguistics Institute of the Hungarian
Academy of Sciences, pp.163-172.
Résumé. La levée d'ambiguïtés est l'un des principaux défis auxquels sont confrontés les concepteurs de sustèmes d'étiquetage de mots en vue du traitement du texte écrit. Les algorithmes de levée d'ambiguïtés grammaticales réduisent le nombre d'étiquettes possibles. Nous considérons dans cet article un cadre de travail dans lequel un dictionnaire grammatical à large couverture est consulté pour associer à chaque élément lexical du texte, mot simple ou mot composé, l'ensemble des étiquettes grammaticales a priori possibles pour lui. (Un tel cadre pout le français est maintenant intégré sous la forme du système Intex.) Ce problème a été exploré par M. Silberztein (1989) et E. Roche (1992). Nous donnons des descriptions formelles de leurs deux algorithmes. Leur arrière-plan et leur objectif communs sont frappants. Cependant, ils présentent de véritables différences formelles et pratiques. Du point de vue formel, nous comparons la puissance expressive des deux algorithmes. D'un point de vue pratique, nous examinons s'ils sont plus particulièrement adaptés à un type spécifique d'ambiguïtés grammaticales.
Mots-clés : langues naturelles, analyse lexicale, ambiguïté lexicale, automates finis.
1996. "Context-free parsing with finite-state transducers",
in Proceedings of the 3rd South American Workshop on String Processing,
N. Ziviani et al. (eds.), International Informatics Series 4, Montréal :
McGill-Queen's University Press; &
Ottawa: Carleton University Press, pp. 171-182.
190 Ko.
Résumé. Cet article étudie un algorithme conçu et mis en oeuvre par Roche pour l'analyse syntaxique de phrases en langues naturelles selon une grammaire algébrique. Cet algorithme est fondé sur la construction et l'utilisation d'un transducteur fini. Roche l'a appliqué avec succès à une grammaire algébrique aux règles très nombreuses. En pratique, habituellement, la complexité de l'analyse syntaxique de séquences selon des grammaires algébriques est considérée, au contraire, comme une fonction d'un unique paramètre : la longueur de la séquence à analyser ; la taille de la grammaire est généralement considérée comme une constante d'une taille raisonnable. Dans cet article, nous expliquons d'abord pourquoi une grammaire algébrique d'une couverture lexicale et grammaticale correcte a nécessairement un très grand nombre de règles et nous évoquons les travaux liés à ce problème. Nous illustrons le principe de l'algorithme de Roche sur une petite grammaire. Nous définissons formellement la construction de l'analyseur syntaxique et le déroulement de l'algorithme et nous prouvons que la construction de l'analyseur syntaxique est possible pour une importante classe de grammaires algébriques, et qu'il donne comme résultat l'ensemble des arbres syntaxiques de la séquence traitée.
Mots-clés : langues naturelles, analyse syntaxique, automates finis,
grammaires algébriques.
Éric Laporte, Anne
Monceaux, 1997. Grammatical disambiguation of French words using part
of speech, inflectional features and lemma of words in the context. GRAMLEX
report no. 3D2, 11 p.
Résumé. Nous présentons ELAG (élimination des ambiguïtés lexicales par grammaires), un nouveau système de levée d'ambiguïtés lexicales qui utilise des informations grammaticales sur les mots du contexte. La levée des ambiguïtés s'effectue après l'analyse lexicale du texte traité, mais avant l'analyse syntaxique. Les données linguistiques du système sont organisées en modules séparés, compacts et lisibles, que nous appelons des grammaires de levée d'ambiguïtés. Les effets respectifs de plusieurs grammaires de levée d'ambiguïtés sur un texte à traiter sont indépendants les uns des autres. Cette propriété de la levée d'ambiguïtés est mathématiquement garantie par la formule d'application des grammaires aux phrases. Les effets des grammaires de levée d'ambiguïtés sont cumulatifs : si l'on écrit de nouvelles grammaires et qu'on les utilise avec des grammaires existantes, les effets de l'application de celles-ci ne sont pas modifiés. Plusieurs grammaires peuvent s'appliquer à une même séquence, ou à des séquences qui présentent un chevauchement, ou à des séquences incluses dans d'autres séquences : leurs effets se cumulent. L'ordre d'application des grammaires est indifférent. Les effets d'une grammaire sur les différentes analyses d'une phrase sont indépendants. ELAG est compatible avec INTEX.
Mots-clés : langues naturelles, ambiguïtés lexicales,
automates finis.
1997.
"Rational Transductions for
Phonetic Conversion
and Phonology", in E. Roche and Y. Schabès eds.,
Finite-State
Language Processing, chap. 14. Language, Speech and Communication series.
Cambridge: MIT Press, pp. 407-429.
PS (415 Ko),
PDF (310
Ko).
Résumé. La phonétisation, et d'autres problèmes de transcription automatique liés à la phonétique, peuvent être effectués par des outils fondés sur les automates finis. Ce chapitre présente un système de transcription par automates finis, BiPho, qui fait appel à des transducteurs et des bimachines. Les données linguistiques utilisées par ce système sont décrites dans un format lisible et le calcul est efficace. Le système permet la phonétisation du texte français écrit.
Mots-clés : langues naturelles, phonétique, automates finis.
1997. "Noms appropriés à modifieur
obligatoire",
Langages
126, La description syntaxique des adjectifs pour les traitements informatiques,
Nam Jee-sun éd., Paris : Larousse, pp. 79-104 (version française
de l'article de 1995 dans
Language Research 31(2)).
Résumé. La notion harrissienne de séquence appropriée fournit un moyen syntaxique puissant d'analyser en détail le sens de nombreuses phrases, y compris ambiguës. Dans une phrase adjectivale comme Le lit était petit, l'introduction d'un nom approprié, ici taille, spécifie la qualité décrite par l'adjectif. Dans d'autres phrases adjectivales à nom approprié, ce nom joue le même rôle que taille et semble pertinent à la description de l'adjectif. Ces noms appropriés entrent généralement dans des phrases élémentaires telles que Le lit avait une certaine taille, mais ils ont souvent un modifieur plus ou moins obligatoire. Par exemple, on peut difficilement mentionner qu'un objet a une certaine taille sans qualifier celle-ci d'aucune manière. Environ 300 noms français sont appropriés dans au moins une phrase adjectivale et ont un modifieur obligatoire. Ils entrent dans un certain nombre de structures de phrases reliées par des transformations syntaxiques. Le caractère approprié du nom et le caractère obligatoire du modifieur se reflètent dans ces transformations. La description de ces phénomènes syntaxiques fournit une base pour la classification de ces noms. Elle concerne également les propriétés lexicales de milliers d'adjectifs prédicatifs, et en particulier les relations entre la phrase sans nom : Le lit était petit et la phrase adjectivale qui comporte le nom : La taille du lit était petite.
Mots-clés : lexique-grammaire, syntaxe, lexicologie.
1997.
"Les Mots.
Un demi-siècle de traitements",
Traitement
automatique des langues (t.a.l.) 38(2),
État de l'art, Paris :
ATALA, pp. 47-68. [Accès
INIST]
Résumé. Nous passons en revue les objectifs utilisés, les résultats atteints, les données construites et les méthodes utilisées dans les domaines du traitement automatique des langues où on peut considérer les mots comme l'unité fondamentale. L'ambition de cette évaluation critique est de contribuer à orienter les efforts de recherche et de développement dans une direction aussi prometteuse que possible en termes de résultats applicatifs.
Mots-clés : langues naturelles.
1998.
"Lexical
disambiguation with fine-grained tagsets",
in J. Ginzburg et al., ed.,
The
Tbilisi Symposium in Logic, Language and Computation: Selected Papers.
19-22 October 1995,
Gudauri, Georgia.
Studies in Logic, Language and
Information,
Cambridge: Cambridge University Press ; &
Stanford: CSLI &
FoLLI, pp. 203-210.
Résumé. Nous décrivons les modèles mathématiques sous-jacents à deux méthodes de levée d'ambiguïtés lexicales par contraintes utilisant des jeux d'étiquettes étendus et des automates finis. Ce sont des variantes plus puissantes des méthodes décrites dans Roche 1992 et Silberztein 1993. Toutes les deux ont un pouvoir expressif équivalent à celui des automates finis.
Mots-clés : langues naturelles, ambiguïtés lexicales,
automates finis.
Strahil Ristov, Éric Laporte, 1999.
"Ziv
Lempel Compression of Huge Natural Language Data Tries Using Suffix Arrays",
in
LNCS 1645,
Combinatorial Pattern Matching, 10th Annual Symposium,
Warwick University, UK, July 1999,
Proceedings, M. Crochemore, M. Paterson, eds., Berlin: Springer, pp. 196-211.
949 Ko.
Résumé. Nous présentons une structure de données très efficace en espace et en temps d'accès pour stocker de très gros fichiers de données sur les langues naturelles. La structure est décrite comme un arbre lexicographique mis sous forme de liste chaînée et comprimé suivant la méthode de Ziv et Lempel. Cette technique de compression va au-delà de celle des automates finis acycliques. Nous l'utilisons pour stocker le DELAF, un très grand dictionnaire du français qui associe à chaque mot des informations lexicales grammaticales et syntaxiques. La structure comprimée peut être produite en temps O(N) en utilisant des arbres de suffixes pour trouver des répétitions dans l'arbre lexicographique. Pour les grands fichiers de données, la consommation de mémoire est plus préoccupante que le temps, c'est pourquoi nous utilisons plutôt des tableaux de suffixes, avec un temps de compression de O(N log N) pour tous les fichiers de données sauf le plus gros.
Mots-clés : compression, langues naturelles.
Éric Laporte, Anne
Monceaux, 1998-1999. "Elimination
of lexical ambiguities by grammars. The ELAG system",
Lingvisticae Investigationes
XXII,
Amsterdam-Philadelphie : Benjamins, pp. 341-367.
Ingenta
link. RTF (1 Mo).
Résumé. Nous présentons un nouveau formalisme compatible avec INTEX pour la description des contraintes distributionnelles, ELAG. Ce formalisme permet de confronter les contraintes à du texte et de lever ainsi une partie de son ambiguïté lexicale. Nous décrivons les principales propriétés d'ELAG et nous les illustrons par des exemples de règles simples formalisant des contraintes exploitables. Nous spécifions en détail l'effet de l'application d'une règle ou d'une grammaire ELAG à un texte. Nous examinons les propriétés pratiques du formalisme du point de vue des auteurs de règles. Nous décrivons notre procédure d'évaluation des résultats de la levée d'ambiguïtés.
Mots-clés : langues naturelles, ambiguïtés lexicales,
automates finis.
2000. "Mots et niveau lexical",
in J.M. Pierrel, éd., Ingénierie des langues. Série Informatique et systèmes d'information, Paris :
Hermès, pp. 25-49.
Résumé. Cet ouvrage fait partie d'un traité encyclopédique en 120 volumes, intitulé Information - Commande - Communication et qui décrit l'état de l'art dans plusieurs domaines de l'ingénierie. Le premier chapitre du volume sur l'ingénierie des langues est une synthèse qui montre que le niveau lexical se trouve au centre des problématiques sous-jacentes à bon nombre d'enjeux applicatifs (vérification et correction orthographiques, indexation, concordanciers etc.). Puis il présente les principaux outils actuels, en termes de méthodes, de formalismes et de données, qui permettent de prendre en charge ces aspects, avant de conclure en dessinant quelques directions de recherches actuelles, les unes à forte dominante théorique, d'autres empiriques car fondées sur des travaux descriptifs "en vraie grandeur", et d'autres encore qui misent sur la notion d'optimisation.
Mots-clés : langues naturelles, ressources lexicales.
2000. "A Lingüística para o processamento das línguas",
Recortes Lingüísticos, A. Silva e M. Lins (eds.), Vitória,
Brésil : Saberes, pp. 67-75. Conférence prononcée
à l'Université fédérale de l'Espírito Santo, avril 2000.
Résumé. Ce chapitre est une synthèse à but pédagogique qui présente le lexique-grammaire et sa
place par rapport au traitement automatique des textes. Quelques exemples d'applications informatiques situent
les objectifs visés et les difficultés rencontrées. Le lexique-grammaire est introduit comme une méthode de
description syntaxique conçue pour donner des résultats suffisamment formels et suffisamment simples pour servir
de modèle sous-jacent à des traitements informatiques. Les principales notions qui permettent d'assurer cette
formalisation et cette simplicité sont :
- une orientation vers les faits directement observables, en l'occurrence l'acceptabilité ou l'inacceptabilité
des formes linguistiques, plutôt que vers le commentaire explicatif ou intuitif ;
- la notion de transformation syntaxique, qui permet de représenter des constructions syntaxiques de façon
différentielle par rapport à une construction prise comme référence ;
- la description systématique du lexique, rendue nécessaire par les différences de propriétés syntaxiques entre
entrées lexicales ;
- le choix de la phrase élémentaire, et non du mot isolé, comme cadre minimal de description.
Lorsqu'un traitement informatique du texte prend comme modèle sous-jacent le lexique-grammaire, les problèmes
informatiques rencontrés sont spécifiques, citons :
- la compression de lexiques avec accès rapide ;
- la traduction de tables de propriétés, élaborées à la main par les linguistes, en grammaires directement
applicables au texte ;
- la représentation compacte d'analyses hypothétiques concurrentes d'un même texte ;
- l'analyse syntaxique non déterministe, c'est-à-dire avec recensement des ambiguïtés.
Ce type de problèmes oriente vers certains domaines classiques de l'algorithmique plutôt que vers d’autres :
la théorie des automates finis, par exemple, intervient de façon récurrente, alors que le calcul des probabilités
n’est d’aucun secours.
Mots-clés : syntaxe, traitement des langues naturelles.
2001. "Reduction of lexical ambiguity",
Lingvisticae
Investigationes XXIV:1, Amsterdam-Philadelphie : Benjamins, pp. 67-103. RTF.
Résumé. Nous examinons plusieurs des problèmes rencontrés lors de l'élaboration de systèmes de levée d'ambiguïtés lexicales, y compris des problèmes liés aux analyses linguistiques sous-jacentes à ces systèmes, et nous les illustrons par des exemples de contraintes grammaticales. Nous examinons également plusieurs problèmes informatiques : l'influence de la granularité des jeux d'étiquettes, la définition d'objectifs réalistes et utiles, et la construction des données nécessaires à la réduction des ambiguïtés, et nous montrons comment ils s'articulent avec les problèmes linguistiques. Nous montrons pourquoi la réduction automatique des ambiguïtés nécessite un formalisme, nous analysons sa fonction et nous présentons une typologie de tels formalismes.
Mots-clés : langues naturelles, ambiguïtés lexicales.
2001. Éric Laporte, Claude Martineau, Marc Zipstein.
Compactage des données,
Rapport final, Transweb 2, Université de Marne-la-Vallée, 12 p. + annexes.
Résumé. Ce rapport propose un algorithme de compression de textes permettant une interrogation rapide des données comprimées. Cet algorithme est un élément essentiel d’un projet de traduction par textes mémorisés. Nous avons adapté l'algorithme de Huffman à des données textuelles, en considérant les mots comme les éléments d'un nouvel alphabet. Il a été nécessaire de distinguer deux sous-alphabets, l'un pour les mots de la langue, l'autre pour les signes de ponctuation. Le texte comprimé est constitué de deux parties, l’une des deux servant d’index d’accès à l’autre. L’index est comprimé sous la forme d’un arbre lexicographique, puis cet arbre est à nouveau comprimé à l’aide de l’algorithme PPM d’ordre 2. Dans les essais effectués, le texte comprimé occupe 25 à 33 % du texte de départ, ce qui est comparable à l’algorithme PPM d’ordre 3 (24 à 32 % pour les mêmes textes), mais avec l’accès rapide.
Mots-clés : compression de textes.
2005. "Une
classe d'adjectifs de localisation", in
Cahiers de lexicologie 86,
Les adjectifs non prédicatifs,
Paris : Garnier, pp. 145-161.
Résumé. Nous proposons une classe homogène d'adjectifs de localisation français, ADJLOC, et une description de cette classe par la méthode du lexique-grammaire. Ces adjectifs sont définis comme ceux qui ne constituent jamais un prédicat avec un verbe support, et qui apparaissent facultativement ou obligatoirement dans des phrases libres telles que Ceci est la façade sud de la maison. Les ADJLOC admettent diverses autres constructions syntaxiques. Ainsi, certains apparaissent dans une phrase en avoir liée à une phrase à préposition locative : La voiture a un pare-chocs arrière, La voiture a un pare-chocs dans sa partie arrière. Deux relations de nominalisation mènent à des constructions nominales : Ceci est la partie centrale de l'écran, Ceci est le centre de l'écran, Ceci est la partie du centre de l'écran. Les constructions discutées dans cet article sont représentées dans une table de propriétés syntaxiques.
Mots-clés : lexicologie, adjectif, localisation.
2005. "Lexicon management
and standard formats",
Archives of Control Sciences 15:3, pp.
329-340; aussi dans Proceedings of the Language and Technology
Conference, Poznan (Pologne) : Université Adam Mickiewicz, pp. 318-322.
Résumé. Les normes internationales en préparation pour les modèles de lexiques convergent dans une certaine mesure avec les résultats antérieurs d'autres projets de normalisation. Cependant, leur adéquation (1) à la gestion de lexiques et (2) aux applications fondées sur des lexiques a été peu débattue dans le passé et ne l'est pas plus dans les efforts actuels de normalisation. Nous examinons ces questions. L'Institut Gaspard-Monge a développé des formats XML compatibles avec les normes internationales en construction. Nous présentons des résultats expérimentaux sur l'application de ces formats à des lexiques à large couverture.
Mots-clés : ressources linguistiques, gestion de lexiques, normalisation, flexion, morphologie.
Marcelo C.M. Muniz, Maria das Graças V. Nunes, Eric Laporte, 2005.
"UNITEX-PB, a set of flexible language resources
for Brazilian Portuguese", in Proceedings of the Workshop
on Technology on Information and Human Language (TIL), São Leopoldo (Brésil):
Unisinos, pp. 2059-2068.
Résumé. Ce travail documente la conception et le développement de plusieurs ressources linguistiques qui permettent le traitement automatique du portugais du Brésil selon la méthodologie formelle du système de traitement de corpus UNITEX. Les ressources produites comprennent des lexiques électroniques, une bibliothèque de programmes d'accès aux lexiques, et d'autres outils de validation de ces ressources.
Mots-clés : ressources linguistiques, gestion de lexiques, flexion, morphologie.
Hyun-gue HUH, Eric Laporte, 2005.
"A Resource-Based Korean morphological annotation
system", in Companion to the Proceedings of the International
Joint Conference on Natural Language Processing, Jeju (Corée), pp.
37-42.
Résumé. Nous décrivons une méthode d'annotation morphologique du texte coréen écrit fondée sur des ressources linguistiques. Le coréen est une langue agglutinante. Notre système produit un graphe de morphèmes annotés d'informations linguistiques précises et exactes. Les ressources linguistiques utilisées par le système sont faciles à mettre à jour, ce qui permet à l'utilisateur de contrôler l'évolution des performances du système. Nous montrons que l'annotation morphologique du texte coréen peut être effectuée directement avec un lexique de mots et sans règles morphologiques.
Mots-clés : ressource linguistique,
coréen, annotation, morphologie, langue agglutinante.
Ivan Berlocher,
Hyun-gue HUH, Eric Laporte, Jee-sun NAM. 2006. "Morphological
annotation of Korean with Directly Maintainable Resources", in
Proceedings of LREC,
Genoa.
Mots-clés : ressource linguistique, évaluation, coréen, annotation, morphologie, langue agglutinante.
Olivier Blanc, Matthieu
Constant, Éric Laporte, 2006.
"Outilex, plate-forme logicielle de traitement de textes
écrits", Verbum ex
machina. Actes de
TALN, Collection Cahiers du Cental,
2(1), Presses universitaires de Louvain, pp. 83-92.
Résumé. La plate-forme logicielle Outilex, qui sera mise à la disposition de la recherche, du développement et de l'industrie, comporte des composants logiciels qui effectuent toutes les opérations fondamentales du traitement automatique du texte écrit : traitements sans lexiques, exploitation de lexiques et de grammaires, gestion de ressources linguistiques. Les données manipulées sont structurées dans des formats XML, et également dans d'autres formats plus compacts, soit lisibles soit binaires, lorsque cela est nécessaire ; les convertisseurs de formats nécessaires sont inclus dans la plate-forme ; les formats de grammaires permettent de combiner des méthodes statistiques avec des méthodes fondées sur des ressources linguistiques. Enfin, des lexiques du français et de l'anglais issus du LADL, construits manuellement et d'une couverture substantielle seront distribuées avec la plate-forme sous licence LGPL-LR.
Mots-clés : analyse lexicale, ressource linguistique, lexique, grammaire,
automate fini, XML.
Éric Laporte, Sébastien
Paumier, 2006. "Graphes paramétrés et outils de lexicalisation",
Communication affichée, Verbum ex machina. Actes de
TALN, Collection Cahiers du Cental,
2(1), Presses universitaires de Louvain, pp. 532-540. — Accès
par HAL.
Résumé. La lexicalisation des grammaires réduit le nombre des erreurs d'analyse syntaxique et améliore les résultats des applications. Cependant, cette modification affecte un système d'analyse syntaxique dans tous ses aspects. Un de nos objectifs de recherche est de mettre au point un modèle réaliste pour la lexicalisation des grammaires. Nous avons réalisé des expériences en ce sens avec une grammaire très simple par son contenu et son formalisme, et un lexique syntaxique très informatif, le lexique-grammaire du français élaboré au LADL. La méthode de lexicalisation est celle des graphes paramétrés. Nos résultats tendent à montrer que la plupart des informations contenues dans le lexique-grammaire peuvent être transférées dans une grammaire et exploitées avec succès dans l'analyse syntaxique de phrases.
Mots-clés : lexicalisation,
analyse syntaxique, français, lexique-grammaire.
Maria Carmelita P. Dias, Éric Laporte, Christian Leclère, 2006. "Verbs with very strictly selected complements",
Collocations and Idioms: The First Nordic Conference on Syntactic
Freezes, University of Joensuu, Finland.
Résumé. Nous
étudions les caractéristiques et le comportement de deux classes
parallèles de verbes dans deux langues romanes, le français et le portugais.
On
peut citer comme exemples de ces classes le port. abater
[gado] et le fr. abattre [bétail],
qui ont le même sens. Dans les deux langues, la définition de la classe de
verbes inclut plusieurs propriétés :
- Ils ont un complément essentiel unique, qui est un objet direct.
- La distribution nominale du complément est très limitée, c'est-à-dire
que peu de noms peuvent être sélectionnés comme nom tête du complément.
Cependant, cette sélection n'est pas réduite à un nom unique, comme ce serait
le cas pour des expressions verbales figées telles que le fr. monter
la garde .
- Nous avons exclu de la classe les constructions qui sont des réductions
de constructions plus complexes, comme le port. afinar
[instrumento] com "accorder [instrument] avec".
Mots-clés :
expressions multi-mots, syntaxe, français, portugais, lexique-grammaire.
Éric Laporte, 2007. "Evaluation of a Grammar of French Determiners",
Annales du 27e
Congrès de la Société brésilienne de calcul, Rencontres sur la Technologie de l'information et le Langage
humain (TIL), Rio de Janeiro.
Résumé. Existing syntactic grammars of natural languages, even with a far from complete coverage, are complex objects. Assessments of the quality of parts of such grammars are useful for the validation of their construction. We evaluated the quality of a grammar of French determiners that takes the form of a recursive transition network. The result of the application of this local grammar gives deeper syntactic information than chunking or information available in treebanks. We performed the evaluation by comparison with a corpus independently annotated with information on determiners. We obtained 86% precision and 92% recall on text not tagged for parts of speech.
Mots-clés : déterminant, défini, indéfini, quantité, syntaxe, français, grammaire, grammaire locale,
évaluation, corpus annoté.
2008 (à paraître). "Words
and lexical level",
in J.M. Pierrel, éd., Language
engineering. Londres : ISTE.
Résumé. Le premier chapitre de cet ouvrage sur l'ingénierie des langues est une synthèse qui montre que le niveau lexical se trouve au centre des problématiques sous-jacentes à bon nombre d'enjeux applicatifs (vérification et correction orthographiques, indexation, concordanciers etc.). Puis il présente les principaux outils actuels, en termes de méthodes, de formalismes et de données, qui permettent de prendre en charge ces aspects, avant de conclure en dessinant quelques directions de recherches actuelles, les unes à forte dominante théorique, d'autres empiriques car fondées sur des travaux descriptifs "en vraie grandeur", et d'autres encore qui misent sur la notion d'optimisation.
Mots-clés : langues naturelles, ressources lexicales.
2008 (à paraître). "Exemples
attestés et exemples construits dans la pratique du lexique-grammaire", Mémoires
de la Société de linguistique de Paris. Louvain/Paris/Dudley : Peeters.
Résumé. L’opposition de Croft (1998) entre « méthode expérimentale » et « méthode observationnelle » renouvelle le vieux débat entre linguistique introspective et linguistique de corpus, en suscitant un parallèle avec les sciences expérimentales, auxquelles Croft emprunte ces termes. L’exemple du lexique-grammaire, une méthode de description syntaxico-sémantique dont les fondements se réfèrent explicitement aux sciences expérimentales, confirme, s’il en était besoin, que la formulation de règles conformes à la réalité de l’usage d’une langue ne se résume pas à une simple observation d’exemples, mais également qu’elle nécessite toutefois une observation intensive d’exemples, ainsi que des précautions méthodologiques rigoureuses dans cette activité d’observation. Les traditions apparemment opposées de la linguistique introspective et de la linguistique de corpus sont donc complémentaires et de nature à se combiner pour favoriser le succès d’une telle entreprise. Ces réflexions invitent les linguistes à surmonter leur réticence historique à combiner les deux types de méthodes. De même, en traitement automatique des langues, la majeure partie de la communauté en reste à l’abordage probabiliste, renonçant à faire collaborer l’informatique appliquée avec la linguistique descriptive.
Mots-clés : linguistique de corpus, introspection.