Publications d'Eric Laporte 1986-2004

Publications d'Eric Laporte de 1986 à 2004

Indice h : 20 (source : Google Scholar, 2025)

2000-2004
1995-1999
1990-1994
1986-1989
sur HAL

2000-2004

Strahil Ristov, Éric Laporte, 2000. "Ziv Lempel Compression of Huge Natural Language Data Tries Using Suffix Arrays", Journal of Discrete Algorithms, 1 (1), M. Crochemore, L. Gasieniec, eds., Oxford: Hermes, pp. 241-256.

2000. "Mots et niveau lexical", in J.M. Pierrel, éd., Ingénierie des langues. Série Informatique et systèmes d'information, Paris : Hermès, pp. 25-49.

2000. "A Lingüística para o processamento das línguas", Recortes Lingüísticos, A. Silva e M. Lins (eds.), Vitória, Brésil : Saberes, pp. 67-75. Conférence prononcée à l'Université fédérale de l'Espírito Santo, avril 2000.

2001. "Resolução de ambiguidades", in E. Ranchhod, éd., Tratamento das Línguas por Computador. Uma introdução à Linguística Computacional e suas aplicações. Lisbonne : Caminho, pp. 49-89 (une version anglaise est parue dans Lingvisticae Investigationes XXIV:1).

Éric Laporte, Claude Martineau, Marc Zipstein, 2001. Compactage des données, Rapport final, Transweb 2, Université de Marne-la-Vallée, 12 p. + annexes.

2001. "Reduction of lexical ambiguity", Lingvisticae Investigationes XXIV:1, Amsterdam-Philadelphie : Benjamins, pp. 67-103.

Strahil Ristov, Éric Laporte, 2002. "A Method for Compressing Lexicons", Communication affichée, Data Compression Conference (DCC), Snowbird, Utah, IEEE Computer Society Press, p. 471. pdf.

Ken Beesley, Lauri Karttunen, Eric Laporte, Kemal Oflazer, eds., 2003. Machine Translation 18:3, September 2003, Special Issue, Finite-State Language Resources and Language Processing, Springer Netherlands, 78 p.

Christian Leclère, Eric Laporte, Mireille Piot, Max Silberztein, eds., 2004. Syntax, Lexis and Lexicon-Grammar. Papers in honour of Maurice Gross, Lingvisticae Investigationes Supplementa 24, Amsterdam-Philadelphie : Benjamins, 22 + 659 p. Compte-rendu par Thierry Fontenelle. Compte-rendu par Sara Vecchiato dans Studi Francesi 150 (2006).

2004. "Restructuration and the subject of adjectives", in Syntax, Lexis and Lexicon-Grammar. Papers in honour of Maurice Gross, Lingvisticae Investigationes Supplementa 24, Amsterdam-Philadelphie : Benjamins, pp. 373-388. Fichiers comprimés (32 Ko).

2004. Préface de Syntax, Lexis and Lexicon-Grammar. Papers in honour of Maurice Gross, Lingvisticae Investigationes Supplementa 24, Amsterdam-Philadelphie : Benjamins, pp. xi-xxi. 55 Ko.

2004. "Acceptability as the source of syntactic knowledge", Journal of Applied Linguistics, October 2004, Special Issue on Lexicon-Grammar, Pékin : Institut de Linguistique appliquée, pp. 9-22 (en chinois).

Eric Laporte, Cheng Ting-au, eds., 2004. Journal of Applied Linguistics, October 2004, Special Issue on Lexicon-Grammar, Pékin : Institut de Linguistique appliquée, 160 p. (en chinois).

2004. "Uma descrição sintática e semântica dos adjetivos do francês para aplicações computacionais", PaLavra 12, Série Langage, volume thématique : Processamento Automático do Português, DIAS, Maria Carmelita & QUENTAL, Violeta (éd.), ISSN 1413-7763, Rio de Janeiro : Galo Branco, pp. 91-105.

1995-1999

1995. "Appropriate nouns with obligatory modifiers", Language Research 31(2), Seoul National University, ISSN 0254-4474, pp. 251-289. Version française parue dans Langages 126.

Éric Laporte, éd., 1995. Periodic Progress Report. Project Copernicus 621 GRAMLEX. University Paris 7, LADL, 83 p.

Éric Laporte, Max Silberztein, 1995. Analysis of French corpora. GRAMLEX report no. 3A1, 14 p.

1996. "Context-free parsing with finite-state transducers", in Proceedings of the 3rd South American Workshop on String Processing, N. Ziviani et al. (eds.), International Informatics Series 4, Montréal : McGill-Queen's University Press; & Ottawa: Carleton University Press, pp. 171-182.

1996. "Évaluation de la levée d'ambiguïtés lexicales", in LINX 34-35, Lexique, syntaxe et analyse automatique des textes. Hommage à Jean Dubois, Nanterre: Université Paris X, pp. 291-305.

1996. "How many syllables are frequent?", Rapport technique 96-12, IGM, 10 p.

Éric Laporte, ed., 1996. Project Copernicus 621 GRAMLEX. Deliverables. October 1995-June 1996. University Paris 7, LADL, 197 p.

Blandine Courtois, Éric Laporte, Alexis Némé, 1996. Acquisition programs for lexical data. GRAMLEX report no. 1A2, 30 p.

Éric Laporte, Max Silberztein, 1996. Ambiguity rates. GRAMLEX report no. 3A2, 7 p. [PDF (1,7 Mo)]

1996. Construction of concordances sorted by lemmata of French text corpora. GRAMLEX report no. 3A3, 5 p.

1996. Separation of homographic entries. GRAMLEX report no. 4A2, 16 p.

Blandine Courtois, Éric Laporte, 1996. Grammatical disambiguation of French words using part of speech of words in context. GRAMLEX report no. 3D1, 10 p. + 68 p. annex.

Éric Laporte, ed., 1996. Project Copernicus 621 GRAMLEX. Deliverables. June-December 1996. University Paris 7, LADL, 206 p.

Éric Laporte, Mario Monteleone, 1996. Morphological dictionaries in the framework of the two-level model. French and Italian. GRAMLEX report no. 1G1-1J1, 39 p.

Éric Laporte, Mario Monteleone, 1996. Experimentation of the two-level model for French and Italian morphology. GRAMLEX report no. 1G2-1J2, 6 p.

1997. "Rational Transductions for Phonetic Conversion and Phonology", in E. Roche and Y.Schabès eds., Finite-State Language Processing, chap. 14. Language, Speech and Communication series. Cambridge: MIT Press, pp. 407-429.

1997. "Les Mots. Un demi-siècle de traitements", Traitement automatique des langues 38(2), État de l'art, Paris : ATALA, pp. 47-68.

Éric Laporte, Anne Monceaux, 1997. Grammatical disambiguation of French words using part of speech, inflectional features and lemma of words in the context. GRAMLEX report no. 3D2, 11 p.

1997. "Noms appropriés à modifieur obligatoire", Langages 126, La description syntaxique des adjectifs pour les traitements informatiques, Nam Jee-sun éd., Paris : Larousse, pp. 79-104. Version française de l'article de 1995 dans Language Research 31(2).

1997. "Phonology and Electronic Lexicon: Processing of Ambiguities", Indo-French Workshop on Natural Language Processing, Hyderabad, March 21-26, 10 p.

Éric Laporte, ed., 1997. Project Copernicus 621 GRAMLEX. Deliverables. December 1996-May 1997. 2. Other tasks. University Paris 7, LADL, 137 p.

Éric Laporte, ed., 1997. Project Copernicus 621 GRAMLEX. Deliverables. May-September 1997. University Paris 7, LADL, 179 p.

1998. "Lexical disambiguation with fine-grained tagsets", in J. Ginzburg et al., ed., The Tbilisi Symposium in Logic, Language and Computation: Selected Papers. 19-22 October 1995, Gudauri, Georgia. Studies in Logic, Language and Information, Cambridge: Cambridge University Press & Stanford: CSLI & FoLLI, pp. 203-210.

1998. Préface de Dictionary Based Methods and Tools for Language Engineering, Vetulani (Z.) et al., Seria Jezykoznawstwo Komputerowe. Poznan : Adam Mickiewicz University Press, pp. 11-12.

Éric Laporte, ed., 1998. Project Copernicus 621 GRAMLEX. Deliverables. October 1997-April 1998. University Paris 7, LADL.

1998. Synthesis of results. GRAMLEX report no. 4E1-4E2, 6 p.

Éric Laporte, éd., 1999. Langages 133, Lexique-grammaire des adjectifs, Paris : Larousse. Présentation, pp. 3-11.

Strahil Ristov, Éric Laporte, 1999. "Ziv Lempel Compression of Huge Natural Language Data Tries Using Suffix Arrays", in LNCS 1645, Combinatorial Pattern Matching, 10th Annual Symposium, Warwick University, UK, July 1999, Proceedings, M. Crochemore, M. Paterson, eds., Berlin: Springer, pp. 196-211.

Éric Laporte, Anne Monceaux, 1999. "Elimination of lexical ambiguities by grammars. The ELAG system", Lingvisticae Investigationes XXII, Amsterdam-Philadelphie : Benjamins, pp. 341-367.

1990-1994

1990. "Le dictionnaire phonémique DELAP", Langue française 87, Dictionnaires électroniques du français, Blandine Courtois et Max Silberztein éds., Paris : Larousse, pp. 59-70.

Éric Laporte, éd., 1990. Recueil de tables de noms prédicatifs, Rapport technique 22 du LADL, Paris.

1991. "A Formal Tool for Modelling "Standard" Phonetic Variations", The Phonetics and Phonology of Speaking Styles: Reduction and Elaboration in Speech Communication, Joaquim Llisterri ed., Barcelona: ESCA, pp. 39-1 à 39-7.

Courtois, Blandine, Maurice Gross, Éric Laporte, Max Silberztein, 1991. Étude et développement d'extensions d'un système de vérification orthographique, Rapport final du contrat de recherche 88 S075, LADL, 16 p.

1991. "Extending the Coverage of Derivatives in a Dictionary", 7p.; "Phonetics and Transducers", 3p., Rapport technique 31 du LADL, Paris.

1991. "Une expérience de dépouillement de textes : les mots non reconnus", 1991, Rapport inermédiaire de Genelex-Autogen, pp.1-11.

1991. Règles de phonétisation : format, interprétation, comptages, Rapport interne du CERIL, Évry.

1991. Dictionnaires de formes fléchies phonétiques : présentation, Rapport interne du CERIL, Évry.

1992. "Adjectifs en -ant dérivés de verbes", Langue française 96, La productivité lexicale, André Dugas et Christian Molinier éds., Paris : Larousse, pp.30-43.

1992. "Phonetic Syllables in French: Combinatorics, Structure and Formal Definitions", Acta Linguistica Hungarica 41 (1-4), Budapest: Akadémiai Kiadí, pp. 175-189.

Alcouffe, Philippe, Éric Laporte, Bruno Revellin-Falcoz, Laurence Zaysser, 1992. Dictionnaire Dioxydes. Les données syntaxiques, Rapport interne de Genelex, 215 p.

1992. "Genelex doit-il proposer un alphabet phonémique ?", Enrichissement de dictionnaires, Rapport interne de Genelex, 3 p.

1992. La constitution du dictionnaire de base Genelex, Rapport interne de Genelex, 5 p. + 18 p. annexes.

1992. Phonétisation par transducteurs non déterministes, Rapport interne de l'Institut Gaspard-Monge, Université de Marne-la-Vallée.

1993. "Separating Entries in Electronic Dictionaries of French", Sprache - Kommunikation - Informatik. Akten des 26. Linguistischen Kolloquiums, Poznan 1991, J. Darski and Z. Vetulani eds., Tübingen: Max Niemeyer, pp. 173-179.

1993. Phonétique et transducteurs. Mémoire d'habilitation, Université Paris 7, 21p. + articles.

1994. "Experiments in Lexical Disambiguation Using Local Grammars", Papers in Computational Lexicography, COMPLEX '94, Ferenc Kiefer, Gabor Kiss and Julia Pajzs eds., Budapest: Linguistics Institute of the Hungarian Academy of Sciences, pp. 163-172.

1994. "Levée d'ambiguïtés par grammaires locales", in Lexiques-grammaires comparés en français. Actes du Colloque international de Montréal (3-5 juin 1992), J. Labelle et Ch. Leclère éds., Lingvisticae Investigationes Supplementa 17, Amsterdam/Philadelphie: Benjamins, pp. 97-114. DOI: 10.1075/lis.17.09lap

1986-1989

Danlos, Laurence, Françoise Émerard, Éric Laporte, 1986. "Synthesis of Spoken Messages from Semantic Representations (Semantic-Representation-to-Speech System)", Proceedings of Coling 1986, Bonn, pp. 599-604. doi:10.3115/991365.991540

1986. "Applications de la morphophonologie à la production automatique de textes phonétiques", Lexiques et traitement automatique des langages, Actes du séminaire, GRECO "Communication parlée" et GALF, Université Paul-Sabatier, Toulouse, 12 p.

1987. "Prise en compte des variations phonétiques en reconnaissance de la parole", Actes des 16es Journées d'étude sur la parole, Société française d'acoustique, Hammamet, pp.153-156.

1987. "Représentation formelle d'informations phonétiques", Dictionnaires électroniques et analyse automatique du français, Rapport 4 du Programme de recherches coordonnées "Informatique linguistique", LADL, Université Paris 7, pp.21-57.

1987. Notice bibliographique sur Phonétique historique du français, Gaston Zink, 1986, Lingvisticae Investigationes XI:2, Amsterdam-Philadelphie : Benjamins, p. 427.

1988. "La reconnaissance des expressions figées lors de l'analyse automatique", Langages 90, Les expressions figées, Laurence Danlos éd., Paris : Larousse, pp.117-126.

1988. Méthodes algorithmiques et lexicales de phonétisation de textes. Applications au français, Thèse de doctorat, Université Paris 7, 162 p. + vol. 2 (annexes).

1988. Phonétisation de textes par un réseau connexionniste, Rapport interne, LIMSI, Orsay, 21 p.

1989. "Applications of Phonetic Description", LNCS 377, Electronic Dictionaries and Automata in Computational Linguistics, LITP Spring School on Theoretical Computer Science, Saint-Pierre d'Oléron, France, May 1987, Proceedings, Maurice Gross and Dominique Perrin eds., Berlin-New York: Springer-Verlag, pp.66-78.

Gross, Maurice, Éric Laporte, Marcel-Paul Schützenberger, mai 1989. "La réforme de l'orthographe. L'informatique linguistique teste les qualités des réformes", Pour la science 139, Paris, pp. 6-8.

Éric Laporte, Max Silberztein, 1989. "Vérification et correction orthographiques assistées par ordinateur", Actes de la Convention "Intelligence artificielle 1989", Paris : Hermès, vol. 1, pp. 283-298.

1989. "Quelques variations phonétiques en français", Lingvisticae Investigationes XIII:1, Amsterdam-Philadelphie: Benjamins, pp. 43-116.

1989. "La phonétisation automatique de textes français", La description des langues naturelles en vue d'applications linguistiques, Actes du colloque, Conrad Ouellon éd., CIRB, Université Laval, Québec, pp. 187-196.

1989. "La flexion en français : conjugaisons, pluriels, féminins", Linguistica communicatio, vol. 1, no. 2, Faculté de lettres, Fez, Maroc, pp. 42-63.

Éric Laporte

Résumés

Danlos, Laurence, Françoise Émerard, Éric Laporte, 1986. "Synthesis of Spoken Messages from Semantic Representations (Semantic-Representation-to-Speech System)", Proceedings of Coling 1986, Bonn, pp. 599-604. doi:10.3115/991365.991540

Résumé. Un système de synthèse de parole à partir de représentations sémantiques communique oralement les informations codées dans une représentation sémantique. Un tel système doit comprendre un module de génération de textes, un module de phonétisation, un module prosodique et un synthétiseur de parole. Nous montrons comment les informations syntaxiques élaborées par le module de génération de textes sont utilisées pour la phonétisation et la prosodie, afin de produire les données à fournir au synthétiseur de parole, à savoir une chaîne phonétique augmentée d'informations prosodiques.

Mots-clés : langues naturelles, phonétique, génération de textes, synthèse de la parole.

1987. "Prise en compte des variations phonétiques en reconnaissance de la parole", Actes des 16es Journées d'étude sur la parole, Société française d'acoustique, Hammamet, pp. 153-156.

Résumé. Cet article est consacré aux méthodes de prise en compte des variations phonétiques dans les systèmes de reconnaissance de la parole. Nous nous intéressons à plusieurs méthodes de reconnaissance, mais plus particulièrement aux systèmes fondés sur la reconnaissance de motifs et dans lesquels l'unité de décision est la portion de parole comprise entre deux centres syllabiques adjacents. Cette méthode nécessite des données phonétiques, notamment une liste de références, qui devrait contenir les variantes. Cette méthode met en évidence l'intérêt applicatif d'une description précise et systématique des variantes. À titre d'exemple d'une telle description, nous présentons une étude détaillée de certaines alternances phonétiques liées aux hiatus en français.

Mots-clés : langues naturelles, phonétique, phonologie, reconnaissance de la parole.

1988. Méthodes algorithmiques et lexicales de phonétisation de textes. Applications au français, Thèse de doctorat, Université Paris 7, 162 p. + vol. 2 (annexes).

Résumé. La phonétisation automatique est la production de transcriptions phonétiques à partir de textes ou de mots écrits. Les procédures qui effectuent cette transcription sont destinées soit à permettre l'utilisation de la parole dans la communication entre l'homme et la machine, soit à faciliter la correction de certaines fautes d'orthographe.
Cette thèse expose les méthodes de phonétisation automatique. Certaines de ces méthodes sont fondées sur des algorithmes et des systèmes de règles, les autres sur des dictionnaires phonétiques.
Un dictionnaire phonémique électronique a été réalisé, ainsi que les algorithmes nécessaires à sa gestion et à son utilisation. Nous exposons les solutions qui nous ont permis de satisfaire deux exigences fondamentales :
- incorporer dans le dictionnaire un ensemble de mots représentatif du français (64 000 entrées),
- élaborer le contenu phonétique du dictionnaire avec la précision et la cohérence requises pour l'exploitation informatique.
Un algorithme de phonétisation par règles a été construit sous la forme d'un transducteur. Ce système spécifie en détail la correspondance entre l'orthographe et la phonétique. En relation étroite avec le dictionnaire, il inclut les règles et les exceptions qui se dégagent de l'examen de ses 64 000 entrées.
Les conjugaisons et les variations en genre et en nombre ont été prises en compte dans un programme qui produit des transcriptions phonétiques de toutes ces formes. Par aileurs, nous donnons les représentations formelles de plusieurs familles de variations phonétiques : l'effacement de consonnes finales et les alternances entre synérèse et diérèse.
Enfin, les algorithmes et les données sont été expoités dans des applications informatiques : un système de génération de messges oraux et un système d'aide à la correction orthographique.
Un volume d'annexes regroupe l'algorithme de phonétisation et des échantillons du dictionnaire.

Mots-clés : lexique, langues naturelles, phonétique, phonologie, traitement de la parole.

1988. "La reconnaissance des expressions figées lors de l'analyse automatique", Langages 90, Les expressions figées, Laurence Danlos éd., Paris : Larousse, pp. 117-126.

Résumé. Les expressions figées empêchent d'atteindre un niveau opératoire tout système de traitement automatique des langues naturelles conçu à partir de la compositionnalité des expressions libres. Cet article aborde le problème de la reconnaissance des expressions figées, problème crucial pour tout système de correction orthographique, de recherche documentaire, de traduction automatique ou d'interrogation de bases de données, et problème qui demande que le système ait accès à des descriptions formelles telles que celles accumulées au LADL.

Mots-clés : lexique-grammaire, expressions figées, langues naturelles, analyse syntaxique.

1990. "Le dictionnaire phonémique DELAP", Langue française 87, Dictionnaires électroniques du français, Blandine Courtois et Max Silberztein éds., Paris : Larousse, pp. 59-70. DOI : 10.3406/lfr.1990.6327

Résumé. Le Dictionnaire électronique du LADL pour les représentations phonémiques (DELAP) comporte les mêmes entrées que le DELAS, mais il leur associe des informations concernant leur prononciation et leurs variations phonétiques. Nous présentons le dictionnaire, et discutons plus particulièrement certains problèmes posés par les variations phonétiques, les relations entre transcriptions phonétiques et la réalité observable, la correspondance entre les transcriptions phonétiques et phonémiques ; nous présentons ensuite les algorithmes qui formalisent et réalisent cette correspondance.

Mots-clés : phonétique, phonologie, lexicologie.

1992. "Adjectifs en -ant dérivés de verbes", Langue française 96, La productivité lexicale, André Dugas et Christian Molinier éds., Paris : Larousse, pp. 30-43. DOI : 10.3406/lfr.1992.5779

Résumé. Nous étudions des points de vue syntaxique et morphologique la transformation entre phrases verbales et phrases adjectivales construites autour des adjectifs dérivés en -ant (L'ablette frétille = L'ablette est frétillante). L'examen de 1684 emplois verbaux définis dans des constructions intransitives et transitives indirectes permet de recenser 280 exemples de ce type. Nous constatons que cette dérivation transformationnelle est régulière et productive dans la mesure où l'acceptabilité, la structure et les propriétés de la phrase adjectivale se déduisent le plus souvent de la phrase verbale. Mais cette régularité et cette productivité ne sont pas absolues : certains empois verbaux n'ont pas de dérivés en -ant (Cette plante végète, *Cette plante est végétante), et dans de nombreux cas, les propriétés de la phrase adjectivale ne sont pas déductibles d'autres informations syntaxiques concernant la phrase verbale. Il convient donc de noter, dans les tables, ces propriétés des phrases adjectivales.

Mots-clés : lexique-grammaire, syntaxe, morphologie dérivationnelle, lexicologie.

1993. "Separating Entries in Electronic Dictionaries of French", Sprache - Kommunikation - Informatik. Akten des 26. Linguistischen Kolloquiums, Poznan 1991, J. Darski and Z. Vetulani eds., Tübingen: Max Niemeyer, pp. 173-179.

Abstract. One can note a growing need for natural language processing (NLP) systems able to cope with large texts. With this evolution, large NLP dictionaries are required. Constructors of dictionaries therefore have to pay attention both to extensive coverage and complete formalization of the data. An important type of lexicographical decision is whether to separate a set of homnographic words into distinct entries or to merge them into one entry. We examine criteria of separation in two cases: morpho-syntactic dictionaries and lexicon-grammars.

Keywords : lexicon-grammar, syntax, morphosyntax, lexicology, NLP dictionary, e-dictionary, lexical entry.

1994. "Experiments in Lexical Disambiguation Using Local Grammars", Papers in Computational Lexicography, COMPLEX '94, Ferenc Kiefer, Gabor Kiss and Julia Pajzs eds., Budapest: Linguistics Institute of the Hungarian Academy of Sciences, pp.163-172.

Résumé. La levée d'ambiguïtés est l'un des principaux défis auxquels sont confrontés les concepteurs de sustèmes d'étiquetage de mots en vue du traitement du texte écrit. Les algorithmes de levée d'ambiguïtés grammaticales réduisent le nombre d'étiquettes possibles. Nous considérons dans cet article un cadre de travail dans lequel un dictionnaire grammatical à large couverture est consulté pour associer à chaque élément lexical du texte, mot simple ou mot composé, l'ensemble des étiquettes grammaticales a priori possibles pour lui. (Un tel cadre pout le français est maintenant intégré sous la forme du système Intex.) Ce problème a été exploré par M. Silberztein (1989) et E. Roche (1992). Nous donnons des descriptions formelles de leurs deux algorithmes. Leur arrière-plan et leur objectif communs sont frappants. Cependant, ils présentent de véritables différences formelles et pratiques. Du point de vue formel, nous comparons la puissance expressive des deux algorithmes. D'un point de vue pratique, nous examinons s'ils sont plus particulièrement adaptés à un type spécifique d'ambiguïtés grammaticales.

Mots-clés : langues naturelles, analyse lexicale, ambiguïté lexicale, automates finis.

1996. "Context-free parsing with finite-state transducers", in Proceedings of the 3rd South American Workshop on String Processing, N. Ziviani et al. (eds.), International Informatics Series 4, Montréal : McGill-Queen's University Press; & Ottawa: Carleton University Press, pp. 171-182. 190 Ko.

Résumé. Cet article étudie un algorithme conçu et mis en oeuvre par Roche pour l'analyse syntaxique de phrases en langues naturelles selon une grammaire algébrique. Cet algorithme est fondé sur la construction et l'utilisation d'un transducteur fini. Roche l'a appliqué avec succès à une grammaire algébrique aux règles très nombreuses. En pratique, habituellement, la complexité de l'analyse syntaxique de séquences selon des grammaires algébriques est considérée, au contraire, comme une fonction d'un unique paramètre : la longueur de la séquence à analyser ; la taille de la grammaire est généralement considérée comme une constante d'une taille raisonnable. Dans cet article, nous expliquons d'abord pourquoi une grammaire algébrique d'une couverture lexicale et grammaticale correcte a nécessairement un très grand nombre de règles et nous évoquons les travaux liés à ce problème. Nous illustrons le principe de l'algorithme de Roche sur une petite grammaire. Nous définissons formellement la construction de l'analyseur syntaxique et le déroulement de l'algorithme et nous prouvons que la construction de l'analyseur syntaxique est possible pour une importante classe de grammaires algébriques, et qu'il donne comme résultat l'ensemble des arbres syntaxiques de la séquence traitée.

Mots-clés : langues naturelles, analyse syntaxique, automates finis, grammaires algébriques.

Éric Laporte, Anne Monceaux, 1997. Grammatical disambiguation of French words using part of speech, inflectional features and lemma of words in the context. GRAMLEX report no. 3D2, 11 p.

Résumé. Nous présentons ELAG (élimination des ambiguïtés lexicales par grammaires), un nouveau système de levée d'ambiguïtés lexicales qui utilise des informations grammaticales sur les mots du contexte. La levée des ambiguïtés s'effectue après l'analyse lexicale du texte traité, mais avant l'analyse syntaxique. Les données linguistiques du système sont organisées en modules séparés, compacts et lisibles, que nous appelons des grammaires de levée d'ambiguïtés. Les effets respectifs de plusieurs grammaires de levée d'ambiguïtés sur un texte à traiter sont indépendants les uns des autres. Cette propriété de la levée d'ambiguïtés est mathématiquement garantie par la formule d'application des grammaires aux phrases. Les effets des grammaires de levée d'ambiguïtés sont cumulatifs : si l'on écrit de nouvelles grammaires et qu'on les utilise avec des grammaires existantes, les effets de l'application de celles-ci ne sont pas modifiés. Plusieurs grammaires peuvent s'appliquer à une même séquence, ou à des séquences qui présentent un chevauchement, ou à des séquences incluses dans d'autres séquences : leurs effets se cumulent. L'ordre d'application des grammaires est indifférent. Les effets d'une grammaire sur les différentes analyses d'une phrase sont indépendants. ELAG est compatible avec INTEX.

Mots-clés : langues naturelles, ambiguïtés lexicales, automates finis.

1997. "Rational Transductions for Phonetic Conversion and Phonology", in E. Roche and Y. Schabès eds., Finite-State Language Processing, chap. 14. Language, Speech and Communication series. Cambridge: MIT Press, pp. 407-429. PS (415 Ko), PDF (310 Ko).

Résumé. La phonétisation, et d'autres problèmes de transcription automatique liés à la phonétique, peuvent être effectués par des outils fondés sur les automates finis. Ce chapitre présente un système de transcription par automates finis, BiPho, qui fait appel à des transducteurs et des bimachines. Les données linguistiques utilisées par ce système sont décrites dans un format lisible et le calcul est efficace. Le système permet la phonétisation du texte français écrit.

Mots-clés : langues naturelles, phonétique, automates finis.

1997. "Noms appropriés à modifieur obligatoire. L'analyse de phrases adjectivales par rétablissement de noms appropriés", Langages 126, La description syntaxique des adjectifs pour les traitements informatiques, Nam Jee-sun éd., Paris : Larousse, pp. 79-104, DOI : 10.3406/lgge.1997.1778 (version française de l'article paru dans Language Research 31(2)).

Résumé. La notion harrissienne de séquence appropriée fournit un moyen syntaxique puissant d'analyser en détail le sens de nombreuses phrases, y compris ambiguës. Dans une phrase adjectivale comme Le lit était petit, l'introduction d'un nom approprié, ici taille, spécifie la qualité décrite par l'adjectif. Dans d'autres phrases adjectivales à nom approprié, ce nom joue le même rôle que taille et semble pertinent à la description de l'adjectif. Ces noms appropriés entrent généralement dans des phrases élémentaires telles que Le lit avait une certaine taille, mais ils ont souvent un modifieur plus ou moins obligatoire. Par exemple, on peut difficilement mentionner qu'un objet a une certaine taille sans qualifier celle-ci d'aucune manière. Environ 300 noms français sont appropriés dans au moins une phrase adjectivale et ont un modifieur obligatoire. Ils entrent dans un certain nombre de structures de phrases reliées par des transformations syntaxiques. Le caractère approprié du nom et le caractère obligatoire du modifieur se reflètent dans ces transformations. La description de ces phénomènes syntaxiques fournit une base pour la classification de ces noms. Elle concerne également les propriétés lexicales de milliers d'adjectifs prédicatifs, et en particulier les relations entre la phrase sans nom : Le lit était petit et la phrase adjectivale qui comporte le nom : La taille du lit était petite.

Mots-clés : lexique-grammaire, syntaxe, lexicologie.

1997. "Les Mots. Un demi-siècle de traitements", Traitement automatique des langues (t.a.l.) 38(2), État de l'art, Paris : ATALA, pp. 47-68. [Accès INIST]

Résumé. Nous passons en revue les objectifs utilisés, les résultats atteints, les données construites et les méthodes utilisées dans les domaines du traitement automatique des langues où on peut considérer les mots comme l'unité fondamentale. L'ambition de cette évaluation critique est de contribuer à orienter les efforts de recherche et de développement dans une direction aussi prometteuse que possible en termes de résultats applicatifs.

Mots-clés : langues naturelles.

1998. "Lexical disambiguation with fine-grained tagsets", in J. Ginzburg et al., ed., The Tbilisi Symposium in Logic, Language and Computation: Selected Papers. 19-22 October 1995, Gudauri, Georgia. Studies in Logic, Language and Information, Cambridge: Cambridge University Press ; & Stanford: CSLI & FoLLI, pp. 203-210.

Résumé. Nous décrivons les modèles mathématiques sous-jacents à deux méthodes de levée d'ambiguïtés lexicales par contraintes utilisant des jeux d'étiquettes étendus et des automates finis. Ce sont des variantes plus puissantes des méthodes décrites dans Roche 1992 et Silberztein 1993. Toutes les deux ont un pouvoir expressif équivalent à celui des automates finis.

Mots-clés : langues naturelles, ambiguïtés lexicales, automates finis.

Strahil Ristov, Éric Laporte, 1999. "Ziv Lempel Compression of Huge Natural Language Data Tries Using Suffix Arrays", in LNCS 1645, Combinatorial Pattern Matching, 10th Annual Symposium, Warwick University, UK, July 1999, Proceedings, M. Crochemore, M. Paterson, eds., Berlin: Springer, pp. 196-211. 949 Ko.

Résumé. Nous présentons une structure de données très efficace en espace et en temps d'accès pour stocker de très gros fichiers de données sur les langues naturelles. La structure est décrite comme un arbre lexicographique mis sous forme de liste chaînée et comprimé suivant la méthode de Ziv et Lempel. Cette technique de compression va au-delà de celle des automates finis acycliques. Nous l'utilisons pour stocker le DELAF, un très grand dictionnaire du français qui associe à chaque mot des informations lexicales grammaticales et syntaxiques. La structure comprimée peut être produite en temps O(N) en utilisant des arbres de suffixes pour trouver des répétitions dans l'arbre lexicographique. Pour les grands fichiers de données, la consommation de mémoire est plus préoccupante que le temps, c'est pourquoi nous utilisons plutôt des tableaux de suffixes, avec un temps de compression de O(N log N) pour tous les fichiers de données sauf le plus gros.

Mots-clés : compression, langues naturelles.

Éric Laporte, Anne Monceaux, 1998-1999. "Elimination of lexical ambiguities by grammars. The ELAG system", Lingvisticae Investigationes XXII, Amsterdam-Philadelphie : Benjamins, pp. 341-367. Ingenta link. RTF (1 Mo).

Résumé. Nous présentons un nouveau formalisme compatible avec INTEX pour la description des contraintes distributionnelles, ELAG. Ce formalisme permet de confronter les contraintes à du texte et de lever ainsi une partie de son ambiguïté lexicale. Nous décrivons les principales propriétés d'ELAG et nous les illustrons par des exemples de règles simples formalisant des contraintes exploitables. Nous spécifions en détail l'effet de l'application d'une règle ou d'une grammaire ELAG à un texte. Nous examinons les propriétés pratiques du formalisme du point de vue des auteurs de règles. Nous décrivons notre procédure d'évaluation des résultats de la levée d'ambiguïtés.

Mots-clés : langues naturelles, ambiguïtés lexicales, automates finis.

2000. "Mots et niveau lexical", in J.M. Pierrel, éd., Ingénierie des langues. Série Informatique et systèmes d'information, Paris : Hermès, pp. 25-49.

Résumé. Cet ouvrage fait partie d'un traité encyclopédique en 120 volumes, intitulé Information - Commande - Communication et qui décrit l'état de l'art dans plusieurs domaines de l'ingénierie. Le premier chapitre du volume sur l'ingénierie des langues est une synthèse qui montre que le niveau lexical se trouve au centre des problématiques sous-jacentes à bon nombre d'enjeux applicatifs (vérification et correction orthographiques, indexation, concordanciers etc.). Puis il présente les principaux outils actuels, en termes de méthodes, de formalismes et de données, qui permettent de prendre en charge ces aspects, avant de conclure en dessinant quelques directions de recherches actuelles, les unes à forte dominante théorique, d'autres empiriques car fondées sur des travaux descriptifs "en vraie grandeur", et d'autres encore qui misent sur la notion d'optimisation.

Mots-clés : langues naturelles, ressources lexicales.

2000. "A Lingüística para o processamento das línguas", Recortes Lingüísticos, A. Silva e M. Lins (eds.), Vitória, Brésil : Saberes, pp. 67-75. Conférence prononcée à l'Université fédérale de l'Espírito Santo, avril 2000.

Résumé. Ce chapitre est une synthèse à but pédagogique qui présente le lexique-grammaire et sa place par rapport au traitement automatique des textes. Quelques exemples d'applications informatiques situent les objectifs visés et les difficultés rencontrées. Le lexique-grammaire est introduit comme une méthode de description syntaxique conçue pour donner des résultats suffisamment formels et suffisamment simples pour servir de modèle sous-jacent à des traitements informatiques. Les principales notions qui permettent d'assurer cette formalisation et cette simplicité sont :
- une orientation vers les faits directement observables, en l'occurrence l'acceptabilité ou l'inacceptabilité des formes linguistiques, plutôt que vers le commentaire explicatif ou intuitif ;
- la notion de transformation syntaxique, qui permet de représenter des constructions syntaxiques de façon différentielle par rapport à une construction prise comme référence ;
- la description systématique du lexique, rendue nécessaire par les différences de propriétés syntaxiques entre entrées lexicales ;
- le choix de la phrase élémentaire, et non du mot isolé, comme cadre minimal de description.
Lorsqu'un traitement informatique du texte prend comme modèle sous-jacent le lexique-grammaire, les problèmes informatiques rencontrés sont spécifiques, citons :
- la compression de lexiques avec accès rapide ;
- la traduction de tables de propriétés, élaborées à la main par les linguistes, en grammaires directement applicables au texte ;
- la représentation compacte d'analyses hypothétiques concurrentes d'un même texte ;
- l'analyse syntaxique non déterministe, c'est-à-dire avec recensement des ambiguïtés.
Ce type de problèmes oriente vers certains domaines classiques de l'algorithmique plutôt que vers d’autres : la théorie des automates finis, par exemple, intervient de façon récurrente, alors que le calcul des probabilités n’est d’aucun secours.

Mots-clés : syntaxe, traitement des langues naturelles.

2001. "Reduction of lexical ambiguity", Lingvisticae Investigationes XXIV:1, Amsterdam-Philadelphie : Benjamins, pp. 67-103. RTF.

Résumé. Nous examinons plusieurs des problèmes rencontrés lors de l'élaboration de systèmes de levée d'ambiguïtés lexicales, y compris des problèmes liés aux analyses linguistiques sous-jacentes à ces systèmes, et nous les illustrons par des exemples de contraintes grammaticales. Nous examinons également plusieurs problèmes informatiques : l'influence de la granularité des jeux d'étiquettes, la définition d'objectifs réalistes et utiles, et la construction des données nécessaires à la réduction des ambiguïtés, et nous montrons comment ils s'articulent avec les problèmes linguistiques. Nous montrons pourquoi la réduction automatique des ambiguïtés nécessite un formalisme, nous analysons sa fonction et nous présentons une typologie de tels formalismes.

Mots-clés : langues naturelles, ambiguïtés lexicales.

2001. Éric Laporte, Claude Martineau, Marc Zipstein. Compactage des données, Rapport final, Transweb 2, Université de Marne-la-Vallée, 12 p. + annexes.

Résumé. Ce rapport propose un algorithme de compression de textes permettant une interrogation rapide des données comprimées. Cet algorithme est un élément essentiel d’un projet de traduction par textes mémorisés. Nous avons adapté l'algorithme de Huffman à des données textuelles, en considérant les mots comme les éléments d'un nouvel alphabet. Il a été nécessaire de distinguer deux sous-alphabets, l'un pour les mots de la langue, l'autre pour les signes de ponctuation. Le texte comprimé est constitué de deux parties, l’une des deux servant d’index d’accès à l’autre. L’index est comprimé sous la forme d’un arbre lexicographique, puis cet arbre est à nouveau comprimé à l’aide de l’algorithme PPM d’ordre 2. Dans les essais effectués, le texte comprimé occupe 25 à 33 % du texte de départ, ce qui est comparable à l’algorithme PPM d’ordre 3 (24 à 32 % pour les mêmes textes), mais avec l’accès rapide.

Mots-clés : compression de textes.

Maria Carmelita P. Dias, Éric Laporte, Christian Leclère, 2006. "Verbs with very strictly selected complements", Collocations and Idioms: The First Nordic Conference on Syntactic Freezes, University of Joensuu, Finland.

Résumé. Nous étudions les caractéristiques et le comportement de deux classes parallèles de verbes dans deux langues romanes, le français et le portugais. On peut citer comme exemples de ces classes le port. abater [gado] et le fr. abattre [bétail], qui ont le même sens. Dans les deux langues, la définition de la classe de verbes inclut plusieurs propriétés :
- Ils ont un complément essentiel unique, qui est un objet direct.
- La distribution nominale du complément est très limitée, c'est-à-dire que peu de noms peuvent être sélectionnés comme nom tête du complément. Cependant, cette sélection n'est pas réduite à un nom unique, comme ce serait le cas pour des expressions verbales figées telles que le fr. monter la garde .
- Nous avons exclu de la classe les constructions qui sont des réductions de constructions plus complexes, comme le port. afinar [instrumento] com "accorder [instrument] avec".

Mots-clés : expressions multi-mots, syntaxe, français, portugais, lexique-grammaire.

Éric Laporte