Publications d'Éric Laporte

Publications d'Éric Laporte

1986-1989
1990-1994
1995-1999
2000-2004
2005-

1986-1989

Danlos, Laurence, Françoise Émerard, Éric Laporte, 1986. "Synthesis of Spoken Messages from Semantic Representations (Semantic-Representation-to-Speech System)", Proceedings of Coling 1986, Bonn, pp. 599-604. doi:10.3115/991365.991540

1986. "Applications de la morphophonologie à la production automatique de textes phonétiques", Lexiques et traitement automatique des langages, Actes du séminaire, GRECO "Communication parlée" et GALF, Université Paul-Sabatier, Toulouse, 12 p.

1987. "Prise en compte des variations phonétiques en reconnaissance de la parole", Actes des 16es Journées d'étude sur la parole, Société française d'acoustique, Hammamet, pp.153-156.

1987. "Représentation formelle d'informations phonétiques", Dictionnaires électroniques et analyse automatique du français, Rapport 4 du Programme de recherches coordonnées "Informatique linguistique", LADL, Université Paris 7, pp.21-57.

1987. Notice bibliographique sur Phonétique historique du français, Gaston Zink, 1986, Lingvisticae Investigationes XI:2, Amsterdam-Philadelphie : Benjamins, p. 427.

1988. "La reconnaissance des expressions figées lors de l'analyse automatique", Langages 90, Les expressions figées, Laurence Danlos éd., Paris : Larousse, pp.117-126.

1988. Méthodes algorithmiques et lexicales de phonétisation de textes. Applications au français, Thèse de doctorat, Université Paris 7, 162 p. + vol. 2 (annexes).

1988. Phonétisation de textes par un réseau connexionniste, Rapport interne, LIMSI, Orsay, 21 p.

1989. "Applications of Phonetic Description", LNCS 377, Electronic Dictionaries and Automata in Computational Linguistics, LITP Spring School on Theoretical Computer Science, Saint-Pierre d'Oléron, France, May 1987, Proceedings, Maurice Gross and Dominique Perrin eds., Berlin-New York: Springer-Verlag, pp.66-78.

Gross, Maurice, Éric Laporte, Marcel-Paul Schützenberger, mai 1989. "La réforme de l'orthographe. L'informatique linguistique teste les qualités des réformes", Pour la science 139, Paris, pp. 6-8.

Éric Laporte, Max Silberztein, 1989. "Vérification et correction orthographiques assistées par ordinateur", Actes de la Convention "Intelligence artificielle 1989", Paris : Hermès, vol. 1, pp. 283-298.

1989. "Quelques variations phonétiques en français", Lingvisticae Investigationes XIII:1, Amsterdam-Philadelphie: Benjamins, pp. 43-116.

1989. "La phonétisation automatique de textes français", La description des langues naturelles en vue d'applications linguistiques, Actes du colloque, Conrad Ouellon éd., CIRB, Université Laval, Québec, pp. 187-196.

1989. "La flexion en français : conjugaisons, pluriels, féminins", Linguistica communicatio, vol. 1, no. 2, Faculté de lettres, Fez, Maroc, pp. 42-63.

1990-1994

1990. "Le dictionnaire phonémique DELAP", Langue française 87, Dictionnaires électroniques du français, Blandine Courtois et Max Silberztein éds., Paris : Larousse, pp. 59-70.

Éric Laporte, éd., 1990. Recueil de tables de noms prédicatifs, Rapport technique 22 du LADL, Paris.

1991. "A Formal Tool for Modelling "Standard" Phonetic Variations", The Phonetics and Phonology of Speaking Styles: Reduction and Elaboration in Speech Communication, Joaquim Llisterri ed., Barcelona: ESCA, pp. 39-1 à 39-7.

Courtois, Blandine, Maurice Gross, Éric Laporte, Max Silberztein, 1991. Étude et développement d'extensions d'un système de vérification orthographique, Rapport final du contrat de recherche 88 S075, LADL, 16 p.

1991. "Extending the Coverage of Derivatives in a Dictionary", 7p.; "Phonetics and Transducers", 3p., Rapport technique 31 du LADL, Paris.

1991. "Une expérience de dépouillement de textes : les mots non reconnus", 1991, Rapport inermédiaire de Genelex-Autogen, pp.1-11.

1991. Règles de phonétisation : format, interprétation, comptages, Rapport interne du CERIL, Évry.

1991. Dictionnaires de formes fléchies phonétiques : présentation, Rapport interne du CERIL, Évry.

1992. "Adjectifs en -ant dérivés de verbes", Langue française 96, La productivité lexicale, André Dugas et Christian Molinier éds., Paris : Larousse, pp.30-43.

1992. "Phonetic Syllables in French: Combinatorics, Structure and Formal Definitions", Acta Linguistica Hungarica 41 (1-4), Budapest: Akadémiai Kiadí, pp. 175-189.

Alcouffe, Philippe, Éric Laporte, Bruno Revellin-Falcoz, Laurence Zaysser, 1992. Dictionnaire Dioxydes. Les données syntaxiques, Rapport interne de Genelex, 215 p.

1992. "Genelex doit-il proposer un alphabet phonémique ?", Enrichissement de dictionnaires, Rapport interne de Genelex, 3 p.

1992. La constitution du dictionnaire de base Genelex, Rapport interne de Genelex, 5 p. + 18 p. annexes.

1992. Phonétisation par transducteurs non déterministes, Rapport interne de l'Institut Gaspard-Monge, Université de Marne-la-Vallée.

1993. "Separating Entries in Electronic Dictionaries of French", Sprache - Kommunikation - Informatik. Akten des 26. Linguistischen Kolloquiums, Poznan 1991, J. Darski and Z. Vetulani eds., Tübingen: Max Niemeyer, pp. 173-179.

1993. Phonétique et transducteurs. Mémoire d'habilitation, Université Paris 7, 21p. + articles.

1994. "Experiments in Lexical Disambiguation Using Local Grammars", Papers in Computational Lexicography, COMPLEX '94, Ferenc Kiefer, Gabor Kiss and Julia Pajzs eds., Budapest: Linguistics Institute of the Hungarian Academy of Sciences, pp. 163-172.

1994. "Levée d'ambiguïtés par grammaires locales", in Lexiques-grammaires comparés en français. Actes du Colloque international de Montréal (3-5 juin 1992), J. Labelle et Ch. Leclère éds., Lingvisticae Investigationes Supplementa 17, Amsterdam/Philadelphie: Benjamins, pp. 97-114.

1995-1999

1995. "Appropriate nouns with obligatory modifiers", Language Research 31(2), Seoul National University, ISSN 0254-4474, pp. 251-289. Version française parue dans Langages 126.

Éric Laporte, éd., 1995. Periodic Progress Report. Project Copernicus 621 GRAMLEX. University Paris 7, LADL, 83 p.

Éric Laporte, Max Silberztein, 1995. Analysis of French corpora. GRAMLEX report no. 3A1, 14 p.

1996. "Context-free parsing with finite-state transducers", in Proceedings of the 3rd South American Workshop on String Processing, N. Ziviani et al. (eds.), International Informatics Series 4, Montréal : McGill-Queen's University Press; & Ottawa: Carleton University Press, pp. 171-182.

1996. "Évaluation de la levée d'ambiguïtés lexicales", in LINX 34-35, Lexique, syntaxe et analyse automatique des textes. Hommage à Jean Dubois, Nanterre: Université Paris X, pp. 291-305.

1996. "How many syllables are frequent?", Rapport technique 96-12, IGM, 10 p.

Éric Laporte, ed., 1996. Project Copernicus 621 GRAMLEX. Deliverables. October 1995-June 1996. University Paris 7, LADL, 197 p.

Blandine Courtois, Éric Laporte, Alexis Némé, 1996. Acquisition programs for lexical data. GRAMLEX report no. 1A2, 30 p.

Éric Laporte, Max Silberztein, 1996. Ambiguity rates. GRAMLEX report no. 3A2, 7 p. [PDF (1,7 Mo)]

1996. Construction of concordances sorted by lemmata of French text corpora. GRAMLEX report no. 3A3, 5 p.

1996. Separation of homographic entries. GRAMLEX report no. 4A2, 16 p.

Blandine Courtois, Éric Laporte, 1996. Grammatical disambiguation of French words using part of speech of words in context. GRAMLEX report no. 3D1, 10 p. + 68 p. annex.

Éric Laporte, ed., 1996. Project Copernicus 621 GRAMLEX. Deliverables. June-December 1996. University Paris 7, LADL, 206 p.

Éric Laporte, Mario Monteleone, 1996. Morphological dictionaries in the framework of the two-level model. French and Italian. GRAMLEX report no. 1G1-1J1, 39 p.

Éric Laporte, Mario Monteleone, 1996. Experimentation of the two-level model for French and Italian morphology. GRAMLEX report no. 1G2-1J2, 6 p.

1997. "Rational Transductions for Phonetic Conversion and Phonology", in E. Roche and Y.Schabès eds., Finite-State Language Processing, chap. 14. Language, Speech and Communication series. Cambridge: MIT Press, pp. 407-429.

1997. "Les Mots. Un demi-siècle de traitements", Traitement automatique des langues 38(2), État de l'art, Paris : ATALA, pp. 47-68.

Éric Laporte, Anne Monceaux, 1997. Grammatical disambiguation of French words using part of speech, inflectional features and lemma of words in the context. GRAMLEX report no. 3D2, 11 p.

1997. "Noms appropriés à modifieur obligatoire", Langages 126, La description syntaxique des adjectifs pour les traitements informatiques, Nam Jee-sun éd., Paris : Larousse, pp. 79-104. Version française de l'article de 1995 dans Language Research 31(2).

1997. "Phonology and Electronic Lexicon: Processing of Ambiguities", Indo-French Workshop on Natural Language Processing, Hyderabad, March 21-26, 10 p.

Éric Laporte, ed., 1997. Project Copernicus 621 GRAMLEX. Deliverables. December 1996-May 1997. 2. Other tasks. University Paris 7, LADL, 137 p.

Éric Laporte, ed., 1997. Project Copernicus 621 GRAMLEX. Deliverables. May-September 1997. University Paris 7, LADL, 179 p.

1998. "Lexical disambiguation with fine-grained tagsets", in J. Ginzburg et al., ed., The Tbilisi Symposium in Logic, Language and Computation: Selected Papers. 19-22 October 1995, Gudauri, Georgia. Studies in Logic, Language and Information, Cambridge: Cambridge University Press & Stanford: CSLI & FoLLI, pp. 203-210.

1998. Préface de Dictionary Based Methods and Tools for Language Engineering, Vetulani (Z.) et al., Seria Jezykoznawstwo Komputerowe. Poznan : Adam Mickiewicz University Press, pp. 11-12.

Éric Laporte, ed., 1998. Project Copernicus 621 GRAMLEX. Deliverables. October 1997-April 1998. University Paris 7, LADL.

1998. Synthesis of results. GRAMLEX report no. 4E1-4E2, 6 p.

Éric Laporte, éd., 1999. Langages 133, Lexique-grammaire des adjectifs, Paris : Larousse. Présentation, pp. 3-11.

Strahil Ristov, Éric Laporte, 1999. "Ziv Lempel Compression of Huge Natural Language Data Tries Using Suffix Arrays", in LNCS 1645, Combinatorial Pattern Matching, 10th Annual Symposium, Warwick University, UK, July 1999, Proceedings, M. Crochemore, M. Paterson, eds., Berlin: Springer, pp. 196-211.

Éric Laporte, Anne Monceaux, 1999. "Elimination of lexical ambiguities by grammars. The ELAG system", Lingvisticae Investigationes XXII, Amsterdam-Philadelphie : Benjamins, pp. 341-367.

2000-2004

Strahil Ristov, Éric Laporte, 2000. "Ziv Lempel Compression of Huge Natural Language Data Tries Using Suffix Arrays", Journal of Discrete Algorithms, 1 (1), M. Crochemore, L. Gasieniec, eds., Oxford: Hermes, pp. 241-256.

2000. "Mots et niveau lexical", in J.M. Pierrel, éd., Ingénierie des langues. Série Informatique et systèmes d'information, Paris : Hermès, pp. 25-49.

2000. "A Lingüística para o processamento das línguas", Recortes Lingüísticos, A. Silva e M. Lins (eds.), Vitória, Brésil : Saberes, pp. 67-75. Conférence prononcée à l'Université fédérale de l'Espírito Santo, avril 2000.

2001. "Resolução de ambiguidades", in E. Ranchhod, éd., Tratamento das Línguas por Computador. Uma introdução à Linguística Computacional e suas aplicações. Lisbonne : Caminho, pp. 49-89 (une version anglaise est parue dans Lingvisticae Investigationes XXIV:1).

Éric Laporte, Claude Martineau, Marc Zipstein, 2001. Compactage des données, Rapport final, Transweb 2, Université de Marne-la-Vallée, 12 p. + annexes.

2001. "Reduction of lexical ambiguity", Lingvisticae Investigationes XXIV:1, Amsterdam-Philadelphie : Benjamins, pp. 67-103.

Strahil Ristov, Éric Laporte, 2002. "A Method for Compressing Lexicons", Communication affichée, Data Compression Conference (DCC), Snowbird, Utah, IEEE Computer Society Press, p. 471. PS (70 Ko).

Ken Beesley, Lauri Karttunen, Eric Laporte, Kemal Oflazer, eds., 2003. Machine Translation 18:3, September 2003, Special Issue, Finite-State Language Resources and Language Processing, Springer Netherlands, 78 p.

Christian Leclère, Eric Laporte, Mireille Piot, Max Silberztein, eds., 2004. Syntax, Lexis and Lexicon-Grammar. Papers in honour of Maurice Gross, Lingvisticae Investigationes Supplementa 24, Amsterdam-Philadelphie : Benjamins, 22 + 659 p. Compte-rendu par Thierry Fontenelle. Compte-rendu par Sara Vecchiato dans Studi Francesi 150 (2006).

2004. "Restructuration and the subject of adjectives", in Syntax, Lexis and Lexicon-Grammar. Papers in honour of Maurice Gross, Lingvisticae Investigationes Supplementa 24, Amsterdam-Philadelphie : Benjamins, pp. 373-388. Fichiers comprimés (32 Ko).

2004. Préface de Syntax, Lexis and Lexicon-Grammar. Papers in honour of Maurice Gross, Lingvisticae Investigationes Supplementa 24, Amsterdam-Philadelphie : Benjamins, pp. xi-xxi. 55 Ko.

2004. "Acceptability as the source of syntactic knowledge", Journal of Applied Linguistics, October 2004, Special Issue on Lexicon-Grammar, Pékin : Institut de Linguistique appliquée, pp. 9-22 (en chinois).

Eric Laporte, Cheng Ting-au, eds., 2004. Journal of Applied Linguistics, October 2004, Special Issue on Lexicon-Grammar, Pékin : Institut de Linguistique appliquée, 160 p. (en chinois).

2004. "Uma descrição sintática e semântica dos adjetivos do francês para aplicações computacionais", PaLavra 12, Série Langage, volume thématique : Processamento Automático do Português, DIAS, Maria Carmelita & QUENTAL, Violeta (éd.), ISSN 1413-7763, Rio de Janeiro : Galo Branco, pp. 91-105.

2005-

2005. "Symbolic Natural Language Processing", in Applied Combinatorics on Words, Lothaire, Chapter 3, Cambridge University Press, pp. 164-209. PS (2,1 Mo).

2005. "Une classe d'adjectifs de localisation", in Cahiers de lexicologie 86, Les adjectifs non prédicatifs, Paris : Garnier, pp. 145-161.

2005. "Lexicon management and standard formats", Archives of Control Sciences 15:3, pp. 329-340; aussi dans Proceedings of the Language and Technology Conference, Poznan (Pologne): Université Adam Mickiewicz, pp. 318-322.

2005. "In Memoriam Maurice Gross", Archives of Control Sciences 15:3, pp. 257-278; conférence invitée, Language and Technology Conference, résumé p. XX des Actes, Poznan (Pologne) : Université Adam Mickiewicz.

Marcelo C.M. Muniz, Maria das Graças V. Nunes, Eric Laporte, 2005. "UNITEX-PB, a set of flexible language resources for Brazilian Portuguese", Proceedings of the Workshop on Technology of Information and Human Language (TIL), São Leopoldo (Brésil) : Unisinos, pp. 2059-2068.

Hyun-gue HUH, Eric Laporte, 2005. "A Resource-Based Korean morphological annotation system", Communication affichée, Companion to the Proceedings of the International Joint Conference on Natural Language Processing (IJCNLP), Jeju (Corée), pp. 37-42.

Hyun-gue HUH, Éric Laporte. 2005. "Morphological annotation of Korean with Maintainable Resources", Dicora Annual Meeting, Hankuk University of Foreign Studies, Seoul, pp. 14-18.

2005. "Graphes paramétrés et lexique-grammaire", conférence prononcée à la Journée de l'Atala "Interface lexique-grammaire et lexiques syntaxiques et sémantiques", 12 mars 2005.

Duško Vitas, Cvetana Krstev, Éric Laporte. 2006. "Preparation and exploitation of bilingual texts", Lux Coreana 1, Paris : Han-Seine, pp. 110-132.

Maria Carmelita P. Dias, Éric Laporte, Christian Leclère. 2006. "Verbs with very strictly selected complements", Collocations and Idioms: The First Nordic Conference on Syntactic Freezes, University of Joensuu, Finland.

Ivan Berlocher, Hyun-gue HUH, Éric Laporte, Jee-sun NAM. 2006. "Morphological annotation of Korean with Directly Maintainable Resources", Communication affichée, Proceedings of LREC, Genoa.

Olivier Blanc, Matthieu Constant, Éric Laporte. 2006. "Outilex, plate-forme logicielle de traitement de textes écrits", Verbum ex machina. Actes de TALN, Collection Cahiers du Cental, 2(1), Presses universitaires de Louvain, pp. 83-92.

Éric Laporte, Sébastien Paumier. 2006. "Graphes paramétrés et outils de lexicalisation", Communication affichée, Verbum ex machina. Actes de TALN, Collection Cahiers du Cental, 2(1), Presses universitaires de Louvain, pp. 532-540.

Éric Laporte, Christian Leclère, Maria Carmelita P. Dias. 2006. "Very strict selectional restrictions. A Comparison between Portuguese and French", Proceedings of the Workshop on Computational Processing of Written and Spoken Portuguese (PROPOR), Itatiaia (RJ), Brésil, LNCS 3960, Springer, pp. 225-228.

2006. "Methodological provisions in the construction of idiom resources", conférence invitée au colloque "Collocations and idioms 2006: linguistic, computational, and psycholinguistic perspectives", 3 novembre 2006, Académie des Sciences de Berlin-Brandebourg.

2007. "Extension of a Grammar of French Determiners", Actes du 26^e Colloque international Lexique Grammaire, Bonifacio, Camugli, Constant, Dister (éd.), pp. 65-72.

2007. "Evaluation of a Grammar of French Determiners", Annales du 27^e Congrès de la Société brésilienne de calcul, Rencontres sur la Technologie de l'information et le langage humain (TIL), Rio de Janeiro.

2007. Préface de Lexicon-Grammar of Korean Adjectives (en coréen), de Nam Jee-sun, Séoul : Hankookmunhwasa, pp. 17-19.

2008 (à paraître). "Words and lexical level", in J.M. Pierrel, éd., Language engineering. Londres : ISTE. Traduction de Laporte (2000).

2008. "Exemples attestés et exemples construits dans la pratique du lexique-grammaire", Mémoires de la Société de linguistique de Paris, Nouvelle série, vol. 16. Observations et manipulations en linguistique: entre concurrence et complémentarité, sous la direction de Jacques François. Louvain/Paris/Dudley : Peeters, pp. 11–32. Conférence prononcée à Paris en janvier 2007. ISBN 978-90-429-2161-0.

Mes publications plus récentes sont listées sur les pages de l'Équipe d'Informatique linguistique du LIGM.

Éric Laporte

Résumés

Danlos, Laurence, Françoise Émerard, Éric Laporte, 1986. "Synthesis of Spoken Messages from Semantic Representations (Semantic-Representation-to-Speech System)", Proceedings of Coling 1986, Bonn, pp. 599-604. doi:10.3115/991365.991540

Résumé. Un système de synthèse de parole à partir de représentations sémantiques communique oralement les informations codées dans une représentation sémantique. Un tel système doit comprendre un module de génération de textes, un module de phonétisation, un module prosodique et un synthétiseur de parole. Nous montrons comment les informations syntaxiques élaborées par le module de génération de textes sont utilisées pour la phonétisation et la prosodie, afin de produire les données à fournir au synthétiseur de parole, à savoir une chaîne phonétique augmentée d'informations prosodiques.

Mots-clés : langues naturelles, phonétique, génération de textes, synthèse de la parole.

1987. "Prise en compte des variations phonétiques en reconnaissance de la parole", Actes des 16es Journées d'étude sur la parole, Société française d'acoustique, Hammamet, pp. 153-156.

Résumé. Cet article est consacré aux méthodes de prise en compte des variations phonétiques dans les systèmes de reconnaissance de la parole. Nous nous intéressons à plusieurs méthodes de reconnaissance, mais plus particulièrement aux systèmes fondés sur la reconnaissance de motifs et dans lesquels l'unité de décision est la portion de parole comprise entre deux centres syllabiques adjacents. Cette méthode nécessite des données phonétiques, notamment une liste de références, qui devrait contenir les variantes. Cette méthode met en évidence l'intérêt applicatif d'une description précise et systématique des variantes. À titre d'exemple d'une telle description, nous présentons une étude détaillée de certaines alternances phonétiques liées aux hiatus en français.

Mots-clés : langues naturelles, phonétique, phonologie, reconnaissance de la parole.

1988. Méthodes algorithmiques et lexicales de phonétisation de textes. Applications au français, Thèse de doctorat, Université Paris 7, 162 p. + vol. 2 (annexes).

Résumé. La phonétisation automatique est la production de transcriptions phonétiques à partir de textes ou de mots écrits. Les procédures qui effectuent cette transcription sont destinées soit à permettre l'utilisation de la parole dans la communication entre l'homme et la machine, soit à faciliter la correction de certaines fautes d'orthographe.
Cette thèse expose les méthodes de phonétisation automatique. Certaines de ces méthodes sont fondées sur des algorithmes et des systèmes de règles, les autres sur des dictionnaires phonétiques.
Un dictionnaire phonémique électronique a été réalisé, ainsi que les algorithmes nécessaires à sa gestion et à son utilisation. Nous exposons les solutions qui nous ont permis de satisfaire deux exigences fondamentales :
- incorporer dans le dictionnaire un ensemble de mots représentatif du français (64 000 entrées),
- élaborer le contenu phonétique du dictionnaire avec la précision et la cohérence requises pour l'exploitation informatique.
Un algorithme de phonétisation par règles a été construit sous la forme d'un transducteur. Ce système spécifie en détail la correspondance entre l'orthographe et la phonétique. En relation étroite avec le dictionnaire, il inclut les règles et les exceptions qui se dégagent de l'examen de ses 64 000 entrées.
Les conjugaisons et les variations en genre et en nombre ont été prises en compte dans un programme qui produit des transcriptions phonétiques de toutes ces formes. Par aileurs, nous donnons les représentations formelles de plusieurs familles de variations phonétiques : l'effacement de consonnes finales et les alternances entre synérèse et diérèse.
Enfin, les algorithmes et les données sont été expoités dans des applications informatiques : un système de génération de messges oraux et un système d'aide à la correction orthographique.
Un volume d'annexes regroupe l'algorithme de phonétisation et des échantillons du dictionnaire.

Mots-clés : lexique, langues naturelles, phonétique, phonologie, traitement de la parole.

1988. "La reconnaissance des expressions figées lors de l'analyse automatique", Langages 90, Les expressions figées, Laurence Danlos éd., Paris : Larousse, pp. 117-126.

Résumé. Les expressions figées empêchent d'atteindre un niveau opératoire tout système de traitement automatique des langues naturelles conçu à partir de la compositionnalité des expressions libres. Cet article aborde le problème de la reconnaissance des expressions figées, problème crucial pour tout système de correction orthographique, de recherche documentaire, de traduction automatique ou d'interrogation de bases de données, et problème qui demande que le système ait accès à des descriptions formelles telles que celles accumulées au LADL.

Mots-clés : lexique-grammaire, expressions figées, langues naturelles, analyse syntaxique.

1990. "Le dictionnaire phonémique DELAP", Langue française 87, Dictionnaires électroniques du français, Blandine Courtois et Max Silberztein éds., Paris : Larousse, pp. 59-70.

Résumé. Le Dictionnaire électronique du LADL pour les représentations phonémiques (DELAP) comporte les mêmes entrées que le DELAS, mais il leur associe des informations concernant leur prononciation et leurs variations phonétiques. Nous présentons le dictionnaire, et discutons plus particulièrement certains problèmes posés par les variations phonétiques, les relations entre transcriptions phonétiques et la réalité observable, la correspondance entre les transcriptions phonétiques et phonémiques ; nous présentons ensuite les algorithmes qui formalisent et réalisent cette correspondance.

Mots-clés : phonétique, phonologie, lexicologie.

1992. "Adjectifs en -ant dérivés de verbes", Langue française 96, La productivité lexicale, André Dugas et Christian Molinier éds., Paris : Larousse, pp. 30-43.

Résumé. Nous étudions des points de vue syntaxique et morphologique la transformation entre phrases verbales et phrases adjectivales construites autour des adjectifs dérivés en -ant (L'ablette frétille = L'ablette est frétillante). L'examen de 1684 emplois verbaux définis dans des constructions intransitives et transitives indirectes permet de recenser 280 exemples de ce type. Nous constatons que cette dérivation transformationnelle est régulière et productive dans la mesure où l'acceptabilité, la structure et les propriétés de la phrase adjectivale se déduisent le plus souvent de la phrase verbale. Mais cette régularité et cette productivité ne sont pas absolues : certains empois verbaux n'ont pas de dérivés en -ant (Cette plante végète, *Cette plante est végétante), et dans de nombreux cas, les propriétés de la phrase adjectivale ne sont pas déductibles d'autres informations syntaxiques concernant la phrase verbale. Il convient donc de noter, dans les tables, ces propriétés des phrases adjectivales.

Mots-clés : lexique-grammaire, syntaxe, morphologie dérivationnelle, lexicologie.

1993. "Separating Entries in Electronic Dictionaries of French", Sprache - Kommunikation - Informatik. Akten des 26. Linguistischen Kolloquiums, Poznan 1991, J. Darski and Z. Vetulani eds., Tübingen: Max Niemeyer, pp. 173-179.

Abstract. One can note a growing need for natural language processing (NLP) systems able to cope with large texts. With this evolution, large NLP dictionaries are required. Constructors of dictionaries therefore have to pay attention both to extensive coverage and complete formalization of the data. An important type of lexicographical decision is whether to separate a set of homnographic words into distinct entries or to merge them into one entry. We examine criteria of separation in two cases: morpho-syntactic dictionaries and lexicon-grammars.

Keywords : lexicon-grammar, syntax, morphosyntax, lexicology, NLP dictionary, e-dictionary, lexical entry.

1994. "Experiments in Lexical Disambiguation Using Local Grammars", Papers in Computational Lexicography, COMPLEX '94, Ferenc Kiefer, Gabor Kiss and Julia Pajzs eds., Budapest: Linguistics Institute of the Hungarian Academy of Sciences, pp.163-172.

Résumé. La levée d'ambiguïtés est l'un des principaux défis auxquels sont confrontés les concepteurs de sustèmes d'étiquetage de mots en vue du traitement du texte écrit. Les algorithmes de levée d'ambiguïtés grammaticales réduisent le nombre d'étiquettes possibles. Nous considérons dans cet article un cadre de travail dans lequel un dictionnaire grammatical à large couverture est consulté pour associer à chaque élément lexical du texte, mot simple ou mot composé, l'ensemble des étiquettes grammaticales a priori possibles pour lui. (Un tel cadre pout le français est maintenant intégré sous la forme du système Intex.) Ce problème a été exploré par M. Silberztein (1989) et E. Roche (1992). Nous donnons des descriptions formelles de leurs deux algorithmes. Leur arrière-plan et leur objectif communs sont frappants. Cependant, ils présentent de véritables différences formelles et pratiques. Du point de vue formel, nous comparons la puissance expressive des deux algorithmes. D'un point de vue pratique, nous examinons s'ils sont plus particulièrement adaptés à un type spécifique d'ambiguïtés grammaticales.

Mots-clés : langues naturelles, analyse lexicale, ambiguïté lexicale, automates finis.

1996. "Context-free parsing with finite-state transducers", in Proceedings of the 3rd South American Workshop on String Processing, N. Ziviani et al. (eds.), International Informatics Series 4, Montréal : McGill-Queen's University Press; & Ottawa: Carleton University Press, pp. 171-182. 190 Ko.

Résumé. Cet article étudie un algorithme conçu et mis en oeuvre par Roche pour l'analyse syntaxique de phrases en langues naturelles selon une grammaire algébrique. Cet algorithme est fondé sur la construction et l'utilisation d'un transducteur fini. Roche l'a appliqué avec succès à une grammaire algébrique aux règles très nombreuses. En pratique, habituellement, la complexité de l'analyse syntaxique de séquences selon des grammaires algébriques est considérée, au contraire, comme une fonction d'un unique paramètre : la longueur de la séquence à analyser ; la taille de la grammaire est généralement considérée comme une constante d'une taille raisonnable. Dans cet article, nous expliquons d'abord pourquoi une grammaire algébrique d'une couverture lexicale et grammaticale correcte a nécessairement un très grand nombre de règles et nous évoquons les travaux liés à ce problème. Nous illustrons le principe de l'algorithme de Roche sur une petite grammaire. Nous définissons formellement la construction de l'analyseur syntaxique et le déroulement de l'algorithme et nous prouvons que la construction de l'analyseur syntaxique est possible pour une importante classe de grammaires algébriques, et qu'il donne comme résultat l'ensemble des arbres syntaxiques de la séquence traitée.

Mots-clés : langues naturelles, analyse syntaxique, automates finis, grammaires algébriques.

Éric Laporte, Anne Monceaux, 1997. Grammatical disambiguation of French words using part of speech, inflectional features and lemma of words in the context. GRAMLEX report no. 3D2, 11 p.

Résumé. Nous présentons ELAG (élimination des ambiguïtés lexicales par grammaires), un nouveau système de levée d'ambiguïtés lexicales qui utilise des informations grammaticales sur les mots du contexte. La levée des ambiguïtés s'effectue après l'analyse lexicale du texte traité, mais avant l'analyse syntaxique. Les données linguistiques du système sont organisées en modules séparés, compacts et lisibles, que nous appelons des grammaires de levée d'ambiguïtés. Les effets respectifs de plusieurs grammaires de levée d'ambiguïtés sur un texte à traiter sont indépendants les uns des autres. Cette propriété de la levée d'ambiguïtés est mathématiquement garantie par la formule d'application des grammaires aux phrases. Les effets des grammaires de levée d'ambiguïtés sont cumulatifs : si l'on écrit de nouvelles grammaires et qu'on les utilise avec des grammaires existantes, les effets de l'application de celles-ci ne sont pas modifiés. Plusieurs grammaires peuvent s'appliquer à une même séquence, ou à des séquences qui présentent un chevauchement, ou à des séquences incluses dans d'autres séquences : leurs effets se cumulent. L'ordre d'application des grammaires est indifférent. Les effets d'une grammaire sur les différentes analyses d'une phrase sont indépendants. ELAG est compatible avec INTEX.

Mots-clés : langues naturelles, ambiguïtés lexicales, automates finis.

1997. "Rational Transductions for Phonetic Conversion and Phonology", in E. Roche and Y. Schabès eds., Finite-State Language Processing, chap. 14. Language, Speech and Communication series. Cambridge: MIT Press, pp. 407-429. PS (415 Ko), PDF (310 Ko).

Résumé. La phonétisation, et d'autres problèmes de transcription automatique liés à la phonétique, peuvent être effectués par des outils fondés sur les automates finis. Ce chapitre présente un système de transcription par automates finis, BiPho, qui fait appel à des transducteurs et des bimachines. Les données linguistiques utilisées par ce système sont décrites dans un format lisible et le calcul est efficace. Le système permet la phonétisation du texte français écrit.

Mots-clés : langues naturelles, phonétique, automates finis.

1997. "Noms appropriés à modifieur obligatoire", Langages 126, La description syntaxique des adjectifs pour les traitements informatiques, Nam Jee-sun éd., Paris : Larousse, pp. 79-104 (version française de l'article de 1995 dans Language Research 31(2)).

Résumé. La notion harrissienne de séquence appropriée fournit un moyen syntaxique puissant d'analyser en détail le sens de nombreuses phrases, y compris ambiguës. Dans une phrase adjectivale comme Le lit était petit, l'introduction d'un nom approprié, ici taille, spécifie la qualité décrite par l'adjectif. Dans d'autres phrases adjectivales à nom approprié, ce nom joue le même rôle que taille et semble pertinent à la description de l'adjectif. Ces noms appropriés entrent généralement dans des phrases élémentaires telles que Le lit avait une certaine taille, mais ils ont souvent un modifieur plus ou moins obligatoire. Par exemple, on peut difficilement mentionner qu'un objet a une certaine taille sans qualifier celle-ci d'aucune manière. Environ 300 noms français sont appropriés dans au moins une phrase adjectivale et ont un modifieur obligatoire. Ils entrent dans un certain nombre de structures de phrases reliées par des transformations syntaxiques. Le caractère approprié du nom et le caractère obligatoire du modifieur se reflètent dans ces transformations. La description de ces phénomènes syntaxiques fournit une base pour la classification de ces noms. Elle concerne également les propriétés lexicales de milliers d'adjectifs prédicatifs, et en particulier les relations entre la phrase sans nom : Le lit était petit et la phrase adjectivale qui comporte le nom : La taille du lit était petite.

Mots-clés : lexique-grammaire, syntaxe, lexicologie.

1997. "Les Mots. Un demi-siècle de traitements", Traitement automatique des langues (t.a.l.) 38(2), État de l'art, Paris : ATALA, pp. 47-68. [Accès INIST]

Résumé. Nous passons en revue les objectifs utilisés, les résultats atteints, les données construites et les méthodes utilisées dans les domaines du traitement automatique des langues où on peut considérer les mots comme l'unité fondamentale. L'ambition de cette évaluation critique est de contribuer à orienter les efforts de recherche et de développement dans une direction aussi prometteuse que possible en termes de résultats applicatifs.

Mots-clés : langues naturelles.

1998. "Lexical disambiguation with fine-grained tagsets", in J. Ginzburg et al., ed., The Tbilisi Symposium in Logic, Language and Computation: Selected Papers. 19-22 October 1995, Gudauri, Georgia. Studies in Logic, Language and Information, Cambridge: Cambridge University Press ; & Stanford: CSLI & FoLLI, pp. 203-210.

Résumé. Nous décrivons les modèles mathématiques sous-jacents à deux méthodes de levée d'ambiguïtés lexicales par contraintes utilisant des jeux d'étiquettes étendus et des automates finis. Ce sont des variantes plus puissantes des méthodes décrites dans Roche 1992 et Silberztein 1993. Toutes les deux ont un pouvoir expressif équivalent à celui des automates finis.

Mots-clés : langues naturelles, ambiguïtés lexicales, automates finis.

Strahil Ristov, Éric Laporte, 1999. "Ziv Lempel Compression of Huge Natural Language Data Tries Using Suffix Arrays", in LNCS 1645, Combinatorial Pattern Matching, 10th Annual Symposium, Warwick University, UK, July 1999, Proceedings, M. Crochemore, M. Paterson, eds., Berlin: Springer, pp. 196-211. 949 Ko.

Résumé. Nous présentons une structure de données très efficace en espace et en temps d'accès pour stocker de très gros fichiers de données sur les langues naturelles. La structure est décrite comme un arbre lexicographique mis sous forme de liste chaînée et comprimé suivant la méthode de Ziv et Lempel. Cette technique de compression va au-delà de celle des automates finis acycliques. Nous l'utilisons pour stocker le DELAF, un très grand dictionnaire du français qui associe à chaque mot des informations lexicales grammaticales et syntaxiques. La structure comprimée peut être produite en temps O(N) en utilisant des arbres de suffixes pour trouver des répétitions dans l'arbre lexicographique. Pour les grands fichiers de données, la consommation de mémoire est plus préoccupante que le temps, c'est pourquoi nous utilisons plutôt des tableaux de suffixes, avec un temps de compression de O(N log N) pour tous les fichiers de données sauf le plus gros.

Mots-clés : compression, langues naturelles.

Éric Laporte, Anne Monceaux, 1998-1999. "Elimination of lexical ambiguities by grammars. The ELAG system", Lingvisticae Investigationes XXII, Amsterdam-Philadelphie : Benjamins, pp. 341-367. Ingenta link. RTF (1 Mo).

Résumé. Nous présentons un nouveau formalisme compatible avec INTEX pour la description des contraintes distributionnelles, ELAG. Ce formalisme permet de confronter les contraintes à du texte et de lever ainsi une partie de son ambiguïté lexicale. Nous décrivons les principales propriétés d'ELAG et nous les illustrons par des exemples de règles simples formalisant des contraintes exploitables. Nous spécifions en détail l'effet de l'application d'une règle ou d'une grammaire ELAG à un texte. Nous examinons les propriétés pratiques du formalisme du point de vue des auteurs de règles. Nous décrivons notre procédure d'évaluation des résultats de la levée d'ambiguïtés.

Mots-clés : langues naturelles, ambiguïtés lexicales, automates finis.

2000. "Mots et niveau lexical", in J.M. Pierrel, éd., Ingénierie des langues. Série Informatique et systèmes d'information, Paris : Hermès, pp. 25-49.

Résumé. Cet ouvrage fait partie d'un traité encyclopédique en 120 volumes, intitulé Information - Commande - Communication et qui décrit l'état de l'art dans plusieurs domaines de l'ingénierie. Le premier chapitre du volume sur l'ingénierie des langues est une synthèse qui montre que le niveau lexical se trouve au centre des problématiques sous-jacentes à bon nombre d'enjeux applicatifs (vérification et correction orthographiques, indexation, concordanciers etc.). Puis il présente les principaux outils actuels, en termes de méthodes, de formalismes et de données, qui permettent de prendre en charge ces aspects, avant de conclure en dessinant quelques directions de recherches actuelles, les unes à forte dominante théorique, d'autres empiriques car fondées sur des travaux descriptifs "en vraie grandeur", et d'autres encore qui misent sur la notion d'optimisation.

Mots-clés : langues naturelles, ressources lexicales.

2000. "A Lingüística para o processamento das línguas", Recortes Lingüísticos, A. Silva e M. Lins (eds.), Vitória, Brésil : Saberes, pp. 67-75. Conférence prononcée à l'Université fédérale de l'Espírito Santo, avril 2000.

Résumé. Ce chapitre est une synthèse à but pédagogique qui présente le lexique-grammaire et sa place par rapport au traitement automatique des textes. Quelques exemples d'applications informatiques situent les objectifs visés et les difficultés rencontrées. Le lexique-grammaire est introduit comme une méthode de description syntaxique conçue pour donner des résultats suffisamment formels et suffisamment simples pour servir de modèle sous-jacent à des traitements informatiques. Les principales notions qui permettent d'assurer cette formalisation et cette simplicité sont :
- une orientation vers les faits directement observables, en l'occurrence l'acceptabilité ou l'inacceptabilité des formes linguistiques, plutôt que vers le commentaire explicatif ou intuitif ;
- la notion de transformation syntaxique, qui permet de représenter des constructions syntaxiques de façon différentielle par rapport à une construction prise comme référence ;
- la description systématique du lexique, rendue nécessaire par les différences de propriétés syntaxiques entre entrées lexicales ;
- le choix de la phrase élémentaire, et non du mot isolé, comme cadre minimal de description.
Lorsqu'un traitement informatique du texte prend comme modèle sous-jacent le lexique-grammaire, les problèmes informatiques rencontrés sont spécifiques, citons :
- la compression de lexiques avec accès rapide ;
- la traduction de tables de propriétés, élaborées à la main par les linguistes, en grammaires directement applicables au texte ;
- la représentation compacte d'analyses hypothétiques concurrentes d'un même texte ;
- l'analyse syntaxique non déterministe, c'est-à-dire avec recensement des ambiguïtés.
Ce type de problèmes oriente vers certains domaines classiques de l'algorithmique plutôt que vers d’autres : la théorie des automates finis, par exemple, intervient de façon récurrente, alors que le calcul des probabilités n’est d’aucun secours.

Mots-clés : syntaxe, traitement des langues naturelles.

2001. "Reduction of lexical ambiguity", Lingvisticae Investigationes XXIV:1, Amsterdam-Philadelphie : Benjamins, pp. 67-103. RTF.

Résumé. Nous examinons plusieurs des problèmes rencontrés lors de l'élaboration de systèmes de levée d'ambiguïtés lexicales, y compris des problèmes liés aux analyses linguistiques sous-jacentes à ces systèmes, et nous les illustrons par des exemples de contraintes grammaticales. Nous examinons également plusieurs problèmes informatiques : l'influence de la granularité des jeux d'étiquettes, la définition d'objectifs réalistes et utiles, et la construction des données nécessaires à la réduction des ambiguïtés, et nous montrons comment ils s'articulent avec les problèmes linguistiques. Nous montrons pourquoi la réduction automatique des ambiguïtés nécessite un formalisme, nous analysons sa fonction et nous présentons une typologie de tels formalismes.

Mots-clés : langues naturelles, ambiguïtés lexicales.

2001. Éric Laporte, Claude Martineau, Marc Zipstein. Compactage des données, Rapport final, Transweb 2, Université de Marne-la-Vallée, 12 p. + annexes.

Résumé. Ce rapport propose un algorithme de compression de textes permettant une interrogation rapide des données comprimées. Cet algorithme est un élément essentiel d’un projet de traduction par textes mémorisés. Nous avons adapté l'algorithme de Huffman à des données textuelles, en considérant les mots comme les éléments d'un nouvel alphabet. Il a été nécessaire de distinguer deux sous-alphabets, l'un pour les mots de la langue, l'autre pour les signes de ponctuation. Le texte comprimé est constitué de deux parties, l’une des deux servant d’index d’accès à l’autre. L’index est comprimé sous la forme d’un arbre lexicographique, puis cet arbre est à nouveau comprimé à l’aide de l’algorithme PPM d’ordre 2. Dans les essais effectués, le texte comprimé occupe 25 à 33 % du texte de départ, ce qui est comparable à l’algorithme PPM d’ordre 3 (24 à 32 % pour les mêmes textes), mais avec l’accès rapide.

Mots-clés : compression de textes.

2005. "Une classe d'adjectifs de localisation", in Cahiers de lexicologie 86, Les adjectifs non prédicatifs, Paris : Garnier, pp. 145-161.

Résumé. Nous proposons une classe homogène d'adjectifs de localisation français, ADJLOC, et une description de cette classe par la méthode du lexique-grammaire. Ces adjectifs sont définis comme ceux qui ne constituent jamais un prédicat avec un verbe support, et qui apparaissent facultativement ou obligatoirement dans des phrases libres telles que Ceci est la façade sud de la maison. Les ADJLOC admettent diverses autres constructions syntaxiques. Ainsi, certains apparaissent dans une phrase en avoir liée à une phrase à préposition locative : La voiture a un pare-chocs arrière, La voiture a un pare-chocs dans sa partie arrière. Deux relations de nominalisation mènent à des constructions nominales : Ceci est la partie centrale de l'écran, Ceci est le centre de l'écran, Ceci est la partie du centre de l'écran. Les constructions discutées dans cet article sont représentées dans une table de propriétés syntaxiques.

Mots-clés : lexicologie, adjectif, localisation.

2005. "Lexicon management and standard formats", Archives of Control Sciences 15:3, pp. 329-340; aussi dans Proceedings of the Language and Technology Conference, Poznan (Pologne) : Université Adam Mickiewicz, pp. 318-322.

Résumé. Les normes internationales en préparation pour les modèles de lexiques convergent dans une certaine mesure avec les résultats antérieurs d'autres projets de normalisation. Cependant, leur adéquation (1) à la gestion de lexiques et (2) aux applications fondées sur des lexiques a été peu débattue dans le passé et ne l'est pas plus dans les efforts actuels de normalisation. Nous examinons ces questions. L'Institut Gaspard-Monge a développé des formats XML compatibles avec les normes internationales en construction. Nous présentons des résultats expérimentaux sur l'application de ces formats à des lexiques à large couverture.

Mots-clés : ressources linguistiques, gestion de lexiques, normalisation, flexion, morphologie.

Marcelo C.M. Muniz, Maria das Graças V. Nunes, Eric Laporte, 2005. "UNITEX-PB, a set of flexible language resources for Brazilian Portuguese", in Proceedings of the Workshop on Technology on Information and Human Language (TIL), São Leopoldo (Brésil): Unisinos, pp. 2059-2068.

Résumé. Ce travail documente la conception et le développement de plusieurs ressources linguistiques qui permettent le traitement automatique du portugais du Brésil selon la méthodologie formelle du système de traitement de corpus UNITEX. Les ressources produites comprennent des lexiques électroniques, une bibliothèque de programmes d'accès aux lexiques, et d'autres outils de validation de ces ressources.

Mots-clés : ressources linguistiques, gestion de lexiques, flexion, morphologie.

Hyun-gue HUH, Eric Laporte, 2005. "A Resource-Based Korean morphological annotation system", in Companion to the Proceedings of the International Joint Conference on Natural Language Processing, Jeju (Corée), pp. 37-42.

Résumé. Nous décrivons une méthode d'annotation morphologique du texte coréen écrit fondée sur des ressources linguistiques. Le coréen est une langue agglutinante. Notre système produit un graphe de morphèmes annotés d'informations linguistiques précises et exactes. Les ressources linguistiques utilisées par le système sont faciles à mettre à jour, ce qui permet à l'utilisateur de contrôler l'évolution des performances du système. Nous montrons que l'annotation morphologique du texte coréen peut être effectuée directement avec un lexique de mots et sans règles morphologiques.

Mots-clés : ressource linguistique, coréen, annotation, morphologie, langue agglutinante.

Ivan Berlocher, Hyun-gue HUH, Eric Laporte, Jee-sun NAM. 2006. "Morphological annotation of Korean with Directly Maintainable Resources", in Proceedings of LREC, Genoa.

Mots-clés : ressource linguistique, évaluation, coréen, annotation, morphologie, langue agglutinante.

Olivier Blanc, Matthieu Constant, Éric Laporte, 2006. "Outilex, plate-forme logicielle de traitement de textes écrits", Verbum ex machina. Actes de TALN, Collection Cahiers du Cental, 2(1), Presses universitaires de Louvain, pp. 83-92.

Résumé. La plate-forme logicielle Outilex, qui sera mise à la disposition de la recherche, du développement et de l'industrie, comporte des composants logiciels qui effectuent toutes les opérations fondamentales du traitement automatique du texte écrit : traitements sans lexiques, exploitation de lexiques et de grammaires, gestion de ressources linguistiques. Les données manipulées sont structurées dans des formats XML, et également dans d'autres formats plus compacts, soit lisibles soit binaires, lorsque cela est nécessaire ; les convertisseurs de formats nécessaires sont inclus dans la plate-forme ; les formats de grammaires permettent de combiner des méthodes statistiques avec des méthodes fondées sur des ressources linguistiques. Enfin, des lexiques du français et de l'anglais issus du LADL, construits manuellement et d'une couverture substantielle seront distribuées avec la plate-forme sous licence LGPL-LR.

Mots-clés : analyse lexicale, ressource linguistique, lexique, grammaire, automate fini, XML.

Éric Laporte, Sébastien Paumier, 2006. "Graphes paramétrés et outils de lexicalisation", Communication affichée, Verbum ex machina. Actes de TALN, Collection Cahiers du Cental, 2(1), Presses universitaires de Louvain, pp. 532-540. — Accès par HAL.

Résumé. La lexicalisation des grammaires réduit le nombre des erreurs d'analyse syntaxique et améliore les résultats des applications. Cependant, cette modification affecte un système d'analyse syntaxique dans tous ses aspects. Un de nos objectifs de recherche est de mettre au point un modèle réaliste pour la lexicalisation des grammaires. Nous avons réalisé des expériences en ce sens avec une grammaire très simple par son contenu et son formalisme, et un lexique syntaxique très informatif, le lexique-grammaire du français élaboré au LADL. La méthode de lexicalisation est celle des graphes paramétrés. Nos résultats tendent à montrer que la plupart des informations contenues dans le lexique-grammaire peuvent être transférées dans une grammaire et exploitées avec succès dans l'analyse syntaxique de phrases.

Mots-clés : lexicalisation, analyse syntaxique, français, lexique-grammaire.

Maria Carmelita P. Dias, Éric Laporte, Christian Leclère, 2006. "Verbs with very strictly selected complements", Collocations and Idioms: The First Nordic Conference on Syntactic Freezes, University of Joensuu, Finland.

Résumé. Nous étudions les caractéristiques et le comportement de deux classes parallèles de verbes dans deux langues romanes, le français et le portugais. On peut citer comme exemples de ces classes le port. abater [gado] et le fr. abattre [bétail], qui ont le même sens. Dans les deux langues, la définition de la classe de verbes inclut plusieurs propriétés :
- Ils ont un complément essentiel unique, qui est un objet direct.
- La distribution nominale du complément est très limitée, c'est-à-dire que peu de noms peuvent être sélectionnés comme nom tête du complément. Cependant, cette sélection n'est pas réduite à un nom unique, comme ce serait le cas pour des expressions verbales figées telles que le fr. monter la garde .
- Nous avons exclu de la classe les constructions qui sont des réductions de constructions plus complexes, comme le port. afinar [instrumento] com "accorder [instrument] avec".

Mots-clés : expressions multi-mots, syntaxe, français, portugais, lexique-grammaire.

Éric Laporte, 2007. "Evaluation of a Grammar of French Determiners", Annales du 27^e Congrès de la Société brésilienne de calcul, Rencontres sur la Technologie de l'information et le Langage humain (TIL), Rio de Janeiro.

Résumé. Existing syntactic grammars of natural languages, even with a far from complete coverage, are complex objects. Assessments of the quality of parts of such grammars are useful for the validation of their construction. We evaluated the quality of a grammar of French determiners that takes the form of a recursive transition network. The result of the application of this local grammar gives deeper syntactic information than chunking or information available in treebanks. We performed the evaluation by comparison with a corpus independently annotated with information on determiners. We obtained 86% precision and 92% recall on text not tagged for parts of speech.

Mots-clés : déterminant, défini, indéfini, quantité, syntaxe, français, grammaire, grammaire locale, évaluation, corpus annoté.

Le corpus d'évaluation

2008 (à paraître). "Words and lexical level", in J.M. Pierrel, éd., Language engineering. Londres : ISTE.

Résumé. Le premier chapitre de cet ouvrage sur l'ingénierie des langues est une synthèse qui montre que le niveau lexical se trouve au centre des problématiques sous-jacentes à bon nombre d'enjeux applicatifs (vérification et correction orthographiques, indexation, concordanciers etc.). Puis il présente les principaux outils actuels, en termes de méthodes, de formalismes et de données, qui permettent de prendre en charge ces aspects, avant de conclure en dessinant quelques directions de recherches actuelles, les unes à forte dominante théorique, d'autres empiriques car fondées sur des travaux descriptifs "en vraie grandeur", et d'autres encore qui misent sur la notion d'optimisation.

Mots-clés : langues naturelles, ressources lexicales.

2008 (à paraître). "Exemples attestés et exemples construits dans la pratique du lexique-grammaire", Mémoires de la Société de linguistique de Paris. Louvain/Paris/Dudley : Peeters.

Résumé. L’opposition de Croft (1998) entre « méthode expérimentale » et « méthode observationnelle » renouvelle le vieux débat entre linguistique introspective et linguistique de corpus, en suscitant un parallèle avec les sciences expérimentales, auxquelles Croft emprunte ces termes. L’exemple du lexique-grammaire, une méthode de description syntaxico-sémantique dont les fondements se réfèrent explicitement aux sciences expérimentales, confirme, s’il en était besoin, que la formulation de règles conformes à la réalité de l’usage d’une langue ne se résume pas à une simple observation d’exemples, mais également qu’elle nécessite toutefois une observation intensive d’exemples, ainsi que des précautions méthodologiques rigoureuses dans cette activité d’observation. Les traditions apparemment opposées de la linguistique introspective et de la linguistique de corpus sont donc complémentaires et de nature à se combiner pour favoriser le succès d’une telle entreprise. Ces réflexions invitent les linguistes à surmonter leur réticence historique à combiner les deux types de méthodes. De même, en traitement automatique des langues, la majeure partie de la communauté en reste à l’abordage probabiliste, renonçant à faire collaborer l’informatique appliquée avec la linguistique descriptive.

Mots-clés : linguistique de corpus, introspection.

Éric Laporte