Recherche
Activités de recherche
Mon domaine d'études est le traitement automatique des langues. L'approche que j'utilise est basée sur
l'utilisation de données linguistiques exactes et exhaustives, telles que les dictionnaires électroniques
et les tables de lexique-grammaire du LADL, laboratoire de linguistique formelle fondé par Maurice Gross.
Mon travail de thèse a consisté à proposer un modèle simple qui utilise
la description des phrases élémentaires du français contenue dans le lexique-grammaire du français, afin
d'effectuer l'analyse syntaxique de ces phrases. Le modèle proposé utilise le formalisme des grammaires locales,
apprécié pour sa maniabilité et sa lisibilité. Pour pouvoir se contenter de la simplicité d'une description
par grammaires locales, j'ai dû développer des algorithmes permettant d'utiliser efficacement de telles données, sans
que cela ne contraigne les descriptions linguistiques.
Durant mon post-doctorat à l'Université de Louvain-la-Neuve, j'ai participé au projet
"Faites don de vos SMS à la science", visant à
constituer un corpus de SMS qui puisse servir de base à diverses études scientifiques. J'ai
supervisé la transcription de 30.000 SMS en français "standardisé". Le corpus
ainsi obtenu est diffusé sur le site des Presses universitaires de Louvain, de même que le livre
qui présente le projet ainsi qu'une première analyse des données.
Réalisations
Je suis l'auteur principal d'Unitex, un logiciel libre permettant de faire du traitement automatique de textes
au moyen de ressources linguistiques. Ce système est téléchargeable à l'adresse suivante:
http://igm.univ-mlv.fr/~unitex/
J'ai collaboré à GlossaNet, un service web proposant aux utilisateurs de formuler des requêtes linguistiques. Ces
requêtes sont appliquées chaque jour aux éditions en ligne d'un grand nombre de journaux. Les résultats sont ensuite
postés par e-mail aux utilisateurs. Ce service gratuit est disponible à l'adresse suivante:
http://glossa.fltr.ucl.ac.be
Notez que qu'une variante de GlossaNet, basptisée
GlossaNet Instant, vous permet de tester ce
service sans devoir vous inscrire.
J'ai implémenté un détecteur de langues, basé sur un algorithme comptant les facteurs interdits pour chaque langue
(par exemple, ght est interdit en français, mais pas en anglais). Vous pouvez tester ce programme à l'adresse
suivante:
http://glossa.fltr.ucl.ac.be/~paumier/detector.html
Articles de revues (-)
- Sébastien Paumier. Why academic software should be Open Source. INFOtheca: Journal of informatics and librarianship. X (1-2). June 2009. pp. 51–54.
- Cédrick Fairon and Sébastien Paumier. De la possibilité de construire un dictionnaire électronique du langage SMS. Cahiers de lexicologie. 2 (91). 2007. pp. 65–72.
- Harald Ulland and Sébastien Paumier. Analyse automatique des mots polylexicaux en norvégien. Lingvisticae Investigationes. 28 (2). 2005. pp. 255–281. Note: DOI: 10.1075/li.28.2.05ull
- Sébastien Paumier. Recursive Automata for Syntactic Grammars. Journal of Applied Linguistics. 2004. pp. 122–131. Note: Special issue on Lexicon-Grammar. In Chinese. ISSN 1003-5397
- Sébastien Paumier. Some remarks on the application of a lexicon-grammar. Lingvisticae Investigationes. 24 (2). 2001. pp. 245–256.
- Sébastien Paumier. Nouvelles méthodes pour la recherche d'expressions dans de grands corpus. Revue Informatique et Statistique dans les Sciences humaines. vol. 36. 2000. pp. 289–296. Note: Actes des troisièmes journées INTEX, Liège (2000)
Articles de conférence (-)
- Sébastien Paumier, Takuya Nakamura, and Stavroula Voyatzi. UNITEX, a Corpus Processing System with Multi-Lingual Linguistic Resources. eLexicography in the 21st century: new challenges, new applications (eLEX'09). 22-24 October 2009. pp. 173–175.
- Dana-Marina Dumitriu and Sébastien Paumier. Requêtes linguistiques sur alignements multilingues. Directia Terminologie si Inginerie Lingvistica (DTIL'08). 28-29 February 2008. Note: ISBN: 978-9-291220-37-3 electronic version
- Sébastien Paumier and Dana-Marina Dumitriu. Editable text alignments and powerful linguistic queries. In, Matthieu Constant, Takuya Nakamura, Michele De Gioia, Sara Vecchiato, editors, 27th International Conference on Lexis and Grammar (LGC'08). 10-13 September 2008. pp. 117–125.
- Cédrick Fairon and Sébastien Paumier. Un corpus SMS est-il un corpus comme les autres ?. In, Catherine Camugli Gallardo, Matthieu Constant, Anne Dister, editors, 26ème International Conference on Lexis and Grammar (LGC'07). 2-6 October 2007. pp. 209–216.
- Éric Laporte and Sébastien Paumier. Graphes paramétrés et outils de lexicalisation. Poster session of 13eme Colloque sur le traitement automatique des langues naturelles (TALN'06). Leuven, Belgique. April 2006. pp. 532–540. UCL, Presses Universitaires de Louvain. Note: Verbum ex Machina. Cahiers du CENTAL 2(1)
- Cédrick Fairon and Sébastien Paumier. A framework for real time dictionary updating. Poster session of LREC. 24-26 May 2006.
- Cédrick Fairon and Sébastien Paumier. A translated corpus of 30,000 French SMS. LREC. 24-26 May 2006.
- Cédrick Fairon, Jean-René Klein, and Sébastien Paumier. Un corpus transcrit de 30.000 SMS. CMT. 18-20 May 2006.
- Cédrick Fairon, Sébastien Paumier, and Patrick Watrin. Can we parse without tagging ?. In, Zygmunt Vetulani, editors, 2nd Language & Technology Conference (LTC'05). 21-23 April 2005. pp. 473–477.
- Sébastien Paumier. Weak Greibach Normal Form of Recursive Transition Networks. Proceedings of Journées Montoises d'Informatique Théorique. Liège. 2004. pp. 304–324.
- Sébastien Paumier. A Time-Efficient Token Representation for Parsers. Proceedings of the EACL Workshop on Finite-State Methods in Natural Language Processing. Budapest. 2003. pp. 83–90.
Collections, livres et chapitres de livres (-)
- Sébastien Paumier. L'hyper-verbe schtroumpfer. Les tables. La grammaire du français par le menu. Edited by Takuya Nakamura, Éric Laporte, Anne Dister, Cédrick Fairon. UCL, Presses Universitaires de Louvain. 2010. pp. 309–314.
- Cédrick Fairon, Jean R. Klein, and Sébastien Paumier. La langue du cyberespace : de la diversité aux normes. 13. Edited by Jeannine Gerbault. Editions L'Harmattan. 2008. pp. 173–184. Note: Chapter title : Un corpus transcrit de 30000 SMS français
- Cédrick Fairon, Jean-René Klein, and Sébastien Paumier. Le français m'a tuer. UCL, Presses Universitaires de Louvain. 2006. pp. 33–42. Note: Chapter title : Le langage SMS, révélateur d'1compétence?
- Cédrick Fairon, Jean-René Klein, and Sébastien Paumier. Le langage SMS. Étude d'un corpus informatisé à partir de l'enquête ''Faites don de vos SMS à la science''. UCL, Presses Universitaires de Louvain. Cahiers du CENTAL. vol. 3.1. 2006.
- Cédrick Fairon, Jean-René Klein, and Sébastien Paumier. SMS pour la science. Corpus de 30.000 SMS et logiciel de consultation. UCL, Presses Universitaires de Louvain. Cahiers du CENTAL. vol. 3.2. 2006.
Thèse (-)
- Sébastien Paumier. De la reconnaissance de formes linguistiques à l'analyse syntaxique. Thèse de doctorat. Université de Marne-la-Vallée. 2003. Note: Jury : Gross, Maurice, Guenthner, Franz, Choffrut, Christian and Guenthner, Franz, Laporte, Éric and Nam, Jee-sun and Perrin, Dominique (197 pp.)
Autre (-)
- Sébastien Paumier. Unitex 2.0 User Manual. October 2008. Note: electronic version
- Sébastien Paumier. Unitex - Manuel d'utilisation. 2006. Note: Première version : 2004.
- Sébastien Paumier. Recherche d'expressions dans de grands corpus: le système AGLAE. I.G.M., Université de Marne-la-Vallée. 2000. Note: Mémoire de DEA
Institut Gaspard Monge Université de
Marne-la-Vallée