:: Enseignements :: Licence :: L3 :: 2007-2008 :: Introduction à l'informatique linguistique ::
[LOGO]

Classification et résumé de textes


Dans ce TP, vous aurez à implémenter un algorithme simple de classification de documents et de l'évaluer. Ensuite, vous devrez tester un outil simple de résumé automatique de textes et tenter de l'améliorer.

Ressources

Pour cette séance, nous vous fournissons un certain nombre de ressources :
  • le module textSpaceVector.py qui permet de charger et manipuler des collections de documents textuels sous la forme de vecteurs ;
  • le module categorization.py qui permet de classer des documents à partir d'une collection de documents déjà classés ;
  • le module summarization.py qui permet de résumer un texte ;
  • une archive contenant un ensemble de textes anglais déjà classés (dépêches Reuter).

Exercice 1 - Classification de textes

Le fichier sugar-coffee-gas-docs.lst contient un ensemble de textes auxquels ont été assignées une ou plusieurs catégories thématiques (coffee, gas et sugar). Chaque ligne comprend un chemin relatif de fichier, une tabulation, puis une séquence de catégories séparées par des virgules.

Exercice 2 - Résumé automatique

Charger un document en utilisant la classe summarizationText lui-même plongé dans une collection de textes (collection Reuters par exemple).
  • Faire le résumé automatiquement (méthode summarize).
  • Evaluer l'algorithme utilisé.
  • Réitérer ces opérations pour plusieurs textes.
  • Améliorer l'algorithme et l'implémenter.