:: Enseignements :: Licence :: L3 :: 2007-2008 :: Introduction à l'informatique linguistique ::
[LOGO]

Représentation vectorielle des textes et recherche documentaire


Le but de ce TP est de manipuler la notion de représentation vectorielle des textes dans le cadre de la recherche documentaire.

Ressources

Pour cette séance, nous vous fournissons un certain nombre de ressources :
  • un module python (avec des trous) permettant de charger et manipuler des collections de documents textuels sous la forme de vecteurs ;
  • un exemple d'utilisation du précédent module, pour lequel vous aurez besoin de créer un fichier texte data/corpus.txt ;
  • une archive contenant un ensemble de textes anglais (dépêches Reuter).

Exercice 1 - Manipulation d'un document

  • Créer un fichier texte en anglais (copier-coller une dépêche Yahoo par exemple).
  • A l'aide de la classe textVector et de son constructeur, charger ce texte sous la forme d'un vecteur. Vous utiliserez l'expression rationnelle que vous avez utilisée dans le TD 1 pour tokeniser le texte (paramètre pattern du constructeur).
  • Afficher le vecteur associé au document à l'aide de la méthode printVector, de telle manière que les composantes soient les fréquences des tokens-mots.

Exercice 2 - Manipulation d'une collection de documents

Exercice 3 - Application de requêtes sur une collection de documents