La mise en Forme des documents

La mise en forme des documents a deux objectifs. D'une part préparer les documents pour l'indexation, c'est à dire en extraire les éléments à indexer. Mais aussi optenir de l'information sur le document.
  1. Transformation du format en texte simple
    1. Parseur HTML / XML
    2. Transformateur pdf,doc,etc en HTML ou text
  2. Quelles informations pertinentes sur les documents
    1. Format du document
    2. Langue utilisé pour écrire le document
    3. Valeur du document
      1. Longueur
      2. Forme
      3. Type: page de liens
      4. position dans le site
    4. Importance du document.
    5. Auteur du document.
    6. Age du document.
  3. Que doit on préparer pour l'indexation.
    1. Que peut on indexer
    2. Que veut on indexer
    3. IL y a t'il un moyen de ne pas stocker un index complet sans engendrer une grande pertes
    4. Compromis espace / vitesse
    5. Compromis Index / Capacité de recherche
    6. Analyse Linguistique

Dominique Revuz email Compteur
Dernière publication :01/12/2003 09:41:05