La mise en Forme des documents
La mise en forme des documents a deux objectifs. D'une part préparer les documents pour l'indexation, c'est à dire en extraire les éléments à indexer. Mais aussi optenir de l'information sur le document.
- Transformation du format en texte simple
- Parseur HTML / XML
- Transformateur pdf,doc,etc en HTML ou text
- Quelles informations pertinentes sur les documents
- Format du document
- Langue utilisé pour écrire le document
- Valeur du document
- Longueur
- Forme
- Type: page de liens
- position dans le site
- Importance du document.
- Auteur du document.
- Age du document.
- Que doit on préparer pour l'indexation.
- Que peut on indexer
- Que veut on indexer
- IL y a t'il un moyen de ne pas stocker un index complet sans engendrer une grande pertes
- Compromis espace / vitesse
- Compromis Index / Capacité de recherche
- Analyse Linguistique
- Polysémie
- flexions
- Langue
- sens
Dominique Revuz email 
Dernière publication :01/12/2003 09:41:05