La mise en Forme des documents
La mise en forme des documents a deux objectifs. D'une part préparer les documents pour l'indexation, c'est à dire en extraire les éléments à indexer. Mais aussi optenir de l'information sur le document.
- Transformation du format en texte simple
- Parseur HTML / XML
Ici peut être introduit des systèmes d'étiquetage qui permettent de mettre en valeurs certains mot du document, comme ceux appartenant aux différents niveaux de titres du document
- Transformateur pdf,doc,etc en HTML ou text
De plus en plus de ducoment sont accessibles dans des formats de plus en plus variés, une des problématiques vient de formats propriétaires qui ne sont pas normés et donc disparaisse avec les logiciels associés. Ainsi certains documents sont illisibles.
- Quelles informations pertinentes sur les documents
- Format du document
- Langue utilisé pour écrire le document
- Valeur du document
- Longueur
- Forme
- Type: page de liens
- position dans le site
- Importance du document.
- Auteur du document.
- Age du document.
- Que doit on préparer pour l'indexation.
- Que peut on indexer
- Que veut on indexer
- IL y a t'il un moyen de ne pas stocker un index complet sans engendrer une grande pertes
- Compromis espace / vitesse
- Compromis Index / Capacité de recherche
- Analyse Linguistique
- Polysémie
- flexions
- Langue
- sens
Dominique Revuz email 
Dernière publication :12/12/2003 12:04:26