Structure et Organisation d'un Moteur de Recherche

Dans cette page nous nous intèressont a la structure général d'un moteur de recherche. cette structure général va nous permettre de découvrire progressivement un certain nombre de points que nous allons en suite développer dans des pages différentes.

Le moteur que nous allons détailler ici est un moteur mais pas un annuaire. Ce moteur est appelé recherche textuelle c'est à dire que c'est une recherche directe dans le documents qui est réalisé (certains moteurs utilise les meta tag système de mots clefs que les créateurs de pages web doivent écrirent dans leur documents).

Un moteur de recherche est un ensemble d'outils logiciels. Cette ensemble d'outils logiciel permet:

La collecte et l'organization des documents.
Le traitement préalable à l'indexation des documents.
L'indexation.
L'interface de recherche
L'analyse et le traitement des requète
La construction de requètes Bas Niveau
Le traitement des résultats
L'évaluation des documents
Traduction/Résumés/Analyses

Ces activités acceptes une certaine variabilité dans les objectifs et les moyens.
La taille de la base de document et sa localisation sont des éléments cruciaux quand à l'architecture qu'il faut déployer pour optenir un moteur suffisement rapide.

La collecte et l'organization des documents.

Un moteur de recherche est un outil qui permet la recherche rapide d'information dans une collection de documents. En général cette collection est un ensemble de documents de l'internet, mais de plus en plus on trouve des moteurs en intranet qui se limitent aux documents de l'entreprise. Dans les deux cas une première problèmatique est la collecte. Pour un moteur d'entreprise il est possible d'utiliser le système de gestion électronique de documents (GED) si il existe. Sinon le système de sauvegarde est le première élément sur lequel on travail. Une collecte manuelle est parfoit a envisager pour centraliser les documents. Dans le cas d'un Moteur internet il faut faire appel a un robot. Les robots sont des logiciels de parcourt et d'aspiration de l'internet. Les stratégies de parcourt et les straégie de selection sont des points délicats. De nombreux modèle de robots sont actifs sur le web un des plus utiliser pour de petites quantités de documents est le logiciel wget qui fonctionne sous linux.

Le traitement préalable à l'indexation des documents.

Les documents de l'internet sont en général dans un format standard le HTML. Mais il existe de nombreux formats qui permettent soit la lecture soit l'impression du document. Une des première tache sera de transformer les documents en un format utilisable (la mise en valeur des termes de la requète dans un document est une question qui doit etre adressé ici cf. Highlighting ).

Le traitement de déformatage reformatage (transformation des formats de représentation) doit chercher a garder un maximum d'information structurelle. En particulier des informations comme les mots-clefs, les titres, date de création de dérnière modification et l'ensemble des information dites META que l'on peut trouver dans un document.

Pour plus d'information sur le stockage des documents et des liens voir la page robots qui décrit l'ensemble des problèmes de stockage des documents.

L'indexation.

l'indexation est l'étape préparatoire pour une recherche. Elle se déconpose en plusieurs étapes.La préparation des documents pour l'indexation. Un certain nombre de problèmes se pose a différents niveaux. Le choix des termes a indexer le fait de réduire ou non les termes en fonctions d'informations linguistiques ou sémentiques.

L'interface de recherche.

Deux grande familles de look d'interface de recherche dépouillée www.google.com ou plein la vue http://www.voila.fr/ ou http://www.lycos.com. Mais surtout deux approches:

une approche requète simple www.google.com
une approche recherche avancée www.altavista.com/

Des deux approches la première est devenu la plus souvent utilisé par les utilisateurs. Les moteurs de recherche étant surtout des outils de travail une approche pragmatique et toujours utilisé pour leur développement: quels sont les outils que les utilisateurs utilises et demandes. La première qualité d'une interface est d'être simple. La deuxième est de fournir facilement l'information sur la stratégie mis en oeuvre. Doit on fléchir on non les mots comment rechercher un mot composé etc sont des informations que l'on doit trouver rapidement. l'interface de rechercher dépend du langage de requète sous jassant. Ce qui nous amène à l'analyse des requètes.

L'analyse et le traitement des requète.

L'analyse et le traitement de la requette a pour objectif de construire une requète plus étofé et plus propre que la requète initial de l'utilisateur.

L'analyse peut être linguistique. Les pages jaunes utilise de la linguistique pour faire la recherche par profession. En général les moteurs de recherche utilise très peu d'arguments linguistiques.

L'apport de la linguistique peu être multiple et s'applique a différents niveaux.

La construction de requètes Bas Niveau.

La construction de requète bas niveau est la suite de l'analyse. Les différents moteurs n'accepta pas tous les mêmes opérateurs. Si l'on a un module linguistique qui a fait sont oeuvre il faut un driver qui vas traduire l'information dans les opérateurs du moteurs. C'est une des acticité importante de méta-moteurs qui font une redirection de votre requète sur plusieurs moteurs et vous produise un condensé des résultats trouvés. Globalement les méta-moteurs sont rhéoriquement plus éfficassent mais pratiquement beaucoup moins valables que plusieurs recherche à la main sur les moteurs utilisés par le méta moteur (le méta moteur francais est pas mal Adresse??).

Le choix des opérateurs bas niveau joue sur la compléxité de la réalisation de la requète. La plus part des moteurs utilisent le OU logique et google ce démarque en utilisant par défaut un ET qu'il vas en suite dégrader si la requète ne fournis rien avec ET.

Réalisation de la requète

La structure des index. La structure des index est identique à celle que l'on trouve dans un livre c'est a dire une liste de mots avec les pages ou il apparaissents. De la même façon la réalisation de la requète vas ce faire en croisant les pages qui contiennent les mots de la requète. Dans le cas d'un moteur de recherche ce sont les documents qui contiennent les mots de la requète qui sont remontés.

Le traitement des résultats.

Le traitement des résulats consiste a organizer les résultats de l'extraction de l'index. Cette organization se nomme Ranking (établissement d'un rang). C'est une des forces de google.

regrouper par sites
regrouper par clustering & classification
classer par ordre de qualité les documents
classer en fonction des match
classer en fonction de la présence sur le web.

Le traitement des résultats.

notes:
Pour un exemple de Highlighting sur google avec le mot Highlighting mis en valeur.

Dominique Revuz email

Dernière publication :01/12/2003 09:41:27