Dans cette page nous nous intèressont a la structure général d'un moteur de recherche. cette structure général va nous permettre de découvrire progressivement un certain nombre de points que nous allons en suite développer dans des pages différentes.
Un moteur de recherche est un ensemble d'outils logiciels. Cette ensemble d'outils logiciel permet:
Un moteur de recherche est un outil qui permet la recherche rapide d'information dans une collection de documents. En général cette collection est un ensemble de documents de l'internet, mais de plus en plus on trouve des moteurs en intranet qui se limitent aux documents de l'entreprise. Dans les deux cas une première problèmatique est la collecte. Pour un moteur d'entreprise il est possible d'utiliser le système de gestion électronique de documents (GED) si il existe. Sinon le système de sauvegarde est le première élément sur lequel on travail. Une collecte manuelle est parfoit a envisager pour centraliser les documents. Dans le cas d'un Moteur internet il faut faire appel a un robot. Les robots sont des logiciels de parcourt et d'aspiration de l'internet. Les stratégies de parcourt et les straégie de selection sont des points délicats. De nombreux modèle de robots sont actifs sur le web un des plus utiliser pour de petites quantités de documents est le logiciel wget qui fonctionne sous linux.
Les documents de l'internet sont en général dans un format standard le HTML. Mais il existe de nombreux formats qui permettent soit la lecture soit l'impression du document. Une des première tache sera de transformer les documents en un format utilisable (la mise en valeur des termes de la requète dans un document est une question qui doit etre adressé ici cf. Highlighting ).
Le traitement de déformatage reformatage (transformation des formats de représentation) doit chercher a garder un maximum d'information structurelle. En particulier des informations comme les mots-clefs, les titres, date de création de dérnière modification et l'ensemble des information dites META que l'on peut trouver dans un document.
Pour plus d'information sur le stockage des documents et des liens voir la page robots qui décrit l'ensemble des problèmes de stockage des documents.
L'analyse et le traitement de la requette a pour objectif de construire une requète plus étofé et plus propre que la requète initial de l'utilisateur.
L'analyse peut être linguistique. Les pages jaunes utilise de la linguistique pour faire la recherche par profession. En général les moteurs de recherche utilise très peu d'arguments linguistiques.
L'apport de la linguistique peu être multiple et s'applique a différents niveaux.
La construction de requète bas niveau est la suite de l'analyse. Les différents moteurs n'accepta pas tous les mêmes opérateurs. Si l'on a un module linguistique qui a fait sont oeuvre il faut un driver qui vas traduire l'information dans les opérateurs du moteurs. C'est une des acticité importante de méta-moteurs qui font une redirection de votre requète sur plusieurs moteurs et vous produise un condensé des résultats trouvés. Globalement les méta-moteurs sont rhéoriquement plus éfficassent mais pratiquement beaucoup moins valables que plusieurs recherche à la main sur les moteurs utilisés par le méta moteur (le méta moteur francais est pas mal Adresse??).
Le choix des opérateurs bas niveau joue sur la compléxité de la réalisation de la requète. La plus part des moteurs utilisent le OU logique et google ce démarque en utilisant par défaut un ET qu'il vas en suite dégrader si la requète ne fournis rien avec ET.
La structure des index. La structure des index est identique à celle que l'on trouve dans un livre c'est a dire une liste de mots avec les pages ou il apparaissents. De la même façon la réalisation de la requète vas ce faire en croisant les pages qui contiennent les mots de la requète. Dans le cas d'un moteur de recherche ce sont les documents qui contiennent les mots de la requète qui sont remontés.
Le traitement des résulats consiste a organizer les résultats de l'extraction de l'index. Cette organization se nomme Ranking (établissement d'un rang). C'est une des forces de google.
notes:
Pour un exemple de Highlighting sur google avec le mot Highlighting mis en
valeur.