Les Moteurs de Recherche

Les Moteurs de Recherche
Poser les bonnes questions / Donner des réponses pertinentes

Google AltaVista Yahoo! HotBot Lycos Northern-Light Kartoo MSN Netscape AOL Deja Excite Go

InfoSpace AllTheWeb LookSmart Dmoz AskJeeves DirectHit Inktomi Iwon DogPile Overture NBCi

-[Accueil]-

-[Bien Chercher]-

Basic

Avancé

Combinaisons

Filtres

Web Directories

-[Benchmarking]-

Au Banc d'Essai...

Références

Popularité

Tailles

-[Bien Trouver]-

Tri par pertinence

Tri par popularité

Tri par clustering

Le cas Kartoo.com

Links

Contact

-[Bien Trouver]-

La publication sur le web continue à croître sans relâche et les 2 milliards de pages HTML statiques viennent d'être dépassés selon les estimations d'une étude de Inktomi . Si les annuaires, produits manuellement, présentent l'avantage de classer les sites par thèmes, les moteurs, produits automatiquement, sont les outils les plus utiles pour fouiller le web.
La masse d'informations disponibles conduit malheureusement à des résultats pléthoriques la plupart du temps, ce qui déroute les utilisateurs. Aussi les moteurs de recherche ont développé des méthodes de tri automatiques des résultats . Cela leur permet aussi de se distinguer les uns des autres. Dans la pratique aucune méthode de tri n'est parfaite mais cette variété offre à l'utilisateur la possibilité de traquer l'information de différentes manières et augmente donc ses chances d'améliorer ses recherches. Le but du classement est d'afficher dans les 10 à 20 premières réponses les documents répondant le mieux à la question. Si on ne trouve pas ce que l'on cherche dans les toutes premières pages de résultats, il faut reformuler la question. Pour cela il faut comprendre les mécanismes sous-jacents pour en tirer vraiment profit.

Tri par pertinence

Cette méthode repose sur des travaux de recherche déjà anciens de Robertson et Sparckjones , mis en pratique dans le logiciel d'indexation WAIS à la fin des années 80.
Les résultats d'une requête sont affichés selon un ordre déterminé par le calcul d'un score pour chaque réponse. La pertinence est basée sur les cinq facteurs suivants appliqués aux termes de la question :

Le poids d'un mot dans un document est déterminé par sa place dans le document : il est maximum pour le titre et le début du texte; à l'intérieur il est plus important si le mot est en majuscule.
La densité est basée sur la fréquence d'occurrence dans un document par rapport à la taille du document. Si deux documents contiennent le même nombre d'occurrences, le document le plus petit sera favorisé.
Le poids d'un mot dans la base est basé sur la fréquence d'occurrence pour toute la base de données. Les mots peu fréquents dans le corpus sont favorisés. Les mots vides sont soit éliminés, soit sous-évalués.
La correspondance d'expression est basée sur la similarité entre l'expression de la question et l'expression correspondante dans un document. Un document contenant une expression identique à celle de la question reçoit le poids le plus élevé.
La relation de proximité est basée sur la proximité des termes de la question entre eux dans le document. Les termes proches sont favorisés.

Cette technique a montré son efficacité dans le cadre des bases de données WAIS assez homogènes et peu volumineuses. Elle a été reprise dans les moteurs de recherche apparus à partir de 1994 et basés sur les techniques d'exploration du web par les robots . Cependant l'algorithme exact n'est jamais connu car il est considéré comme secret industriel et quelquefois protégé par un brevet (cas d'Excite).
Les documents HTML peuvent contenir dans l'entête des informations concernant le contenu du document. Ces méta-données correspondent aux balises TITLE, META keywords et META description. Une étude a montré qu'elles étaient malheureusement peu utilisées. Certains moteurs de recherche en tiennent compte dans leur calcul.
Cependant le tri par pertinence présente l'inconvénient d'être facile à détourner par des auteurs désireux de placer leurs pages en tête de liste : pour cela il suffit de répéter les mots importants soit dans l'entête, soit dans le texte en utilisant des techniques de spamming ( écrire le texte en blanc sur fond blanc par exemple) pour modifier à son avantage le classement. Les moteurs ont réagi en détectant ses techniques.

Cette méthode est utilisée par AltaVista, Ecila, Excite, FAST, HotBot, Inktomi, Lokace, Voila. Le résultat dépend beaucoup de la question et l'on choisira, chaque fois que cela est possible, des termes précis et non ambigus.

Tri par popularité