Les Moteurs de Recherche
Poser les bonnes questions / Donner des réponses pertinentes

Google AltaVista Yahoo! HotBot Lycos Northern-Light Kartoo MSN Netscape AOL Deja Excite Go

InfoSpace AllTheWeb LookSmart Dmoz AskJeeves DirectHit Inktomi Iwon DogPile Overture NBCi


-[Accueil]-

-[Bien Chercher]-

Basic
Avancé
Combinaisons
Filtres
Web Directories

-[Benchmarking]-

Au Banc d'Essai...
Références
Popularité
Tailles

-[Bien Trouver]-

Tri par pertinence
Tri par popularité
Tri par clustering
Le cas Kartoo.com

Links
Contact

-[Bien Trouver]-

Tri par popularité

Les limites du tri par pertinence ont conduit à rechercher d'autres méthodes reposant sur des principes tout à fait différents et indépendants du contenu des documents. Connues sous le nom de tri par popularité, on distingue :

La méthode basée sur la co-citation

Lancé en 1998 par deux étudiants de l'Université de Stanford, Google, http://www.google.com, classe les documents grâce à la combinaison de plusieurs facteurs dont le principal PageRank . Ce dernier utilise le nombre de liens pointant sur les pages. L'article de Page et Sergey en donne une description.
Plusieurs moteurs de recherche offrent cette fonctionnalité. Avec AltaVista il faut entrer : www.site.com -host:www.site.com
Cela permet à n'importe quel auteur de pages de découvrir les liens pointant sur son œuvre.

Google évalue l'importance d'une page par les liens qu'elle reçoit mais analyse en plus la page qui contient le lien. Les liens des pages "importantes" pèsent plus lourdement et aident à découvrir d'autres pages "importantes". Ainsi le tri est indépendant du contenu et évite les dérapages de la méthode précédente, le choix des liens étant laissé à la libre décision des millions d'auteurs de pages HTML. Il faut cependant noter que cette technique défavorise les pages récentes et donc inconnues.

La méthode basée sur la mesure d'audience

La société DirectHit a été fondée en avril 98 et propose de trier les pages en fonction du nombre de visites qu'elles reçoivent. DirectHit analyse le comportement d'un internaute dans l'utilisation d'un moteur de recherche : sur la page d'accueil, il saisit un ou plusieurs mots de recherche dans un formulaire, consulte la page de résultats classés par ordre de pertinence, choisit l'un d'entre eux, va sur le site correspondant pour le consulter. Si la page ne lui convient pas, il revient sur la page de résultats du moteur, choisit un autre lien, etc. jusqu'à ce qu'il ait trouvé un document pertinent. DirectHit enregistre ce comportement pour tenter de trouver les pages les plus "populaires" sur un moteur de recherche et ainsi améliorer leur classement. Il fonctionne, en règle générale, en tâche de fond sur un moteur existant. A chaque consultation d'un utilisateur, DirectHit note sur quel lien celui-ci a cliqué et quel était le rang de ce lien. Il mesure le temps passer sur une page avant que l'utilisateur ne revienne aux résultats. S'il ne revient pas, il en "déduit" que le site proposé était pertinent. Il sera alors mieux classé dans les résultats suivants, lors d'une interrogation sur le même mot-clé. Ainsi les interrogations et la façon d'interroger et de naviguer des internautes vont enrichir la base données de DirectHit.
Cette méthode comme la précédente pénalise les pages récentes mais évite le spamming.

DirectHit peut être interrogé directement sur son site mais alimente aussi les résultats de nombreux outils de recherche comme HotBot, LookSmart et des sites Web comme celui de ZDNet.

L'annuaire Snap utilise une technique appelée "Global brain", classant les sites selon leur popularité auprès des internautes, afin de les inclure dans ses algorithmes de pertinence.

 

 

Tri par pertinence

Tri par clustering