Les limites du tri par pertinence ont conduit à rechercher d'autres
méthodes reposant sur des principes tout à fait différents et
indépendants du contenu des documents. Connues sous le nom de tri par
popularité, on distingue :
La méthode basée sur la co-citation
Lancé en 1998 par deux étudiants de l'Université de Stanford, Google,
,
classe les documents grâce à la combinaison de plusieurs facteurs dont
le principal PageRank . Ce dernier utilise le nombre de liens pointant
sur les pages. L'article de Page et Sergey en donne une description.
Plusieurs moteurs de recherche offrent cette fonctionnalité. Avec
AltaVista il faut entrer : www.site.com -host:www.site.com
Cela permet à n'importe quel auteur de pages de découvrir les liens
pointant sur son œuvre.
Google évalue l'importance d'une page par les liens qu'elle reçoit
mais analyse en plus la page qui contient le lien. Les liens des pages
"importantes" pèsent plus lourdement et aident à découvrir d'autres
pages "importantes". Ainsi le tri est indépendant du contenu et évite
les dérapages de la méthode précédente, le choix des liens étant laissé
à la libre décision des millions d'auteurs de pages HTML. Il faut
cependant noter que cette technique défavorise les pages récentes et
donc inconnues.
La méthode basée sur la mesure d'audience
La société DirectHit a été fondée en avril 98 et propose de trier les
pages en fonction du nombre de visites qu'elles reçoivent. DirectHit
analyse le comportement d'un internaute dans l'utilisation d'un moteur
de recherche : sur la page d'accueil, il saisit un ou plusieurs mots de
recherche dans un formulaire, consulte la page de résultats classés par
ordre de pertinence, choisit l'un d'entre eux, va sur le site
correspondant pour le consulter. Si la page ne lui convient pas, il
revient sur la page de résultats du moteur, choisit un autre lien, etc.
jusqu'à ce qu'il ait trouvé un document pertinent. DirectHit enregistre
ce comportement pour tenter de trouver les pages les plus "populaires"
sur un moteur de recherche et ainsi améliorer leur classement. Il
fonctionne, en règle générale, en tâche de fond sur un moteur existant.
A chaque consultation d'un utilisateur, DirectHit note sur quel lien
celui-ci a cliqué et quel était le rang de ce lien. Il mesure le temps
passer sur une page avant que l'utilisateur ne revienne aux résultats.
S'il ne revient pas, il en "déduit" que le site proposé était pertinent.
Il sera alors mieux classé dans les résultats suivants, lors d'une
interrogation sur le même mot-clé. Ainsi les interrogations et la façon
d'interroger et de naviguer des internautes vont enrichir la base
données de DirectHit.
Cette méthode comme la précédente pénalise les pages récentes mais évite
le spamming.
DirectHit peut être interrogé directement sur son site mais alimente
aussi les résultats de nombreux outils de recherche comme HotBot,
LookSmart et des sites Web comme celui de ZDNet.
L'annuaire Snap utilise une technique appelée "Global brain",
classant les sites selon leur popularité auprès des internautes, afin de
les inclure dans ses algorithmes de pertinence.