|
La publication sur
le web continue à croître sans relâche et les 2 milliards de pages HTML
statiques viennent d'être dépassés selon les estimations d'une étude de
Inktomi . Si les annuaires, produits manuellement, présentent l'avantage
de classer les sites par thèmes, les moteurs, produits automatiquement,
sont les outils les plus utiles pour fouiller le web.
La masse d'informations disponibles conduit malheureusement à des
résultats pléthoriques la plupart du temps, ce qui déroute les
utilisateurs. Aussi les moteurs de recherche ont développé des méthodes
de tri automatiques des résultats . Cela leur permet aussi de se
distinguer les uns des autres. Dans la pratique aucune méthode de tri
n'est parfaite mais cette variété offre à l'utilisateur la possibilité
de traquer l'information de différentes manières et augmente donc ses
chances d'améliorer ses recherches. Le but du classement est d'afficher
dans les 10 à 20 premières réponses les documents répondant le mieux à
la question. Si on ne trouve pas ce que l'on cherche dans les toutes
premières pages de résultats, il faut reformuler la question. Pour cela
il faut comprendre les mécanismes sous-jacents pour en tirer vraiment
profit.
Tri
par pertinence
Cette méthode repose sur des travaux de recherche déjà anciens de
Robertson et Sparckjones , mis en pratique dans le logiciel d'indexation
WAIS à la fin des années 80.
Les résultats d'une requête sont affichés selon un ordre déterminé par
le calcul d'un score pour chaque réponse. La pertinence est basée sur
les cinq facteurs suivants appliqués aux termes de la question :
- Le poids d'un mot dans un document est déterminé par sa place dans
le document : il est maximum pour le titre et le début du texte; à
l'intérieur il est plus important si le mot est en majuscule.
- La densité est basée sur la fréquence d'occurrence dans un
document par rapport à la taille du document. Si deux documents
contiennent le même nombre d'occurrences, le document le plus petit
sera favorisé.
- Le poids d'un mot dans la base est basé sur la fréquence
d'occurrence pour toute la base de données. Les mots peu fréquents
dans le corpus sont favorisés. Les mots vides sont soit éliminés, soit
sous-évalués.
- La correspondance d'expression est basée sur la similarité entre
l'expression de la question et l'expression correspondante dans un
document. Un document contenant une expression identique à celle de la
question reçoit le poids le plus élevé.
- La relation de proximité est basée sur la proximité des termes de
la question entre eux dans le document. Les termes proches sont
favorisés.
Cette technique a montré son efficacité dans le cadre des bases de
données WAIS assez homogènes et peu volumineuses. Elle a été reprise
dans les moteurs de recherche apparus à partir de 1994 et basés sur les
techniques d'exploration du web par les robots . Cependant l'algorithme
exact n'est jamais connu car il est considéré comme secret industriel et
quelquefois protégé par un brevet (cas d'Excite).
Les documents HTML peuvent contenir dans l'entête des informations
concernant le contenu du document. Ces méta-données correspondent aux
balises TITLE, META keywords et META description. Une étude a montré
qu'elles étaient malheureusement peu utilisées. Certains moteurs de
recherche en tiennent compte dans leur calcul.
Cependant le tri par pertinence présente l'inconvénient d'être facile à
détourner par des auteurs désireux de placer leurs pages en tête de
liste : pour cela il suffit de répéter les mots importants soit dans
l'entête, soit dans le texte en utilisant des techniques de spamming (
écrire le texte en blanc sur fond blanc par exemple) pour modifier à son
avantage le classement. Les moteurs ont réagi en détectant ses
techniques.
Cette méthode est utilisée par AltaVista, Ecila, Excite, FAST, HotBot,
Inktomi, Lokace, Voila. Le résultat dépend beaucoup de la question et
l'on choisira, chaque fois que cela est possible, des termes précis et
non ambigus.
|