Les Moteurs de Recherche

Les Moteurs de Recherche
Poser les bonnes questions / Donner des réponses pertinentes

Google AltaVista Yahoo! HotBot Lycos Northern-Light Kartoo MSN Netscape AOL Deja Excite Go

InfoSpace AllTheWeb LookSmart Dmoz AskJeeves DirectHit Inktomi Iwon DogPile Overture NBCi

-[Accueil]-

-[Bien Chercher]-

Basic

Avancé

Combinaisons

Filtres

Web Directories

-[Benchmarking]-

Au Banc d'Essai...

Références

Popularité

Tailles

-[Bien Trouver]-

Tri par pertinence

Tri par popularité

Tri par clustering

Le cas Kartoo.com

Links

Contact

-[Bien Trouver]-

Tri par clustering

NorthernLight, lancé en Août 1997, propose le classement des documents trouvés dans des dossiers (clustering) constitués automatiquement en fonction des réponses. Un dossier peut lui-même être constitué de sous-dossiers. Quatre types existent :

Subject (e.g., hypertension, baseball, camping, expert systems, desserts)
Type (e.g., press releases, product reviews, resumes, recipes)
Source (e.g. commercial Web sites, personal pages, magazines, encyclopedias, databases)
Language (e.g., English, German, French, Spanish)

Dans chaque dossier final, les réponses sont triées par pertinence.

Point 25 : Introduction
Point 26 : Traitement et représentation des documents
Point 27 : Classification des documents
Point 28 : Evolution du clustering

Pour classer automatiquement des documents, il existe plusieurs méthodes :

Méthodes basées sur un calcul de similarité entre les documents (k-means analysis, hierarchical -clustering, nearest-neighbor clustering) : chaque document est représenté par un vecteur de mots (sélectionnés parmi l’ensemble des mots qui apparaissent dans les documents) et on définit une mesure de leur similarité. Les vecteurs associés à chaque document utilisent des techniques pour affecter à chaque mot un poids qui dépend de sa fréquence dans le document et dans la collection de documents. On normalise en plus le poids suivant la longueur du document. Pour appliquer ces méthodes à la classification de documents, il est impératif de réduire le nombre de termes utilisés pour représenter chaque document (limiter la taille des vecteurs).

Méthodes probabilistes (Bayesian classification mise en oeuvre dans Autoclass) : elles font l’hypothèse de l’indépendance des mots, ce qui est rarement le cas pour des documents, et elles nécessitent aussi de réduire considérablement le nombre de mots utilisés pour les calculs.

Méthodes basée sur les réseaux de neuronne (Self Organizing Maps).

Ensuite, le résultat (la classification produite) est différent selon les méthodes :

les documents sont séparés en groupe distincts
les documents sont hiérarchisés
les documents appartiennent à une et une seule classe
les documents peuvent appartenir à plusieurs classes

Tri par popularité

Point 26 : Traitement et représentation des documents