Les Moteurs de Recherche
Poser les bonnes questions / Donner des réponses pertinentes

Google AltaVista Yahoo! HotBot Lycos Northern-Light Kartoo MSN Netscape AOL Deja Excite Go

InfoSpace AllTheWeb LookSmart Dmoz AskJeeves DirectHit Inktomi Iwon DogPile Overture NBCi


-[Accueil]-

-[Bien Chercher]-

Basic
Avancé
Combinaisons
Filtres
Web Directories

-[Benchmarking]-

Au Banc d'Essai...
Références
Popularité
Tailles

-[Bien Trouver]-

Tri par pertinence
Tri par popularité
Tri par clustering
Le cas Kartoo.com

Links
Contact

-[Bien Trouver]-

Tri par clustering

NorthernLight, lancé en Août 1997, propose le classement des documents trouvés dans des dossiers (clustering) constitués automatiquement en fonction des réponses. Un dossier peut lui-même être constitué de sous-dossiers. Quatre types existent :
 

  • Subject (e.g., hypertension, baseball, camping, expert systems, desserts)
  • Type (e.g., press releases, product reviews, resumes, recipes)
  • Source (e.g. commercial Web sites, personal pages, magazines, encyclopedias, databases)
  • Language (e.g., English, German, French, Spanish)

Dans chaque dossier final, les réponses sont triées par pertinence.



Pour classer automatiquement des documents, il existe plusieurs méthodes :

Méthodes basées sur un calcul de similarité entre les documents (k-means analysis, hierarchical -clustering, nearest-neighbor clustering) : chaque document est représenté par un vecteur de mots (sélectionnés parmi l’ensemble des mots qui apparaissent dans les documents) et on définit une mesure de leur similarité. Les vecteurs associés à chaque document utilisent des techniques pour affecter à chaque mot un poids qui dépend de sa fréquence dans le document et dans la collection de documents. On normalise en plus le poids suivant la longueur du document. Pour appliquer ces méthodes à la classification de documents, il est impératif de réduire le nombre de termes utilisés pour représenter chaque document (limiter la taille des vecteurs).

Méthodes probabilistes (Bayesian classification mise en oeuvre dans Autoclass) : elles font l’hypothèse de l’indépendance des mots, ce qui est rarement le cas pour des documents, et elles nécessitent aussi de réduire considérablement le nombre de mots utilisés pour les calculs.

Méthodes basée sur les réseaux de neuronne (Self Organizing Maps).

Ensuite, le résultat (la classification produite) est différent selon les méthodes :

les documents sont séparés en groupe distincts
les documents sont hiérarchisés
les documents appartiennent à une et une seule classe
les documents peuvent appartenir à plusieurs classes

Tri par popularité

Point 26 : Traitement et représentation des documents