Tri
par clusteringNorthernLight, lancé en Août
1997, propose le classement des documents trouvés dans des dossiers (clustering)
constitués automatiquement en fonction des réponses. Un dossier peut
lui-même être constitué de sous-dossiers. Quatre types existent :
- Subject (e.g., hypertension, baseball, camping, expert systems,
desserts)
- Type (e.g., press releases, product reviews, resumes, recipes)
- Source (e.g. commercial Web sites, personal pages, magazines,
encyclopedias, databases)
- Language (e.g., English, German, French, Spanish)
Dans chaque dossier final, les réponses sont triées par pertinence.
Pour classer automatiquement des documents, il
existe plusieurs méthodes :
Méthodes
basées sur un calcul de similarité entre les documents (k-means analysis,
hierarchical -clustering, nearest-neighbor clustering) : chaque document
est représenté par un vecteur de mots (sélectionnés parmi l’ensemble des
mots qui apparaissent dans les documents) et on définit une mesure de
leur similarité. Les vecteurs associés à chaque document utilisent des
techniques pour affecter à chaque mot un poids qui dépend de sa
fréquence dans le document et dans la collection de documents. On
normalise en plus le poids suivant la longueur du document. Pour
appliquer ces méthodes à la classification de documents, il est
impératif de réduire le nombre de termes utilisés pour représenter
chaque document (limiter la taille des vecteurs).
Méthodes
probabilistes (Bayesian classification mise en oeuvre dans Autoclass) :
elles font l’hypothèse de l’indépendance des mots, ce qui est rarement
le cas pour des documents, et elles nécessitent aussi de réduire
considérablement le nombre de mots utilisés pour les calculs.
Méthodes
basée sur les réseaux de neuronne (Self Organizing Maps).
Ensuite, le résultat (la classification produite)
est différent selon les méthodes :
les
documents sont séparés en groupe distincts
les
documents sont hiérarchisés
les
documents appartiennent à une et une seule classe
les
documents peuvent appartenir à plusieurs classes