Recherche d'Information Classification

La classification automatique de documents

Le problème des annuaires est de classer les documents dans des hiérachies conceptuelles.

Pour cela des opérateurs humains sont utilisé et ils lisent les document et les classent, l'organisation hérarchique des opérateurs permet de d'assuer un bon degrée d'expertise

Mais le travail est énorme est n'est pas toujours possible. Avez vous le temps d'organizer les documents stocker dans votre ordinateur ou dans l'ensemble de l'entreprise ?

La lettre que vous devez écire n'est elle pas déja écrite? comment la retrouver c'est un problème de GED .

Il est donc necessaire de trouver des systèmes de classement automatique

Deux approches: une hierachie pré définie qui sera utiliser par les utilisateurs pour trouver les documents, il ne reste plus qu'a placer les document dans les boites, pour cela on définie (on parle d'ontologie) pour chaque éléments de la hiérarchie les termes qui font associés a cet éléments

Une autre approche plus automatique se propose de classer de la même façon les documents et les requêtes.

>p>Cette approche a l'avantage d'être entièrement automatique, mais a le défaut de construire une hiérarchie de documentqui n'a pas de structure utilisable directement pour un utilisateur. Les plan de classement des entreprises sont en général difficilement consiliables avec ce type d'outils

La solution utilisé par les pagesjaunes est de concilier ces deux approches, d'une part une hiérarchie prédéfinie, et un outil de classification automatique

Pour réaliser ce double avantage a été mis au point un réseaux sémantique qui est consitué de mots relies entre eux par des liens de type généralisation, synonymie, spécialisation

Les différentes catégories sont identifiés dans ce graphe avec des liens d'inclusion entre catégories, les mots ayant des liens d'appartenance vers les catégories.

Cette importante structure permet de classer les reqsuêtes dans la hiérarchie, les document eux meême étant classé par des opérateurs

Les différentes formes de classification poses un certains nombre de problèmes techniques intéressants:

Multi-classement: plusieurs classement pour un même document, problème délicat, en effet aujourd'hui on trouve plus de système de classement qui réalise un classement unique de chaque document. c.f. Vecteur de concept.
Etiquetter la classe: pourquoi l'algorithme de classement automatique à il classé les documents ensemble, quel est le sens ou l'information commun au différents document de la même classe
Quel algorithme de classement utiliser: les données sont immences, l'algorithme doit avoir une complxité raisonable sinon le temps de traitement est ingérable (TODO décrire un algorithme classique en nlogn)
Une fois les documents classés comment trouver la classe de document qui nous intéresse.
Quelles sont les classes proches de mon document
Quelles sont les pistes que je doit explorer pour trouver des idées liées a mon problème

Dominique Revuz email

Dernière publication :12/12/2003 14:09:47