Traitement linguistique des requètes
Opérations sur les requètes, dans le cas ou l'index n'est pas linguisitique.
- Synonimies
- Chaque terme est substitué par sa liste de sinonymes, problème de polysémie
- Lemmatisations
- Toutes les flexions d'un terme sont utilisées pour la recherche du terme
- Restructuration
- Dans le cas d'une recherche de phrase, ont peut faire rechercher plusieurs forme de la phrase au passif par exemple.
- Généralisation
-
- Spécialisation
- Pour ces deux techniques l'idée est utilisé un reseaux sémentique. Dans ce réseaux les toutes les termes d'une langue sont reliés avec ceux qui ont une relation de sinonymie, de généralisation et de spécialisation, éventuellement les antonymes. En utilisant ce graphe il est possible de remplacer ou d'étendre un terme en utilisant les liens de généralisation ou de spécialisation.
- Dégradation
- Une fois que tous les opérateurs précédant sont appliqués on obtient des requète de grande taille qui peuvent restée sans réponse dans ce cas on cherche a identifier dans la requète les termes avec le plus de poid et si la recherche étendue échoue des version plus simple sont essaillées de façon automatique.
Graphes & réseaux sémentiques
Un beau dessin de graphe ICI => :)
Un index linguistique
Un index linguistique est un index qui utilise des documents sur lesquels un traitement linguisitique à été préalablement réalisé. En particulier un traitement très intéressant est la désambiguisation sémentique (malheureusement pas encore tout a fait fonctionel). Si les termes des documents ne sont plus ambigues (les poules du couvent couvent), et si les termes des requètes ne le sont plus non plus (il n'y a pas de contexte d'autre arguments devront être utilisé en pariculier un feedback utilisateur). Beaucoup de si ! Alors les recherche sont plus précises et de meilleur qualité.
Actuellement cette technique n'est utilisé que par des outils de recherche d'inforamtion très spécialisé, des domaines très techniques profitent au mieux de ces techniques: Médical, Pharmacologie, Droit. Ou les termes simple sont très polysémiques et les termes conposé au contraire très souvent mono-sémiques.
L'importance des mots composé est indégniables dans l'ensemble de ces techniques, un thème de travail important est la recherche automatique de mots composé. IL faut extraire les termes qui ne sont pas interprétable directement.
Dominique Revuz email 
Dernière publication :01/12/2003 09:41:33