Traitement linguistique des requêtes

Opérations sur les requêtes, dans le cas ou l'index n'est pas linguistique.

Synonymies: Chaque terme est substitué par sa liste de synonymes, problème de polysémie
Lèmatisations: Toutes les flexions d'un terme sont utilisées pour la recherche du terme
Restructuration: Dans le cas d'une recherche de phrase, ont peut faire rechercher plusieurs forme de la phrase au passif par exemple.
Généralisation
Spécialisation: Pour ces deux techniques l'idée est utilisé un réseaux sémantique. Dans ce réseaux les toutes les termes d'une langue sont reliés avec ceux qui ont une relation de synonymie, de généralisation et de spécialisation, éventuellement les antonymes. En utilisant ce graphe il est possible de remplacer ou d'étendre un terme en utilisant les liens de généralisation ou de spécialisation.
Dégradation: Une fois que tous les opérateurs précédant sont appliqués on obtient des requêtes de grande taille qui peuvent restée sans réponse dans ce cas on cherche a identifier dans la requête les termes avec le plus de poids et si la recherche étendue échoue des version plus simple sont essayées de façon automatique.

Graphes & réseaux sémantiques

Un beau dessin de graphe ICI => :)

Un index linguistique

Un index linguistique est un index qui utilise des documents sur lesquels un traitement linguistique à été préalablement réalisé. En particulier un traitement très intéressant est la désambiguïsation sémantique (malheureusement pas encore tout a fait fonctionnel). Si les termes des documents ne sont plus ambiguës (les poules du couvent couvent), et si les termes des requêtes ne le sont plus non plus (il n'y a pas de contexte d'autre arguments devront être utilisé en particulier un feedback utilisateur). Beaucoup de si ! Alors les recherche sont plus précises et de meilleur qualité. Actuellement cette technique n'est utilisé que par des outils de recherche d'information très spécialisé, des domaines très techniques profitent au mieux de ces techniques: Médical, Pharmacologie, Droit. Ou les termes simple sont très polysémiques et les termes composés au contraire sont très souvent mono-sémiques. L'importance des mots composé est indéniables dans l'ensemble de ces techniques, un thème de travail important est la recherche automatique de mots composé. IL faut extraire les termes qui ne sont pas interprétable directement.

Dominique Revuz email

Dernière publication :12/12/2003 12:04:42