Lucene : qu'est ce que c'est ?

Que ce soit sur internet, avec les nombreux moteur de recherche ou dans les entreprises, nous avons besoin de retrouver des documents ou site de manière simple. Une possibilité simple de recherche serait de parcourir chaque fichier, de les analyser. Nous devinons aisément les problèmes que cela pose : si pour chaque recherche on devait parcourir la totalité des pages du WWW, chaque recherche prendrait une éternité. Pour permettre une recherche plus rapide, l'idée consiste à faire l'analyse préalablement et à stocker le tout dans une base de donnée dans un format optimisé pour la recherche. C'est en gros le travail d'un moteur d'indexation : il crée des index de chaque documents, pour facilité leur recherche. Lucene est une api java permettant à des développeurs de personnaliser et de déployer leur propre moteur d'indexation et de recherche. Doug Cutting, un des architectes du moteur Excite après être passé du Xerox PARC puis Apple, est à l'origine de ce projet. Lucene initialement hébergé par Sourceforge, a rejoint la famille Jakarta en septembre 2001.

Ce projet Lucene semble utile pour une utilisation dans l'entreprise. On par exemple imaginer la création d'un extranet avec la possibilité de partager des documents et d'y effectuer des recherches rapide. On dispose alors d'un grosse possibilité de personnalisation et bénéficions de l'expérience de nombreuses personnes dans l'indexation.

Lucene est utilisé par une multitude d'association ou d'entreprise actuellement. On peut citer le projet "Nutch" également dirigé par Doug Cutting, mais le mieux est d'aller voir sur le site de Lucene dans la section "powered by" où une dizaine de sites et produits utilisant l'api y sont référencés. On y retrouve entre autre le site "serverside.com" qui propose une recherche par mot clé de ses articles.

Sun Seng Tan 2004-02-28