le Stockage des documents
Le stockage des document est une problématique importante pour un moteur de recherche généraliste car la taille des données est très importante.
On trouvera un format standard de representation des données récupér&eacutées par un robot sur le site de Alexa qui réalise le travail de collecte de www.archive.org.
Ce format est important pour connaitre la localisation (URL) le protocole d'accès utilisé (http,ftp,etc).
Un des problèmes des robots est l'indexation des URL pour détecté si une page est déja connue ou non.
L'énoncé du problème est simple, il faut implémenter un ensemble d'URL. Avec une fonction d'appartenance très rapide et une fonction d'insertion très rapide. Les tables de hashage sont biensur un candidat interessant mais on a une vraie difficulté quand la taille de la table dépasse la taille de la mémoire centrale.
Le langage Perl propose des tables de hashage mappées qui permette de resoudre en partie le problème. Il existe d'autre solutions avec du calcul disribué ou sur l'ensemble d'URL est distribué sur plusieurs machine afin de profiter de la mémoire répartie de ce type d'architectures.
Des système d'automates dynamiques sont aussi utilisé.
Dominique Revuz email 
Dernière publication :12/12/2003 12:04:41