Les Robots
Les robots arraignés crawleurs sont des logiciels d'aspiration du web, ils sont responsable d'une grande partie de l'utilisation de la bande passante de l'internet. C'est pourquoi un protocol de proection contre les robots à été défini en haut d'un site (à la racine) il faut placer un fichier robot.txt qui va indiquer aux robots qu'elles sont les zones authorisés .
Pour réaliser un robot il faut réssoudre un certains nombre de problèmes:
- Quels sites choisir.
- Comment éviter d'indexer des mirroirs
- Peut-on eviter de parcourir toutes les pages
- Les liens de pages sur un sujet peuvent êtres donnés sans avoir été parcourus
- Des pages inutile existe
- identifier des sites "sans valeur"
- Comment utiliser résonnablement le réseaux.
- La bande passante de l'accès internet du robot.
- Les différents noeuds du réseau
- Le routage
- Comment se comporter avec des sites fragiles (dénial of service)
- Comment stocker les documents.
- Taille du stockage
- Cache
- Comment stocker les URL.
- Comment stocker les Documents.
- Comment lier les URL et les documents.
- Comment réaliser la mise à jours des documents.
- Comment réaliser la mise à jours d'un site.
- Quels sont les protocoles autorisé/ à utiliser.
- Comment faire pour ne pas surcharger les sites.
- Quels sont les types de documents qu'il faut parcourrir
- News -> dejanews
- Forums
- site dynamiques
- Base de données (deep web)
Dominique Revuz email 
Dernière publication :01/12/2003 09:41:24