Les Termes indéxés

Les différents moteurs font des choix différents sur leurs statégie de selection des mots qu'ils placent dans l'index.
Ces staégies ont un impact sur le choix du moteur en fonction du type de recherche que l'on fait. Pour des informations très précise avec des mots peut fréquent tout les moteurs ne vons pas répondre de la meme façon. On choisit donc de préférence dans ce cas la un moteur basé sur du text complet qui index des pages optenues par un crawler. Plus l'index (ensemble des mots utiliser dans la recherche dans la base) est grand, plus votre recherche a potentiellement de la chance de trouver de l'information intéressante.

Définir le moteur avec l'index le plus gros est une tache difficile. D'une part car les informations sont peu fiables. Il faut donc travailler sur une approche expert externe faite de différents comparatifs.

Par exemple le tableau suivant nous donne le nombre de pages ramenée par les principaux moteurs sur 25 requètes de mots simples avec une indication du nombre de fois ou le moteur a été en tete (19 google):

D'autre tests sont utilisés l'objectif du test suivant est de comparer google et ses prétention d'avoir l'index le plus large.
Termes très peu fréquent
Peu moins de 100 occurences dans un moteur.

Search
Engine

Reported
Size

Expected
Score

Actual
Score

Rank

Google

560

1.0

1.0

1

FAST

340

2.0

1.8

2

Northern Light

265

3.0

2.3

3

HotBot

110

4.0

2.3

3

iWon

110

4.0

2.3

3

AltaVista

350

2.0

2.5

4

Yahoo-Google

560

1.0

3.0

5

Excite

250

3.0

3.0

5

Yahoo-Inktomi

110

4.0

4.3

6
La première colone montre combien de millions de pages sont supposé être indexées sur chaque moteur. Le "Expected Score" (score attendu) est calculer la dessus. Le score est la moyenne des positions relatives des différents compétiteurs. Score idéal 1 le plus mauvais 9 (heureusement aucun n'a atteint se score enviable :). Globalement google peut se flatter d'avoir le plus gros index.
Termes peu fréquents
Ici les termes apparaissent avec des fréquences de plusieurs centaines à plusieurs milliers d'occurances.

Search
Engine

Reported
Size

Expected
Score

Actual
Score

Rank

FAST

340

2.0

1.6

1

Google

560

1.0

2.0

2

AltaVista

350

2.0

2.4

3

HotBot

110

4.0

3.0

4

iWon

110

4.0

3.0

4

Northern Light

265

3.0

3.4

5

Yahoo-Google

560

 1.0

3.6

6

Yahoo-Inktomi

110

4.0

5.0

7
Pour finir des termes fréquents

Popular

Reported
Size

Expected
Score

Actual
Score

Rank

AltaVista

350

2.0

1.3

1

FAST

340

2.0

1.8

2

Northern Light

265

3.0

2.5

3

iWon

110

4.0

3.5

4

HotBot

110

4.0

3.8

5

Google

560

1.0

4.8

6

Conclusion

Pour le moment google confirme son avantage. Juste devant FAST. Atavista optient un score étonnament bas.

Search Engine Showdown
http://www.searchengineshowdown.com/

plein de bonnes informations

ainsi que le site suivant : http://searchenginewatch.com/
Dominique Revuz email Compteur
Dernière publication :01/12/2003 09:41:11