Le manque d’efficacité des moteurs de recherche
Vincent Bernat
Note
Cet article a été publié dans « W », un annuaire de sites web accompagné de quelques articles que je maintenais entre 1996 et 1998. Il est reproduit ici avec quelques retouches cosmétiques dans un but de conservation historique de cette période avant l’apparition de Google.
Il y a quelque temps, les moteurs de recherche permettaient de savoir avec quasi-certitude si une information se trouvait sur le Web ou non. Aujourd’hui, avec la multiplication des pages, ceux-ci sont débordés dans la tâche d’indexation et ne parviennent donc plus à emmagaziner l’information…
Faiblesses#
Il y a un an à peine, une recherche infructueuse avec AltaVista signifiait le plus souvent que l’on ne trouverait pas ce qu’on voulait sur le Web. Aujourd’hui, le constat est légèrement différent. Il n’est pas rare en effet, dans le cas d’une recherche très précise, de trouver très peu de réponses avec la plupart des moteurs de recherche, tout en sachant pertinemment que l’objet de la recherche se trouve quelque part. Le problème est que la page en question n’a pas encore été visitée par les robots subordonnés aux moteurs de recherche et est donc inconnue de ceux-ci.
Un exemple simple : cherchez donc le mot « fhjghfkjghdfkh » qui devrait normalement vous conduire à cette page. Il y a fort à parier que vous ne le trouverez pas.
Le Web croît de façon exponentielle et les moteurs de recherche sont confrontés à deux problèmes différents : mettre à jour les données qu’ils possèdent déjà et en récolter de nouvelles.
Les difficultés de mise à jour#
La première fois qu’un robot passe sur une page, il se charge de la mémoriser et de l’intégrer dans la base de données. Si cette page est par la suite modifiée, ce qui est fréquemment le cas, le robot n’en aura pas connaissance et ce sera toujours l’ancienne version qui sera connue du moteur de recherche. Il faudra attendre qu’un robot se risque de nouveau sur cette page pour qu’il remarque et consigne les modifications. Cela peut prendre un certain temps, beaucoup de temps en général. D’autant plus que les braves robots qui arpentent le Web n’ont pas que ça à faire.
La découverte de nouvelles pages#
Il leur faut en effet également référencer les nouvelles pages qui apparaissent. Le problème est alors légèrement moindre car la plupart des webmestres qui créent un nouveau site le référencent dans les moteurs de recherche et les pages du site en question seront alors indexées sous les prochaines 48 heures.
Cependant, très peu de webmestres s’amusent à réenregistrer le site quand de nouvelles pages apparaissent et il faudra de nouveau attendre qu’un robot repasse dans le coin pour découvrir les nouvelles pages… Cela peut être également assez long.
Des capacités de recherche diminuées#
Le Web croît de façon exponentielle, cela signifie que de plus en plus de pages se créent et donc que le contenu est de plus en plus important. Mais pendant ce temps, les moteurs de recherche ont de plus en plus de mal à ingurgiter les nouvelles pages ce qui fait que le pourcentage de pages indexées diminue mois après mois.
Cela ne diminue pas véritablement les capacités de recherche car les moteurs enregistrent de plus en plus de pages, mais cela signifie qu’il est fort possible de ne pas trouver quelque chose alors que ce quelque chose se trouve dans le recoin d’un site.
Des solutions#
Du côté de l’utilisateur, il n’y a pas grand chose à faire, à part peut-être apprendre à utiliser au mieux les ressources existantes et notamment les newsgroups.
Du côté des sites, la plupart mettent en place des moteurs de recherche, du coup, il « suffit » de tomber sur un site englobant le sujet cherché pour trouver, peut-être, l’information. Cependant, la multiplicité de ces petits moteurs de recherche rend leur usage difficile.
Il existe cependant des moteurs de recherche qui utilisent des moteurs de recherche. Ce sont des métachercheurs. Mais leur efficacité est également limitée par la capacité des moteurs de recherche utilisés.
Coopération#
Pour contourner le problème et éviter d’être noyé dans une masse d’informations insondable, il faudrait donc mettre en place un système qui faciliterait la vie des robots. Par exemple, lorsqu’un site est mis à jour, celui-ci gère un fichier (situé à la racine du site par exemple) indiquant les pages mises à jour ou créées. Ainsi, les robots n’auront qu’à regarder ce fichier pour savoir quelles pages visiter. Cette technique permettrait d’accroître considérablement leur efficacité.
Il y a aussi la solution de contourner la « paresse » des webmestres par des outils plus adaptés : en effet, si les webmestres n’enregistrent pas automatiquement dans les moteurs de recherche les pages modifiées et créées, des outils pourraient s’en charger automatiquement. Il suffit par exemple de mettre au point un outil qui mettrait à jour un site en indiquant à quelques moteurs de recherche la référence des nouvelles pages.