Contrôle de l'accès simultané des robots à l'aide de robots.txt et du paramètre non documenté "Host-load"

Question

Je ne suis pas vraiment un gars du réseau et je résous un problème où l'un de nos sites ne répond plus de manière intermittente à un proxy inverse: il commence tout simplement à couper les connexions, puis au bout de 30 minutes environ, tout va bien.

Le serveur ne semble pas surchargé, répond très bien au trafic en boucle, mais apparemment, il refuse les connexions du proxy ...

Ce sera probablement un problème à multiples facettes. En examinant le serveur dans son ensemble, nous avons constaté que nous générions beaucoup de trafic de la part de robots d'analyse de sites Web externes, et encore plus d'un Google Search Appliance (GSA) interne.

Je voulais explorer si le problème était le degré de parallélisme dans l'exploration. Je suis conscient du paramètre de délai d'analyse qui aiderait à réduire le trafic global, mais aurait également une incidence sur la fréquence d'analyse et ajouterait un délai à l'indexation. De toute façon, il ne semble pas que le moyen le plus optimal de contrôler la charge des robots d'exploration.

En tout état de cause, la fréquence des demandes ne devrait pas poser de problème ... Si Google veut explorer en permanence toute la journée, chaque seconde, c'est bien. Tant qu'ils n'auront pas trop de connexions ouvertes pendant le processus, cela ne devrait pas vraiment affecter notre capacité à gérer d'autres connexions.

Il est difficile de dire avec netstat combien de Googlebots simultanés sont des connexions d'origine, car les seules connexions établies que je verrai à un moment donné sont celles qui prennent un peu plus de temps. Quoi qu'il en soit, je ne vois pas plus de deux connexions actives à la fois, et bien d'autres TIME_WAIT connexions (c'est-à-dire que Googlebot a terminé, a fermé sa connexion et nous attendons de fermer de notre côté pendant quelques minutes. ... par défaut TCP stuff).

Puis il y a ceci: Q & R Robots.txt avec Matt Cutts

Cette page décrit un paramètre apparemment non documenté (ne faisant pas partie du protocole d’exclusion de robots) appelé Host-load. Ce paramètre devrait théoriquement me permettre de spécifier combien de robots Google vont se connecter simultanément, et c'est parfait parce que je peux utiliser une chose pour dire à notre GSA et à tout autre hôte Googlebot qui nous regarde le degré de parallélisme que nous pouvons gérer ...

Cela semble donc cool, mais étant donné que personne d'autre que Matt Cutts (étant un ingénieur de Google dirigeant leur équipe de Webspam) n'a apparemment même mentionné ce paramètre, j'étais curieux de savoir si quelqu'un d'autre l'utilisait?

Si, par exemple, je savais que Host-load par défaut pour Googlebot était égal à 2, je peux totalement exclure les robots d'exploration parallèles dans le cadre du problème. Donc, c'est une question. Le fait qu'il ait utilisé 2 par exemple dans le Q & A semble impliquer que 2 est la valeur par défaut Host-load, et que cela correspond à ce que j'ai vu de netstat.

La plus grande question est:

Est-ce que quelqu'un connaît une liste ou une référence de propriétés étendues robots.txt qui ne sont pas formalisées dans le protocole d'exclusion des robots? Je suppose qu'avec autant de crawlers, il existe toutes sortes de paramètres propriétaires.

Oleg · Answer

N'IMPORTE QUEL robot d'exploration peut s'identifier comme "Googlebot" ou tout autre robot de moteur de recherche via son agent utilisateur. La raison pourrait donc être que certains robots "spamment" sur votre site. Je vous conseillerais quand même de définir un délai d'analyse dans votre robots.txt pour tous les robots.

John Mueller · Answer

Vous pouvez utiliser le lien "signaler un problème avec Googlebot" dans Webmaster Tools pour informer l'équipe de Googlebot de vos préférences d'analyse. Vous pouvez le trouver dans le tableau de bord du site, dans l'icône d'engrenage (en haut à droite), sous "Paramètres du site", "Taux d'analyse", "En savoir plus". Ils peuvent parfois être en mesure de modifier les choses, ou il peut être judicieux de le garder sur automatique.