J'ai un site Web qui compte plusieurs millions de pages vues par mois.
Depuis quelques jours, un bot Googlebot envoie des requêtes au site très fréquemment. Il envoie plusieurs centaines de demandes au site en une minute, attend quelques heures et les répète encore et encore.
Son agent utilisateur est Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
et certaines adresses IP sont 66.249.64.208
, 66.249.64.135
et 66.249.64.223
, qui ne semblent pas être des faux. Cependant, Console Google Page dit Le nombre de pages explorées par jour est de 25 en moyenne.
Quels sont ces accès?
Les exemples d'adresses IP sont Google, d'accord! Cependant, il ne devrait pas y avoir plus d'une demande toutes les 2 secondes, bien que cela puisse avoir changé ces dernières années. Pour mémoire, Google s'est toujours plutôt bien comporté et est toujours resté dans la règle de 1 demande par 2 secondes. Cela dit, il n’est pas rare que les demandes de petites rafales tout au long de la journée et peut-être même les plus volumineuses en dehors des heures de pointe.
La moyenne de Google citée s’applique à tous les sites Internet. Plus de 49 000 pages ont été explorées chaque jour et je suis persuadé que davantage lorsque je ne faisais pas attention. Google fait des pings sur mon site par dizaines de milliers et ne s'arrête que quelques jours à la fois. Le plus long Google est resté 5-6 jours. Tout dépend de la taille, de la fraîcheur, de la popularité et de la vitesse du site.
Vous pouvez contrôler le taux d'analyse, mais seulement temporairement. Sheesh! Vous pouvez définir le taux d'analyse à l'aide de la console de recherche Googles (outils pour les webmasters). Toutefois, Google ne le respecte que pendant 90 jours. Google va commencer à explorer votre site à un rythme sécurisé, en fonction de la vitesse de votre site.
La plupart des gens veulent que Google aille plus vite.
La plupart des gens veulent augmenter le taux d'analyse de Google. Personnellement, je ne m'en suis jamais soucié. Toutefois, si vous souhaitez ralentir Google, il n'y a que deux solutions. Le premier est Search Console. Vous pouvez trouver comment au bas de cette page: https://support.google.com/webmasters/answer/48620?hl=fr Vous verrez également la mention de l'autre option que je fais pas conseiller car il peut être permanent. Cette option consiste à déposer une demande ici: https://www.google.com/webmasters/tools/googlebot-report Les deux options nécessitent un compte.
Ne comptez pas sur la directive de délai d'analyse pour vous aider. Il n'est pas clair que Google y prête attention. En fait, si j'étais un homme de paris, je parierais contre. Google devrait faire attention à cette directive. Cela fait partie d'une norme qu'ils soutiennent.
Il est possible que ces accès soient des redirections de pages ou des fichiers de documents supplémentaires tels que des images. Chacune de vos pages comporte peut-être un grand nombre d'éléments qui doivent être chargés pour que la page soit complète, tels que des fichiers javascript externes, des fichiers CSS et des fichiers image.
Comme dit closetnoc, vous pouvez essayer la console de recherche Google pour limiter le taux d'analyse, mais si cela ne vous convient pas, envisagez d'envoyer un code de statut 410 aux demandes qui font référence à d'anciennes pages qui n'existent plus afin que Google demande ces pages de moins. souvent, et redirigez des anciennes URL vers de nouvelles si la redirection a un sens et aide vos invités.
Si Google est toujours ridicule, accédez au pare-feu de votre serveur et limitez le nombre de requêtes que Google peut effectuer en filtrant son bloc d'adresses IP. Je vous déconseille toutefois d'empêcher Google d'effectuer 10 requêtes par seconde.
Dans votre fichier robots.txt, ajoutez une directive de délai d'analyse.
User-agent: * Crawl-delay: 1
Toutes les IP qui n'obéissent pas devraient être bloquées.
D'après moi, tout ce qui se situe dans la plage 66.249 correspond à Google.