J'ai un site avec plusieurs sous-domaines. À certaines heures de la journée, les Bingbots se réunissaient sur mon site et effectuaient un balayage massif comme celui-ci:
01:23:11 a.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 b.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 c.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 d.example.com GET /index HTTP/1.1 200 Bot.A
01:23:12 e.example.com GET /index HTTP/1.1 200 Bot.A
01:23:12 f.example.com GET /index HTTP/1.1 403 Bot.A
01:23:12 g.example.com GET /index HTTP/1.1 403 Bot.A
01:23:22 h.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 i.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 j.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 k.example.com GET /index HTTP/1.1 200 Bot.B
01:23:23 l.example.com GET /index HTTP/1.1 200 Bot.B
01:23:23 m.example.com GET /index HTTP/1.1 403 Bot.B
01:23:23 n.example.com GET /index HTTP/1.1 403 Bot.B
Comme les robots analysent plusieurs sous-domaines, la directive Crawl-delay: 1
dans robots.txt
n'aura aucun effet sur ce comportement. Le mécanisme de défense du serveur déclencherait et bloquerait ces robots en émettant 403 erreurs.
Existe-t-il un moyen de répartir le crawling de BingBot de manière uniforme? La valeur par défaut motif d'analyse de l'outil pour les webmasters de Bing ne semble pas être suivie.
C'est Vincent de Bing Webmaster Tools et j'ai remarqué votre message.
Tout d'abord, je suis désolé d'apprendre le problème que vous rencontrez avec l'activité d'exploration de notre robot d'exploration dans vos sous-domaines. Je suis sûr que nous pouvons faire mieux.
Couple de choses:
J'ai remarqué que vous avez mentionné que les paramètres d'analyse des modèles dans les outils pour les webmasters ne fonctionnaient pas. La raison en est que lors de l'utilisation d'une directive Crawl-delay: dans robots.txt et - cette directive a toujours priorité sur les paramètres de contrôle d'analyse des outils Bing Webmaster, ce qui explique pourquoi cela ne fonctionne pas comme prévu (voir la remarque dans - http://www.bing.com/webmaster/help/crawl-control-55a30302 ).
D'un autre côté, étant donné que nous devons atténuer ce problème par le biais de plusieurs fichiers robots.txt spécifiques à un sous-domaine avec des délais d'analyse différents: les directives ne sont pas optimales. Je n'ai pas de bonne solution de libre-service ici, c'est pourquoi je vous suggère de contacter Bing Webmaster. Soutenez et partagez les informations de domaine/sous-domaine afin qu'ils puissent les transmettre à la bonne équipe afin qu'elle les examine de plus près (ils peuvent demander des journaux de serveur pour faciliter les recherches).
Pour contacter le support Webmaster, allez à http://go.Microsoft.com/fwlink/?linkid=261881 , remplissez les champs obligatoires et dans la section "Quel type de problème rencontrez-vous? " Dans la liste déroulante, sélectionnez "Enquête en sous-analyse ou en sur-analyse" et décrivez le problème que vous rencontrez. Même s'ils ne reviennent pas immédiatement avec une réponse personnalisée (cela peut prendre entre 24 et 48 heures), cela devrait au moins faire avancer les choses.
D'après mon expérience, les robots MSN ont toujours été trop indisciplinés pour robots.txt et ils n'apportent aucun avantage en termes de trafic. Au cours des trois dernières années, je suis devenu très intolérant à l'égard de leur comportement terrible. Et oui, ils sont de Microsoft.
403 les avec RewriteCond% {HTTP_USER_AGENT} dans .htaccess
Utilisez fail2ban ou mod_security pour les bloquer ou bloquer leur taux
Les deux ci-dessus
Recueillir les données du journal et les acheminer par zéro
Ils ne méritent pas d'accès.