Ayant écrit un certain nombre de bots et vu la quantité énorme de bots aléatoires qui explorent un site, je me demande en tant que webmaster, quels bots valent-ils vraiment la peine de laisser sur un site?
Ma première pensée a été que permettre à des bots sur le site peut potentiellement générer un trafic réel. Y a-t-il une raison d'autoriser des robots qui ne sont pas connus pour envoyer du trafic réel sur un site, et comment repérez-vous ces "bons" robots?
Dans le domaine des robots normaux, tout dépend de ce que vous appréciez et vous seul pouvez en décider. Il y a bien sûr Google, Bing/MSN/Yahoo !, Baidu et Yandex. Ce sont les principaux moteurs de recherche. Il existe également les différents sites de référencement et de backlink. À tort ou à raison, j'autorise quelques-uns des plus gros à accéder à mon site, mais ils sont généralement inutiles. Je bloque archive.org non seulement dans le fichier robots.txt, mais également par nom de domaine et adresse IP. En effet, ils ignorent le fichier robots.txt! C'est quelque chose que vous devez avoir une idée de. Ne vous laissez pas berner par les noms des agents. Ils sont souvent forgés par de mauvaises personnes. De nos jours, je reçois des milliers de demandes de pages de sources prétendant être Baidu, mais ne le sont pas. Apprenez à connaître ces spiders par noms de domaine et blocs d'adresses IP et apprenez à les gérer à ce niveau. Les bons obéissent à robots.txt.
Mais je dois vous avertir qu'il existe une tonne de robots furtifs, de robots malicieux, de racleurs, etc., dans le but de fouiller fréquemment votre analyse du journal et de la bloquer. Ce 5uck5! Mais cela doit être fait. La plus grande menace qui pèse sur eux ces jours-ci sont des liens de mauvaise qualité vers votre site. Mon code de sécurité anti-bot mis à jour que j'ai mis en place cette année a automatiquement supprimé 7700 liens de mauvaise qualité. Bien sûr, mon code a encore besoin de travail, mais vous comprenez. Les mauvais robots volent toujours le potentiel du site.
Ce ne sera pas long avant que vous ne vous y mettiez.
J'ai eu des problèmes avec les robots Baidu qui ralentissaient mon serveur alors que le moteur de recherche n'envoyait presque pas de trafic. Ces robots ne respectent pas le fichier robots.txt. Pour bloquer les robots Baidu, il vous suffit de coller ce qui suit dans votre fichier htccess.
# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)
# IP range
# 180.76
RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]
J'ai aussi eu des problèmes avec l'exploration trop rapide des spiders Bing/Microsoft, contrairement à Baidu, ils respectent donc le fichier robots.txt;
User-agent: bingbot
Crawl-delay: 1
User-agent: msnbot
Crawl-delay: 1