web-dev-qa-db-fra.com

Dois-je vraiment bloquer MJ12Bot (en tant que visiteur dominant sur mon site)?

Je suis tout à fait disposé à autoriser tous les moteurs de recherche légitimes à consulter mon site, mais j'ai remarqué que, sur mon site de type carte de visite, une requête sur deux provient de MJ12Bot, mais pour des raisons bien connues, comme un bot de niche SEO, ils ne renvoient même pas de visiteurs humains, alors je suis assez déçu du bruit qu'ils génèrent.

% cut -f12- -d" " constantine.su.access.log | sort | uniq -c | fgrep -i -e bot -e spider | sort -nr | head
 421 "Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)"
  69 "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
  64 "woobot/1.1"
  62 "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
  61 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
  39 "Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)"
  30 "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
  14 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
  13 "woobot/2.0"
  12 "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

Y a-t-il un moyen de calmer les ambitions de MJ12Bot (par quelque chose comme 20 ×)? Ou, en raison de la nature distribuée de le projet MJ12bot, est-ce que je dois juste les bloquer tous comme parasitaires?

6
cnst

MJ12bot adhère à la norme robots.txt. Si vous voulez que le bot empêche l'exploration du site Web, ajoutez le texte suivant à votre fichier robots.txt:

User-agent: MJ12bot
Disallow: /
2
Sjoerd Linders

D'après vos commentaires sur une autre réponse, MJ12Bot visite votre site moins d'une fois par heure (421 fois en 25 jours.) La meilleure chose à faire est de ne pas vous en préoccuper. Crawl-Delay est inutile pour vous, car aucun robot ne peut obéir à un délai aussi long.

2
Greg Lindahl

Y at-il un moyen de calmer les ambitions de MJ12Bot

Le MJ12Bot obéirait apparemment à robots.txt et à la directive (non standard) Crawl-Delay:

Comment puis-je ralentir MJ12bot?

Vous pouvez facilement ralentir bot en ajoutant ce qui suit à votre fichier robots.txt:

User-Agent: MJ12bot
Crawl-Delay: 5

Le délai d'exploration doit être un nombre entier et il indique le nombre de secondes d'attente entre les demandes. MJ12bot laissera un délai pouvant aller jusqu'à 20 secondes entre les demandes sur votre site. Veuillez noter que même s'il est peu probable, il est toujours possible que votre site ait été rampé à partir de plusieurs MJ12bots en même temps. Augmenter le délai d'analyse devrait minimiser l'impact sur votre site.

Référence:
http://mj12bot.com/

2
MrWhite