J'ai une application Twitter pour que les utilisateurs de mon application partagent les liens de ma page Web dans leurs tweets. Il semble que les bots suivent ces liens et que certains d'entre eux créent une utilisation élevée de la bande passante. Et la plupart d'entre eux ne me fournissent aucun coup. Je souhaite donc les interdire avec le fichier robots.txt ou le fichier .htaccess.
Lorsque je vérifie access.log, je vois les robots suivants ci-dessous.
Mon inquiétude est de savoir si l’interdiction de Twitterbot
pose problème. À qui appartient ce bot? Twitter.com ou un autre site Web? Quels seraient les inconvénients de l'interdire?
No Bot name Daily hits
1 Twitterbot 1,499
2 MJ12bot 1,490
3 Google AdSense Robot 774
4 ShowyouBot (http://showyou.com/crawler) 655
5 Googlebot 595
6 Bing Robot 204
7 Yandex Robot 186
8 Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php) 148
9 Apple RSS Robot 126
10 Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php) 76
11 FaceBook Crawler 62
12 Alexa Robot 48
13 QuerySeekerSpider ( http://queryseeker.com/bot.html ) 37
14 Google Feedfetcher 28
15 Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MDDR; .NET4.0C; .NET4.0E; .NET CLR 1.1.4322; Tablet PC 2.0); 360Spider 17
16 Ezooms Robot 14
17 AhrefsBot 10
18 Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; ) Firefox/1.5.0.11; 360Spider 9
19 Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html) 8
20 Baidu Spider 7
21 Yetibot 3
22 Exabot 2
23 FeedBot 2
24 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/) 2
25 SeznamBot 2
26 Yahoo! Slurp
Twitterbot appartient à Twitter. En gros, il s'agit d'indexer le contenu d'une URL donnée (comme le fait Google). Je ne suis pas sûr, mais je pense qu'ils utilisent principalement ces données pour les extraits (Twitter Cards) accompagnant un Tweet avec un lien, par exemple. le titre de la page, la description et une image (si présente).
Donc, le seul inconvénient que je vois au blocage serait que les liens vers votre site n’auraient pas de Twitter Cards associées à d’autres utilisateurs. Cela pourrait bien entendu entraîner une baisse du taux de clics pour les liens vers votre site Web.