web-dev-qa-db-fra.com

Empêcher Twitterbot d'accéder au site Web

J'ai une application Twitter pour que les utilisateurs de mon application partagent les liens de ma page Web dans leurs tweets. Il semble que les bots suivent ces liens et que certains d'entre eux créent une utilisation élevée de la bande passante. Et la plupart d'entre eux ne me fournissent aucun coup. Je souhaite donc les interdire avec le fichier robots.txt ou le fichier .htaccess.

Lorsque je vérifie access.log, je vois les robots suivants ci-dessous.
Mon inquiétude est de savoir si l’interdiction de Twitterbot pose problème. À qui appartient ce bot? Twitter.com ou un autre site Web? Quels seraient les inconvénients de l'interdire?

No  Bot name    Daily hits
1   Twitterbot              1,499
2   MJ12bot                 1,490
3   Google AdSense Robot    774
4   ShowyouBot (http://showyou.com/crawler) 655
5   Googlebot               595
6   Bing Robot              204
7   Yandex Robot            186
8   Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)    148
9   Apple RSS Robot         126
10  Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php) 76
11  FaceBook Crawler        62
12  Alexa Robot            48
13  QuerySeekerSpider ( http://queryseeker.com/bot.html )   37
14  Google Feedfetcher      28
15  Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MDDR; .NET4.0C; .NET4.0E; .NET CLR 1.1.4322; Tablet PC 2.0); 360Spider  17
16  Ezooms Robot            14
17  AhrefsBot   10
18  Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; ) Firefox/1.5.0.11; 360Spider   9
19  Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html) 8
20  Baidu Spider    7
21  Yetibot 3
22  Exabot  2
23  FeedBot 2
24  Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)  2
25  SeznamBot   2
26  Yahoo! Slurp
1
trante

Twitterbot appartient à Twitter. En gros, il s'agit d'indexer le contenu d'une URL donnée (comme le fait Google). Je ne suis pas sûr, mais je pense qu'ils utilisent principalement ces données pour les extraits (Twitter Cards) accompagnant un Tweet avec un lien, par exemple. le titre de la page, la description et une image (si présente).

Donc, le seul inconvénient que je vois au blocage serait que les liens vers votre site n’auraient pas de Twitter Cards associées à d’autres utilisateurs. Cela pourrait bien entendu entraîner une baisse du taux de clics pour les liens vers votre site Web.

3
nathangiesbrecht