Empêcher Twitterbot d'accéder au site Web

Question

J'ai une application Twitter pour que les utilisateurs de mon application partagent les liens de ma page Web dans leurs tweets. Il semble que les bots suivent ces liens et que certains d'entre eux créent une utilisation élevée de la bande passante. Et la plupart d'entre eux ne me fournissent aucun coup. Je souhaite donc les interdire avec le fichier robots.txt ou le fichier .htaccess.

Lorsque je vérifie access.log, je vois les robots suivants ci-dessous.
Mon inquiétude est de savoir si l’interdiction de Twitterbot pose problème. À qui appartient ce bot? Twitter.com ou un autre site Web? Quels seraient les inconvénients de l'interdire?

No Bot name Daily hits 1 Twitterbot 1,499 2 MJ12bot 1,490 3 Google AdSense Robot 774 4 ShowyouBot (http://showyou.com/crawler) 655 5 Googlebot 595 6 Bing Robot 204 7 Yandex Robot 186 8 Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php) 148 9 Apple RSS Robot 126 10 Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php) 76 11 FaceBook Crawler 62 12 Alexa Robot 48 13 QuerySeekerSpider ( http://queryseeker.com/bot.html ) 37 14 Google Feedfetcher 28 15 Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MDDR; .NET4.0C; .NET4.0E; .NET CLR 1.1.4322; Tablet PC 2.0); 360Spider 17 16 Ezooms Robot 14 17 AhrefsBot 10 18 Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; ) Firefox/1.5.0.11; 360Spider 9 19 Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html) 8 20 Baidu Spider 7 21 Yetibot 3 22 Exabot 2 23 FeedBot 2 24 Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/) 2 25 SeznamBot 2 26 Yahoo! Slurp

nathangiesbrecht · Answer

Twitterbot appartient à Twitter. En gros, il s'agit d'indexer le contenu d'une URL donnée (comme le fait Google). Je ne suis pas sûr, mais je pense qu'ils utilisent principalement ces données pour les extraits (Twitter Cards) accompagnant un Tweet avec un lien, par exemple. le titre de la page, la description et une image (si présente).

Donc, le seul inconvénient que je vois au blocage serait que les liens vers votre site n’auraient pas de Twitter Cards associées à d’autres utilisateurs. Cela pourrait bien entendu entraîner une baisse du taux de clics pour les liens vers votre site Web.