Nous avons un pot de miel autonome qui est conçu pour remplir les robots d'exploration de données indésirables (entre autres). Il est protégé par les bons "traités" et les en-têtes afin que 99% des bons robots restent à l'écart. Aujourd'hui, il semble que SEMrush ait trouvé son chemin et ait vu des milliers de pages de données de corbeille.
En théorie, ce serait génial car cela fausserait leurs statistiques à tous les concurrents essayant de renifler notre site, mais nous utilisons en réalité SEMrush. Comment puis-je empêcher les badbots utiles comme SEMrush d'entrer dans ce pot de miel? Il semble que robots.txt et nofollow n'aient aucun effet. Voici comment sa mise en place:
Alors, comment puis-je m'assurer que SEMrush ou d'autres outils similaires ne soient pas accrochés au miel?
Si vous utilisez le serveur Web Apache, vous pouvez utiliser une configuration de . Htaccess en liste blanche par l'agent utilisateur et empêcher les véritables bots d'atteindre votre 'tarpit':
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} SEMrush [NC]
RewriteRule .* - [F,L]