web-dev-qa-db-fra.com

Comment empêcher les "bons" robots qui ignorent les robots et les Nofollow d'entrer dans les pots de miel?

Nous avons un pot de miel autonome qui est conçu pour remplir les robots d'exploration de données indésirables (entre autres). Il est protégé par les bons "traités" et les en-têtes afin que 99% des bons robots restent à l'écart. Aujourd'hui, il semble que SEMrush ait trouvé son chemin et ait vu des milliers de pages de données de corbeille.

En théorie, ce serait génial car cela fausserait leurs statistiques à tous les concurrents essayant de renifler notre site, mais nous utilisons en réalité SEMrush. Comment puis-je empêcher les badbots utiles comme SEMrush d'entrer dans ce pot de miel? Il semble que robots.txt et nofollow n'aient aucun effet. Voici comment sa mise en place:

  • Le fichier Honeypot porte le nom wp-admin (Wordpress), vous ne devriez donc pas le toucher (nous n'utilisons pas WP).
  • Robots.txt indique que tout le trafic ne doit pas visiter l'URL example.com/wp-admin
  • Sur chaque page, un affichage masqué hors interface utilisateur: aucun lien avec noindex/nofollow pointant sur example.com/wp-admin.
  • Pendant le chargement du pot de miel, un en-tête HTTP interdit 403 est défini pour le client.
  • Dans le pot de miel, le inclut un en-tête méta pour nofollow/noindex
  • Une fois que le pot de miel est chargé, un calque CSS permet de bloquer certaines choses ou d’expliquer ce qu’il en est à tous les humains qui s'y trouvent.

Alors, comment puis-je m'assurer que SEMrush ou d'autres outils similaires ne soient pas accrochés au miel?

2
dhaupin

Si vous utilisez le serveur Web Apache, vous pouvez utiliser une configuration de . Htaccess en liste blanche par l'agent utilisateur et empêcher les véritables bots d'atteindre votre 'tarpit':

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} SEMrush [NC]
RewriteRule .* - [F,L]
1
richhallstoke