Exemple de chaîne d'agent utilisateur:
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/56.0.1511.1269 Mobile Safari/537.36; Bytespider
Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 comme Mac OS X) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/44.0.7997.1233 Mobile Safari/537.36; Bytespider
Nous voyions les mêmes choses - un ensemble raisonnablement petit d'agents utilisateurs Android/iOS, se terminant tous par Bytespider et ignorant tous nos robots.txt
des dossiers. L'un de nos ingénieurs de plateforme a eu la brillante idée d'une recherche DNS inversée sur leur cluster.
Le résultat - cela semble être https://bytedance.com/
Étant donné qu'ils ne respectent pas le robots.txt
fichier, je les considérerais comme du block-fodder.
Je le vois également sur mon site Web. Chaque seconde, il émet des demandes GET pour les pages inexistantes. J'ai eu recours au retour du code d'état HTTP 403 lorsque bytespider est dans la chaîne de l'agent utilisateur et bloque les adresses IP dans le pare-feu (en les ajoutant périodiquement en fonction des journaux du serveur) . La majorité des demandes sont émises à partir d'adresses IP appartenant à des FAI chinois et singapouriens ainsi qu'à Cloudflare.
Exemples de demandes:
172.69.22.98 - - [30/Sep/2019:13:16:10 +0000] "GET /CloudHD/interview-of-riyaz-14-bestfriend-secret-reveals-with-proof-yaari-hai/ZVRmSmlTQlFaRDQ.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.5653.1247 Mobile Safari/537.36; Bytespider"
172.68.142.101 - - [30/Sep/2019:13:18:12 +0000] "GET /CloudHD/hot-desi-girl-big-boob-s-in-blouse-nude-selfie/WmVzSi1SOEtXTjg.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.8372.1186 Mobile Safari/537.36; Bytespider"
Comme vous pouvez le deviner, aucun chemin d'accès semblable à ceux-ci n'est disponible sur mon site Web. Le bot n'a même jamais essayé de lire /robots.txt , il est donc inutile de le bloquer avec cette méthode.
bot Semrush s'est comporté presque à l'identique jusqu'à ce que je le bloque avec /robots.txt . Donc Bytespider peut être ce qu'il se présente quand il est bloqué et ne veut pas obtenir une mauvaise presse.