web-dev-qa-db-fra.com

Semalt ignore robots.txt, leur propre forme fait-elle ce qu’elle promet?

Semalt ignore manifestement robots.txt et le meilleur moyen de les bloquer, car un webmaster semble bloquer le trafic de référencement de Semalt, par exemple. . htaccess .

Je viens de découvrir qu'ils ont également un formulaire sur leur propre site Web à l'adresse semalt.com/project_crawler.php sur lequel ils affirment "Votre site Web sera supprimé de notre base dans un délai de 30 minutes après avoir rempli le formulaire". Compte tenu de la façon dont ils traitent robots.txt et du fait que certaines personnes affirment que cette société utilise même des réseaux de zombies pour collecter des données, j'ai des doutes sur ces affirmations.

Quelqu'un a-t-il eu de la chance avec ça? Est-ce que cette forme fait ce qu'ils promettent?

4
guaka

J'ai déjà vu ces personnes et elles correspondent à ce que vous décrivez. Dans ma base de données, je vois qu'ils lisent le fichier robots.txt, mais ils ne proposent pas de nom de bot pour bloquer les accès à votre site. Ce site correspond à ma définition d'un mauvais bot (indésirable/non apprécié). Une simple recherche sur Google en donne une foule de preuves.

En cas de doute, bloquez simplement leurs adresses IP de robot d'exploration:

ASN: AS49981 - Plage d'adresses IP WorldStream: 91.212.229.0 - 91.212.229.255

Code Htaccess pour bloquer la plage d'adresses IP ASN AS49981 et le référent:

RewriteCond %{HTTP_REFERER} semalt\.com [NC, OR]
RewriteCond %{HTTP_Host} ^91.212.229.([0-2]*[0-5]*[0-5]*)$ [NC]
RewriteRule .* - [F,L]

Ceci est un pas un bloc d'abonné afin que vous ne bloquez pas les utilisateurs.

Plus de détails:

L'adresse IP 217.23.11.15 de Semalt.com a ignoré que le fichier robots.txt tombe dans un piège à bot malgré la lecture du fichier robots.txt. De plus, il y a une activité de pirate informatique à partir de cette adresse IP. Cette adresse IP a lu des images. Les agents d'utilisateur suivants sont liés à cette adresse IP:

- (Yes. This is a dash and a common scraper tactic.)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
Mozilla/4.0 (compatible; Synapse)
Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/34.0.1847.116 Safari/537.36
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; TencentTraveler)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; TencentTraveler ; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; .NET CLR 2.0.50727)
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 7.1; Trident/5.0)
Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.1634 Safari/535.19 YE
Opera/9.80 (Windows NT 5.1; MRA 6.0 (build 5831)) Presto/2.12.388 Version/12.10
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3 (.NET CLR 3.5.30729)
Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/38.0.2125.104 Safari/537.36

Souvent, l’utilisation de plusieurs agents utilisateurs est une tactique pour dissimuler les schémas d’accès. Cependant, il n’est pas rare que quelques agents utilisateurs soient utilisés sur une période donnée. Cela dit, cette liste est préoccupante.

J'ai une activité pour l'adresse IP 217.23.11.135, mais rien à signaler, y compris la lecture de robots.txt, la lecture d'images ou les agents d'utilisateur. Cependant, je l’ai lié à semalt.com également.

Selon http://www.incapsula.com/blog/semalt-botnet-spam.html :

L’auteur a pour objectif de créer des liens retour vers une certaine URL en abusant des journaux d’accès accessibles au public. Leur première étape consiste à localiser les sites Web vulnérables. Pour ce faire, les délinquants utilisent des robots d'exploration, qui remplissent généralement une double fonction, à la fois en tant que scanneurs localisant des cibles vulnérables et en tant que spammeurs exploitant ces vulnérabilités.

Par coïncidence, le bot Semalt peut exécuter du JavaScript et conserver des cookies, ce qui lui permet d’éviter les méthodes de filtrage de bots classiques (par exemple, demander à un bot d’analyser JavaScript). En raison de sa capacité à exécuter du JavaScript, le bot apparaît dans les rapports Google Analytics comme étant du trafic "humain".

Récemment, des preuves substantielles ont révélé que Semalt n’exécutait pas un robot ordinaire. Au lieu de cela, il semble utiliser un réseau de zombies généré par des logiciels malveillants cachés dans un utilitaire appelé "Soundfrost".

Nos données montrent que, à l'aide de cet utilitaire infiltré par des logiciels malveillants, Semalt a déjà infecté des centaines de milliers d'ordinateurs afin de créer un vaste réseau de zombies. Ce botnet a été intégré à la campagne de spam de référence de Semalt et, très probablement, à plusieurs autres activités malveillantes.

Pour mettre les choses en chiffres, au cours des 30 derniers jours, nous avons vu des robots Semalt tenter d'accéder à plus de 32% de tous les sites Web de notre service avec des tentatives de spam à l'origine de plus de 290 000 adresses IP différentes dans le monde.

Pour répondre spécifiquement à votre question:

Le comportement le plus antagoniste de tous est probablement l’affirmation de Semalt selon laquelle vous pouvez remplir un formulaire en ligne pour supprimer facilement votre site Web. Cependant, au lieu d'arrêter le flot de requêtes non désirées, il semble que la soumission du formulaire de suppression entraîne en réalité une augmentation du trafic de spam.

6
closetnoc