web-dev-qa-db-fra.com

Je reçois un transfert de bande passante énorme d'un robot inconnu Robot inconnu (identifié par 'bot *')

Je reçois un énorme transfert de bande passante d'un robot inconnu (identifié par 'bot *'). Il existe des moyens de le bloquer via htaccess ou par un autre moyen. La question est de savoir s'il faut le bloquer pour la sécurité du site Web ou s'il est bon que les moteurs de recherche explorent le site Web.

Je suis très nouveau dans la conception de sites Web, donc je ne connais pas les bases. S'il vous plaît, guidez-moi si je dois les bloquer ou le laisser être comme ça

2
Gradfather

La première étape consisterait à déterminer si ce bot lit robots.txt. Vous pouvez définir un crawl-delay ici pour ce bot. Cette question décrit plus en détail ce que vous devez faire. Vous pouvez interdire à ce bot d'explorer votre site via ce site également. Veuillez noter que les robots malins ne lisent pas, ou simplement ignorent, robots.txt et que les modifications apportées à ce fichier risquent de ne pas fonctionner.

Si vous voulez bloquer un bot malfaiteur à la dure, déterminez que c'est ip. Vous pouvez utiliser mod_authz_Host dans .htaccess pour bloquer durement cette ip. Vous pouvez le faire avec le code suivant:

<Directory />
  Order Deny,Allow
  Deny from 127.0.0.1
  Allow from all
</Directory>

Les balises de type xml autour de ce code indiquent que ces règles sont valides pour le répertoire / (racine). Si une demande est traitée, toutes les règles de ce répertoire et toutes les règles de tout répertoire parent appartenant à ce répertoire seront traitées. (ainsi: une demande à /asdf/ _ finira par analyser également ces règles.

Order Deny,Allow indique à Apache de traiter d'abord toutes les règles de "refus", puis toutes les règles d'autorisation. Deny from 127.0.0.1, bloquera toutes les demandes adressées à 127.0.0.1. Inutile de dire que vous devriez changer cette adresse IP en adresse réelle. Allow from all autorisera l'accès à tous les autres. Cela présentera ce bot avec une erreur Forbidden je crois.

Plus d'informations sur mod_authz_Host peuvent être trouvées ici et plus d'informations sur la directive <directory> peuvent être trouvées ici .

1
Sumurai8