Problème: des entrées étranges et apparemment aléatoires sur la console CPanel Latest Visitors, montrant les adresses IP accédant à des fichiers image sans URL de référence et non identifiées comme étant des Bots.
Contexte: Je n'ai jamais eu de formation ou d'instruction en matière de site Web ou d'informatique. J'ai créé plusieurs sites Web sur les sujets liés aux transports, qui devraient être très calmes et sans incident. Ce genre de choses pourrait intéresser une douzaine de personnes aux États-Unis, au Canada, au Japon, au Royaume-Uni et en Australie. Ces sites Web étaient hébergés par une société d’hébergement Web dirigée par un gestionnaire absent. Ils ont fermé et j'ai transféré les domaines vers une nouvelle société, qui m'a confié tous les contrôles. Environ un mois après le lancement du nouveau service, le plus grand des sites Web a dépassé le paramètre de base de 5 Go et a dû être intégré au service de 15 Go et à une augmentation des frais. J'ai commencé à regarder l'augmentation de l'utilisation de la bande passante et à comprendre comment utiliser la console IP Blocker. Je n'ai pas réussi à comprendre HTAccess ou Robots.txt, mais je vais les laisser pour une autre fois. J'ai réussi à bloquer l'essentiel de la valeur des robots SEO Profiler et Chinois/Russe qui ne suivent pas les règles de Robots.txt de toute façon. Et j'ai réussi à bloquer le groupe rotatif d'URL russes/ukrainiens qui regroupent les demandes pour un fichier spécifique une douzaine de fois par jour. Mais la bande passante utilisée ne diminue pas.
J'ai commencé à remarquer des adresses IP demandant des fichiers image sans aucune URL de référence, et non identifiées comme un bot, mais identifiées comme un navigateur ou un téléphone cellulaire. Je sais que ce n'est pas normal de surfer sur Internet, car aucun fichier HTML n'est extrait pour appeler les fichiers image, et les fichiers image sont en grappes qui ne sont corrélées à aucun groupe utilisé sur les pages Web. Je gère les adresses IP dans les recherches Whois et je crée quelques groupes: pays du bloc soviétique - Russie, Ukraine, Bulgarie, Estonie ... pays de langue latine - Brésil, Espagne, Costa Rica ... Chine. Afrique du Sud. Tous les lieux n’ayant rien à voir avec le contenu du site Web, le sujet n’étant pas disponible dans ces pays.
Et il y a des IP comme le Canada, l'État de Washington, le New Jersey, etc., mais j'hésite à les bloquer.
Qu'est-ce que je regarde ici? Y a-t-il un moyen de gagner de l'argent en visant des adresses IP distantes et étrangères sur mes sites Web et en frappant quelques images successivement plusieurs fois par jour à partir de plus de 100 adresses différentes?
Il existe un moyen de bloquer directement la visualisation des images en utilisant .htaccess
RewriteEngine on
RewriteCond %{HTTP_REFERER} !^http://(www\.)?localhost [NC]
RewriteCond %{HTTP_REFERER} !^http://(www\.)?localhost.*$ [NC]
RewriteRule \.(gif|jpg)$ - [F]
Cela retournera une erreur 403 Forbidden si vous accédez à l'image directement, mais cela leur permet de s'afficher sur une page Web. Cela devrait les aider à ne pas pouvoir les visiter en utilisant l'URL directe de l'image.
Ce ne sont pas des adresses IP Googlebot. Il n'est pas rare qu'un mauvais opérateur de bot utilise Googlebot comme nom d'agent pour vous faire croire qu'il va bien. J'ai constaté qu'un grand nombre d'opérateurs de bot malveillants provenaient d'adresses IP Amazon, bien que je n'envisage pas de bloquer les adresses IP Amazon sauf une à la fois.
La documentation Apache peut être trouvée ici:
Il faut un certain temps pour passer au crible et comprendre, même si ce n’est pas vraiment difficile.
Les configurations Apache peuvent être trouvées à plusieurs endroits. Vous pouvez trouver le répertoire de base Apache dans /etc/Apache2/
ou /etc/local/Apache2/
.
Si le fichier httpd.conf
est vide, la configuration de base est Apache2.conf
et ports.conf
. Vous n'avez probablement pas besoin de modifier ces fichiers, je ne fais que les mentionner.
Vous devriez également voir un répertoire sites-available
. Dans ce répertoire sites-available, vous verrez probablement un fichier au format example.com.conf
. C'est le fichier que vous voudrez tout d'abord regarder. Vous devriez voir la directive AllowOverride
. Si ce paramètre est défini sur None
, l'utilisation de .htaccess
n'est pas disponible. Remplacez None
par All
ou une autre valeur.
Ensuite, dans l'espace Web, probablement /home/example.com/www
, recherchez un fichier caché .htaccess
. Vous pouvez utiliser ls -al
. Editez ce fichier. Vous voulez vous assurer que RewriteEngine On
est la première ligne ou est proche de la première. S'il existe des directives ErrorDocument
, vous souhaitez placer les éléments suivants avant les directives afin que ErrorDocument soit la dernière directive traitée.
RewriteCond %{REMOTE_ADDR} 23.20.165.34 [NC]
RewriteRule .* - [F,L]
RewriteCond %{REMOTE_ADDR} 54.198.86.102 [NC]
RewriteRule .* - [F,L]
Je ne pense pas que vous deviez échapper au . [dots]
. Si cela ne fonctionne pas, essayez de changer l'adresse IP en quelque chose comme 23\.20\.165\.34
. Cela devrait marcher. Sinon, changez les adresses IP en quelque chose comme ^23\.20\.165\.34$
.
Si vous les avez déjà bloqués, vous ne devez rien faire. Je voulais juste vous donner quelques alternatives.