Je vois beaucoup de visites sur mon site récemment dans les journaux d'accès et je ne sais pas quoi en faire. Les pages qu'ils essaient d'atteindre n'existent pas et ils disent qu'ils proviennent de Bingbot, mais je ne pense pas que ce soient des adresses IP bing. Quelqu'un a-t-il une idée de la façon dont je devrais gérer ces problèmes, soit via htaccess, soit en le signalant à Bing?
66.249.69.1 - - [11/Aug/2016:07:41:23 -0400] "GET /index.php/write-academic-papers-for-money/js/jquery-1.8.2.min.js HTTP/1.1" 200 10014 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com /bot.html)"
70.208.74.141 - - [11/Aug/2016:07:41:28 -0400] "GET /images/ways.jpg HTTP/1.1" 200 188202 "http://tt.tennis- warehouse.com/index.php?threads/Nice-mean-pros-on-tour.570480/" "Mozilla/5.0 (iPhone; CPU iPhone OS 8_2 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12D508 Safari/600.1.4"
40.77.167.6 - - [11/Aug/2016:07:41:30 -0400] "GET /index.php/buy-research-paper-no-plagiarism/gifts-gear.php HTTP/1.1" 200 9866 "-" "Mozilla/5.0 (compatible; bingbot/2.0;)"
Les 3 enregistrements de journal affichés ressemblent tous à du trafic légitime (les adresses IP de Google et de Bing sont toutes deux valides) et, comme l’a déjà indiqué closetnoc, seul le dernier fait référence à Bingbot.
Les pages qu'ils essaient d'atteindre n'existent pas
Mais votre serveur renvoie un statut 200 OK, ce qui permet potentiellement à ces URL d'être indexées par les moteurs de recherche. Si ces URL renvoyaient un 404 non trouvé, le problème ne se poserait pas.
Il semble que votre site ait été la cible d'une attaque semblable à XSS pour créer des liens spammés dans les SERP pour les mots clés qui ne sont pas pertinents pour votre site.
Est-ce que je peux faire quelque chose pour empêcher toute requête /index.php/XXXXXX
Oui. Le XXXXXX
supplémentaire dans l'URL après qu'un nom de fichier valide est suivi informations de chemin d'accès (PATH_INFO
). Le comportement par défaut sur Apache autorise généralement cette information de chemin supplémentaire (bien que cela dépende du gestionnaire).
Cependant, ceci peut être désactivé avec la directive AcceptPathInfo
dans la configuration de votre serveur ou dans le fichier .htaccess. Par exemple:
AcceptPathInfo Off
Cela entraînera Apache renvoyant une erreur 404 NOT FOUND sur de telles demandes.
Apache docs ...
https://httpd.Apache.org/docs/2.4/mod/core.html#acceptpathinfo
Selon la structure de votre URL de site Web, vous pouvez simplement bloquer n'importe quelle demandes directes à index.php
. Quelque chose comme ce qui suit, utilisez mod_rewrite dans le fichier racine .htaccess:
RewriteEngine On
RewriteCond %{THE_REQUEST} ^GET\ /index\.php [NC]
RewriteRule ^index\.php - [F]
Cela devrait aller avant toutes les directives de routage d'URL (par exemple, WordPress).
THE_REQUEST
contient uniquement l'en-tête de la requête initiale. Vous pouvez donc réécrire en interne sur index.php
si vous utilisez un contrôleur frontal (par exemple).