web-dev-qa-db-fra.com

D'étranges résultats de Bingbot dans les journaux d'accès à mon site Web

Je vois beaucoup de visites sur mon site récemment dans les journaux d'accès et je ne sais pas quoi en faire. Les pages qu'ils essaient d'atteindre n'existent pas et ils disent qu'ils proviennent de Bingbot, mais je ne pense pas que ce soient des adresses IP bing. Quelqu'un a-t-il une idée de la façon dont je devrais gérer ces problèmes, soit via htaccess, soit en le signalant à Bing?

66.249.69.1 - - [11/Aug/2016:07:41:23 -0400] "GET /index.php/write-academic-papers-for-money/js/jquery-1.8.2.min.js HTTP/1.1" 200 10014 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com /bot.html)"
70.208.74.141 - - [11/Aug/2016:07:41:28 -0400] "GET /images/ways.jpg HTTP/1.1" 200 188202 "http://tt.tennis- warehouse.com/index.php?threads/Nice-mean-pros-on-tour.570480/" "Mozilla/5.0 (iPhone; CPU iPhone OS 8_2 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12D508 Safari/600.1.4"
40.77.167.6 - - [11/Aug/2016:07:41:30 -0400] "GET /index.php/buy-research-paper-no-plagiarism/gifts-gear.php HTTP/1.1" 200 9866 "-" "Mozilla/5.0 (compatible; bingbot/2.0;)"
3
JayDub

Les 3 enregistrements de journal affichés ressemblent tous à du trafic légitime (les adresses IP de Google et de Bing sont toutes deux valides) et, comme l’a déjà indiqué closetnoc, seul le dernier fait référence à Bingbot.

Les pages qu'ils essaient d'atteindre n'existent pas

Mais votre serveur renvoie un statut 200 OK, ce qui permet potentiellement à ces URL d'être indexées par les moteurs de recherche. Si ces URL renvoyaient un 404 non trouvé, le problème ne se poserait pas.

Il semble que votre site ait été la cible d'une attaque semblable à XSS pour créer des liens spammés dans les SERP pour les mots clés qui ne sont pas pertinents pour votre site.

Est-ce que je peux faire quelque chose pour empêcher toute requête /index.php/XXXXXX

Oui. Le XXXXXX supplémentaire dans l'URL après qu'un nom de fichier valide est suivi informations de chemin d'accès (PATH_INFO). Le comportement par défaut sur Apache autorise généralement cette information de chemin supplémentaire (bien que cela dépende du gestionnaire).

Cependant, ceci peut être désactivé avec la directive AcceptPathInfo dans la configuration de votre serveur ou dans le fichier .htaccess. Par exemple:

AcceptPathInfo Off

Cela entraînera Apache renvoyant une erreur 404 NOT FOUND sur de telles demandes.

Apache docs ...
https://httpd.Apache.org/docs/2.4/mod/core.html#acceptpathinfo


Selon la structure de votre URL de site Web, vous pouvez simplement bloquer n'importe quelle demandes directes à index.php. Quelque chose comme ce qui suit, utilisez mod_rewrite dans le fichier racine .htaccess:

RewriteEngine On
RewriteCond %{THE_REQUEST} ^GET\ /index\.php [NC]
RewriteRule ^index\.php - [F]

Cela devrait aller avant ​​toutes les directives de routage d'URL (par exemple, WordPress).

THE_REQUEST contient uniquement l'en-tête de la requête initiale. Vous pouvez donc réécrire en interne sur index.php si vous utilisez un contrôleur frontal (par exemple).

2
MrWhite