web-dev-qa-db-fra.com

Bingbot essayant d'accéder aux URLs minuscules quand j'utilise un mélange de majuscules et de minuscules

J'ai un site Web (site Web dynamique dans l'immobilier) en place depuis près d'un an. Tout à coup, les Bingbots tentent d'accéder à des versions entièrement en minuscules des pages principales, ce qui entraîne 404 erreurs.

L'URL de base est en minuscule, mais les pages suivantes sont un mélange.

https://example.com/Houses-for-sale-in-Suburb-STATE-3345.php

J'ai lu sur les redirections rel et 301 et rel que depuis j'ai appris que l'utilisation de majuscules n'était pas une bonne idée - bien que j'ai décidé de les utiliser car les états de mon pays sont exprimés en majuscule.

Je ne suis pas sûr de savoir comment gérer cela. Si je convertis toutes les URL majuscules en minuscules, les robots continueront à essayer d'accéder aux versions majuscules.

2
zod

Stephen Ostermiller m'a donné la réponse pour procéder aux tests et implémenter ce qui suit dans mon .htaccess

RewriteEngine On # Turn on the rewriting engine

Redirect 301 /houses-for-sale-in-suburb-state-3345.php http://example.com/Houses-for-sale-in-Suburb-STATE-3345.php  

J'ai écrit une redirection pour chaque page contenant CAPS dans l'URL, à l'exception des URL créées de manière dynamique, qui sont pilotées par RewriteRules dans le fichier .htaccess et placent les redirections au-dessus des RewriteRules.

1
zod

Quand j'ai travaillé pour TripAdvisor, nous avons vu ce problème tout le temps. TripAdvisor propose des URL de casse mixte, telles que:

https://www.tripadvisor.com/Hotels-g60763-New_York_City_New_York-Hotels.html

De nombreux robots, y compris BingBot, tentaient de mettre l'URL entière en minuscule avant de la récupérer. Pour résoudre le problème, nous nous sommes assurés que toutes les URL minuscules seraient redirigées vers la version avec casse mixte. Donc ce qui suit donne une redirection 301:

https://www.tripadvisor.com/hotels-g60763-new_york_city_new_york-hotels.html

Nous avons utilisé l'ID dans l'URL pour déterminer l'URL correcte et la redirection. Il semble que vous ayez un identifiant numérique dans votre URL que vous pourriez également utiliser.

En raison de cette expérience, je recommande que la version canonique des URL soit toujours en minuscule. Je ne recommande pas l'utilisation d'URL à casse mixte car il y a tellement de robots mal programmés.

StackExchange fait quelque chose de similaire. Si vous demandez une URL avec un identifiant toujours intact, vous obtiendrez une redirection vers la bonne chose. Vous pouvez tester cela en récupérant l'URL suivante pour cette question:

http://webmasters.stackexchange.com/questions/100613/BINGBOT-IS-DUMB

Je recommande également que les identifiants numériques se trouvent près de l'avant de l'URL en raison de problèmes de troncature. Vous pouvez corriger pour

/Hotels-g60763-New_Yor...

mais pas aussi facilement pour:

/Houses-for-sale-in-Su...
0