web-dev-qa-db-fra.com

Google tente une exploration des URL avec le paramètre placé au hasard dans l'URL

Nous avons un problème de référencement bizarre;

Dans les outils pour les webmasters de Google, nous constatons un pic considérable d’erreurs de serveur introuvable.

Il existe un ensemble de plusieurs centaines de pages dynamiques que nous devons conserver (bien qu’elles ne soient pas indexées) et qui ressemblent à ceci;

www.site.com/en-GB/Pages/job-details.aspx?job-id=123 

Mais bizarrement, Google génère des milliers d’erreurs d’exploration 404 en essayant d’indexer les URL avec cette structure;

www.site.com/en-GB/Pages/job-id?/en-GB/Pages/job-details.aspx?job-id=172649 

Il n'y a pas;

  • Liens internes pointant vers ceci ou similaire
  • Liens externes que nous pouvons trouver pointant vers ceci ou similaire
  • Erreurs dans le sitemap.xml

Dans un développement éventuellement lié; la section Paramètres d’URL des Outils pour les webmasters, elle répertorie des paramètres vraiment étranges tels que; /en-GB/pages/job-details.aspx Qui est clairement une partie de l'URL.

Nous avons essayé d’exclure ce paramètre et le paramètre "job-id" de Google en choisissant Edition> Oui> Aucune URL.

Mes questions sont:

  1. Pourquoi Google ajouterait-il un paramètre à mi-chemin de l'URL et comment l'arrêter?
  2. Pourquoi Google penserait-il qu'une partie de l'URL était un paramètre et comment l'arrêter?

Je suis plutôt coincé là-dessus, votre aide est donc très appréciée!

1
Chris Reynolds

Répondre à cette question pourrait peut-être aider quelqu'un à l'avenir.

Fondamentalement, il semble que nous ayons ajouté par inadvertance du code qui rend conditionnellement un balisage différent sur l'agent-utilisateur (ou "dissimulation" à ses amis). Il y a des add-ons pour Chrome et Firefox qui vous permettent de tester cela.

La version de la page rendue pour;

Googlebot/2.1 (+http://www.google.com/bot.html)

Contient les liens incriminés.

3
Chris Reynolds