web-dev-qa-db-fra.com

Arrêtez complètement les liens d'exploration de Google

Je souhaite que Google cesse d'explorer certains liens sur un site. Quand je dis cela, je veux dire complètement arrêter le rampement. Je suis conscient que j'utilise noindex/nofollow et d'autres méthodes dans robots.txt, mais, on me dit que si elles seront respectées en termes de contenu de la page, l'URL lui-même est encore rampé.

La raison pour laquelle je suis tellement dérangé est due au budget d'analyse qui est alloué au site. Le site utilise une navigation en couches/à facettes et la combinaison de filtres crée des centaines de milliers de liens uniques.

Je veux m'assurer que Google ignore complètement ces liens et se concentre sur les pages importantes que je souhaite explorer et indexer.

J'ai été informé de plusieurs options -

  1. Ajax Checkboxes - remplace les liens HTML par des cases à cocher ajax. Le problème ici est que ce ne sont pas bons pour l'accessibilité et les navigateurs avec JavaScript désactivé. Je suis également conscient du fait que Google peut voir cela comme une dissimulation et peut pénaliser de manière appropriée.
  2. Hashbang #! Urls - D'après ce que je peux trouver, si vous ajoutez un hash bang à une URL, Google ne l'explorera pas. Par exemple, www.myshop.com/shoes#!colour-red. Cependant, je ne trouve aucun site l'utilisant sous cette forme, je ne suis donc pas convaincu.
2
JamesAllwood

L'utilisation de Disallow: dans robots.txt empêchera Googlebot d'explorer les URL. En fait, robots.txt est davantage un outil pour contrôler votre budget d’exploration que pour contrôler les pages indexées. Dans certains cas (bien qu'assez rares), Google choisit d'inclure des pages dans l'index même si elles se trouvent dans le fichier robots.txt en fonction du nombre de liens entrants vers ces pages et du texte d'ancrage de ces liens.

Donc, si vous avez une partie du site pour laquelle vous ne voulez pas que Google analyse et utilise les ressources de votre serveur, créez un fichier robots.txt comme ceci:

User-agent: *
Disallow: /folder1/

Voici la documentation complète de Google pour robots.txt . Ils supportent même les wildcards.

AJAX Cases à cocher

Je ne compterais pas sur javascript pour empêcher Googlebot d'explorer quoi que ce soit. Googlebot exécute maintenant un peu de javascript et sa capacité à le faire va probablement s'améliorer à l'avenir.

Hashbang #! URL

Les URL de hachage sont spécifiquement conçues pour être explorées. Lorsque Googlebot rencontre #! dans une URL il demande à votre site . L'utilisation d'un #! va également utiliser votre budget d'analyse.

Utiliser juste un hachage sans le bang (#) dans vos URL pourrait vous convenir. Googlebot ne fait pas de demande à votre serveur sans le !.

3