Je souhaite que Google cesse d'explorer certains liens sur un site. Quand je dis cela, je veux dire complètement arrêter le rampement. Je suis conscient que j'utilise noindex/nofollow
et d'autres méthodes dans robots.txt, mais, on me dit que si elles seront respectées en termes de contenu de la page, l'URL lui-même est encore rampé.
La raison pour laquelle je suis tellement dérangé est due au budget d'analyse qui est alloué au site. Le site utilise une navigation en couches/à facettes et la combinaison de filtres crée des centaines de milliers de liens uniques.
Je veux m'assurer que Google ignore complètement ces liens et se concentre sur les pages importantes que je souhaite explorer et indexer.
J'ai été informé de plusieurs options -
www.myshop.com/shoes#!colour-red
. Cependant, je ne trouve aucun site l'utilisant sous cette forme, je ne suis donc pas convaincu.L'utilisation de Disallow:
dans robots.txt
empêchera Googlebot d'explorer les URL. En fait, robots.txt
est davantage un outil pour contrôler votre budget d’exploration que pour contrôler les pages indexées. Dans certains cas (bien qu'assez rares), Google choisit d'inclure des pages dans l'index même si elles se trouvent dans le fichier robots.txt en fonction du nombre de liens entrants vers ces pages et du texte d'ancrage de ces liens.
Donc, si vous avez une partie du site pour laquelle vous ne voulez pas que Google analyse et utilise les ressources de votre serveur, créez un fichier robots.txt
comme ceci:
User-agent: *
Disallow: /folder1/
Voici la documentation complète de Google pour robots.txt . Ils supportent même les wildcards.
Je ne compterais pas sur javascript pour empêcher Googlebot d'explorer quoi que ce soit. Googlebot exécute maintenant un peu de javascript et sa capacité à le faire va probablement s'améliorer à l'avenir.
#!
URLLes URL de hachage sont spécifiquement conçues pour être explorées. Lorsque Googlebot rencontre #!
dans une URL il demande à votre site . L'utilisation d'un #!
va également utiliser votre budget d'analyse.
Utiliser juste un hachage sans le bang (#
) dans vos URL pourrait vous convenir. Googlebot ne fait pas de demande à votre serveur sans le !
.