Je souhaite masquer toutes les pages de notre site Web ou leur indexation par Googlebot, à l'exception de plusieurs milliers de pages sélectionnées pour l'indexation.
Le site a été lancé en avril 2015. Le nombre total de pages du site a tendance à être infini car le contenu est généré de manière dynamique et en fonction de paramètres sélectionnés par l'utilisateur final.
J'ai sélectionné 128 000 pages pour l'indexation; ces pages sont répertoriées dans des sitemaps. Toutes les autres pages contiennent la balise méta <meta name="robots" content="noindex"/>
, et tous les liens vers ces pages sont marqués de rel="nofollow"
.
Mais pendant les deux premiers mois, ces balises (noindex, rel = "nofollow") n'avaient pas été incluses dans les pages. Aujourd'hui, le nombre total de pages indexées dépasse 4 millions.
Googlebot continue de lire les pages non souhaitées et, selon les statistiques du serveur, il semble ignorer les attributs "nofollow". Pourquoi ça se passe? Qu'est-ce qui devrait être fait pour l'empêcher de lire et d'indexer ces pages indésirables?
Le nombre total de pages indexées augmente toujours.
Comment puis-je demander une nouvelle analyse des pages précédemment indexées (afin que Googlebot puisse relire <meta name="robots" content="noindex" />
)?
Exemple de pages à indexer: http://example.com/en/indicators/GDP_current_prices/Philippines
Pages qui ne doivent pas être indexées:http://example.com/en/indicators/GDP_current_prices/India-Philippines/
rel="nofollow"
ne vise pas à empêcher l'indexation de la page liée car c'est ainsi que Google localise les nouvelles pages sur Internet. Tout ce qu'il fait, c'est dire à Google de ne pas transmettre le flux de liens à cette page afin d'atténuer le spam. La seule façon de bloquer ces anciennes pages de Google serait d’ajouter chacune d’elles à votre fichier robots.txt en tant que page interdite, puis de le laisser quelques semaines jusqu’à ce que Google réindexe tout votre site et voit le fichier robots.txt. Une fois qu'il voit, il supprimera les pages de l'index. La seule autre solution consiste à supprimer manuellement chaque page de l’index à l’aide d’un formulaire Web, mais elle ne les conserve que pendant deux mois. Elles peuvent ensuite être réindexées et ajoutées à l’index de Google pour permettre une nouvelle recherche. robots.txt est la norme permettant d'exclure l'indexation de certaines pages.