Un ensemble de pages sont marquées noindex
et nofollow
, à la fois dans robots.txt
et avec X-Robots-Tag: noindex, nofollow
. Lors de la vérification avec Google Webmaster Tools, les pages sont signalées sous la forme "Refusé par robots.txt" , qui est Nice. En outre, comme indiqué dans le paragraphe cette réponse , les pages non autorisées peuvent toujours être indexées même si elles ne sont pas analysées techniquement, car c'est ainsi que Google fonctionne.
Toutefois, après avoir ajouté le Robots-Tag
il y a deux semaines, les pages apparaissent toujours dans les résultats de recherche Google.
Par exemple, cette page de test http://www.english-attack.com/profile/scott-s-sober est trouvée lors de la recherche de son h1
titre "Scott S. Sober" https://www.google.com/search?q=%22Scott+S.+Sober%22
Pourquoi est-ce?
La cause du problème est que Google ne voit pas le X-Robots-Tag
récemment ajouté car il ne réindexe pas la page.
Supprimer l'interdiction de robots.txt et laisser Google récupérer les pages avec leurs en-têtes supprime les pages des résultats.
Mettre un fichier dans robots.txt
n'empêchera pas Google d'indexer la page. Cela empêchera uniquement Googlebot de réexplorer la page. Si la page a déjà été explorée, Google peut trouver la version du contenu qu’elle connaît suffisamment attrayante pour rester dans son index pendant des mois.
Si suffisamment de liens externes pointent vers cette page, Google bloque parfois les pages bloquées par robots.txt
indexées pour toujours. Parfois, il indexe même les pages qu'il n'a jamais explorées. Dans ce cas, il utilise uniquement le texte d'ancrage des liens entrants pour les mots-clés de la page et ne dispose pas d'une version mise en cache de la page.
Si vous souhaitez que Google supprime la page de l'index, vous devez autoriser Googlebot à l'explorer et à afficher l'indication "noindex" dans la balise meta robots. Si vous n'autorisez pas Googlebot à analyser la page, il n'apprendra jamais que vous ne souhaitez pas l'indexer. Alors, sortez la ligne Disallow:
pour ces fichiers de robots.txt
.
Vous pouvez également utiliser Google Webmaster Tool pour demander la suppression de chaque URL. Cela peut s'avérer pénible si vous souhaitez désindexer plus d'une poignée d'URL.