J'ai rencontré un problème très énervant.
J'ai plusieurs pages qui ne devraient pas être indexées, car ce sont essentiellement des pages contextuelles et des pages "merci de votre inscription".
Je les ai configurés avec la méta-balise robots noindex, nofollow - mais, pour une raison quelconque, Google les répertorie quand même.
Essayez une recherche sur Google pour "en-til-en-mindfulness-coaching/referencer-popup" et il apparaîtra dans vos résultats sous le nom "Se flere referencer - MindfulSolutions". Mais si vous regardez dans la section d'en-tête, vous verrez qu'il n'aurait pas dû être indexé.
Pourquoi Google fait-il cela et comment puis-je l'empêcher?
Comme le suggère tillinberlin, cette page apparaît dans les résultats de la recherche en raison de votre fichier "robots.txt", mais pas pour les raisons indiquées. Fondamentalement, votre fichier robots.txt bloque cette URL crawled. Google ne peut donc pas voir la balise META des robots qui empêche la page de devenir indexée.
Comme indiqué dans les résultats de recherche (Google) pour cette page:
La description de ce résultat n'est pas disponible en raison du fichier robots.txt de ce site.
Votre page robots.txt bloque cette page en particulier, car l'URL indexée contient un ?
. La dernière règle de votre fichier robots.txt bloque toute URL contenant un ?
:
Disallow: /*?*
"robots.txt" empêche vos pages d'être analysées - non d'être indexées. S'ils sont liés à, ils peuvent toujours être indexés (résultat de lien uniquement sans description - ce que vous voyez ici).
Une méta-balise "noindex" de robot (comme vous) empêche l’indexation de la page. Toutefois, si Google ne parvient pas à explorer la page, il ne peut pas voir la balise Meta des robots!
Google (et d'autres "bons" moteurs de recherche/robots) respectera les directives de votre robot si elles sont correctement mises en œuvre. Cependant, d'autres "mauvais" robots pourraient toujours faire n'importe quoi, car les ressources sont disponibles au public.
Réponse courte: robots.txt est une recommandation que les moteurs de recherche peuvent chérir - mais ils n’ont pas à . Donc, peu importe ce que vous avez l'intention de faire - ne comptez pas sur robots.txt - il en va de même pour les balises méta de robots.
Si vous vraiment voulez que les pages non indexées/ne soient pas ouvertes via les pages de résultats du moteur de recherche, alors vous devriez probablement ajouter une redirection 301 ou similaire pour tous ceux qui ouvrent la page et non via votre page.
ps: le site robotstxt.org contient plus de détails sur les balises méta robots: À propos de la balise Robots