J'ai les éléments suivants dans le fichier robots.txt:
User-agent: *
Disallow: /refer.php
User-agent: NinjaBot
Allow: /
Sitemap: http://www.mysite.com/sitemap.xml
Le fichier refer.php
effectue différentes opérations en fonction des paramètres GET
qui lui sont transmis.
Lorsque je fais une recherche sur Google, je vois des tonnes de résultats pour des pages comme celle-ci:
http://www.mysite.com/refer.php?o=23945
http://www.mysite.com/refer.php?o=39858
http://www.mysite.com/refer.php?o=9683
http://www.mysite.com/refer.php?o=10569
http://www.mysite.com/refer.php?o=58304
http://www.mysite.com/refer.php?o=69604
Est-ce que Google les indexe parce que je n'ai pas d'astérisque *
après refer.php
dans le robots.txt
? Est-ce que le changer en Disallow: /refer.php*
résoud le problème?
Votre fichier robots.txt va très bien. Toutefois, cela pourrait ne pas suffire à empêcher totalement l'indexation: la commande Disallow dans le fichier robots.txt bloque l'analyse, mais dans certains cas, les URL elles-mêmes seront toujours indexées en raison de liens ou d'autres facteurs.
Robots.txt n'est pas destiné à empêcher l'indexation des URL, mais à empêcher l'exploration .
Le meilleur moyen d'empêcher Google d'indexer une URL est de l'utiliser dans l'en-tête du document:
<meta name="robots" content="noindex" />
Bien que Google n'analyse pas et n'indexe pas le contenu des pages bloquées par le fichier robots.txt, il est possible que les URL soient indexées si elles sont trouvées sur d'autres pages du Web. Par conséquent, l'URL de la page et, éventuellement, d'autres informations accessibles au public, telles que le texte d'ancrage dans les liens vers le site ou le titre du projet Open Directory (www.dmoz.org), peuvent apparaître dans les résultats de recherche Google.
Vous ne devriez pas avoir besoin d'un astérisque après, car laisser le chemin ouvert sans signe dollar devrait correspondre à quoi que ce soit après. Peut-être que sa fin en php est à l'origine d'un problème. Dans ce cas, je pourrais essayer:
Disallow: /*refer.php?
Peut-être aussi évident, mais depuis combien de temps le fichier robots.txt est-il en place? J'ai déjà vu Google prendre de la vitesse et plusieurs semaines avant de mettre à jour le SERPS afin de refléter les modifications apportées au fichier robots.txt.
Ajouter:
Disallow: /refer.php?*
À votre fichier robots.txt. Googlebot comprend le caractère générique et constitue le moyen le plus explicite de leur dire de ne pas indexer les URL souhaitées.
Pour travailler avec tous les robots, essayez sans le * suivi, mais faites un test à l'aide du testeur de robots Google pour les webmasters pour vous assurer que Googlebot sera bloqué.