web-dev-qa-db-fra.com

Google CSE a indexé le fichier robots.txt lui-même

Google CSE a indexé robots.txt et si quelqu'un cherche "txt", il renvoie le fichier robots.txt qui n'est vraiment pas idéal (car il s'agit d'un site Drupal standard [bog]>, la chaîne robots.txt apparaît en fait dans le texte). Comment puis-je éviter ça? Existe-t-il un paramètre quelque part dans Google ou dois-je ajouter /robots.txt à erm, robots.txt ou ...?

5
chx

Vous pouvez ajouter ceci au fichier robots.txt:

Disallow: /robots.txt

Dans Que se passe-t-il si robots.txt ne se permet pas? John Mueller de Google dit:

La seule chose qui serait affectée est que si un lien pointait vers le fichier robots.txt et que Google indexerait autrement le contenu du fichier robots.txt. Ce ne serait pas possible quand c'est interdit par le fichier robots.txt.

Il semble donc que l'ajout d'une règle d'interdiction d'interdiction dans le fichier robots.txt pour le fichier robots.txt lui-même puisse aider à empêcher l'indexation de ce fichier sans empêcher Googlobot d'extraire le fichier pour voir ce qui est interdit en plus.

Une autre solution consiste à ajouter un en-tête HTTP au fichier robots.txt qui empêche l'indexation. Ce serait une solution similaire au problème Empêcher les sitemaps XML de s'afficher dans les résultats de recherche Google . Vous voudriez que l'en-tête HTTP suivant soit servi pour le fichier robots.txt:

X-Robots-Tag: noindex

Sous Apache, vous l'implémenteriez avec ce code .htaccess:

<Files ~ "robots\.txt$">
  Header append X-Robots-Tag "noindex"
</Files>
4