Le site semble bloqué dans les robots, mais la console de recherche Google indique toujours qu'une URL testée est autorisée?

Question

En travaillant sur le site d'un client, j'ai remarqué une erreur lorsque j'essayais d'utiliser un outil de vérification du contenu en double. L'outil indiquait que la page d'accueil était bloquée par le fichier robots.txt.

Dans la console de recherche, je peux voir que le fichier robots.txt contient effectivement les lignes suivantes:

User-agent: * Disallow: /

Mais lorsque je le teste, il est indiqué "Autorisé" pour toutes les pages que je vérifie.

Il convient également de noter que toutes les pages du sitemap sont indexées, aucune erreur/conflit n’est signalé. La seule chose à laquelle je peux penser est que les lignes ci-dessus dans le fichier robots sont ensuite suivies d'un lien vers le plan du site.

Cela annule-t-il alors la commande Disallow?

schwarzbrot · Answer

Un lien vers un fichier sitemap ne doit pas invalider la commande Disallow dans la configuration que vous avez décrite (en particulier: si les directives apparaissent dans cet ordre).

Choses que je rechercherais:

Est-ce que la ligne "Interdit" suit immédiatement après la ligne "Agent-utilisateur"? (des commandes non valides à cet endroit peuvent conduire à ignorer "Interdire")
Y a-t-il plus d'un bloc "User-agent" dans le fichier? (pourrait conduire Googlebot à ignorer le "Refuser")
S'il y a plus de choses dans le fichier robots.txt: cela pourrait-il interférer avec l'interdit?

À une occasion, je suis tombé sur un fichier robots.txt contenant des caractères Unicode invisibles. À la suite de ces chemins où pas comme ils ont regardé dans le navigateur. Solution: exécutez le fichier dans un éditeur de texte capable de convertir différents codages afin d'éliminer les caractères spéciaux.