En travaillant sur le site d'un client, j'ai remarqué une erreur lorsque j'essayais d'utiliser un outil de vérification du contenu en double. L'outil indiquait que la page d'accueil était bloquée par le fichier robots.txt.
Dans la console de recherche, je peux voir que le fichier robots.txt contient effectivement les lignes suivantes:
User-agent: *
Disallow: /
Mais lorsque je le teste, il est indiqué "Autorisé" pour toutes les pages que je vérifie.
Il convient également de noter que toutes les pages du sitemap sont indexées, aucune erreur/conflit n’est signalé. La seule chose à laquelle je peux penser est que les lignes ci-dessus dans le fichier robots sont ensuite suivies d'un lien vers le plan du site.
Cela annule-t-il alors la commande Disallow?
Un lien vers un fichier sitemap ne doit pas invalider la commande Disallow dans la configuration que vous avez décrite (en particulier: si les directives apparaissent dans cet ordre).
Choses que je rechercherais:
À une occasion, je suis tombé sur un fichier robots.txt contenant des caractères Unicode invisibles. À la suite de ces chemins où pas comme ils ont regardé dans le navigateur. Solution: exécutez le fichier dans un éditeur de texte capable de convertir différents codages afin d'éliminer les caractères spéciaux.