J'ai une règle dans mon fichier robots.txt
:
# Crawlers Setup
User-agent: *
# Directories
Disallow: /my_directory/
Je reçois pourtant des entrées dans ma section Crawl Errors
de Google Webmaster Tools pour cette URL:
Googlebot n'a pas pu accéder au contenu de cette URL car le serveur avait une erreur interne lors de la tentative de traitement de la demande. Ces erreurs ont tendance à être avec le serveur lui-même, pas avec la demande. Plus d'infos .
J'ai même testé la saisie manuelle de l'URL dans le robots.txt Tester
de Google Webmaster Tools, qui a renvoyé le message "Bloqué" comme prévu pour l'URL exacte . cela est signalé comme une erreur dans les erreurs d'analyse.
Comment puis-je résoudre ça?
Robots.txt n'empêche pas les moteurs de recherche d'indexer une URL, mais uniquement de visiter une URL. Il est donc probable que Googlebot ait une idée de votre page en fonction de ses liens entrants et de son indexation, même s'il sait qu'il ne peut pas réellement demander à cette page de récupérer et d'indexer son contenu.
De Google Webmasters :
En empêchant Google d’explorer une page, il est probable que le classement de cette page en souffrira ou que celle-ci disparaisse complètement avec le temps. Cela peut également réduire la quantité de détails fournis aux utilisateurs dans le texte situé sous le résultat de la recherche. En effet, sans le contenu de la page, le moteur de recherche dispose de beaucoup moins d'informations.
Cependant, robots.txt Disallow ne garantit pas qu'une page n'apparaîtra pas dans les résultats : Google peut toujours décider, en fonction d'informations externes telles que des liens entrants, que c'est pertinent. Si vous souhaitez empêcher explicitement l'indexation d'une page, vous devez plutôt utiliser la méta-balise noindex robots ou l'en-tête HTTP X-Robots-Tag. Dans ce cas, vous ne devez pas interdire la page dans le fichier robots.txt, car celle-ci doit être explorée pour que la balise soit visible et respectée.
Robots.txt bloque uniquement le contenu, pas les URL. Donc, si la réponse du serveur sur l'URL "bloquée" est incorrecte, Google peut l'obtenir.