web-dev-qa-db-fra.com

Google affiche une URL dans l'index de mon site, le cache de ce résultat étant complètement différent.

Ok, cela peut s’avérer une question idiote, mais j’ai observé que Google affichait une URL dans l’index, le cache de ce résultat étant complètement différent alors qu’il ne devrait même pas être là.

La description:

J'ai construit une fonction aléatoire pour le site Web docur.co

La fonction commence par une demande à:

http://docur.co/random

Les robots sont bloqués à partir de cette URL:

http://docur.co/robots.txt

Cependant, Google a suivi cette URL et a généré le résultat de recherche suivant:

https://goo.gl/BCyOml

C'est la cache:

enter image description here

Ma question est la suivante: quelqu'un peut-il me dire ce qui se passe exactement ici? Comme mentionné ci-dessus, j'ai peut-être fait quelque chose de mal….

Mettre à jour:

Peut-être que l’ajout du re = "nofollow" directement à l’ancre au-dessus de la directive "robots" garantira que Google ne suivra pas l’URL?

3
John

Vous avez une erreur dans votre fichier robots.txt.

Sur la ligne 11, vous avez autorisé: /, un fichier robots.txt ne dit pas quels fichiers et quels répertoires vous pouvez autoriser, mais uniquement ce que vous pouvez interdire. Les seules commandes prises en charge pour le fichier robots.txt sont "User-agent" et "Disallow".

Comme la commande Disallow:/random se situe après la commande non valide, il est possible que Google Searchbot ait détecté une commande non valide et, comme il ne pouvait pas le traiter, a arrêté de traiter le fichier robots.txt dans son intégralité comme s'il n'existait pas du tout.

Vous pouvez valider votre fichier robots.txt à l'aide d'un outil tel que celui situé à l'emplacement http://tool.motoricerca.info/robots-checker.phtml

En ce qui concerne la raison pour laquelle la version en cache est différente de la version en direct, la version en cache est celle affichée par Google au moment du passage de l'araignée. Dans le cas de votre lien en cache, le 6 avril 2016 à 16:05:27 GMT.

Une nouvelle version de votre fichier robots.txt que vous pourriez utiliser est ...

#The date is August 29th, 1997.
#Robots have taken over the world and documentaries cease to be created by humans.
#what will happen next?

 #Want to join the Docur team?
#E-mail jonbonsilver\\//at\\//gmail\\//dot\\//com

#Full access for the internet archive. 

User-agent: ia_archiver
Disallow: /random

#Every robot that honours the robots.txt standard:

User-agent: *

#Request file from Docur once every second:

Crawl-delay: 1

#Disallowed urls:

#Lets not send bots on a random documentary mission:

Disallow: /random

Disallow: /new-documentaries
#Above is a temp line due to indexing problems. 
Disallow: /?page
Disallow: /live-search
Disallow: /vote
Disallow: /favourite
Disallow: /watch-later
Disallow: /save-list
Disallow: /comment
Disallow: /commentlike
Disallow: /commentdislike
Disallow: /add-review
Disallow: /submit-review
Disallow: /add-to/*
Disallow: /post-list
Disallow: /edit-list
Disallow: /documentary-search
Disallow: /new-list-item
Disallow: /settings
Disallow: /notificationread
Disallow: /documentary/*/l
Disallow: */newest
Disallow: */oldest
Disallow: */highest
Disallow: */lowest
4
Chris Rutherfurd