Dans mon fichier robots.txt, j'ai une liste de robots qui ne sont pas autorisés à être indexés sur mon site. Pour le reste, je dois autoriser tous les autres robots, mais j'aimerais connaître la vraie différence. entre ces deux règles:
User-agent: *
Disallow:
et ça:
User-agent: *
Allow: /
Allow
n'est pas standard selon Wikipedia: http://en.wikipedia.org/wiki/Robots.txt .
User-agent: *
Disallow: /
Celui ci-dessus indique aux robots de ne rien explorer qui corresponde au chemin de l'URL. Avec les instructions ci-dessus, les autres robots des moteurs de recherche de Googlebot ne vont pas explorer tout votre site Web.
User-agent: *
Allow: /
Celui ci-dessus dit que tout est permis. Tous les robots visiteurs, y compris Googlebot, sont autorisés à explorer le site Web.
Pour autoriser tous les explorations, vous avez quelques options. Le support le plus clair et le plus répandu est:
User-agent: *
Disallow:
Pour paraphraser, cela signifie: "Tous les agents utilisateurs n'ont rien refusé, ils peuvent tout analyser." Ceci est la version de "allow all crawling" qui est listée sur robotstxt.org .
Une autre option consiste à ne pas avoir aucun fichier robots.txt . Lorsque les robots rencontrent une erreur 404 à /robots.txt
, ils supposent que l’exploration n’est pas restreinte.
Je ne recommanderais pas d'utiliser les directives Allow:
dans robots.txt . Tous les robots ne les supportent pas. Lorsque vous disposez des deux directives Allow:
et Disallow:
, la règle de correspondance la plus longue est prioritaire au lieu de la première ou de la dernière règle correspondante. Cela complique considérablement le processus. Si vous utilisez l'option "Autoriser", veillez à tester votre fichier robots.txt avec un outil de test tel que le fichier fourni par Google .