Autoriser tous les robots robots.txt

Question

Dans mon fichier robots.txt, j'ai une liste de robots qui ne sont pas autorisés à être indexés sur mon site. Pour le reste, je dois autoriser tous les autres robots, mais j'aimerais connaître la vraie différence. entre ces deux règles:

User-agent: *
Disallow:

et ça:

User-agent: *
Allow: /

User-agent: * Disallow:

et ça:

User-agent: * Allow: /

michael667 · Answer

Allow n'est pas standard selon Wikipedia: http://en.wikipedia.org/wiki/Robots.txt .

Nishi · Answer

User-agent: * Disallow: /

Celui ci-dessus indique aux robots de ne rien explorer qui corresponde au chemin de l'URL. Avec les instructions ci-dessus, les autres robots des moteurs de recherche de Googlebot ne vont pas explorer tout votre site Web.

User-agent: * Allow: /

Celui ci-dessus dit que tout est permis. Tous les robots visiteurs, y compris Googlebot, sont autorisés à explorer le site Web.

Stephen Ostermiller · Answer

Pour autoriser tous les explorations, vous avez quelques options. Le support le plus clair et le plus répandu est:

User-agent: * Disallow:

Pour paraphraser, cela signifie: "Tous les agents utilisateurs n'ont rien refusé, ils peuvent tout analyser." Ceci est la version de "allow all crawling" qui est listée sur robotstxt.org .

Une autre option consiste à ne pas avoir aucun fichier robots.txt . Lorsque les robots rencontrent une erreur 404 à /robots.txt, ils supposent que l’exploration n’est pas restreinte.

Je ne recommanderais pas d'utiliser les directives Allow: dans robots.txt . Tous les robots ne les supportent pas. Lorsque vous disposez des deux directives Allow: et Disallow:, la règle de correspondance la plus longue est prioritaire au lieu de la première ou de la dernière règle correspondante. Cela complique considérablement le processus. Si vous utilisez l'option "Autoriser", veillez à tester votre fichier robots.txt avec un outil de test tel que le fichier fourni par Google .