web-dev-qa-db-fra.com

Autoriser tous les robots robots.txt

Dans mon fichier robots.txt, j'ai une liste de robots qui ne sont pas autorisés à être indexés sur mon site. Pour le reste, je dois autoriser tous les autres robots, mais j'aimerais connaître la vraie différence. entre ces deux règles:

User-agent: *
Disallow:

et ça:

User-agent: *
Allow: /
4
Yasmina Saraya

Allow n'est pas standard selon Wikipedia: http://en.wikipedia.org/wiki/Robots.txt .

7
michael667
User-agent: *
Disallow: /

Celui ci-dessus indique aux robots de ne rien explorer qui corresponde au chemin de l'URL. Avec les instructions ci-dessus, les autres robots des moteurs de recherche de Googlebot ne vont pas explorer tout votre site Web.

User-agent: *
Allow: /

Celui ci-dessus dit que tout est permis. Tous les robots visiteurs, y compris Googlebot, sont autorisés à explorer le site Web.

2
Nishi

Pour autoriser tous les explorations, vous avez quelques options. Le support le plus clair et le plus répandu est:

User-agent: *
Disallow:

Pour paraphraser, cela signifie: "Tous les agents utilisateurs n'ont rien refusé, ils peuvent tout analyser." Ceci est la version de "allow all crawling" qui est listée sur robotstxt.org .


Une autre option consiste à ne pas avoir aucun fichier robots.txt . Lorsque les robots rencontrent une erreur 404 à /robots.txt, ils supposent que l’exploration n’est pas restreinte.


Je ne recommanderais pas d'utiliser les directives Allow: dans robots.txt . Tous les robots ne les supportent pas. Lorsque vous disposez des deux directives Allow: et Disallow:, la règle de correspondance la plus longue est prioritaire au lieu de la première ou de la dernière règle correspondante. Cela complique considérablement le processus. Si vous utilisez l'option "Autoriser", veillez à tester votre fichier robots.txt avec un outil de test tel que le fichier fourni par Google .

1
Stephen Ostermiller