web-dev-qa-db-fra.com

Autoriser tous les bots à l'exception de Googlebot qui ne devrait pouvoir explorer la page d'accueil

Je souhaite autoriser tous les robots à explorer et à indexer un site, à l'exception de Googlebot. Je souhaite autoriser Google à indexer uniquement la page d'accueil (/) URL, mais rien d'autre.

Je préfère le faire dans robots.txt. Comment puis-je atteindre cet objectif?

2
saturnusringar

Il est déjà répondu dans Stackoverflow , il vous suffit de définir le nom de l'agent utilisateur ici. Ici, nous spécifions uniquement Googlebot, afin que cette règle ne soit pas appliquée aux autres moteurs de recherche.

user-agent: Googlebot
Allow: /$
Disallow: /

Comme Google a dit (à la fin de la page). Utilisez $ lorsque vous souhaitez faire correspondre des URL qui se terminent par une chaîne spécifique. Ici/$ dira autorisé à indexer toutes les URL qui se terminent par/par exemple example.com/ et exapmle.com/file/ mais la ligne suivante dit de ne pas explorer tous les sous-golfeurs, donc exapmle.com/file/ et les autres fichiers similaires se terminant par/ou tout autre nom de fichier ne sont pas autorisés à explorer.

Remarque: Il n'est pas nécessaire de spécifier un autre bot de moteur de recherche si vous souhaitez autoriser l'exploration, par exemple.

User-Agent: bingbot
Allow: /

Que vous ajoutiez ou non la ligne ci-dessus, cela ne fait aucune différence. Les gens utilisent robots.txt pour bloquer quelque chose, mais par défaut, il est déjà autorisé à explorer lorsque vous ne spécifiez pas. Il y a tellement de sites Web sur Internet, ils n'ont pas du tout robots.txt, donc tous les robots d'exploration par défaut explorent leur site.

3
Goyllo