Je souhaite autoriser tous les robots à explorer et à indexer un site, à l'exception de Googlebot. Je souhaite autoriser Google à indexer uniquement la page d'accueil (/
) URL, mais rien d'autre.
Je préfère le faire dans robots.txt. Comment puis-je atteindre cet objectif?
Il est déjà répondu dans Stackoverflow , il vous suffit de définir le nom de l'agent utilisateur ici. Ici, nous spécifions uniquement Googlebot, afin que cette règle ne soit pas appliquée aux autres moteurs de recherche.
user-agent: Googlebot
Allow: /$
Disallow: /
Comme Google a dit (à la fin de la page). Utilisez $ lorsque vous souhaitez faire correspondre des URL qui se terminent par une chaîne spécifique. Ici/$ dira autorisé à indexer toutes les URL qui se terminent par/par exemple example.com/
et exapmle.com/file/
mais la ligne suivante dit de ne pas explorer tous les sous-golfeurs, donc exapmle.com/file/
et les autres fichiers similaires se terminant par/ou tout autre nom de fichier ne sont pas autorisés à explorer.
Remarque: Il n'est pas nécessaire de spécifier un autre bot de moteur de recherche si vous souhaitez autoriser l'exploration, par exemple.
User-Agent: bingbot
Allow: /
Que vous ajoutiez ou non la ligne ci-dessus, cela ne fait aucune différence. Les gens utilisent robots.txt pour bloquer quelque chose, mais par défaut, il est déjà autorisé à explorer lorsque vous ne spécifiez pas. Il y a tellement de sites Web sur Internet, ils n'ont pas du tout robots.txt, donc tous les robots d'exploration par défaut explorent leur site.