Je souhaite autoriser Googlebot à accéder à toutes mes pages avec un délai d'analyse. Accès Yandexbot uniquement index.html
. Accès Bingbot /tools
pages.
Mes pages ne seront pas accessibles à tous les autres robots.
Est-ce que robots.txt convient à cela?
User-agent: Googlebot
Crawl-delay: 300
User-agent: Yandex
Allow: /index.html
Disallow: /
User-agent: bingbot
Allow: /tools
Disallow: /
User-agent: *
Disallow: /
Je voudrais utiliser ce code dans votre cas:
User-agent: Googlebot
Crawl-delay: 300
Disallow:
User-agent: Yandex
Allow: /index.html
Disallow: /
User-agent: bingbot
Allow: /tools
Disallow: /
User-agent: *
Disallow: /
Même si la directive Crawl-delay: 300
n'est pas une norme, ajoutez simplement la directive Disallow:
pour Googlebot et votre code suffira.
Juste pour votre information, pour donner seulement accès à une page ou à un répertoire, vous devez placer la directive Allow
avant Disallow: /
.
Plus d'informations sur Wikipedia .
Je recommanderais d'ajouter la directive sitemap et l'hôte (pour Google et Yandex) dans le fichier robots.txt. Host permet aux sites Web dotés de plusieurs miroirs de spécifier leur domaine préféré.
Sitemap: http://www.example/sitemap.xml
Host: example.com