web-dev-qa-db-fra.com

Restreindre tous les robots sauf Googlebot et Yandexbot

Je souhaite autoriser Googlebot à accéder à toutes mes pages avec un délai d'analyse. Accès Yandexbot uniquement index.html. Accès Bingbot /tools pages.
Mes pages ne seront pas accessibles à tous les autres robots.

Est-ce que robots.txt convient à cela?

User-agent: Googlebot
Crawl-delay: 300

User-agent: Yandex
Allow: /index.html
Disallow: /

User-agent: bingbot
Allow: /tools
Disallow: /

User-agent: *
Disallow: /
2
trante

Je voudrais utiliser ce code dans votre cas:

User-agent: Googlebot
Crawl-delay: 300
Disallow: 

User-agent: Yandex
Allow: /index.html
Disallow: /

User-agent: bingbot
Allow: /tools
Disallow: /

User-agent: *
Disallow: /

Même si la directive Crawl-delay: 300 n'est pas une norme, ajoutez simplement la directive Disallow: pour Googlebot et votre code suffira.

Juste pour votre information, pour donner seulement accès à une page ou à un répertoire, vous devez placer la directive Allow avant Disallow: /.

Plus d'informations sur Wikipedia .

1
Zistoloen

Je recommanderais d'ajouter la directive sitemap et l'hôte (pour Google et Yandex) dans le fichier robots.txt. Host permet aux sites Web dotés de plusieurs miroirs de spécifier leur domaine préféré.

Sitemap: http://www.example/sitemap.xml
Host: example.com
0
Peter Blonston