web-dev-qa-db-fra.com

Comment bloquer les robots d'exploration les plus populaires via robots.txt?

Je souhaite interdire à mon site Web l'indexation via le fichier robots.txt de MSN/Bing, Yahoo, Ask Jeeves, Baidu et Yandex.

Je souhaite interdire le balayage du contenu et des médias (images, vidéos).

Cela s'explique par le fait que mon site Web est uniquement destiné aux marchés de Google et des États-Unis et est hébergé sur un hébergement avec des ressources limitées.

J'ai trouvé différentes règles en googlant et tout fusionner:

# Block Bing
User-agent: bingbot
Disallow: /

User-agent: msnbot
Disallow: /

# Block Yahoo
User-agent: Slurp
User-agent: yahoo
Disallow: /

# Block Ask
User-agent: jeeves
User-agent: teoma
Disallow: /

# Block Baidu
User-agent: baidu
Disallow: /

# Block Yandex
User-agent: yandex
Disallow: /

Ces règles sont-elles correctes?

Ou j'ai manqué quelque chose?

Ou peut-être que j'ai ajouté quelque chose de redondant?

Existe-t-il des règles officielles concernant le fichier robots.txt pour chaque robot Web?

1
webvitaly

Si vous testez le fichier robots.txt dans l’un des nombreux validateurs robot.txt, vous constaterez qu’il fait ce que vous voulez.

Par exemple, utiliser le validateur seobook robot txt montre que, une fois testés pour l’url/ces robots ne devraient pas spider votre site Web.

Si vous voulez vraiment, c'est une autre question. Si l'exploration par un robot du site Web sollicite trop les ressources, vous devez peut-être également examiner les performances du site Web ou du serveur.

2
Marco Tolk