Comment bloquer les robots d'exploration les plus populaires via robots.txt?

Question

Je souhaite interdire à mon site Web l'indexation via le fichier robots.txt de MSN/Bing, Yahoo, Ask Jeeves, Baidu et Yandex.

Je souhaite interdire le balayage du contenu et des médias (images, vidéos).

Cela s'explique par le fait que mon site Web est uniquement destiné aux marchés de Google et des États-Unis et est hébergé sur un hébergement avec des ressources limitées.

J'ai trouvé différentes règles en googlant et tout fusionner:

# Block Bing User-agent: bingbot Disallow: / User-agent: msnbot Disallow: / # Block Yahoo User-agent: Slurp User-agent: yahoo Disallow: / # Block Ask User-agent: jeeves User-agent: teoma Disallow: / # Block Baidu User-agent: baidu Disallow: / # Block Yandex User-agent: yandex Disallow: /

Ces règles sont-elles correctes?

Ou j'ai manqué quelque chose?

Ou peut-être que j'ai ajouté quelque chose de redondant?

Existe-t-il des règles officielles concernant le fichier robots.txt pour chaque robot Web?

Marco Tolk · Accepted Answer

Si vous testez le fichier robots.txt dans l’un des nombreux validateurs robot.txt, vous constaterez qu’il fait ce que vous voulez.

Par exemple, utiliser le validateur seobook robot txt montre que, une fois testés pour l’url/ces robots ne devraient pas spider votre site Web.

Si vous voulez vraiment, c'est une autre question. Si l'exploration par un robot du site Web sollicite trop les ressources, vous devez peut-être également examiner les performances du site Web ou du serveur.