Il y a le bot Ask, qui définit cet en-tête:
Mozilla/2.0 (compatible; Ask Jeeves/Teoma)
Compte tenu de cela, j'ai les questions suivantes:
Mozilla/2.0
ou Mozilla/5.0
?Toute autre suggestion sur la manière dont je devrais formater mon agent utilisateur pour se conformer aux normes en vigueur est la bienvenue.
Je suis le concepteur principal et l'auteur d'un robot d'exploration de réseau à assez grande échelle (voir metadatalabs.com/mlbot (lien archivé) ). Ce que vous demandez touche à un sujet qui est très important pour nous - peut-être la partie la plus importante de la gestion d’un robot d'exploration: celle de la politesse.
Premièrement: la raison d'être de "Mozilla" est d'indiquer au site quelles sont les capacités de votre navigateur. Si votre bot n'essaie pas d'agir comme un navigateur, il n'y a pas de raison particulière pour que vous deviez inclure "Mozilla".
En ce qui concerne votre chaîne d'agent utilisateur et d'autres éléments liés à la politesse:
Sélectionnez un nom que vous savez que personne d'autre n'utilise. Je pense que si vous utilisez "Goofybot", tout ira bien. Mais je vérifierais pour être sûr.
Votre chaîne d'agent utilisateur doit inclure un lien vers plus d'informations sur le bot. Par exemple, notre chaîne se lit "MLBot (www.metadatalabs.com/mlbot)".
Assurez-vous que si quelqu'un recherche "Goofybot", cette page est haute (de préférence en premier) dans les résultats de la recherche.
Votre page sur le bot doit indiquer pourquoi vous utilisez les informations, les adresses IP à partir desquelles vous vous explorez, et inclure un moyen permettant aux personnes de vous contacter au sujet de problèmes concernant le bot.
Vous devez répondre rapidement à toute question ou réclamation, en appliquant la philosophie "le client a toujours raison". Rappelez-vous que si votre bot a causé un problème dont cette personne se plaint, il a probablement causé des problèmes sur une douzaine de sites dont personne ne s'est plaint. Soit ils n'ont pas vu les problèmes, soit ils ont simplement bloqué votre adresse IP.
Vous devriez intégrer cette fonctionnalité pour empêcher votre bot d’accéder à un nom de domaine particulier. Certaines personnes ne voudront pas que vous exploriez du tout et n’ont pas l’accès ni la capacité technique pour créer un fichier robots.txt ou bloquer en .htaccess. Nous avons constaté que cette capacité nous permettait de dire à quelqu'un: "Nous sommes désolés que MLBot ait causé un problème. Nous lui avons demandé de ne plus jamais explorer votre site." Peut-être sans surprise, cela calme les gens très rapidement.
Si vous ne respectez pas déjà le fichier robots.txt, faites-le. Rien ne vous donnera une mauvaise réputation plus rapidement que d’ignorer le fichier robots.txt.
Sensationnel. Cela a duré plus longtemps que prévu. Au cours des quatre dernières années, j'ai commis chacune des erreurs que je viens de mentionner, et d'autres encore. Cependant, nous avons constaté que si nous sommes ouverts à propos de ce que nous faisons et communiquons honnêtement (y compris en affichant des informations sur les erreurs avant de recevoir une plainte), la majorité des webmasters nous considèrent comme un bon citoyen d’Internet.
Mozilla/2.0 et Mozilla/5.0 font tous deux référence au navigateur Mozilla. Il est devenu largement dépourvu de sens, avec de nombreux robots l’utilisant, mais il devrait demander au site de traiter votre robot comme il le ferait de tout utilisateur au hasard utilisant un navigateur classique.
Cependant, il est bon que l’étiquette inclue une URL menant à une page sur qui vous êtes et pourquoi vous explorez dans la section suivante. Ask Jeeves peut se contenter du nom, mais vous devez inclure une URL.
Par exemple.
Mozilla/5.0 (compatible; http://example.org/)
Cela permettra aux administrateurs Web de comprendre pourquoi vous explorez leur site et également de vous contacter en cas de problème de comportement de votre robot d'exploration.
Je pense que les liens suivants peuvent aider: