Identification de l'agent utilisateur et base de données du moteur de recherche SEO

Question

On me demande d'analyser le journal de trafic d'un site. En particulier, je dois identifier les robots d'exploration à partir des valeurs user agent collectées.

Je sais qu'il existe des liens de type "piège" que vous pouvez utiliser pour distinguer les robots des êtres humains. Maintenant, je n'analyserais que les valeurs user agent.

Maintenant la question. Existe-t-il un catalogue public ou une bibliothèque de robots Web?

Éditer

Voici la deuxième question. Il y a aussi beaucoup d’agent utilisateur vide dans mes enregistrements de trafic. Un en-tête d’agent utilisateur vide est-il lié à un robot ou à un processus automatique?

Vince Pettit · Answer

Le premier lien sur une recherche Google est probablement ce que vous recherchez - http://www.user-agents.org/

Su&#39; · Answer

Il est très improbable que vous trouviez une liste complètement universelle de UserAgents, en partie parce que vous pouvez simplement les créer. Avant d’y arriver, cependant, ce serait une somme de travail ridicule. Vous avez juste besoin de compiler quelques ressources, puis de chercher plus avant tout ce que vous ne reconnaissez pas. (Étonnamment, je ne trouve pas d'article sur cette "Liste de…" dans Wikipedia.)

Voici une liste massive de rien d'autre que chaînes UA iOS . Si vous regardez à quelle vitesse certaines de celles-ci sont modifiées dans la colonne Date et que vous tenez compte de la dernière mise à jour du document datant d'il y a 10 semaines, il manque peut-être déjà quelque chose.
serAgentString.com semble avoir été plus récemment mis à jour que user-agents.org. Chacun de ces noms de produits mène à une page séparée avec sa propre liste parfois très longue .
ser-agent-string.info a beaucoup de navigateurs qui semblent être absents de la version précédente, il pourrait donc aussi être bon de les avoir.

Igal Zeifman · Answer

Cette semaine, notre société (Incapsula) a lancé Botopedia.org - un répertoire de bot créé par la communauté. Il est 100% gratuit et ouvert à tous. Vous pouvez l’utiliser pour trouver une liste complète des agents utilisateurs pour tous les robots que vous souhaitez rechercher.

En ce qui concerne les méthodes d’identification, je tiens à vous renvoyer à cette discussion dans Security.Stackexchange , qui couvre différentes méthodes d’identification de bots (c’est-à-dire JS challenge, Vérification de méthode, Accès robot.txt, etc.).