On me demande d'analyser le journal de trafic d'un site. En particulier, je dois identifier les robots d'exploration à partir des valeurs user agent
collectées.
Je sais qu'il existe des liens de type "piège" que vous pouvez utiliser pour distinguer les robots des êtres humains. Maintenant, je n'analyserais que les valeurs user agent
.
Maintenant la question. Existe-t-il un catalogue public ou une bibliothèque de robots Web?
Éditer
Voici la deuxième question. Il y a aussi beaucoup d’agent utilisateur vide dans mes enregistrements de trafic. Un en-tête d’agent utilisateur vide est-il lié à un robot ou à un processus automatique?
Le premier lien sur une recherche Google est probablement ce que vous recherchez - http://www.user-agents.org/
Il est très improbable que vous trouviez une liste complètement universelle de UserAgents, en partie parce que vous pouvez simplement les créer. Avant d’y arriver, cependant, ce serait une somme de travail ridicule. Vous avez juste besoin de compiler quelques ressources, puis de chercher plus avant tout ce que vous ne reconnaissez pas. (Étonnamment, je ne trouve pas d'article sur cette "Liste de…" dans Wikipedia.)
Cette semaine, notre société (Incapsula) a lancé Botopedia.org - un répertoire de bot créé par la communauté. Il est 100% gratuit et ouvert à tous. Vous pouvez l’utiliser pour trouver une liste complète des agents utilisateurs pour tous les robots que vous souhaitez rechercher.
En ce qui concerne les méthodes d’identification, je tiens à vous renvoyer à cette discussion dans Security.Stackexchange , qui couvre différentes méthodes d’identification de bots (c’est-à-dire JS challenge, Vérification de méthode, Accès robot.txt, etc.).