Depuis quelques semaines, l’un de mes comptes Google Analytics indique une augmentation continue du nombre de visiteurs et de pages d’impression qui semblent être des robots. Ils ont une durée de session moyenne de "<00:00:01" et représentent maintenant environ 42% des visiteurs affichés par Google Analytics. Ils détruisent mes statistiques! : - /
J'ai découvert le schéma suivant: ils sont originaires des États-Unis (pour la plupart environ 80%), mais aussi, dans une petite mesure, du Nigéria et de la Chine, de la France et de la Thaïlande. Fait intéressant, ils utilisent tous les "Macintosh" avec "Firefox" dans la version "41.0" et utilisent presque tous une taille de navigateur de "1420x940". Ils sont Language-Setting réglé sur "en-us" et ils ne disposent pas de support Java. Ils visitent le site "directement" et leurs fournisseurs d’hôte et d’Internet varient.
Comment puis-je exclure ces chiffres de mon compte Google Analytics? J'ai utilisé GA pendant des années, mais je n'ai jamais eu de problèmes réels avec les Bots comme je le fais maintenant…
Cela ressemble à un spam pour moi. Parfois, votre site est ciblé par des robots, vous voudrez peut-être résoudre ce problème, mais la solution ne serait pas de les exclure de GA mais de les exclure de votre site Web.
C'est peut-être le moins que vous puissiez faire à ce sujet:
Avec une simple commande linux, vous pouvez suivre tous les agents utilisateurs qui explorent votre site Web.
$cat test.log | awk -F\" '{print $6}' | sort | uniq -c | sort -n
Les résultats ressembleraient à ceci:
51916 MetaURI API/2.0 +metauri.com
59899 Twitterbot/1.0
87819 Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
111261 Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
187812 Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:28.0) Gecko/20100101 Firefox/28.0 (FlipboardProxy/1.1; +http://flipboard.com/browserproxy)
189834 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
390477 facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
Le premier nombre (en gras) correspond au nombre de fois où cet agent spider/crawler/utilisateur/a accès à votre site. Attention, ce ne sont pas tous des robots, car les données sont mélangées au trafic utilisateur humain réel et à un autre trafic utile. Dans mon exemple ci-dessus, vous voyez que l'agent utilisateur "Facebookexternalhit" accédait au site 390 477 fois par mois. Cela représente environ 541 fois l'heure. Excessif. Sur la liste des victimes, vous y allez! Les autres plus lourds sont FlipboardProxy, Twitterbot, Spaidu et Metauri. Celles-ci font partie "crawler", partie "services". Quoi qu'ils soient, leur utilité ne justifie pas la quantité de trafic/charge sur mon serveur, alors .. sur un peu plus de tuer!
Choisissez les mauvais robots que vous voulez "bannir" et ajoutez-les à une liste comme celle-ci:
#redirect bad bots to one page
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} facebookexternalhit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Twitterbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MetaURI [NC,OR]
RewriteCond %{HTTP_USER_AGENT} mediawords [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlipboardProxy [NC]
RewriteCond %{REQUEST_URI} !\/nocrawler.htm
RewriteRule .* http://yoursite/nocrawler.htm [L]
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
User-agent: BadBot Disallow: /
http://www.user-agents.org/ - où R va pour les robots.
http://www.robotstxt.org/db.html - Db de tous les robots avec des informations avancées les concernant, y compris leurs agents utilisateurs.
Notez que ce n'est même pas une liste complète ^^.