J'utilise Piwik pour suivre les personnes visitant mon site web. Malheureusement, bon nombre des visiteurs qui apparaissent dans le journal des visiteurs ne sont pas de vraies personnes mais des robots de spam. Normalement, ces robots utilisent un fournisseur d'un pays différent de mon public cible. Ils se réfèrent toujours à un site de spam, comme vous pouvez le voir dans la colonne Référent.
Parce que mon site est relativement petit, ces robots faussent les statistiques (visites dans le temps, etc.) et rendent la carte du visiteur presque inutile. Y a-t-il quelque chose que je puisse faire pour les bloquer?
Vous pouvez les bloquer par ip dans Piwik ...
To exclude all traffic from a given IP or IP range, log in Piwik as the Super User.
Click on Settings > Websites. Below the list of websites, you will find the option to
specify “Global list of Excluded IPs”. You can define a given IP address, or IP ranges
(132.4.3.* or 143.2.. for example) to be excluded from being tracked on all websites.
Each Piwik admin user can also specify the list of IPs or IP ranges to exclude for
specific websites.
Il existe probablement de meilleures solutions programmatiques, telles que l’affichage du code de suivi pour des pays spécifiques ou le blocage de toute adresse IP trouvée dans la base de données Project Honeypot.
Cependant, une solution plus simple pourrait être de supprimer les balises <noscript>
de votre code de suivi. Les robots peuvent rarement lire du javascript, mais la plupart des utilisateurs humains le peuvent. Bien que vous ne puissiez suivre aucun utilisateur humain sans JavaScript si cela était supprimé, cela devrait augmenter la précision globale.
Vous trouverez des robots abusifs dans vos fichiers de log si vous avez un site web de tout âge. Pour certains, c'est un problème énorme, alors que certains sites subissent moins d'abus.
Vous avez une excellente idée sur la possibilité de modifier le fichier journal. Peut-être qu'il devrait y avoir un outil. À moins que vous ne puissiez écrire du code, il n’est pas très pratique d’éditer le fichier journal pour supprimer des entrées et, à ma connaissance, aucun outil ne le fait pour vous. La plupart des gens cherchent à bloquer ces accès afin de garder leurs fichiers journaux propres.
Il n’est pas facile de déterminer qui bloquer quand. Je suis dans le domaine de la recherche sur la sécurité et ceci est un sujet pour moi et je vous dis que c'est toujours un jugement. Mais je vais vous donner quelques indices.
Lorsque vous examinez votre fichier journal ou son analyse, vous souhaitez rechercher quelques éléments:
Bien sûr, il y a plus d'indices, mais cela devient compliqué.
C'est un domaine dans lequel vous devez faire preuve de jugement. Vous pouvez utiliser les noms de domaine et les adresses IP de Google pour voir l'expérience d'autres personnes et savoir si quelqu'un d'autre bloque l'accès à ce que vous avez trouvé. Utilisez la liste ci-dessus pour vous faire votre propre opinion. Vous allez commencer à voir des modèles.
Cela dépend de votre serveur Web bien sûr. Je n'ai pas travaillé avec IIS depuis longtemps, ni n'ai utilisé aucun des serveurs Web les plus récents. Je connais Apache, je vais donc donner quelques exemples que vous pouvez utiliser dans votre fichier .htaccess si vous avez Apache.
RewriteCond %{REMOTE_Host} example.com [NC]
RewriteRule .* - [F,L]
-et-
RewriteCond %{REMOTE_ADDR} 10.0.1.101 [NC]
RewriteRule .* - [F,L]
Depuis que cette question a été posée, Piwik a obtenu une nouvelle fonctionnalité dans laquelle il ignore par défaut les visiteurs dont les référents sont connus pour ce type de spam. https://piwik.org/blog/2015/05/stopping-referrer-spam/
Si vous rencontrez de nouveaux domaines, vous pouvez les soumettre à la liste des spammeurs référents fournie par la communauté: https://github.com/piwik/referrer-spam-blacklist