web-dev-qa-db-fra.com

AWStats: visites depuis l'adresse IP vs les robots d'exploration

J'utilise AWStats dans cPanel pour afficher les statistiques de mon site Web. Sous la section Hôtes, je vois une adresse IP ayant visité 150 pages. Je ne sais pas si une personne aurait visité 150 pages à l'aide d'un navigateur. Mais si ces 150 pages ont été visitées à l'aide d'un logiciel, il ne devrait pas être répertorié dans la section Robots/Spider.

Alors, comment puis-je déterminer si je dois bloquer une certaine adresse IP ayant visité plusieurs centaines de pages de mon site Web?

Merci

1
head_scratcher

Ceci est tout à fait juste pour moi, cependant, j'utilise Sawmill et d'autres outils et n'utilise pas AWStats. Je suggérerais qu'il existe de meilleurs produits de performance de site qui sont gratuits et je suggère que vous installiez l'un d'entre eux. Cela vous aidera à mieux savoir ce qui se passe.

Consultez ces liens: http://en.wikipedia.org/wiki/Web_analyticshttp://en.wikipedia.org/wiki/List_of_web_analytics_software

Je recommande de regarder: http://www.openwebanalytics.com/http://piwik.org/ (semble être le meilleur)

Maintenant, répondez à votre question.

Oui, il y a beaucoup de robots et il semble que le contrôle de leur comportement peut être un travail à plein temps. Mais comment savoir lesquels sont mauvais? C'est bien. En règle générale, commencez par rechercher les moteurs de recherche existants et les agents, noms de domaine et blocs d'adresses IP qu'ils utilisent pour vous familiariser. Vous voudrez peut-être garder une liste. Évidemment, il y a Google, Bing, Yandex, Baidu, etc., mais il existe aussi de plus petits logiciels valables que vous voudrez décider d'autoriser ou non.

Chacun aura une méthode pour bloquer ses accès en utilisant le fichier robots.txt. http://www.robotstxt.org/ vous explique comment utiliser le fichier robots.txt. Chaque spider/bot valide aura dans le nom de son agent une URL qui indique comment bloquer à l'aide de robots.txt.

N'importe quel mauvais bot, cependant, essaiera de tout simplement de faire de votre site une araignée. Nombre d'entre eux sont des mineurs de données et des racleurs de contenu qui utiliseront votre contenu sous une forme ou une autre pour monétiser leur propre site. Ceux-ci vont se donner. Voici ce qu'il faut rechercher:

Le nom de l'agent contient-il une URL de renvoi? Non = mauvais. Le nom de l'agent change-t-il au fil du temps? Oui = mauvais. Le système d'exploitation change-t-il avec le temps? Oui = mauvais. Le bot accède-t-il à beaucoup de pages très rapidement? Oui = mauvais. (vitesse moyenne = un accès: 2 secondes). Le bot obéit-il au fichier robots.txt? Non = mauvais. Le bot accède-t-il aux images? Non = mauvais. Le bot accède-t-il à javascript? Non = mauvais. Oui = utilisateur.

Il y a plus de cadeaux, mais ils nécessitent plus de travail.

Vous pouvez également rechercher le nom de domaine et l'adresse IP sur le Web et obtenir un avis. Cela arrive juste de faire partie de ce que mon site est à propos.

Gardez à l'esprit que certaines de ces araignées ne sont pas nécessairement mauvaises. Il peut archiver.org, n'importe lequel des nombreux sites de recherche sur les backlinks qui tentent de déterminer certaines statistiques de référencement. Ce n'est pas tout mauvais. Vous devez décider ce que vous aimez et ce que vous n'aimez pas.

Une autre considération est la suivante. De nombreux accès peuvent être des aménagements de hackers ou des tentatives de piratage. L'aménagement paysager est l'endroit où le pirate tente de déterminer les outils de site que vous utilisez et les vulnérabilités pouvant exister. Les tentatives de piratage ne sont que cela. Tentatives. Il y a du flou entre les deux et l’un ou l’autre est mauvais.

Vous voudrez vous familiariser avec les méthodes de blocage de votre serveur Web. Pour Apache, vous utiliseriez le fichier .htaccess. Ce lien vous aidera à démarrer: http://httpd.Apache.org/docs/2.2/howto/htaccess.html

Encore une fois, c'est ce que mon site est à propos. Si vous voulez nous donner quelques exemples d'accès, je peux mettre à jour la réponse avec quelque chose de plus spécifique. Cela se trouve être l'un des domaines sur lesquels je fais des recherches. Si je sais quelque chose, je vous le ferai savoir.

1
closetnoc