web-dev-qa-db-fra.com

Que dois-je savoir avant d'exécuter un robot d'indexation Web?

Je me lance dans une analyse de données plus holistique et j'aimerais utiliser un robot d'exploration de sites Web pour extraire des données de sites Web pour les utiliser dans mes analyses. Pour être clair, je ne veux pas mettre en miroir les données et republier, tout au plus je l’agrégerais pour une utilisation exclusive.

J'imagine que le trafic d'effets sur le Web diffère de celui des utilisateurs normaux:

  • Est-ce une contrainte importante pour l'hôte?
  • Les hôtes remarquent-ils que les robots Web accèdent à leurs pages et causent-ils des problèmes?
  • Quelle est la perception du secteur des robots d'exploration du Web, s'agit-il de malveillants, d'ennuis ou d'utilitaires raisonnables?
  • Existe-t-il des règles régissant leur utilisation ou des faux pas à éviter de l'industrie?
2
MoondogsMaDawg

Cela représente-t-il une contrainte importante pour l'hôte? Cela dépend de ce que vous considéreriez être une perte de temps importante pour l'hôte, de la mesure dans laquelle vous analysez des données et de la fréquence à laquelle vous le faites. Les araignées des moteurs de recherche explorent très fréquemment le contenu des sites, tant qu’ils le font de manière sûre et conformément aux meilleures pratiques de l’industrie en matière de limitation du nombre de bots simultanés exécutés sur un seul site. du rampant.

Les hôtes remarquent-ils que les robots d'exploration de sites Web accèdent à leurs pages et causent-ils des problèmes? Les hôtes peuvent voir chaque connexion établie avec leur site par le biais des journaux de leur serveur Web. De plus, de nombreux sites utilisent un produit d'analyse tel que Google Analytics surveille le trafic et ces services déterminent souvent s’il existe un trafic inhabituel, tel qu’un spider de moteur de recherche ou un racleur Web qui a balayé le site. Dans certains cas, il n'y a pas de problèmes et les webmasters ne font pas sourciller les yeux, mais c'est généralement là que l'exploration en question est effectuée par une araignée de moteur de recherche légitime qui rampe dans le but de mettre à jour l'index du moteur de recherche. .

Quelle est la perception du secteur des robots d'exploration du Web, s'agit-il de malveillants, d'ennuis ou d'utilitaires raisonnables? Cela dépend de la nature du robot. Les araignées de moteur de recherche sont reconnues comme un mal nécessaire et une utilité raisonnable pour les sites Web. Toutefois, les robots d'exploration privés non affiliés à des moteurs de recherche reconnus soulèvent souvent des sourcils en raison du potentiel qu'un utilisateur malveillant utilise un robot d'exploration pour identifier les vulnérabilités à exploiter.

La base de ce que je dis à partir de cela consiste à faire attention à vos pratiques d'indexation, à vous assurer que les sites que vous indexez autorisent l'indexation pour votre cas d'utilisation et à ne pas analyser un site trop fréquemment.

2