Quels avantages l'utilisation d'un robot d'exploration Web vous apporterait-elle en tant que webmaster?
Un robot Web interne peut être utilisé aux fins suivantes:
Vous n'êtes pas obligé de lancer un robot d'exploration Web sur votre boîte de production. Vous pouvez l'exécuter sur un bac à sable, comme un transfert ou un test, pour voir comment il se comporterait sous charge. Ensuite, vous pouvez exécuter jusqu'à 10 000 utilisateurs virtuels et voir à quoi ressemblent les données de métriques résultantes. Vous pouvez regarder et analyser tout ce que vous voulez avec n'importe quelle donnée HTML publique, qui se trouve sur un site Web.
La plupart du temps externe Les robots d'indexation Web sont utilisés par les moteurs de recherche pour trouver du contenu sur les sites Web d'autres personnes. Donc, sauf si vous cherchez à créer un robot de recherche et un moteur de recherche, vous voudrez peut-être savoir si l'un de ces objectifs internes peut vous être utile. Ils peuvent être utiles sur des sites Web de plus de 1 000 pages, mais ne seront pas bénéfiques pour les petits sites de 10 pages. Il faut beaucoup de temps pour écrire et déboguer des webcrawlers. Alors planifiez judicieusement, avant de décider de construire un à partir de zéro!
L'utilisation d'un robot sur votre propre site peut s'avérer utile si vous avez sur votre site un grand nombre de pages qui n'ont pas nécessairement une entrée dans une base de données pour effectuer une recherche. Il s'agit en fait d'un moyen d'implémenter la recherche de site sur votre site. Il peut également être utilisé lorsque vous avez besoin d'une recherche unifiée unique pour un certain nombre de propriétés Web distinctes. J'ai implémenté cela pour une université qui comptait plus de 100 sites distincts, certains dans des sous-domaines, certains dans des domaines complètement séparés, tous sur des serveurs différents avec des bases de données différentes. Il fournissait un seul outil de recherche unifié pour rechercher facilement la présence en ligne de toutes les universités.