web-dev-qa-db-fra.com

En tant que webmaster, quel est le but d'utiliser un robot d'indexation pour votre site?

Quels avantages l'utilisation d'un robot d'exploration Web vous apporterait-elle en tant que webmaster?

2
yoyo_fun

Un robot Web interne peut être utilisé aux fins suivantes:

  1. Création d'un moteur de recherche localisé.
  2. Numérisation de pages pour détecter les liens morts, lorsque la page cible a été supprimée ou non publiée d'un CMS, mais que les liens vers cette page existent toujours dans d'autres pages.
  3. Trouver miettes de pain Cliquez sur les chemins de randonnée dans des sites Web gigantesques.
  4. Recherche de pages orphelines dans les sites Web générés par le CMS.
  5. Charger les tests à partir de plusieurs emplacements de serveurs et de différents pays.
  6. Les pages de test unitaire, qui ont Jasmine comme des points verts au bas des pages.
  7. Détecter les optimisations SEO sur différentes pages, comme les balises Meta manquantes.
  8. Génération de rapports personnalisés que les outils d’analyse de fichier journal pourraient ne pas créer.
  9. Pages de vérification orthographique lorsque vous travaillez sur des sites volumineux, où les éditeurs créent du contenu dans un CMS et ne peuvent pas vérifier orthographiquement leurs articles.
  10. Traduction automatique de pages en langues étrangères (fins d'internationalisation AKA "i18n").
  11. Montrer vos programmes intelligents à votre I.T. Collègues de travail
  12. Tout ce que vous souhaitez que votre bot teste sur des sites Web volumineux, où les requêtes de base de données pourraient ne pas être aussi bénéfiques qu'un robot d'exploration de site interne.

Vous n'êtes pas obligé de lancer un robot d'exploration Web sur votre boîte de production. Vous pouvez l'exécuter sur un bac à sable, comme un transfert ou un test, pour voir comment il se comporterait sous charge. Ensuite, vous pouvez exécuter jusqu'à 10 000 utilisateurs virtuels et voir à quoi ressemblent les données de métriques résultantes. Vous pouvez regarder et analyser tout ce que vous voulez avec n'importe quelle donnée HTML publique, qui se trouve sur un site Web.

La plupart du temps externe Les robots d'indexation Web sont utilisés par les moteurs de recherche pour trouver du contenu sur les sites Web d'autres personnes. Donc, sauf si vous cherchez à créer un robot de recherche et un moteur de recherche, vous voudrez peut-être savoir si l'un de ces objectifs internes peut vous être utile. Ils peuvent être utiles sur des sites Web de plus de 1 000 pages, mais ne seront pas bénéfiques pour les petits sites de 10 pages. Il faut beaucoup de temps pour écrire et déboguer des webcrawlers. Alors planifiez judicieusement, avant de décider de construire un à partir de zéro!

3
Clomp

L'utilisation d'un robot sur votre propre site peut s'avérer utile si vous avez sur votre site un grand nombre de pages qui n'ont pas nécessairement une entrée dans une base de données pour effectuer une recherche. Il s'agit en fait d'un moyen d'implémenter la recherche de site sur votre site. Il peut également être utilisé lorsque vous avez besoin d'une recherche unifiée unique pour un certain nombre de propriétés Web distinctes. J'ai implémenté cela pour une université qui comptait plus de 100 sites distincts, certains dans des sous-domaines, certains dans des domaines complètement séparés, tous sur des serveurs différents avec des bases de données différentes. Il fournissait un seul outil de recherche unifié pour rechercher facilement la présence en ligne de toutes les universités.

2
Chris Rutherfurd