Quelqu'un peut-il distinguer entre une chenille et un racleur en termes de portée et de fonctionnalité.
Un robot d'exploration obtient des pages Web - c.-à-d. Une adresse de départ (ou un ensemble d'adresses de départ) et certaines conditions (par exemple, le nombre de liens profonds à parcourir, les types de fichiers à ignorer), il télécharge tout ce qui est lié au point de départ ( s).
Un grattoir prend les pages qui ont été téléchargées ou, d'une manière plus générale, les données formatées pour l'affichage, et (tente) d'extraire les données de ces pages, afin qu'elles puissent (par exemple) être stockées dans une base de données et manipulées à volonté .
En fonction de votre utilisation du résultat, le fait de gratter peut bien enfreindre les droits du propriétaire de l'information et/ou les contrats d'utilisation relatifs à l'utilisation de sites Web (l'exploration viole également ces derniers). De nombreux sites incluent un fichier nommé robots.txt dans leur racine (c’est-à-dire avec l’URL http://server/robots.txt
) pour spécifier comment (et si) les robots devraient traiter ce site - en particulier, il peut lister les URL (partielles) qu’un robot ne devrait pas essayer de visiter. Ceux-ci peuvent être spécifiés séparément par robot (utilisateur-agent) si vous le souhaitez.
Le robot d'exploration Web obtient les liens (Urls - Pages) dans une logique et Scrapper obtient les valeurs (extraction) à partir de HTML.
Il existe de nombreux outils d'exploration Web. Visitez la page pour en voir. Tout analyseur XML - HTML peut être utilisé pour extraire (supprimer) des données à partir de pages analysées. (Je recommande Jsoup pour l'analyse et l'extraction de données)
Les robots naviguent sur le Web en suivant des liens. Un exemple serait le robot Google qui obtient les pages à indexer. Les racleurs extraient des valeurs de formulaires, mais n’ont pas nécessairement de lien avec le Web.
En règle générale, les robots d'exploration suivent les liens pour accéder à de nombreuses pages, tandis que les scrapers ne font, dans un certain sens, que tirer le contenu affiché en ligne sans atteindre les liens plus profonds.
Le robot le plus typique est google bots, qui suivrait les liens pour accéder à toutes les pages Web de votre site Web et indexerait le contenu s’ils le trouvaient utile (c’est pourquoi vous avez besoin de robots.txt pour savoir quel contenu vous ne voulez pas être. indexé). Nous pourrions donc rechercher ce type de contenu sur son site Web. Bien que le but des racleurs soit juste de tirer le contenu pour des usages personnels et n’aurait pas beaucoup d’effets sur les autres.
Cependant, il n'y a plus aucune différence particulière entre les robots d'exploration et les scrapers, car certains outils de scraping Web automatisés vous permettent également d'explorer le site Web en suivant les liens, comme Octoparse et import.io. Ils ne ressemblent pas aux robots d'exploration, mais ils sont capables d'analyser automatiquement les sites Web pour obtenir de nombreuses données sans codage.