Existe-t-il une différence entre Crawling et Web-scraping?
En cas de différence, quelle est la meilleure méthode à utiliser pour collecter des données Web afin de fournir une base de données pour une utilisation ultérieure dans un moteur de recherche personnalisé?
Crawling serait essentiellement ce que font Google, Yahoo, MSN, etc., recherchant TOUTE information. Le grattage vise généralement certains sites Web, pour des données spécifiques, par exemple. pour la comparaison des prix, les codes sont donc très différents.
Habituellement, un grattoir sera sur mesure pour les sites Web qu'il est supposé gratter, et ferait des choses qu'un (bon) robot d'exploration ne ferait pas, à savoir:
Oui, ils sont différents En pratique, vous devrez peut-être utiliser les deux.
(Je dois intervenir parce que, jusqu'à présent, les autres réponses ne vont pas au fond des choses. Elles utilisent des exemples mais ne précisent pas les distinctions. D'accord, elles datent de 2010!)
Web scraping, pour utiliser une définition minimale, consiste à traiter un document Web et à en extraire des informations. Vous pouvez faire du web scraping sans faire du web crawling.
L'analyse Web, pour utiliser une définition minimale, est le processus de recherche et d'extraction itérative de liens Web à partir d'une liste d'URL d'origine. À proprement parler, pour effectuer une analyse Web, vous devez effectuer un certain degré de nettoyage de la page Web (pour extraire les URL).
Pour clarifier certains concepts mentionnés dans les autres réponses:
robots.txt
est destiné à s'appliquer à tout processus automatisé qui accède à une page Web. Cela s'applique donc aussi bien aux chenilles qu'aux racleurs.
Les chenilles et les grattoirs «appropriés» doivent tous deux s'identifier avec précision.
Quelques références:
AFAIK Web Crawling, c’est ce que Google fait: il parcourt un site Web en recherchant des liens et en construisant une base de données sur la présentation de ce site et des sites auxquels il renvoie.
Le Web Scraping serait l’analyse programmée d’une page Web pour en charger certaines données, par exemple en chargeant la météo de la BBC et en déchirant (la grattant) la prévision météorologique, la plaçant ailleurs ou la utilisant dans un autre programme.
Il y a une différence fondamentale entre ces deux. Pour ceux qui cherchent à creuser plus profondément, je vous suggère de lire ceci - Web scraper, Web Crawler
Ce post va dans les détails. Un bon résumé se trouve dans ce tableau de l'article:
Nous explorons les sites pour avoir une vue d'ensemble de la structure du site, des liens entre les pages, pour estimer le temps qu'il nous faut pour visiter toutes les pages qui nous intéressent. Le scraping est souvent plus difficile à mettre en œuvre, mais c'est une essence de l'extraction de données. Pensons au grattage en couvrant le site Web avec une feuille de papier avec quelques rectangles découpés. Nous pouvons maintenant voir uniquement les éléments dont nous avons besoin, en ignorant complètement les parties du site Web communes à toutes les pages (telles que la navigation, le pied de page, les annonces), ou des informations superflues, telles que des commentaires ou des chapelures ... : https://tarantoola.io/web-scraping-vs-web-crawling/
Il y a certainement une différence entre ces deux. L'une se réfère à la visite d'un site, l'autre à l'extraction.