J'aimerais récupérer les résultats de Google en utilisant curl pour détecter le contenu en double potentiel. Y at-il un risque élevé d’être banni par Google?
Google finira par bloquer votre IP lorsque vous dépassez un certain nombre de demandes.
Google interdit l'accès automatisé dans leurs TOS. Par conséquent, si vous acceptez leurs conditions d'utilisation, vous les enfreignez.
Cela dit, je ne connais aucune poursuite de Google contre un racleur. Même Microsoft gratté Google, ils ont alimenté leur moteur de recherche Bing avec elle. Ils ont été pris en flagrant délit en 2011 :)
Il existe deux options pour supprimer les résultats Google:
1) Utiliser leur API
Vous pouvez émettre environ 40 demandes par heure. Vous êtes limité à ce qu’ils vous donnent. Ce n’est pas vraiment utile si vous voulez suivre les positions de classement ou ce que verrait un véritable utilisateur. C'est quelque chose que vous n'êtes pas autorisé à rassembler.
Si vous voulez un plus grand nombre de demandes d'API, vous devez payer.
2) Grattez les pages de résultats normales
3) Vous pouvez également utiliser un service de raclage (mis à jour).
Google prospère en grattant les sites Web du monde entier ... alors si c'était "si illégal", alors même Google ne survivra pas ... bien sûr, d'autres réponses mentionnent des moyens d'atténuer les blocages de propriété intellectuelle par Google. Une autre façon d’éviter d’empêcher de captcha pourrait être de gratter à des moments aléatoires (essayez à nouveau). De plus, j’ai le sentiment que, si nous fournissons une nouveauté ou un traitement important des données, cela me semble bien au moins ... sont simplement en train de copier un site Web .. ou d'entraver son activité/sa marque d'une manière ou d'une autre ... alors c'est mauvais et devrait être évité .. au-dessus de tout cela ... si vous êtes une startup, personne ne vous combattra comme là-bas n’est pas un avantage .. mais si votre prémisse repose sur le raclage, même lorsque vous êtes financé, vous devriez penser à des moyens plus sophistiqués ... des API alternatives. Évidemment ... Google continue à publier (ou à déprécier) des champs pour son API. que vous souhaitez supprimer maintenant figure peut-être dans la feuille de route des nouvelles versions de Google API.