web-dev-qa-db-fra.com

Est-il possible de supprimer des données de résultats Google?

J'aimerais récupérer les résultats de Google en utilisant curl pour détecter le contenu en double potentiel. Y at-il un risque élevé d’être banni par Google?

59
ML_

Google finira par bloquer votre IP lorsque vous dépassez un certain nombre de demandes.

50
Severin

Google interdit l'accès automatisé dans leurs TOS. Par conséquent, si vous acceptez leurs conditions d'utilisation, vous les enfreignez.

Cela dit, je ne connais aucune poursuite de Google contre un racleur. Même Microsoft gratté Google, ils ont alimenté leur moteur de recherche Bing avec elle. Ils ont été pris en flagrant délit en 2011 :)

Il existe deux options pour supprimer les résultats Google:

1) Utiliser leur API

  • Vous pouvez émettre environ 40 demandes par heure. Vous êtes limité à ce qu’ils vous donnent. Ce n’est pas vraiment utile si vous voulez suivre les positions de classement ou ce que verrait un véritable utilisateur. C'est quelque chose que vous n'êtes pas autorisé à rassembler.

  • Si vous voulez un plus grand nombre de demandes d'API, vous devez payer.

  • 60 demandes par heure coûtent 2000 USD par an, plus de requêtes nécessitent un accord personnalisé.

2) Grattez les pages de résultats normales

  • Voici la partie délicate. Il est possible de gratter les pages de résultats normales. Google ne le permet pas.
  • Si vous grattez à un taux supérieur à 8 (mis à jour depuis 15) demandes de mot-clé par heure, vous risquez d'être détecté, supérieur à 10/h (mis à jour depuis 20) vous obtiendrez bloqué de mon expérience.
  • En utilisant plusieurs adresses IP, vous pouvez augmenter le taux. Ainsi, avec 100 adresses IP, vous pouvez enregistrer jusqu'à 1000 demandes par heure. (24k par jour) (mise à jour)
  • Il existe un grattoir de moteur de recherche open source écrit en PHP à http://scraping.compunect.com Il permet de gratter Google de manière fiable, analyse les résultats correctement et gère Adresses IP, délais, etc. Donc si vous pouvez utiliser PHP c'est un bon kickstart, sinon le code sera toujours utile pour apprendre comment faire.

3) Vous pouvez également utiliser un service de raclage (mis à jour).

  • Récemment, un de mes clients avait une énorme demande de raclage dans les moteurs de recherche, mais ce n’était pas "en cours", c’était plutôt une actualisation énorme par mois.
    Dans ce cas, je n'ai pas pu trouver de solution "économique".
    J'ai utilisé le service sur http://scraping.services à la place. Ils fournissent également du code source ouvert et jusqu’à présent, il fonctionne bien (plusieurs milliers de pages de résultats par heure pendant les actualisations).
  • L'inconvénient est qu'un tel service signifie que votre solution est "liée" à un fournisseur professionnel, mais qu'elle était bien moins chère que les autres options que j'ai évaluées (et plus rapide dans notre cas).
  • Une option pour réduire la dépendance vis-à-vis d'une entreprise consiste à adopter deux approches en même temps. Utilisation du service de raclage en tant que source principale de données et recours à une solution basée sur le proxy, telle que décrite au point 2), le cas échéant.
107
John

Google prospère en grattant les sites Web du monde entier ... alors si c'était "si illégal", alors même Google ne survivra pas ... bien sûr, d'autres réponses mentionnent des moyens d'atténuer les blocages de propriété intellectuelle par Google. Une autre façon d’éviter d’empêcher de captcha pourrait être de gratter à des moments aléatoires (essayez à nouveau). De plus, j’ai le sentiment que, si nous fournissons une nouveauté ou un traitement important des données, cela me semble bien au moins ... sont simplement en train de copier un site Web .. ou d'entraver son activité/sa marque d'une manière ou d'une autre ... alors c'est mauvais et devrait être évité .. au-dessus de tout cela ... si vous êtes une startup, personne ne vous combattra comme là-bas n’est pas un avantage .. mais si votre prémisse repose sur le raclage, même lorsque vous êtes financé, vous devriez penser à des moyens plus sophistiqués ... des API alternatives. Évidemment ... Google continue à publier (ou à déprécier) des champs pour son API. que vous souhaitez supprimer maintenant figure peut-être dans la feuille de route des nouvelles versions de Google API.

4
raghav