J'essaie de gratter https://www.controller.com/ avec python, et puisque la page a détecté un bot utilisant pandas.get_html
, et les demandes utilisant des agents utilisateurs et un proxy tournant, j'ai eu recours à un tourne-disque Selenium. Cependant, cela est également détecté comme un bot avec le message suivant. Quelqu'un peut-il expliquer comment puis-je surmonter cela?:
Pardonnez notre interruption ... Pendant que vous naviguiez sur www.controller.com, quelque chose à propos de votre navigateur nous a fait penser que vous étiez un bot. Il peut y avoir plusieurs raisons à cela: vous êtes un utilisateur expérimenté qui parcourt ce site Web à une vitesse surhumaine. Vous avez désactivé JavaScript dans votre navigateur Web. Un plug-in de navigateur tiers, tel que Ghostery ou NoScript, empêche JavaScript de s'exécuter. Des informations supplémentaires sont disponibles dans cet article d'assistance. Pour demander un déblocage, veuillez remplir le formulaire ci-dessous et nous l'examinerons dans les plus brefs délais "
Voici mon code:
from Selenium import webdriver
import requests
from Selenium.webdriver.common.action_chains import ActionChains
from Selenium.webdriver.common.keys import Keys
options = webdriver.ChromeOptions()
options = webdriver.ChromeOptions()
options.add_argument("start-maximized")
options.add_argument("disable-infobars")
options.add_argument("--disable-extensions")
#options.add_argument('headless')
driver = webdriver.Chrome(chrome_options=options)
driver.get('https://www.controller.com/')
driver.implicitly_wait(30)
Avez-vous essayé de changer avec la rotation User-Agent ou ip? Parfois ça aide.