se faire interdire par robots.txt: scrapy

Question

lors de l'exploration de sites Web comme https://www.netflix.com , se faire interdire par robots.txt: https://www.netflix.com/>

ERREUR: Aucune réponse téléchargée pour: https://www.netflix.com/

Rafael Almeida · Accepted Answer

Dans la nouvelle version (scrapy 1.1) lancée le 11/05/2016, l'analyse télécharge d'abord le fichier robots.txt avant l'analyse. Pour changer ce comportement, changez votre settings.py avec ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Voici les notes de version

ROBOTSTXT_OBEY=False

Voici les notes de version

Ketan Patel · Answer

La première chose à faire est de changer votre agent utilisateur dans la demande, sinon l'agent utilisateur par défaut sera bloqué à coup sûr.