Le code m'a aidé à télécharger un tas d'images de Google. Il fonctionnait il y a quelques jours et maintenant, tout d'un coup, le code se brise.
Code:
# importing google_images_download module
from google_images_download import google_images_download
# creating object
response = google_images_download.googleimagesdownload()
search_queries = ['Apple', 'Orange', 'Grapes', 'water melon']
def downloadimages(query):
# keywords is the search query
# format is the image file format
# limit is the number of images to be downloaded
# print urs is to print the image file url
# size is the image size which can
# be specified manually ("large, medium, icon")
# aspect ratio denotes the height width ratio
# of images to download. ("tall, square, wide, panoramic")
arguments = {"keywords": query,
"format": "jpg",
"limit":4,
"print_urls":True,
"size": "medium",
"aspect_ratio": "panoramic"}
try:
response.download(arguments)
# Handling File NotFound Error
except FileNotFoundError:
arguments = {"keywords": query,
"format": "jpg",
"limit":4,
"print_urls":True,
"size": "medium"}
# Providing arguments for the searched query
try:
# Downloading the photos based
# on the given arguments
response.download(arguments)
except:
pass
# Driver Code
for query in search_queries:
downloadimages(query)
print()
Journal de sortie:
Numéro d'article: 1 -> Nom de l'article = Apple Évaluation ... Démarrage du téléchargement ...
Malheureusement, les 4 n'ont pas pu être téléchargés car certaines images n'étaient pas téléchargeables. 0 est tout ce que nous avons pour ce filtre de recherche!
Erreurs: 0
Numéro d'article: 1 -> Nom d'article = Orange Évaluation ... Démarrage du téléchargement ...
Malheureusement, les 4 n'ont pas pu être téléchargés car certaines images n'étaient pas téléchargeables. 0 est tout ce que nous avons pour ce filtre de recherche!
Erreurs: 0
Numéro d'article: 1 -> Nom de l'article = Raisins Évaluation ... Démarrage du téléchargement ...
Malheureusement, les 4 n'ont pas pu être téléchargés car certaines images n'étaient pas téléchargeables. 0 est tout ce que nous avons pour ce filtre de recherche!
Erreurs: 0
Numéro d'article: 1 -> Nom d'article = melon d'eau Évaluation ... Démarrage du téléchargement ...
Malheureusement, les 4 n'ont pas pu être téléchargés car certaines images n'étaient pas téléchargeables. 0 est tout ce que nous avons pour ce filtre de recherche!
Erreurs: 0
Cela crée en fait un dossier mais pas d'images dedans.
Je pense que Google change le DOM. L'élément class = "rg_meta notranslate" n'existe plus. Il est changé en class = "rg_i ..."
def get_soup(url,header):
return BeautifulSoup(urllib2.urlopen(urllib2.Request(url,headers=header)),'html.parser')
def main(args):
query = "typical face"
query = query.split()
query = '+'.join(query)
url = "https://www.google.co.in/search?q="+query+"&source=lnms&tbm=isch"
headers = {}
headers['User-Agent'] = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"
soup = get_soup(url, headers)
for a in soup.find_all("img", {"class": "rg_i"}):
wget.download(a.attrs["data-iurl"], a.attrs["data-iid"])
if __name__ == '__main__':
from sys import argv
try:
main(argv)
except KeyboardInterrupt:
pass
sys.exit()
En effet, le problème est apparu il n'y a pas si longtemps, il existe déjà un tas de problèmes similaires sur Github:
Malheureusement, il n'y a pas de solution officielle, pour l'instant, vous pouvez utiliser la solution temporaire fournie dans les discussions.
La raison pour laquelle cela ne fonctionne pas est que Google a changé la façon dont ils font tout pour que vous ayez maintenant besoin de la clé api_key incluse dans la chaîne de recherche. En conséquence, les packages tels que google-images-download ne fonctionnent plus même si vous utilisez la version 2.8.0 car ils n'ont pas d'espace réservé pour insérer la chaîne api_key que vous devez enregistrer auprès de Google pour obtenir vos 2500 téléchargements gratuits par jour.
Si vous êtes prêt à payer 50 $ par mois ou plus pour accéder à un service de serpapi.com , une façon de le faire est d'utiliser le package pip google-search-results
et fournissez votre api_key dans le cadre des paramètres de requête.
params = {
"engine" : "google",
...
"api_key" : "secret_api_key"
}
où vous fournissez vous-même votre clé API, puis appelez:
client = GoogleSearchResults(params)
results = client.get_dict()
Cela renvoie une chaîne JSON avec le lien vers toutes les URL d'image, puis vous les téléchargez directement.