BeautifulSoup: extraire le texte de la balise d'ancrage

Question

Je veux extraire:

texte du src suivant de la balise image et
texte de la balise d'ancrage qui se trouve à l'intérieur des données de la classe div

J'ai réussi à extraire l'img src, mais j'ai du mal à extraire le texte de la balise d'ancrage.

<a class="title" href="http://www.Amazon.com/Nikon-COOLPIX-Digital-Camera-NIKKOR/dp/B0073HSK0K/ref=sr_1_1?s=electronics&amp;ie=UTF8&amp;qid=1343628292&amp;sr=1-1&amp;keywords=digital+camera">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a>

Voici le lien pour l'ensemble page HTML .

Voici mon code:

for div in soup.findAll('div', attrs={'class':'image'}): print "
" for data in div.findNextSibling('div', attrs={'class':'data'}): for a in data.findAll('a', attrs={'class':'title'}): print a.text for img in div.findAll('img'): print img['src']

Ce que j'essaie de faire est d'extraire l'image src (lien) et le titre à l'intérieur du div class=data , donc par exemple:

 <a class="title" href="http://www.Amazon.com/Nikon-COOLPIX-Digital-Camera-NIKKOR/dp/B0073HSK0K/ref=sr_1_1?s=electronics&amp;ie=UTF8&amp;qid=1343628292&amp;sr=1-1&amp;keywords=digital+camera">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a>

devrait extraire:

Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)

add-semi-colons · Accepted Answer

Toutes les réponses ci-dessus m'aident vraiment à construire ma réponse, à cause de cela, j'ai voté pour toutes les réponses que les autres utilisateurs ont mises: Mais j'ai finalement mis au point ma propre réponse au problème exact que je traitais:

Comme la question était clairement définie, j'ai dû accéder à certains des frères et sœurs et à leurs enfants dans une structure dom: cette solution va parcourir les images de la structure dom et construire le nom de l'image en utilisant le titre du produit et enregistrer l'image dans le répertoire local.

import urlparse from urllib2 import urlopen from urllib import urlretrieve from BeautifulSoup import BeautifulSoup as bs import requests def getImages(url): #Download the images r = requests.get(url) html = r.text soup = bs(html) output_folder = '~/Amazon' #extracting the images that in div(s) for div in soup.findAll('div', attrs={'class':'image'}): modified_file_name = None try: #getting the data div using findNext nextDiv = div.findNext('div', attrs={'class':'data'}) #use findNext again on previous object to get to the anchor tag fileName = nextDiv.findNext('a').text modified_file_name = fileName.replace(' ','-') + '.jpg' except TypeError: print 'skip' imageUrl = div.find('img')['src'] outputPath = os.path.join(output_folder, modified_file_name) urlretrieve(imageUrl, outputPath) if __name__=='__main__': url = r'http://www.Amazon.com/s/ref=sr_pg_1?rh=n%3A172282%2Ck%3Adigital+camera&keywords=digital+camera&ie=UTF8&qid=1343600585' getImages(url)

gauden · Answer

CA aidera:

from bs4 import BeautifulSoup data = '''<div class="image"> <a href="http://www.example.com/eg1">Content1<img src="http://image.example.com/img1.jpg" /></a> </div> <div class="image"> <a href="http://www.example.com/eg2">Content2<img src="http://image.example.com/img2.jpg" /> </a> </div>''' soup = BeautifulSoup(data) for div in soup.findAll('div', attrs={'class':'image'}): print(div.find('a')['href']) print(div.find('a').contents[0]) print(div.find('img')['src'])

Si vous recherchez des produits Amazon, vous devez utiliser l'API officielle. Il y a au moins n Python qui facilitera vos problèmes de grattage et maintiendra votre activité dans les conditions d'utilisation.

Pontios · Answer

Dans mon cas, cela a fonctionné comme ça:

from BeautifulSoup import BeautifulSoup as bs url="http://blabla.com" soup = bs(urllib.urlopen(url)) for link in soup.findAll('a'): print link.string

J'espère que ça aide!

Justin Fay · Answer

Je suggère d'aller sur la route lxml et d'utiliser xpath.

from lxml import etree # data is the variable containing the html data = etree.HTML(data) anchor = data.xpath('//a[@class="title"]/text()')

Jon Clements · Answer

>>> txt = '<a class="title" href="http://rads.stackoverflow.com/amzn/click/B0073HSK0K">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a> ' >>> fragment = bs4.BeautifulSoup(txt) >>> fragment <a class="title" href="http://rads.stackoverflow.com/amzn/click/B0073HSK0K">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a> >>> fragment.find('a', {'class': 'title'}) <a class="title" href="http://rads.stackoverflow.com/amzn/click/B0073HSK0K">Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)</a> >>> fragment.find('a', {'class': 'title'}).string u'Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)'