Obtenez le contenu par nom de classe en utilisant Beautiful Soup

Question

En utilisant le module Beautiful Soup, comment puis-je obtenir les données d'une balise div dont le nom de classe est feeditemcontent cxfeeditemcontent? Est-ce:

soup.class['feeditemcontent cxfeeditemcontent']

ou:

soup.find_all('class')

Voici la source HTML:

<div class="feeditemcontent cxfeeditemcontent"> <div class="feeditembodyandfooter"> <div class="feeditembody"> <span>The actual data is some where here</span> </div> </div> </div>

et voici le code Python:

 from BeautifulSoup import BeautifulSoup html_doc = open('home.jsp.html', 'r') soup = BeautifulSoup(html_doc) class="feeditemcontent cxfeeditemcontent"

jadkik94 · Accepted Answer

Essayez ceci, c'est peut-être trop pour cette chose simple mais cela fonctionne:

def match_class(target): target = target.split() def do_match(tag): try: classes = dict(tag.attrs)["class"] except KeyError: classes = "" classes = classes.split() return all(c in classes for c in target) return do_match html = """<div class="feeditemcontent cxfeeditemcontent"> <div class="feeditembodyandfooter"> <div class="feeditembody"> <span>The actual data is some where here</span> </div> </div> </div>""" from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) matches = soup.findAll(match_class("feeditemcontent cxfeeditemcontent")) for m in matches: print m print "-"*10 matches = soup.findAll(match_class("feeditembody")) for m in matches: print m print "-"*10

Leonard Richardson · Answer

Beautiful Soup 4 traite la valeur de l'attribut "class" comme une liste plutôt que comme une chaîne, ce qui signifie que la solution de jadkik94 peut être simplifiée:

from bs4 import BeautifulSoup def match_class(target): def do_match(tag): classes = tag.get('class', []) return all(c in classes for c in target) return do_match soup = BeautifulSoup(html) print soup.find_all(match_class(["feeditemcontent", "cxfeeditemcontent"]))

Aziz Alto · Answer

soup.findAll("div", class_="feeditemcontent cxfeeditemcontent")

Donc, si je veux obtenir toutes les balises div de l'en-tête de classe <div class="header"> de stackoverflow.com, un exemple avec BeautifulSoup serait quelque chose comme:

from bs4 import BeautifulSoup as bs import requests url = "http://stackoverflow.com/" html = requests.get(url).text soup = bs(html) tags = soup.findAll("div", class_="header")

Il est déjà dans bs4 documentation .

user1438327 · Answer

from BeautifulSoup import BeautifulSoup f = open('a.htm') soup = BeautifulSoup(f) list = soup.findAll('div', attrs={'id':'abc def'}) print list

Jordan Dimov · Answer

soup.find("div", {"class" : "feeditemcontent cxfeeditemcontent"})

UltraInstinct · Answer

Vérifiez ce rapport de bogue: https://bugs.launchpad.net/beautifulsoup/+bug/410304

Comme vous pouvez le voir, Belle soupe ne peut pas vraiment comprendre class="a b" en deux classes a et b.

Cependant, comme cela apparaît dans le premier commentaire, une simple expression rationnelle devrait suffire. Dans ton cas:

soup = BeautifulSoup(html_doc) for x in soup.findAll("div",{"class":re.compile(r"\bfeeditemcontent\b")}): print "result: ",x

Remarque: cela a été corrigé dans la dernière version bêta. Je n'ai pas parcouru la documentation des versions récentes, peut-être que vous pourriez le faire. Ou si vous voulez le faire fonctionner en utilisant l'ancienne version, vous pouvez utiliser ce qui précède.