Analyser le HTML pour obtenir du texte dans un élément

Question

J'ai besoin de placer le texte à l'intérieur des deux éléments dans une chaîne:

source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>""" >>> text 'Martin Elias'

Comment pourrais-je y parvenir?

LISTERINE · Accepted Answer

J'ai cherché "python parse html" et ce fut le premier résultat: https://docs.python.org/2/library/htmlparser.html

Ce code est extrait des documents python

from HTMLParser import HTMLParser # create a subclass and override the handler methods class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): print "Encountered a start tag:", tag def handle_endtag(self, tag): print "Encountered an end tag :", tag def handle_data(self, data): print "Encountered some data :", data # instantiate the parser and fed it some HTML parser = MyHTMLParser() parser.feed('<html><head><title>Test</title></head>' '<body><h1>Parse me!</h1></body></html>')

Voici le résultat:

Encountered a start tag: html Encountered a start tag: head Encountered a start tag: title Encountered some data : Test Encountered an end tag : title Encountered an end tag : head Encountered a start tag: body Encountered a start tag: h1 Encountered some data : Parse me! Encountered an end tag : h1 Encountered an end tag : body Encountered an end tag : html

En utilisant cela et en regardant le code dans HTMLParser, j'ai trouvé ceci:

class myhtmlparser(HTMLParser): def __init__(self): self.reset() self.NEWTAGS = [] self.NEWATTRS = [] self.HTMLDATA = [] def handle_starttag(self, tag, attrs): self.NEWTAGS.append(tag) self.NEWATTRS.append(attrs) def handle_data(self, data): self.HTMLDATA.append(data) def clean(self): self.NEWTAGS = [] self.NEWATTRS = [] self.HTMLDATA = []

Vous pouvez l'utiliser comme ceci:

from HTMLParser import HTMLParser pstring = source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>""" class myhtmlparser(HTMLParser): def __init__(self): self.reset() self.NEWTAGS = [] self.NEWATTRS = [] self.HTMLDATA = [] def handle_starttag(self, tag, attrs): self.NEWTAGS.append(tag) self.NEWATTRS.append(attrs) def handle_data(self, data): self.HTMLDATA.append(data) def clean(self): self.NEWTAGS = [] self.NEWATTRS = [] self.HTMLDATA = [] parser = myhtmlparser() parser.feed(pstring) # Extract data from parser tags = parser.NEWTAGS attrs = parser.NEWATTRS data = parser.HTMLDATA # Clean the parser parser.clean() # Print out our data print tags print attrs print data

Vous devriez maintenant pouvoir extraire facilement vos données de ces listes. J'espère que cela a aidé!

Cypress Frankenfeld · Answer

Je recommande d'utiliser la bibliothèque Python Beautiful Soup 4 .

pip install beautifulsoup4

Cela facilite l'analyse HTML.

from bs4 import BeautifulSoup source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>""" soup = BeautifulSoup(source_code) print soup.a.string >>> 'Martin Elias'

mushfiq · Answer

Installez beautifulsoup et vous pouvez faire comme ceci:

from BeautifulSoup import BeautifulSoup source_code = '"""<span class="UserName"><a href="#">Martin Elias</a></span>"""' soup = BeautifulSoup(source_code) print soup.find('span',{'class':'UserName'}).text

LJNielsenDk · Answer

Vous pouvez également essayer d'utiliser html5lib et XPath, il y a une bonne question à ce sujet ici , cette réponse a un détail important (namespaceHTMLElements) à retenir pour que html5lib se comporte comme prévu. J'ai perdu tellement de temps à essayer de le faire fonctionner parce que j'avais oublié que je devais changer cela.