Conversion de HTML en texte avec Python

Question

J'essaye de convertir un bloc html en texte en utilisant Python.

Contribution:

<div class="body"><p><strong></strong></p> <p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p> <p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>

Sortie désirée:

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Commoenien ligula eget dolor. Massa Aenean

Consectetuer elipiscing elit . Certains Lien Aenean commodo ligula eget dolor. Massa Aenean

Aenean massa.Lorem ipsum dolor sit amet, consectetuer elip. Aenean commodo ligula eget dolor. Massa Aenean

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Commodo ligula eget dolor . Massa Aenean

Consectetuer élite adipiscing. Commoenien ligula eget dolor. Massa Aenean

J'ai essayé d'utiliser le module html2text sans grand succès (je suis assez nouveau pour python :))

voici ce que j'ai essayé:

#!/usr/bin/env python import urllib2 import html2text from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://example.com/page.html').read()) txt = soup.find('div', {'class' : 'body'}) print html2text.html2text(txt)

l'objet "txt" produit le bloc HTML ci-dessus. Je voudrais le convertir en texte et l'imprimer à l'écran.

Toute aide avec le code serait grandement appréciée.

root · Accepted Answer

Qu'est-ce que je rate? soup.get_text() donne exactement le même résultat que vous vouliez ...

from bs4 import BeautifulSoup soup = BeautifulSoup(html) print soup.get_text()

sortie

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

PS! Pour être exact, vous pouvez remplacer newline par un double - alors il est identique à votre exemple :)

soup.get_text().replace('
','

')

t-8ch · Answer

Le ' ' place une nouvelle ligne entre les paragraphes.

from bs4 import Beautifulsoup soup = Beautifulsoup(text) print(soup.get_text('
'))

ATOzTOA · Answer

Vous pouvez utiliser l'expression régulière ... mais pas recommandé ...

Le code suivant supprime simplement toutes les balises HTML de vos données, vous donnant le texte.

import re data = """<div class="body"><p><strong></strong></p> <p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p> <p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p> <p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>""" data = re.sub(r'<.*?>', '', data) print data

Sortie

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

Sarah Messer · Answer

Il est possible d’utiliser BeautifulSoup pour supprimer les scripts indésirables ou similaires, mais vous devrez peut-être essayer plusieurs sites pour vous assurer que vous avez couvert les différents types de choses que vous souhaitez exclure. Essaye ça:

from requests import get from bs4 import BeautifulSoup as BS response = get('http://news.bbc.co.uk/2/hi/health/2284783.stm') soup = BS(response.content, "html.parser") for child in soup.body.children: if child.name == 'script': child.decompose() print(soup.body.get_text())

Joseph Roten · Answer

J'avais besoin d'un moyen de faire cela sur le système d'un client sans avoir à télécharger des bibliothèques supplémentaires. Je n'ai jamais trouvé de bonne solution, alors j'ai créé la mienne. N'hésitez pas à l'utiliser si vous le souhaitez.

import urllib def html2text(strText): str1 = strText int2 = str1.lower().find("<body") if int2>0: str1 = str1[int2:] int2 = str1.lower().find("</body>") if int2>0: str1 = str1[:int2] list1 = ['<br>', '<tr', '<td', '</p>', 'span>', 'li>', '</h', 'div>' ] list2 = [chr(13), chr(13), chr(9), chr(13), chr(13), chr(13), chr(13), chr(13)] bolFlag1 = True bolFlag2 = True strReturn = "" for int1 in range(len(str1)): str2 = str1[int1] for int2 in range(len(list1)): if str1[int1:int1+len(list1[int2])].lower() == list1[int2]: strReturn = strReturn + list2[int2] if str1[int1:int1+7].lower() == '<script' or str1[int1:int1+9].lower() == '<noscript': bolFlag1 = False if str1[int1:int1+6].lower() == '<style': bolFlag1 = False if str1[int1:int1+7].lower() == '</style': bolFlag1 = True if str1[int1:int1+9].lower() == '</script>' or str1[int1:int1+11].lower() == '</noscript>': bolFlag1 = True if str2 == '<': bolFlag2 = False if bolFlag1 and bolFlag2 and (ord(str2) != 10) : strReturn = strReturn + str2 if str2 == '>': bolFlag2 = True if bolFlag1 and bolFlag2: strReturn = strReturn.replace(chr(32)+chr(13), chr(13)) strReturn = strReturn.replace(chr(9)+chr(13), chr(13)) strReturn = strReturn.replace(chr(13)+chr(32), chr(13)) strReturn = strReturn.replace(chr(13)+chr(9), chr(13)) strReturn = strReturn.replace(chr(13)+chr(13), chr(13)) strReturn = strReturn.replace(chr(13), '
') return strReturn url = "http://www.theguardian.com/world/2014/sep/25/us-air-strikes-islamic-state-oil-isis" html = urllib.urlopen(url).read() print html2text(html)