
Tester si le tag enfants existe dans beautifulsoup

j'ai un fichier XML avec une structure définie mais un nombre différent de balises, comme





Maintenant, j'aime vérifier si la balise myId se termine. J'ai donc fait ce qui suit:

data = open("file1.xml",'r').read()
xml = BeautifulSoup(data)

hasAttrBs = xml.document.subdoc.has_attr('myID')
hasAttrPy = hasattr(xml.document.subdoc,'myID')
hasType = type(xml.document.subdoc.myid)

Le résultat est pour file1.xml:

hasAttrBs -> False
hasAttrPy -> True
hasType ->   <class 'bs4.element.Tag'>


hasAttrBs -> False
hasAttrPy -> True
hasType -> <type 'NoneType'>

D'accord, <myId> n'est pas un attribut de <subdoc>.

Mais comment puis-je tester, si un sous-tag existe?

// Edit: Soit dit en passant: je n'aime pas vraiment parcourir tout le sous-doc, car ce sera très lent. J'espère trouver un moyen de diriger l'adresse/demander cet élément.

The Bndr

Si vous ne connaissez pas la structure du document XML, vous pouvez utiliser la méthode .find() de la soupe. Quelque chose comme ça:

with open("file1.xml",'r') as data, open("file2.xml",'r') as data2:
    xml = BeautifulSoup(data.read())
    xml2 = BeautifulSoup(data2.read())

    hasAttrBs = xml.find("myId")
    hasAttrBs2 = xml2.find("myId")

Si vous connaissez la structure, vous pouvez obtenir l'élément souhaité en accédant au nom de la balise comme un attribut comme celui-ci xml.document.subdoc.myid. Donc, le tout irait quelque chose comme ceci:

with open("file1.xml",'r') as data, open("file2.xml",'r') as data2:
    xml = BeautifulSoup(data.read())
    xml2 = BeautifulSoup(data2.read())

    hasAttrBs = xml.document.subdoc.myid
    hasAttrBs2 = xml2.document.subdoc.myid
    print hasAttrBs
    print hasAttrBs2


if tag.find('child_tag_name'):

Voici un exemple pour vérifier si la balise h2 existe dans une URL Instagram. J'espère que vous le trouverez utile:

import datetime
import urllib
import requests
from bs4 import BeautifulSoup

instagram_url = 'https://www.instagram.com/p/BHijrYFgX2v/?taken-by=findingmero'
html_source = requests.get(instagram_url).text
soup = BeautifulSoup(html_source, "lxml")

if not soup.find('h2'):
    print("didn't find h2")
Mona Jalal

vous pouvez le gérer comme ceci:

for child in xml.document.subdoc.children:
    if 'myId' == child.name:
       return True
chyoo CHENG