Comment convertir une chaîne xml en dictionnaire?

Question

J'ai un programme qui lit un document XML à partir d'un socket. Le document XML est stocké dans une chaîne que je voudrais convertir directement en dictionnaire Python, comme dans la bibliothèque simplejson de Django.

Prenons comme exemple:

str ="<?xml version="1.0" ?><person><name>john</name><age>20</age></person" dic_xml = convert_to_dic(str)

Ensuite dic_xml ressemblerait à {'person' : { 'name' : 'john', 'age' : 20 } }

James · Accepted Answer

C'est un excellent module que quelqu'un a créé. Je l'ai utilisé plusieurs fois. http://code.activestate.com/recipes/410469-xml-as-dictionary/

Voici le code du site Web au cas où le lien se détériorerait.

from xml.etree import cElementTree as ElementTree class XmlListConfig(list): def __init__(self, aList): for element in aList: if element: # treat like dict if len(element) == 1 or element[0].tag != element[1].tag: self.append(XmlDictConfig(element)) # treat like list Elif element[0].tag == element[1].tag: self.append(XmlListConfig(element)) Elif element.text: text = element.text.strip() if text: self.append(text) class XmlDictConfig(dict): ''' Example usage: >>> tree = ElementTree.parse('your_file.xml') >>> root = tree.getroot() >>> xmldict = XmlDictConfig(root) Or, if you want to use an XML string: >>> root = ElementTree.XML(xml_string) >>> xmldict = XmlDictConfig(root) And then use xmldict for what it is... a dict. ''' def __init__(self, parent_element): if parent_element.items(): self.update(dict(parent_element.items())) for element in parent_element: if element: # treat like dict - we assume that if the first two tags # in a series are different, then they are all different. if len(element) == 1 or element[0].tag != element[1].tag: aDict = XmlDictConfig(element) # treat like list - we assume that if the first two tags # in a series are the same, then the rest are the same. else: # here, we put the list in dictionary; the key is the # tag name the list elements all share in common, and # the value is the list itself aDict = {element[0].tag: XmlListConfig(element)} # if the tag has attributes, add those to the dict if element.items(): aDict.update(dict(element.items())) self.update({element.tag: aDict}) # this assumes that if you've got an attribute in a tag, # you won't be having any text. This may or may not be a # good idea -- time will tell. It works for the way we are # currently doing XML configuration files... Elif element.items(): self.update({element.tag: dict(element.items())}) # finally, if there are no child tags and no attributes, extract # the text else: self.update({element.tag: element.text})

Exemple d'utilisation:

tree = ElementTree.parse('your_file.xml') root = tree.getroot() xmldict = XmlDictConfig(root)

// Ou, si vous souhaitez utiliser une chaîne XML:

root = ElementTree.XML(xml_string) xmldict = XmlDictConfig(root)

Martin Blech · Answer

xmltodict (divulgation complète: je l'ai écrit) fait exactement cela:

xmltodict.parse(""" <?xml version="1.0" ?> <person> <name>john</name> <age>20</age> </person>""") # {u'person': {u'age': u'20', u'name': u'john'}}

K3---rnc · Answer

L'extrait de code XML-à-Python-dict suivant analyse les entités ainsi que les attributs suivants cette "spécification" XML-à-JSON . C’est la solution la plus générale pour traiter tous les cas de XML.

from collections import defaultdict def etree_to_dict(t): d = {t.tag: {} if t.attrib else None} children = list(t) if children: dd = defaultdict(list) for dc in map(etree_to_dict, children): for k, v in dc.items(): dd[k].append(v) d = {t.tag: {k:v[0] if len(v) == 1 else v for k, v in dd.items()}} if t.attrib: d[t.tag].update(('@' + k, v) for k, v in t.attrib.items()) if t.text: text = t.text.strip() if children or t.attrib: if text: d[t.tag]['#text'] = text else: d[t.tag] = text return d

C'est utilisé:

from xml.etree import cElementTree as ET e = ET.XML(''' <root> <e /> <e>text</e> <e name="value" /> <e name="value">text</e> <e> <a>text</a> <b>text</b> </e> <e> <a>text</a> <a>text</a> </e> <e> text <a>text</a> </e> </root> ''') from pprint import pprint pprint(etree_to_dict(e))

Le résultat de cet exemple (comme indiqué ci-dessus "spécification") devrait être:

{'root': {'e': [None, 'text', {'@name': 'value'}, {'#text': 'text', '@name': 'value'}, {'a': 'text', 'b': 'text'}, {'a': ['text', 'text']}, {'#text': 'text', 'a': 'text'}]}}

Ce n'est pas nécessairement joli, mais c'est sans ambiguïté, et des entrées XML plus simples se traduisent par un JSON plus simple. :)

Mise à jour

Si vous voulez faire l'inverse , émettez une chaîne XML à partir d'un fichier JSON/dict , vous pouvez utiliser:

try: basestring except NameError: # python3 basestring = str def dict_to_etree(d): def _to_etree(d, root): if not d: pass Elif isinstance(d, basestring): root.text = d Elif isinstance(d, dict): for k,v in d.items(): assert isinstance(k, basestring) if k.startswith('#'): assert k == '#text' and isinstance(v, basestring) root.text = v Elif k.startswith('@'): assert isinstance(v, basestring) root.set(k[1:], v) Elif isinstance(v, list): for e in v: _to_etree(e, ET.SubElement(root, k)) else: _to_etree(v, ET.SubElement(root, k)) else: raise TypeError('invalid type: ' + str(type(d))) assert isinstance(d, dict) and len(d) == 1 tag, body = next(iter(d.items())) node = ET.Element(tag) _to_etree(body, node) return ET.tostring(node) pprint(dict_to_etree(d))

Erik Aronesty · Answer

Cette version légère, bien que non configurable, est assez facile à adapter selon les besoins et fonctionne avec les anciens pythons. En outre, il est rigide - ce qui signifie que les résultats sont les mêmes indépendamment de l'existence d'attributs.

import xml.etree.ElementTree as ET from copy import copy def dictify(r,root=True): if root: return {r.tag : dictify(r, False)} d=copy(r.attrib) if r.text: d["_text"]=r.text for x in r.findall("./*"): if x.tag not in d: d[x.tag]=[] d[x.tag].append(dictify(x,False)) return d

Alors:

root = ET.fromstring("<erik><a x='1'>v</a><a y='2'>w</a></erik>") dictify(root)

Résulte en:

{'erik': {'a': [{'x': '1', '_text': 'v'}, {'y': '2', '_text': 'w'}]}}

rts1 · Answer

Les versions les plus récentes des bibliothèques PicklingTools (1.3.0 et 1.3.1) prennent en charge les outils permettant la conversion de XML en un Python dict.

Le téléchargement est disponible ici: PicklingTools 1.3.1

Il existe pas mal de documentation pour les convertisseurs ici : la documentation décrit en détail toutes les décisions et tous les problèmes qui surviendront lors de la conversion entre XML et les Python dictionnaires ( il existe un certain nombre de cas Edge: attributs, listes, listes anonymes, dict anonymes, eval, etc. que la plupart des convertisseurs ne gèrent pas). En général, cependant, les convertisseurs sont faciles à utiliser. S'il s'agit d'un 'exemple.xml' contient:

<top> <a>1</a> <b>2.2</b> <c>three</c> </top>

Ensuite, pour le convertir en dictionnaire:

>>> from xmlloader import * >>> example = file('example.xml', 'r') # A document containing XML >>> xl = StreamXMLLoader(example, 0) # 0 = all defaults on operation >>> result = xl.expect XML() >>> print result {'top': {'a': '1', 'c': 'three', 'b': '2.2'}}

Il existe des outils de conversion en C++ et en Python: le C++ et Python effectuent une conversion identique, mais le C++ est environ 60 fois plus rapide

radtek · Answer

Vous pouvez le faire assez facilement avec LXML. Tout d'abord l'installer:

[Sudo] pip install lxml

Voici une fonction récursive que j'ai écrite et qui fait le gros du travail pour vous:

from lxml import objectify as xml_objectify def xml_to_dict(xml_str): """ Convert xml to dict, using lxml v3.4.2 xml processing library """ def xml_to_dict_recursion(xml_object): dict_object = xml_object.__dict__ if not dict_object: return xml_object for key, value in dict_object.items(): dict_object[key] = xml_to_dict_recursion(value) return dict_object return xml_to_dict_recursion(xml_objectify.fromstring(xml_str)) xml_string = """<?xml version="1.0" encoding="UTF-8"?><Response><NewOrderResp> <IndustryType>Test</IndustryType><SomeData><SomeNestedData1>1234</SomeNestedData1> <SomeNestedData2>3455</SomeNestedData2></SomeData></NewOrderResp></Response>""" print xml_to_dict(xml_string)

La variante ci-dessous préserve la clé/l'élément parent:

def xml_to_dict(xml_str): """ Convert xml to dict, using lxml v3.4.2 xml processing library, see http://lxml.de/ """ def xml_to_dict_recursion(xml_object): dict_object = xml_object.__dict__ if not dict_object: # if empty dict returned return xml_object for key, value in dict_object.items(): dict_object[key] = xml_to_dict_recursion(value) return dict_object xml_obj = objectify.fromstring(xml_str) return {xml_obj.tag: xml_to_dict_recursion(xml_obj)}

Si vous souhaitez uniquement renvoyer un sous-arbre et le convertir en dict, vous pouvez utiliser Element.find () pour obtenir le sous-arbre, puis le convertir:

xml_obj.find('.//') # lxml.objectify.ObjectifiedElement instance

Voir la documentation lxml ici . J'espère que ça aide!

tiger · Answer

Avertissement: cet analyseur XML modifié a été inspiré par Adam Clark L'analyseur XML original fonctionne dans la plupart des cas simples. Cependant, cela n'a pas fonctionné pour certains fichiers XML compliqués. J'ai débogué le code ligne par ligne et finalement corrigé quelques problèmes. Si vous trouvez des bugs, s'il vous plaît faites le moi savoir. Je suis heureux de le réparer.

class XmlDictConfig(dict): ''' Note: need to add a root into if no exising Example usage: >>> tree = ElementTree.parse('your_file.xml') >>> root = tree.getroot() >>> xmldict = XmlDictConfig(root) Or, if you want to use an XML string: >>> root = ElementTree.XML(xml_string) >>> xmldict = XmlDictConfig(root) And then use xmldict for what it is... a dict. ''' def __init__(self, parent_element): if parent_element.items(): self.updateShim( dict(parent_element.items()) ) for element in parent_element: if len(element): aDict = XmlDictConfig(element) # if element.items(): # aDict.updateShim(dict(element.items())) self.updateShim({element.tag: aDict}) Elif element.items(): # items() is specialy for attribtes elementattrib= element.items() if element.text: elementattrib.append((element.tag,element.text )) # add tag:text if there exist self.updateShim({element.tag: dict(elementattrib)}) else: self.updateShim({element.tag: element.text}) def updateShim (self, aDict ): for key in aDict.keys(): # keys() includes tag and attributes if key in self: value = self.pop(key) if type(value) is not list: listOfDicts = [] listOfDicts.append(value) listOfDicts.append(aDict[key]) self.update({key: listOfDicts}) else: value.append(aDict[key]) self.update({key: value}) else: self.update({key:aDict[key]}) # it was self.update(aDict)

user177800 · Answer

L'analyseur XML le plus facile à utiliser pour Python est ElementTree (à partir de 2.5x et plus, il se trouve dans la bibliothèque standard xml.etree.ElementTree). Je ne pense pas qu'il y ait quoi que ce soit qui fait exactement Il serait assez simple d’écrire quelque chose qui fasse ce que vous voulez en utilisant ElementTree, mais pourquoi convertir en dictionnaire et pourquoi ne pas utiliser ElementTree directement.

dibrovsd · Answer

def xml_to_dict(node): u''' @param node:lxml_node @return: dict ''' return {'tag': node.tag, 'text': node.text, 'attrib': node.attrib, 'children': {child.tag: xml_to_dict(child) for child in node}}

Adam Clark · Answer

Le code de http://code.activestate.com/recipes/410469-xml-as-dictionary/ fonctionne bien, mais s'il existe plusieurs éléments identiques à un endroit donné de la hiérarchie. il les remplace simplement.

J'ai ajouté un shim entre qui cherche à voir si l'élément existe déjà avant self.update (). Si tel est le cas, ouvre l’entrée existante et crée une liste à partir de l’existant et du nouveau. Tous les doublons ultérieurs sont ajoutés à la liste.

Vous ne savez pas si cela peut être traité de manière plus élégante, mais cela fonctionne:

import xml.etree.ElementTree as ElementTree class XmlDictConfig(dict): def __init__(self, parent_element): if parent_element.items(): self.updateShim(dict(parent_element.items())) for element in parent_element: if len(element): aDict = XmlDictConfig(element) if element.items(): aDict.updateShim(dict(element.items())) self.updateShim({element.tag: aDict}) Elif element.items(): self.updateShim({element.tag: dict(element.items())}) else: self.updateShim({element.tag: element.text.strip()}) def updateShim (self, aDict ): for key in aDict.keys(): if key in self: value = self.pop(key) if type(value) is not list: listOfDicts = [] listOfDicts.append(value) listOfDicts.append(aDict[key]) self.update({key: listOfDicts}) else: value.append(aDict[key]) self.update({key: value}) else: self.update(aDict)

serfer2 · Answer

De @ K3 --- rnc réponse (le meilleur pour moi), j'ai ajouté une petite modification pour obtenir un OrderedDict à partir d'un texte XML (quelques fois, l'ordre importe):

def etree_to_ordereddict(t): d = OrderedDict() d[t.tag] = OrderedDict() if t.attrib else None children = list(t) if children: dd = OrderedDict() for dc in map(etree_to_ordereddict, children): for k, v in dc.iteritems(): if k not in dd: dd[k] = list() dd[k].append(v) d = OrderedDict() d[t.tag] = OrderedDict() for k, v in dd.iteritems(): if len(v) == 1: d[t.tag][k] = v[0] else: d[t.tag][k] = v if t.attrib: d[t.tag].update(('@' + k, v) for k, v in t.attrib.iteritems()) if t.text: text = t.text.strip() if children or t.attrib: if text: d[t.tag]['#text'] = text else: d[t.tag] = text return d

À la suite de l’exemple @ K3 --- rnc, vous pouvez l’utiliser:

from xml.etree import cElementTree as ET e = ET.XML(''' <root> <e /> <e>text</e> <e name="value" /> <e name="value">text</e> <e> <a>text</a> <b>text</b> </e> <e> <a>text</a> <a>text</a> </e> <e> text <a>text</a> </e> </root> ''') from pprint import pprint pprint(etree_to_ordereddict(e))

J'espère que ça aide ;)

tgray · Answer

Voici un lien vers un solution ActiveState - et le code au cas où il disparaîtrait à nouveau.

================================================== xmlreader.py: ================================================== from xml.dom.minidom import parse class NotTextNodeError: pass def getTextFromNode(node): """ scans through all children of node and gathers the text. if node has non-text child-nodes, then NotTextNodeError is raised. """ t = "" for n in node.childNodes: if n.nodeType == n.TEXT_NODE: t += n.nodeValue else: raise NotTextNodeError return t def nodeToDic(node): """ nodeToDic() scans through the children of node and makes a dictionary from the content. three cases are differentiated: - if the node contains no other nodes, it is a text-node and {nodeName:text} is merged into the dictionary. - if the node has the attribute "method" set to "true", then it's children will be appended to a list and this list is merged to the dictionary in the form: {nodeName:list}. - else, nodeToDic() will call itself recursively on the nodes children (merging {nodeName:nodeToDic()} to the dictionary). """ dic = {} for n in node.childNodes: if n.nodeType != n.ELEMENT_NODE: continue if n.getAttribute("multiple") == "true": # node with multiple children: # put them in a list l = [] for c in n.childNodes: if c.nodeType != n.ELEMENT_NODE: continue l.append(nodeToDic(c)) dic.update({n.nodeName:l}) continue try: text = getTextFromNode(n) except NotTextNodeError: # 'normal' node dic.update({n.nodeName:nodeToDic(n)}) continue # text node dic.update({n.nodeName:text}) continue return dic def readConfig(filename): dom = parse(filename) return nodeToDic(dom) def test(): dic = readConfig("sample.xml") print dic["Config"]["Name"] print for item in dic["Config"]["Items"]: print "Item's Name:", item["Name"] print "Item's Value:", item["Value"] test() ================================================== sample.xml: ================================================== <?xml version="1.0" encoding="UTF-8"?> <Config> <Name>My Config File</Name> <Items multiple="true"> <Item> <Name>First Item</Name> <Value>Value 1</Value> </Item> <Item> <Name>Second Item</Name> <Value>Value 2</Value> </Item> </Items> </Config> ================================================== output: ================================================== My Config File Item's Name: First Item Item's Value: Value 1 Item's Name: Second Item Item's Value: Value 2

pg2455 · Answer

@dibrovsd: la solution ne fonctionnera pas si le XML a plus d'une balise portant le même nom

Sur votre ligne de pensée, j'ai un peu modifié le code et l'ai écrit pour le noeud général au lieu de root:

from collections import defaultdict def xml2dict(node): d, count = defaultdict(list), 1 for i in node: d[i.tag + "_" + str(count)]['text'] = i.findtext('.')[0] d[i.tag + "_" + str(count)]['attrib'] = i.attrib # attrib gives the list d[i.tag + "_" + str(count)]['children'] = xml2dict(i) # it gives dict return d

coder · Answer

J'ai modifié l'une des réponses à mon goût et pour utiliser plusieurs valeurs avec la même balise, par exemple, considérons le code xml suivant enregistré dans le fichier XML.xml

 <A> <B> <BB>inAB</BB> <C> <D> <E> inABCDE </E> <E>value2</E> <E>value3</E> </D> <inCout-ofD>123</inCout-ofD> </C> </B> <B>abc</B> <F>F</F> </A>

et en python

import xml.etree.ElementTree as ET class XMLToDictionary(dict): def __init__(self, parentElement): self.parentElement = parentElement for child in list(parentElement): child.text = child.text if (child.text != None) else ' ' if len(child) == 0: self.update(self._addToDict(key= child.tag, value = child.text.strip(), dict = self)) else: innerChild = XMLToDictionary(parentElement=child) self.update(self._addToDict(key=innerChild.parentElement.tag, value=innerChild, dict=self)) def getDict(self): return {self.parentElement.tag: self} class _addToDict(dict): def __init__(self, key, value, dict): if not key in dict: self.update({key: value}) else: identical = dict[key] if type(dict[key]) == list else [dict[key]] self.update({key: identical + [value]}) tree = ET.parse('./XML.xml') root = tree.getroot() parseredDict = XMLToDictionary(root).getDict() print(parseredDict)

la sortie est

{'A': {'B': [{'BB': 'inAB', 'C': {'D': {'E': ['inABCDE', 'value2', 'value3']}, 'inCout-ofD': '123'}}, 'abc'], 'F': 'F'}}

josch · Answer

À un moment donné, j'ai dû analyser et écrire du code XML composé uniquement d'éléments sans attributs, de sorte qu'un mappage 1: 1 de XML à dict était facilement possible. C’est ce que j’ai trouvé au cas où une autre personne n’aurait pas non plus besoin d’attributs:

def xmltodict(element): if not isinstance(element, ElementTree.Element): raise ValueError("must pass xml.etree.ElementTree.Element object") def xmltodict_handler(parent_element): result = dict() for element in parent_element: if len(element): obj = xmltodict_handler(element) else: obj = element.text if result.get(element.tag): if hasattr(result[element.tag], "append"): result[element.tag].append(obj) else: result[element.tag] = [result[element.tag], obj] else: result[element.tag] = obj return result return {element.tag: xmltodict_handler(element)} def dicttoxml(element): if not isinstance(element, dict): raise ValueError("must pass dict type") if len(element) != 1: raise ValueError("dict must have exactly one root key") def dicttoxml_handler(result, key, value): if isinstance(value, list): for e in value: dicttoxml_handler(result, key, e) Elif isinstance(value, basestring): elem = ElementTree.Element(key) elem.text = value result.append(elem) Elif isinstance(value, int) or isinstance(value, float): elem = ElementTree.Element(key) elem.text = str(value) result.append(elem) Elif value is None: result.append(ElementTree.Element(key)) else: res = ElementTree.Element(key) for k, v in value.items(): dicttoxml_handler(res, k, v) result.append(res) result = ElementTree.Element(element.keys()[0]) for key, value in element[element.keys()[0]].items(): dicttoxml_handler(result, key, value) return result def xmlfiletodict(filename): return xmltodict(ElementTree.parse(filename).getroot()) def dicttoxmlfile(element, filename): ElementTree.ElementTree(dicttoxml(element)).write(filename) def xmlstringtodict(xmlstring): return xmltodict(ElementTree.fromstring(xmlstring).getroot()) def dicttoxmlstring(element): return ElementTree.tostring(dicttoxml(element))