Lire le fichier XML dans Pandas DataFrame

Question

Quelqu'un peut-il aider à convertir le fichier XML suivant en Pandas dataframe:

<?xml version="1.0" encoding="UTF-8" ?> <root> <bathrooms type="dict"> <n35237 type="number">1.0</n35237> <n32238 type="number">3.0</n32238> <n44699 type="number">nan</n44699> </bathrooms> <price type="dict"> <n35237 type="number">7020000.0</n35237> <n32238 type="number">10000000.0</n32238> <n44699 type="number">4128000.0</n44699> </price> <property_id type="dict"> <n35237 type="number">35237.0</n35237> <n32238 type="number">32238.0</n32238> <n44699 type="number">44699.0</n44699> </property_id> </root>

Ça devrait ressembler à ça --

SORTIE

Voici le code que j'ai écrit: -

import pandas as pd import xml.etree.ElementTree as ET tree = ET.parse('real_state.xml') root = tree.getroot() dfcols = ['property_id', 'price', 'bathrooms'] df_xml = pd.DataFrame(columns=dfcols) for node in root: property_id = node.attrib.get('property_id') price = node.attrib.get('price') bathrooms = node.attrib.get('bathrooms') df_xml = df_xml.append( pd.Series([property_id, price, bathrooms], index=dfcols), ignore_index=True) print(df_xml)

Je reçois Aucun partout, au lieu des valeurs réelles. Quelqu'un peut-il dire comment cela peut être résolu? Merci!

Chris · Accepted Answer

si les données sont simples, comme ça, alors vous pouvez faire quelque chose comme:

from lxml import objectify xml = objectify.parse('Document1.xml') root = xml.getroot() bathrooms = [child.text for child in root['bathrooms'].getchildren()] price = [child.text for child in root['price'].getchildren()] property_id = [child.text for child in root['property_id'].getchildren()] data = [bathrooms, price, property_id] df = pd.DataFrame(data).T df.columns = ['bathrooms', 'price', 'property_id'] bathrooms price property_id 0 1.0 7020000.0 35237.0 1 3.0 10000000.0 32238.0 2 nan 4128000.0 44699.0

si elle est plus complexe, une boucle vaut mieux. Vous pouvez faire quelque chose comme

from lxml import objectify xml = objectify.parse('Document1.xml') root = xml.getroot() data=[] for i in range(len(root.getchildren())): data.append([child.text for child in root.getchildren()[i].getchildren()]) df = pd.DataFrame(data).T df.columns = ['bathrooms', 'price', 'property_id']

Correy Koshnick · Answer

J'ai réussi à utiliser cette fonction du package xmltodict :

import xmltodict xmlDict = xmltodict.parse(xmlData) df = pd.DataFrame.from_dict(xmlDict)

Ce que j'aime à ce sujet, c'est que je peux facilement faire une manipulation de dictionnaire entre l'analyse du XML et la création de mon df. En outre, cela aide à explorer les données comme un dict si la structure est astucieuse.