En utilisant pyarrow comment ajouter un fichier parquet?

Question

Comment ajouter/mettre à jour un fichier parquet avec pyarrow?

import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table3 = pd.DataFrame({'six': [-1, np.nan, 2.5], 'nine': ['foo', 'bar', 'baz'], 'ten': [True, False, True]}) pq.write_table(table2, './dataNew/pqTest2.parquet') #append pqTest2 here?

Je n'ai rien trouvé dans la documentation sur l'ajout de fichiers de parquet. Et, pouvez-vous utiliser pyarrow avec le multi-traitement pour insérer/mettre à jour les données.

Ibraheem Ibraheem · Answer

J'ai rencontré le même problème et je pense que j'ai pu le résoudre en utilisant ce qui suit:

import pandas as pd import pyarrow as pa import pyarrow.parquet as pq chunksize=10000 # this is the number of lines pqwriter = None for i, df in enumerate(pd.read_csv('sample.csv', chunksize=chunksize)): table = pa.Table.from_pandas(df) # for the first chunk of records if i == 0: # create a parquet write object giving it an output file pqwriter = pq.ParquetWriter('sample.parquet', table.schema) pqwriter.write_table(table) # subsequent chunks can be written to the same file else: pqwriter.write_table(table) # close the parquet writer if pqwriter: pqwriter.close()

Amit Kushwaha · Answer

Dans votre cas, le nom de la colonne n'est pas cohérent, j'ai rendu le nom de la colonne cohérent pour trois exemples de trames de données et le code suivant a fonctionné pour moi.

# -*- coding: utf-8 -*- import numpy as np import pandas as pd import pyarrow as pa import pyarrow.parquet as pq def append_to_parquet_table(dataframe, filepath=None, writer=None): """Method writes/append dataframes in parquet format. This method is used to write pandas DataFrame as pyarrow Table in parquet format. If the methods is invoked with writer, it appends dataframe to the already written pyarrow table. :param dataframe: pd.DataFrame to be written in parquet format. :param filepath: target file location for parquet file. :param writer: ParquetWriter object to write pyarrow tables in parquet format. :return: ParquetWriter object. This can be passed in the subsequenct method calls to append DataFrame in the pyarrow Table """ table = pa.Table.from_pandas(dataframe) if writer is None: writer = pq.ParquetWriter(filepath, table.schema) writer.write_table(table=table) return writer if __name__ == '__main__': table1 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table3 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) writer = None filepath = '/tmp/verify_pyarrow_append.parquet' table_list = [table1, table2, table3] for table in table_list: writer = append_to_parquet_table(table, filepath, writer) if writer: writer.close() df = pd.read_parquet(filepath) print(df)

Sortie:

 one three two 0 -1.0 True foo 1 NaN False bar 2 2.5 True baz 0 -1.0 True foo 1 NaN False bar 2 2.5 True baz 0 -1.0 True foo 1 NaN False bar 2 2.5 True baz

Wes McKinney · Answer

De manière générale, les jeux de données Parquet sont constitués de plusieurs fichiers, vous pouvez donc les ajouter en écrivant un fichier supplémentaire dans le même répertoire auquel les données appartiennent. Il serait utile de pouvoir concaténer facilement plusieurs fichiers. J'ai ouvert https://issues.Apache.org/jira/browse/PARQUET-1154 pour rendre cela possible à faire facilement en C++ (et donc en Python)