Comment écrire une trame de données pyspark sur HDFS puis comment la relire dans une trame de données?

Question

J'ai une très grande trame de données pyspark. Je veux donc effectuer un prétraitement sur des sous-ensembles de celui-ci, puis les stocker sur hdfs. Plus tard, je veux les lire tous et fusionner ensemble. Merci.

rogue-one · Accepted Answer

écriture de DataFrame sur HDFS (Spark 1.6).

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

certaines des options de format sont csv, parquet, json etc.

lecture de DataFrame à partir de HDFS (Spark 1.6).

sqlContext.read.format('parquet').load('/path/to/file')

la méthode de format prend des arguments tels que parquet, csv, json etc.