J'ai une très grande trame de données pyspark. Je veux donc effectuer un prétraitement sur des sous-ensembles de celui-ci, puis les stocker sur hdfs. Plus tard, je veux les lire tous et fusionner ensemble. Merci.
écriture de DataFrame sur HDFS (Spark 1.6).
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
certaines des options de format sont csv
, parquet
, json
etc.
lecture de DataFrame à partir de HDFS (Spark 1.6).
sqlContext.read.format('parquet').load('/path/to/file')
la méthode de format prend des arguments tels que parquet
, csv
, json
etc.