web-dev-qa-db-fra.com

Lecteur csv de délimiteur personnalisé spark

Je voudrais lire dans un fichier avec la structure suivante avec Apache Spark.

628344092\t20070220\t200702\t2007\t2007.1370

Le délimiteur est\t. Comment puis-je implémenter cela en utilisant spark.read.csv ()?

Le fichier csv est beaucoup trop volumineux pour être utilisé pandas car il faut beaucoup de temps pour lire ce fichier. Existe-t-il un moyen similaire à

pandas.read_csv(file, sep = '\t')

Merci beaucoup!

15
inneb

Utilisez spark.read.option("delimiter", "\t").csv(file) ou sep au lieu de delimiter.

S'il s'agit littéralement de \t, Et non d'un caractère spécial de tabulation, utilisez double \: spark.read.option("delimiter", "\\t").csv(file)

27
T. Gawęda