Lecteur csv de délimiteur personnalisé spark

Question

Je voudrais lire dans un fichier avec la structure suivante avec Apache Spark.

628344092	20070220	200702	2007	2007.1370

Le délimiteur est . Comment puis-je implémenter cela en utilisant spark.read.csv ()?

Le fichier csv est beaucoup trop volumineux pour être utilisé pandas car il faut beaucoup de temps pour lire ce fichier. Existe-t-il un moyen similaire à

pandas.read_csv(file, sep = '	')

Merci beaucoup!

T. Gawęda · Accepted Answer

Utilisez spark.read.option("delimiter", " ").csv(file) ou sep au lieu de delimiter.

S'il s'agit littéralement de , Et non d'un caractère spécial de tabulation, utilisez double \: spark.read.option("delimiter", "\t").csv(file)