Je voudrais lire dans un fichier avec la structure suivante avec Apache Spark.
628344092\t20070220\t200702\t2007\t2007.1370
Le délimiteur est\t. Comment puis-je implémenter cela en utilisant spark.read.csv ()?
Le fichier csv est beaucoup trop volumineux pour être utilisé pandas car il faut beaucoup de temps pour lire ce fichier. Existe-t-il un moyen similaire à
pandas.read_csv(file, sep = '\t')
Merci beaucoup!
Utilisez spark.read.option("delimiter", "\t").csv(file)
ou sep
au lieu de delimiter
.
S'il s'agit littéralement de \t
, Et non d'un caractère spécial de tabulation, utilisez double \
: spark.read.option("delimiter", "\\t").csv(file)