web-dev-qa-db-fra.com

Est-il possible de prendre les 1000 premières lignes d'un fichier de données Spark?

J'utilise la fonction randomSplit pour obtenir une petite quantité de trame de données à utiliser dans des buts de développement et je finis par prendre le premier df renvoyé par cette fonction.

val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)

Si j'utilise df.take(1000), alors je me retrouve avec un tableau de lignes - pas une base de données, donc cela ne fonctionnera pas pour moi.

Existe-t-il un moyen plus simple et meilleur de prendre, par exemple, les 1000 premières lignes du fichier DF et de le stocker comme un autre fichier DF?

58
Michael Discenza

La méthode que vous recherchez est . Limite .

Renvoie un nouveau jeu de données en prenant les n premières lignes. La différence entre cette fonction et head est que head renvoie un tableau alors que limit renvoie un nouveau jeu de données.

113
Markon