Est-il possible de prendre les 1000 premières lignes d'un fichier de données Spark?

Question

J'utilise la fonction randomSplit pour obtenir une petite quantité de trame de données à utiliser dans des buts de développement et je finis par prendre le premier df renvoyé par cette fonction.

val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)

Si j'utilise df.take(1000), alors je me retrouve avec un tableau de lignes - pas une base de données, donc cela ne fonctionnera pas pour moi.

Existe-t-il un moyen plus simple et meilleur de prendre, par exemple, les 1000 premières lignes du fichier DF et de le stocker comme un autre fichier DF?

Markon · Accepted Answer

La méthode que vous recherchez est . Limite .

Renvoie un nouveau jeu de données en prenant les n premières lignes. La différence entre cette fonction et head est que head renvoie un tableau alors que limit renvoie un nouveau jeu de données.