web-dev-qa-db-fra.com

Éclater les données du tableau en lignes dans spark

J'ai un jeu de données de la manière suivante:

FieldA    FieldB    ArrayField
1         A         {1,2,3}
2         B         {3,5}

Je voudrais exploser les données sur ArrayField afin que la sortie ressemble à la façon suivante:

FieldA    FieldB    ExplodedField
1         A         1
1         A         2
1         A         3
2         B         3
2         B         5

Je veux dire que je veux générer une ligne de sortie pour chaque élément du tableau the in ArrayField tout en conservant les valeurs des autres champs.

Comment le mettriez-vous en œuvre dans Spark? Notez que le jeu de données en entrée est très volumineux.

19
Gluz

La fonction exploser devrait le faire.

version de pyspark:

>>> df = spark.createDataFrame([(1, "A", [1,2,3]), (2, "B", [3,5])],["col1", "col2", "col3"])
>>> from pyspark.sql.functions import explode
>>> df.withColumn("col3", explode(df.col3)).show()
+----+----+----+
|col1|col2|col3|
+----+----+----+
|   1|   A|   1|
|   1|   A|   2|
|   1|   A|   3|
|   2|   B|   3|
|   2|   B|   5|
+----+----+----+

Version Scala

scala> val df = Seq((1, "A", Seq(1,2,3)), (2, "B", Seq(3,5))).toDF("col1", "col2", "col3")
df: org.Apache.spark.sql.DataFrame = [col1: int, col2: string ... 1 more field]

scala> df.withColumn("col3", explode($"col3")).show()
+----+----+----+
|col1|col2|col3|
+----+----+----+
|   1|   A|   1|
|   1|   A|   2|
|   1|   A|   3|
|   2|   B|   3|
|   2|   B|   5|
+----+----+----+
36
rogue-one

Vous pouvez utiliser la fonction exploser Voici l'exemple simple pour votre cas

import org.Apache.spark.sql.functions._
import spark.implicits._

  val data = spark.sparkContext.parallelize(Seq(
    (1, "A", List(1,2,3)),
    (2, "B", List(3, 5))
  )).toDF("FieldA", "FieldB", "FieldC")

    data.withColumn("ExplodedField", explode($"FieldC")).drop("FieldC")

J'espère que cela t'aides!

3
Shankar Koirala

exploser fait exactement ce que vous voulez. Docs:

http://spark.Apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.explode

En outre, voici un exemple tiré d'une question différente qui l'utilise:

https://stackoverflow.com/a/44418598/1461187

1
Ryan Widmaier