web-dev-qa-db-fra.com

Spark UDF avec varargs

Est-ce une seule option pour répertorier tous les arguments jusqu'à 22 comme indiqué dans la documentation?

https://spark.Apache.org/docs/1.5.0/api/scala/index.html#org.Apache.spark.sql.UDFRegistration

Quelqu'un a compris comment faire quelque chose de similaire à cela?

sc.udf.register("func", (s: String*) => s......

(écriture d'une fonction de concaturation personnalisée qui ignore les valeurs nulles, devait contenir 2 arguments à la fois)

Merci

18
devopslife

Les UDF ne prennent pas en charge les varargs * mais vous pouvez passer un nombre arbitraire de colonnes encapsulées à l'aide d'une fonction array:

import org.Apache.spark.sql.functions.{udf, array, lit}

val myConcatFunc = (xs: Seq[Any], sep: String) => 
  xs.filter(_ != null).mkString(sep)

val myConcat = udf(myConcatFunc)

Un exemple d'utilisation:

val  df = sc.parallelize(Seq(
  (null, "a", "b", "c"), ("d", null, null, "e")
)).toDF("x1", "x2", "x3", "x4")

val cols = array($"x1", $"x2", $"x3", $"x4")
val sep = lit("-")

df.select(myConcat(cols, sep).alias("concatenated")).show

// +------------+
// |concatenated|
// +------------+
// |       a-b-c|
// |         d-e|
// +------------+

Avec SQL brut:

df.registerTempTable("df")
sqlContext.udf.register("myConcat", myConcatFunc)

sqlContext.sql(
    "SELECT myConcat(array(x1, x2, x4), '.') AS concatenated FROM df"
).show

// +------------+
// |concatenated|
// +------------+
// |         a.c|
// |         d.e|
// +------------+

Une approche un peu plus compliquée consiste à ne pas utiliser du tout UDF et à composer des expressions SQL avec quelque chose à peu près comme ceci:

import org.Apache.spark.sql.functions._
import org.Apache.spark.sql.Column

def myConcatExpr(sep: String, cols: Column*) = regexp_replace(concat(
  cols.foldLeft(lit(""))(
    (acc, c) => when(c.isNotNull, concat(acc, c, lit(sep))).otherwise(acc)
  )
), s"($sep)?$$", "") 

df.select(
  myConcatExpr("-", $"x1", $"x2", $"x3", $"x4").alias("concatenated")
).show
// +------------+
// |concatenated|
// +------------+
// |       a-b-c|
// |         d-e|
// +------------+

mais je doute que cela en vaille la peine à moins que vous ne travailliez avec PySpark.


* Si vous passez une fonction en utilisant varargs, elle sera supprimée de tout le sucre syntaxique et l'UDF résultante attendra un ArrayType. Par exemple:

def f(s: String*) = s.mkString
udf(f _)

sera de type:

UserDefinedFunction(<function1>,StringType,List(ArrayType(StringType,true)))
38
zero323