Convertir la liste en dataframe spark scala

Question

J'ai une liste avec plus de 30 cordes. comment convertir la liste en dataframe. ce que j'ai essayé:

par exemple

Val list=List("a","b","v","b").toDS().toDF() Output : +-------+ | value| +-------+ |a | |b | |v | |b | +-------+ Expected Output is +---+---+---+---+ | _1| _2| _3| _4| +---+---+---+---+ | a| b| v| a| +---+---+---+---+

toute aide à ce sujet.

SrinR · Answer

List("a","b","c","d") représente un enregistrement avec un champ et donc le jeu de résultats affiche un élément dans chaque ligne.

Pour obtenir la sortie attendue, la ligne doit contenir quatre champs/éléments. Ainsi, nous enroulons la liste sous la forme List(("a","b","c","d")) qui représente une ligne, avec quatre champs. De la même manière, une liste avec deux lignes va comme List(("a1","b1","c1","d1"),("a2","b2","c2","d2"))

scala> val list = sc.parallelize(List(("a", "b", "c", "d"))).toDF() list: org.Apache.spark.sql.DataFrame = [_1: string, _2: string, _3: string, _4: string] scala> list.show +---+---+---+---+ | _1| _2| _3| _4| +---+---+---+---+ | a| b| c| d| +---+---+---+---+ scala> val list = sc.parallelize(List(("a1","b1","c1","d1"),("a2","b2","c2","d2"))).toDF list: org.Apache.spark.sql.DataFrame = [_1: string, _2: string, _3: string, _4: string] scala> list.show +---+---+---+---+ | _1| _2| _3| _4| +---+---+---+---+ | a1| b1| c1| d1| | a2| b2| c2| d2| +---+---+---+---+

Vikas Singh · Answer

Pour utiliser toDF, nous devons importer

import spark.sqlContext.implicits._

Veuillez vous référer au code ci-dessous

val spark = SparkSession. builder.master("local[*]") .appName("Simple Application") .getOrCreate() import spark.sqlContext.implicits._ val lstData = List(List("vks",30),List("harry",30)) val mapLst = lstData.map{case List(a:String,b:Int) => (a,b)} val lstToDf = spark.sparkContext.parallelize(mapLst).toDF("name","age") lstToDf.show val llist = Seq(("bob", "2015-01-13", 4), ("alice", "2015-04- 23",10)).toDF("name","date","duration") llist.show