J'ai une liste avec plus de 30 cordes. comment convertir la liste en dataframe. ce que j'ai essayé:
par exemple
Val list=List("a","b","v","b").toDS().toDF()
Output :
+-------+
| value|
+-------+
|a |
|b |
|v |
|b |
+-------+
Expected Output is
+---+---+---+---+
| _1| _2| _3| _4|
+---+---+---+---+
| a| b| v| a|
+---+---+---+---+
toute aide à ce sujet.
List("a","b","c","d")
représente un enregistrement avec un champ et donc le jeu de résultats affiche un élément dans chaque ligne.
Pour obtenir la sortie attendue, la ligne doit contenir quatre champs/éléments. Ainsi, nous enroulons la liste sous la forme List(("a","b","c","d"))
qui représente une ligne, avec quatre champs. De la même manière, une liste avec deux lignes va comme List(("a1","b1","c1","d1"),("a2","b2","c2","d2"))
scala> val list = sc.parallelize(List(("a", "b", "c", "d"))).toDF()
list: org.Apache.spark.sql.DataFrame = [_1: string, _2: string, _3: string, _4: string]
scala> list.show
+---+---+---+---+
| _1| _2| _3| _4|
+---+---+---+---+
| a| b| c| d|
+---+---+---+---+
scala> val list = sc.parallelize(List(("a1","b1","c1","d1"),("a2","b2","c2","d2"))).toDF
list: org.Apache.spark.sql.DataFrame = [_1: string, _2: string, _3: string, _4: string]
scala> list.show
+---+---+---+---+
| _1| _2| _3| _4|
+---+---+---+---+
| a1| b1| c1| d1|
| a2| b2| c2| d2|
+---+---+---+---+
Pour utiliser toDF, nous devons importer
import spark.sqlContext.implicits._
Veuillez vous référer au code ci-dessous
val spark = SparkSession.
builder.master("local[*]")
.appName("Simple Application")
.getOrCreate()
import spark.sqlContext.implicits._
val lstData = List(List("vks",30),List("harry",30))
val mapLst = lstData.map{case List(a:String,b:Int) => (a,b)}
val lstToDf = spark.sparkContext.parallelize(mapLst).toDF("name","age")
lstToDf.show
val llist = Seq(("bob", "2015-01-13", 4), ("alice", "2015-04- 23",10)).toDF("name","date","duration")
llist.show