web-dev-qa-db-fra.com

Convertir une chaîne simple d'une ligne en RDD dans Spark

J'ai une ligne simple:

line = "Hello, world"

Je voudrais le convertir en RDD avec un seul élément. J'ai essayé 

sc.parallelize(line)

Mais ça devient:

sc.parallelize(line).collect()
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd']

Des idées? 

22
poiuytrez

essayez d'utiliser List comme paramètre: 

sc.parallelize(List(line)).collect()

il revient 

res1: Array[String] = Array(hello,world)
26
michaeltang

Le code ci-dessous fonctionne bien en Python

sc.parallelize ([ligne]). collect ()

['Bonjour le monde']

Ici, nous passons le paramètre "ligne" sous forme de liste.

0
Dhruv