J'utilise Spark 1.3.1.
J'essaie de visualiser les valeurs d'une colonne Spark dataframe en Python. Avec un Spark dataframe, je peux faire df.collect()
pour afficher le contenu du dataframe, mais il n'y a pas une telle méthode pour une colonne Spark dataframe du mieux que je peux voir.
Par exemple, le cadre de données df
contient une colonne nommée 'Zip_code'
. Je peux donc faire df['Zip_code']
et ça tourne un pyspark.sql.dataframe.Column
tapez, mais je ne trouve pas de moyen d'afficher les valeurs dans df['Zip_code']
.
Vous pouvez accéder au RDD
sous-jacent et le mapper dessus
df.rdd.map(lambda r: r.Zip_code).collect()
Vous pouvez également utiliser select
si les résultats encapsulés à l'aide d'objets Row
ne vous dérangent pas:
df.select('Zip_code').collect()
Enfin, si vous souhaitez simplement inspecter le contenu, la méthode show
devrait suffire:
df.select('Zip_code').show()
Pour afficher le contenu complet:
df.select("raw").take(1).foreach(println)
(show
vous montrera un aperçu).