Spark dataframe transforme plusieurs lignes en colonne

Question

Je suis un novice pour déclencher, et je veux transformer ci-dessous cadre de données source (charger à partir du fichier JSON):

+--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| m1| | c| 4| m3| | c| 5| m4| | d| 6| m1| | d| 1| m2| | d| 2| m3| | d| 3| m4| | d| 4| m5| | e| 4| m1| | e| 5| m2| | e| 1| m3| | e| 1| m4| | e| 1| m5| +--+-----+-----+

Into ci-dessous trame de données de résultat:

+--+--+--+--+--+--+ |A |m1|m2|m3|m4|m5| +--+--+--+--+--+--+ | a| 1| 1| 2| 3| 0| | b| 4| 2| 1| 0| 0| | c| 3| 0| 4| 5| 0| | d| 6| 1| 2| 3| 4| | e| 4| 5| 1| 1| 1| +--+--+--+--+--+--+

Voici la règle de transformation:

Le cadre de données résultant est composé de A + (n major columns) où les noms des colonnes major sont spécifiés par:
```
sorted(src_df.map(lambda x: x[2]).distinct().collect()) 
```
Le cadre de données résultant contient m lignes où les valeurs de la colonne A sont fournies par:
```
sorted(src_df.map(lambda x: x[0]).distinct().collect()) 
```
La valeur de chaque colonne principale dans la trame de données de résultat est la valeur de la trame de données source sur le A et le majeur correspondant (par exemple, le nombre de la ligne 1 dans la trame de données source est mappé sur le box où A est a et la colonne m1)
Les combinaisons de A et major dans la trame de données source n'ont pas de duplication (veuillez la considérer comme une clé primaire sur les deux colonnes dans SQL)

zero323 · Accepted Answer

Commençons par des exemples de données:

df = sqlContext.createDataFrame([ ("a", 1, "m1"), ("a", 1, "m2"), ("a", 2, "m3"), ("a", 3, "m4"), ("b", 4, "m1"), ("b", 1, "m2"), ("b", 2, "m3"), ("c", 3, "m1"), ("c", 4, "m3"), ("c", 5, "m4"), ("d", 6, "m1"), ("d", 1, "m2"), ("d", 2, "m3"), ("d", 3, "m4"), ("d", 4, "m5"), ("e", 4, "m1"), ("e", 5, "m2"), ("e", 1, "m3"), ("e", 1, "m4"), ("e", 1, "m5")], ("a", "cnt", "major"))

Veuillez noter que j'ai changé count en cnt. Count est un mot clé réservé dans la plupart des dialectes SQL et ce n'est pas un bon choix pour un nom de colonne.

Il existe au moins deux façons de remodeler ces données:

agrégation sur DataFrame

from pyspark.sql.functions import col, when, max majors = sorted(df.select("major") .distinct() .map(lambda row: row[0]) .collect()) cols = [when(col("major") == m, col("cnt")).otherwise(None).alias(m) for m in majors] maxs = [max(col(m)).alias(m) for m in majors] reshaped1 = (df .select(col("a"), *cols) .groupBy("a") .agg(*maxs) .na.fill(0)) reshaped1.show() ## +---+---+---+---+---+---+ ## | a| m1| m2| m3| m4| m5| ## +---+---+---+---+---+---+ ## | a| 1| 1| 2| 3| 0| ## | b| 4| 1| 2| 0| 0| ## | c| 3| 0| 4| 5| 0| ## | d| 6| 1| 2| 3| 4| ## | e| 4| 5| 1| 1| 1| ## +---+---+---+---+---+---+

groupBy sur RDD

from pyspark.sql import Row grouped = (df .map(lambda row: (row.a, (row.major, row.cnt))) .groupByKey()) def make_row(kv): k, vs = kv tmp = dict(list(vs) + [("a", k)]) return Row(**{k: tmp.get(k, 0) for k in ["a"] + majors}) reshaped2 = sqlContext.createDataFrame(grouped.map(make_row)) reshaped2.show() ## +---+---+---+---+---+---+ ## | a| m1| m2| m3| m4| m5| ## +---+---+---+---+---+---+ ## | a| 1| 1| 2| 3| 0| ## | e| 4| 5| 1| 1| 1| ## | c| 3| 0| 4| 5| 0| ## | b| 4| 1| 2| 0| 0| ## | d| 6| 1| 2| 3| 4| ## +---+---+---+---+---+---+

TrentWoodbury · Answer

En utilisant le dataframe de zero323,

df = sqlContext.createDataFrame([ ("a", 1, "m1"), ("a", 1, "m2"), ("a", 2, "m3"), ("a", 3, "m4"), ("b", 4, "m1"), ("b", 1, "m2"), ("b", 2, "m3"), ("c", 3, "m1"), ("c", 4, "m3"), ("c", 5, "m4"), ("d", 6, "m1"), ("d", 1, "m2"), ("d", 2, "m3"), ("d", 3, "m4"), ("d", 4, "m5"), ("e", 4, "m1"), ("e", 5, "m2"), ("e", 1, "m3"), ("e", 1, "m4"), ("e", 1, "m5")], ("a", "cnt", "major"))

vous pouvez également utiliser

reshaped_df = df.groupby('a').pivot('major').max('cnt').fillna(0)