J'ai la commande python/pandas suivante:
df.groupby('Column_Name').agg(lambda x: x.value_counts().max()
où j'obtiens le nombre de valeurs pour TOUTES les colonnes d'un objet DataFrameGroupBy
.
Comment faire cette action dans PySpark?
C'est plus ou moins la même chose:
spark_df.groupBy('column_name').count().orderBy('count')
Dans le groupBy, vous pouvez avoir plusieurs colonnes délimitées par un ,
Par exemple groupBy('column_1', 'column_2')
est là comme un ordre que le groupBy prend les touches groupby, comme peut-être de gauche à droite ou de droite à gauche. Essayer de comprendre l'ordre du regroupement (comment cela se passe). Par exemple, si vous avez le pays, la province et la ville ... qui viendront en premier, spécifiez-vous par l'ordre de la clé de groupe, ou si vous regroupez simplement selon la hiérarchie