web-dev-qa-db-fra.com

Quel est l'équivalent de value_counts () de Panda dans PySpark?

J'ai la commande python/pandas suivante:

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()

où j'obtiens le nombre de valeurs pour TOUTES les colonnes d'un objet DataFrameGroupBy.

Comment faire cette action dans PySpark?

12
TSAR

C'est plus ou moins la même chose:

spark_df.groupBy('column_name').count().orderBy('count')

Dans le groupBy, vous pouvez avoir plusieurs colonnes délimitées par un ,

Par exemple groupBy('column_1', 'column_2')

9
Tanjin

est là comme un ordre que le groupBy prend les touches groupby, comme peut-être de gauche à droite ou de droite à gauche. Essayer de comprendre l'ordre du regroupement (comment cela se passe). Par exemple, si vous avez le pays, la province et la ville ... qui viendront en premier, spécifiez-vous par l'ordre de la clé de groupe, ou si vous regroupez simplement selon la hiérarchie

0
Baronial_G