Trouvez le nom de la colonne qui a la valeur maximale pour chaque ligne

Question

J'ai un DataFrame comme celui-ci:

In [7]: frame.head() Out[7]: Communications and Search Business General Lifestyle 0 0.745763 0.050847 0.118644 0.084746 0 0.333333 0.000000 0.583333 0.083333 0 0.617021 0.042553 0.297872 0.042553 0 0.435897 0.000000 0.410256 0.153846 0 0.358974 0.076923 0.410256 0.153846

Ici, je veux demander comment obtenir le nom de la colonne qui a une valeur maximale pour chaque ligne, la sortie souhaitée est la suivante:

In [7]: frame.head() Out[7]: Communications and Search Business General Lifestyle Max 0 0.745763 0.050847 0.118644 0.084746 Communications 0 0.333333 0.000000 0.583333 0.083333 Business 0 0.617021 0.042553 0.297872 0.042553 Communications 0 0.435897 0.000000 0.410256 0.153846 Communications 0 0.358974 0.076923 0.410256 0.153846 Business

Alex Riley · Accepted Answer

Vous pouvez utiliser idxmax avec axis=1 Pour trouver la colonne avec la plus grande valeur sur chaque ligne:

>>> df.idxmax(axis=1) 0 Communications 1 Business 2 Communications 3 Communications 4 Business dtype: object

Pour créer la nouvelle colonne 'Max', utilisez df['Max'] = df.idxmax(axis=1).

Pour trouver l'index row auquel la valeur maximale apparaît dans chaque colonne, utilisez df.idxmax() (ou de manière équivalente df.idxmax(axis=0)).

user1718097 · Answer

Et si vous souhaitez produire une colonne contenant le nom de la colonne avec la valeur maximale mais en considérant uniquement un sous-ensemble de colonnes, vous utilisez une variante de la réponse de @ ajcr:

df['Max'] = df[['Communications','Business']].idxmax(axis=1)

Zero · Answer

Vous pouvez apply sur le cadre de données et obtenir argmax() de chaque ligne via axis=1

In [144]: df.apply(lambda x: x.argmax(), axis=1) Out[144]: 0 Communications 1 Business 2 Communications 3 Communications 4 Business dtype: object

Voici un point de repère pour comparer la méthode lente apply de idxmax() pour len(df) ~ 20K

In [146]: %timeit df.apply(lambda x: x.argmax(), axis=1) 1 loops, best of 3: 479 ms per loop In [147]: %timeit df.idxmax(axis=1) 10 loops, best of 3: 47.3 ms per loop