Je cherche un moyen pythonique de gérer le problème suivant.
La méthode pandas.get_dummies()
est idéale pour créer des nuls à partir d'une colonne catégorielle d'une trame de données. Par exemple, si la colonne a des valeurs dans ['A', 'B']
, get_dummies()
crée 2 variables nominales et affecte 0 ou 1 en conséquence.
Maintenant, je dois gérer cette situation. Une seule colonne, appelons-la 'étiquette', a des valeurs telles que ['A', 'B', 'C', 'D', 'A*C', 'C*D']
. get_dummies()
crée 6 nuls, mais je n'en veux que 4, de sorte qu'une ligne puisse avoir plusieurs 1.
Existe-t-il un moyen de gérer cela de manière pythonique? Je ne pouvais penser qu'à un algorithme pas à pas pour l'obtenir, mais cela n'inclurait pas get_dummies (). Merci
Edité, espérons que c'est plus clair!
Je sais que cette question a été posée il y a longtemps, mais il y a (au moins maintenant il y a) un one-liner soutenu par la documentation :
In [4]: df
Out[4]:
label
0 (a, c, e)
1 (a, d)
2 (b,)
3 (d, e)
In [5]: df['label'].str.join(sep='*').str.get_dummies(sep='*')
Out[5]:
a b c d e
0 1 0 1 0 1
1 1 0 0 1 0
2 0 1 0 0 0
3 0 0 0 1 1
J'ai une solution un peu plus propre. Supposons que nous voulions transformer le dataframe suivant
pageid category
0 0 a
1 0 b
2 1 a
3 1 c
dans
a b c
pageid
0 1 1 0
1 1 0 1
Une façon de le faire est d'utiliser DictVectorizer de scikit-learn. Je serais cependant intéressé à apprendre d'autres méthodes.
df = pd.DataFrame(dict(pageid=[0, 0, 1, 1], category=['a', 'b', 'a', 'c']))
grouped = df.groupby('pageid').category.apply(lambda lst: Tuple((k, 1) for k in lst))
category_dicts = [dict(tuples) for tuples in grouped]
v = sklearn.feature_extraction.DictVectorizer(sparse=False)
X = v.fit_transform(category_dicts)
pd.DataFrame(X, columns=v.get_feature_names(), index=grouped.index)
Vous pouvez générer le cadre de données factice avec vos données brutes, isoler les colonnes contenant un atome donné, puis stocker le résultat dans la colonne Atome.
df
Out[28]:
label
0 A
1 B
2 C
3 D
4 A*C
5 C*D
dummies = pd.get_dummies(df['label'])
atom_col = [c for c in dummies.columns if '*' not in c]
for col in atom_col:
...: df[col] = dummies[[c for c in dummies.columns if col in c]].sum(axis=1)
...:
df
Out[32]:
label A B C D
0 A 1 0 0 0
1 B 0 1 0 0
2 C 0 0 1 0
3 D 0 0 0 1
4 A*C 1 0 1 0
5 C*D 0 0 1 1
Je crois que cette question nécessite une réponse mise à jour après avoir rencontré le MultiLabelBinarizer de sklearn.
L'utilisation de ceci est aussi simple que ...
# Instantiate the binarizer
mlb = MultiLabelBinarizer()
# Using OP's original data frame
df = pd.DataFrame(data=['A', 'B', 'C', 'D', 'A*C', 'C*D'], columns=["label"])
print(df)
label
0 A
1 B
2 C
3 D
4 A*C
5 C*D
# Convert to a list of labels
df = df.apply(lambda x: x["label"].split("*"), axis=1)
print(df)
0 [A]
1 [B]
2 [C]
3 [D]
4 [A, C]
5 [C, D]
dtype: object
# Transform to a binary array
array_out = mlb.fit_transform(df)
print(array_out)
[[1 0 0 0]
[0 1 0 0]
[0 0 1 0]
[0 0 0 1]
[1 0 1 0]
[0 0 1 1]]
# Convert back to a dataframe (unnecessary step in many cases)
df_out = pd.DataFrame(data=array_out, columns=mlb.classes_)
print(df_out)
A B C D
0 1 0 0 0
1 0 1 0 0
2 0 0 1 0
3 0 0 0 1
4 1 0 1 0
5 0 0 1 1
Ceci est également très rapide et ne prend pratiquement pas de temps (0,03 seconde) sur 1000 lignes et 50 000 classes.