Pandas groupby et sortie d'agrégation doivent inclure toutes les colonnes d'origine (y compris celles non agrégées)

Question

J'ai le bloc de données suivant et je souhaite:

Regrouper les enregistrements par month
Somme QTY_SOLDet NET_AMT de chaque unique UPC_ID(par mois)
Inclure également le reste des colonnes dans la trame de données résultante

La façon dont je pensais pouvoir le faire est la première: créer une colonne month pour agréger le D_DATES, puis somme QTY_SOLD par UPC_ID.

Scénario:

# Convert date to date time object df['D_DATE'] = pd.to_datetime(df['D_DATE']) # Create aggregated months column df['month'] = df['D_DATE'].apply(dt.date.strftime, args=('%Y.%m',)) # Group by month and sum up quantity sold by UPC_ID df = df.groupby(['month', 'UPC_ID'])['QTY_SOLD'].sum()

Trame de données actuelle:

UPC_ID | UPC_DSC | D_DATE | QTY_SOLD | NET_AMT ---------------------------------------------- 111 desc1 2/26/2017 2 10 (2 x $5) 222 desc2 2/26/2017 3 15 333 desc3 2/26/2017 1 4 111 desc1 3/1/2017 1 5 111 desc1 3/3/2017 4 20

Sortie désirée:

MONTH | UPC_ID | QTY_SOLD | NET_AMT | UPC_DSC ---------------------------------------------- 2017-2 111 2 10 etc... 2017-2 222 3 15 2017-2 333 1 4 2017-3 111 5 25

Sortie réelle:

MONTH | UPC_ID ---------------------------------------------- 2017-2 111 2 222 3 333 1 2017-3 111 5 ...

Des questions:

Comment inclure le mois pour chaque ligne?
Comment inclure le reste des colonnes de la trame de données?
Comment additionner également NET_AMT en plus de QTY_SOLD?

cs95 · Accepted Answer

`agg` avec un `dict` de fonctions

Créez un dict de fonctions et passez-le à agg. Vous aurez également besoin de as_index=False pour empêcher les colonnes de groupe de devenir l'index dans votre sortie.

f = {'NET_AMT': 'sum', 'QTY_SOLD': 'sum', 'UPC_DSC': 'first'} df.groupby(['month', 'UPC_ID'], as_index=False).agg(f) month UPC_ID UPC_DSC NET_AMT QTY_SOLD 0 2017.02 111 desc1 10 2 1 2017.02 222 desc2 15 3 2 2017.02 333 desc3 4 1 3 2017.03 111 desc1 25 5

Couverture `sum`

Appelez simplement sum sans aucun nom de colonne. Cela gère les colonnes numériques. Pour UPC_DSC, vous devrez le gérer séparément.

g = df.groupby(['month', 'UPC_ID']) i = g.sum() j = g[['UPC_DSC']].first() pd.concat([i, j], 1).reset_index() month UPC_ID QTY_SOLD NET_AMT UPC_DSC 0 2017.02 111 2 10 desc1 1 2017.02 222 3 15 desc2 2 2017.02 333 1 4 desc3 3 2017.03 111 5 25 desc1

WeNYoBen · Answer

J'y pense depuis longtemps, merci pour votre question Poussez-moi pour le faire .En utilisant agg et if...else

df.groupby(['month', 'UPC_ID'],as_index=False).agg(lambda x : x.sum() if x.dtype=='int64' else x.head(1)) Out[1221]: month UPC_ID UPC_DSC D_DATE QTY_SOLD NET_AMT 0 2 111 desc1 2017-02-26 2 10 1 2 222 desc2 2017-02-26 3 15 2 2 333 desc3 2017-02-26 1 4 3 3 111 desc1 2017-03-01 5 25

Pandas groupby et sortie d'agrégation doivent inclure toutes les colonnes d'origine (y compris celles non agrégées)

agg avec un dict de fonctions

Couverture sum

`agg` avec un `dict` de fonctions

Couverture `sum`