sommant deux colonnes dans un cadre de données de pandas

Question

lorsque j'utilise cette syntaxe, il crée une série plutôt que d'ajouter une colonne à mon nouveau cadre de données (somme). S'il vous plaît aider.

Mon code:

sum = data['variance'] = data.budget + data.actual

Mes données (dans dataframe df): (a actuellement tout sauf le budget - réel, je veux créer une colonne d'écart?

 cluster date budget actual | budget - actual 0 a 2014-01-01 00:00:00 11000 10000 1000 1 a 2014-02-01 00:00:00 1200 1000 2 a 2014-03-01 00:00:00 200 100 3 b 2014-04-01 00:00:00 200 300 4 b 2014-05-01 00:00:00 400 450 5 c 2014-06-01 00:00:00 700 1000 6 c 2014-07-01 00:00:00 1200 1000 7 c 2014-08-01 00:00:00 200 100 8 c 2014-09-01 00:00:00 200 300

Andy Hayden · Accepted Answer

Je pense que vous avez mal compris une syntaxe python. Voici ce que vous devez faire:

In [11]: a = b = 1 In [12]: a Out[12]: 1 In [13]: b Out[13]: 1

Donc, dans votre code, c'était comme si vous faisiez:

sum = df['budget'] + df['actual'] # a Series # and df['variance'] = df['budget'] + df['actual'] # assigned to a column

Ce dernier crée une nouvelle colonne pour df:

In [21]: df Out[21]: cluster date budget actual 0 a 2014-01-01 00:00:00 11000 10000 1 a 2014-02-01 00:00:00 1200 1000 2 a 2014-03-01 00:00:00 200 100 3 b 2014-04-01 00:00:00 200 300 4 b 2014-05-01 00:00:00 400 450 5 c 2014-06-01 00:00:00 700 1000 6 c 2014-07-01 00:00:00 1200 1000 7 c 2014-08-01 00:00:00 200 100 8 c 2014-09-01 00:00:00 200 300 In [22]: df['variance'] = df['budget'] + df['actual'] In [23]: df Out[23]: cluster date budget actual variance 0 a 2014-01-01 00:00:00 11000 10000 21000 1 a 2014-02-01 00:00:00 1200 1000 2200 2 a 2014-03-01 00:00:00 200 100 300 3 b 2014-04-01 00:00:00 200 300 500 4 b 2014-05-01 00:00:00 400 450 850 5 c 2014-06-01 00:00:00 700 1000 1700 6 c 2014-07-01 00:00:00 1200 1000 2200 7 c 2014-08-01 00:00:00 200 100 300 8 c 2014-09-01 00:00:00 200 300 500

En passant, vous ne devriez pas utiliser sum comme nom de variable car celui-ci remplace la fonction de somme intégrée.

Rishi Bansal · Answer

La même chose peut être faite en utilisant la fonction lambda ..____.

import pandas as pd df = pd.read_Excel("data.xlsx", sheet_name = 4) print df

Sortie:

 cluster Unnamed: 1 date budget actual 0 a 2014-01-01 00:00:00 11000 10000 1 a 2014-02-01 00:00:00 1200 1000 2 a 2014-03-01 00:00:00 200 100 3 b 2014-04-01 00:00:00 200 300 4 b 2014-05-01 00:00:00 400 450 5 c 2014-06-01 00:00:00 700 1000 6 c 2014-07-01 00:00:00 1200 1000 7 c 2014-08-01 00:00:00 200 100 8 c 2014-09-01 00:00:00 200 300

Sommez deux colonnes dans la 3ème nouvelle.

df['variance'] = df.apply(lambda x: x['budget'] + x['actual'], axis=1) print df

Sortie:

 cluster Unnamed: 1 date budget actual variance 0 a 2014-01-01 00:00:00 11000 10000 21000 1 a 2014-02-01 00:00:00 1200 1000 2200 2 a 2014-03-01 00:00:00 200 100 300 3 b 2014-04-01 00:00:00 200 300 500 4 b 2014-05-01 00:00:00 400 450 850 5 c 2014-06-01 00:00:00 700 1000 1700 6 c 2014-07-01 00:00:00 1200 1000 2200 7 c 2014-08-01 00:00:00 200 100 300 8 c 2014-09-01 00:00:00 200 300 500

Archie · Answer

Vous pouvez également utiliser la fonction .add() :

 df.loc[:,'variance'] = df.loc[:,'budget'].add(df.loc[:,'actual'])

R. Cox · Answer

Si "budget" a une valeur NaN mais que vous ne voulez pas que sa somme soit égale à NaN, essayez:

def fun (b, a): if math.isnan(b): return a else: return b + a f = np.vectorize(fun, otypes=[float]) df['variance'] = f(df['budget'], df_Lp['actual'])