Rechercher la première et la dernière colonne non nulle dans chaque ligne d'un pandas dataframe

Question

J'ai DataFrame en vue de Name et Date avec des valeurs de poids dans les cellules:

Name Jan17 Jun18 Dec18 Apr19 count Nick 0 1.7 3.7 0 2 Jack 0 0 2.8 3.5 2 Fox 0 1.7 0 0 1 Rex 1.0 0 3.0 4.2 3 Snack 0 0 2.8 4.4 2 Yosee 0 0 0 4.3 1 Petty 0.5 1.3 2.8 3.5 4

Start et Finish doivent être ajoutés au dataFrame en référence à la définition suivante:

Start la première valeur non nulle de la ligne a commencé de la colonne Jan17 à Apr19
Finish première valeur non nulle dans la séquence Apr19 jusqu'à Jan17

De plus, si la ligne n'a qu'une seule valeur non nulle dans la ligne, Start et Finish sont identiques.

Pour trouver le premier élément non nul de la ligne, j'ai essayé data[col].keys, np.argmax() et cela fonctionne comme prévu.

date_col_list = ['Jan17','Jun18','Dec18', 'Apr19']

data['Start']=data[date_col_list].keys([np.argmax(data[date_col_list].values!=0, axis=1)]

Le résultat est:

Name Jan17 Jun18 Dec18 Apr19 count Start Nick 0 1.7 3.7 0 2 Jun18 Jack 0 0 2.8 3.5 2 Dec18 Fox 0 1.7 0 0 1 Jun18 Rex 1.0 0 3.0 4.2 3 Jan18 Snack 0 0 2.8 4.4 2 Dec18 Yosee 0 0 0 4.3 1 Apr19 Petty 0.5 1.3 2.8 3.5 4 Jan17

Pour détecter les valeurs de la colonne Finish, j'ai essayé d'utiliser: np.apply_along_axis Comme: def func_X(i): return np.argmax(np.where(i!=0))

np.apply_along_axis(func1d = func_X, axis=1, arr=data[date_col_list].values)

Le résultat est une erreur: 'Tuple' object has no attribute 'argmax'

La trame de données attendue est:

Name Jan17 Jun18 Dec18 Apr19 count Start Finish Nick 0 1.7 3.7 0 2 Jun18 Dec18 Jack 0 0 2.8 3.5 2 Dec18 Apr19 Fox 0 1.7 0 0 1 Jun18 Jun18 Rex 1.0 0 3.0 4.2 3 Jan18 Apr19 Snack 0 0 2.8 4.4 2 Dec18 Apr19 Yosee 0 0 0 4.3 1 Apr19 Apr19 Petty 0.5 1.3 2.8 3.5 4 Jan17 Apr19

Comment puis-je trouver Finish en référence à une valeur non nulle dans la direction de la dernière colonne (Apr19) À la première (Jan17)?

piRSquared · Accepted Answer

`first_valid_index` et `last_valid_index`

d = df.mask(df == 0).drop(['Name', 'count'], 1) df.assign( Start=d.apply(pd.Series.first_valid_index, 1), Finish=d.apply(pd.Series.last_valid_index, 1) ) Name Jan17 Jun18 Dec18 Apr19 count Start Finish 0 Nick 0.0 1.7 3.7 0.0 2 Jun18 Dec18 1 Jack 0.0 0.0 2.8 3.5 2 Dec18 Apr19 2 Fox 0.0 1.7 0.0 0.0 1 Jun18 Jun18 3 Rex 1.0 0.0 3.0 4.2 3 Jan17 Apr19 4 Snack 0.0 0.0 2.8 4.4 2 Dec18 Apr19 5 Yosee 0.0 0.0 0.0 4.3 1 Apr19 Apr19 6 Petty 0.5 1.3 2.8 3.5 4 Jan17 Apr19

`stack` puis `groupby`

d = df.mask(df == 0).drop(['Name', 'count'], 1) def fl(s): return s.xs(s.name).index[[0, -1]] s, f = d.stack().groupby(level=0).apply(fl).str df.assign(Start=s, Finish=f) Name Jan17 Jun18 Dec18 Apr19 count Start Finish 0 Nick 0.0 1.7 3.7 0.0 2 Jun18 Dec18 1 Jack 0.0 0.0 2.8 3.5 2 Dec18 Apr19 2 Fox 0.0 1.7 0.0 0.0 1 Jun18 Jun18 3 Rex 1.0 0.0 3.0 4.2 3 Jan17 Apr19 4 Snack 0.0 0.0 2.8 4.4 2 Dec18 Apr19 5 Yosee 0.0 0.0 0.0 4.3 1 Apr19 Apr19 6 Petty 0.5 1.3 2.8 3.5 4 Jan17 Apr19

YOBEN_S · Answer

Dans votre cas, essayez quelque chose de différent avec dot

s=df.loc[:,'Jan17':'Apr19'].ne(0) s=s.dot(s.columns+',').str[:-1].str.split(',') s.str[0],s.str[-1] Out[899]: (0 Jun18 1 Dec18 2 Jun18 3 Jan17 4 Dec18 5 Apr19 6 Jan17 dtype: object, 0 Dec18 1 Apr19 2 Jun18 3 Apr19 4 Apr19 5 Apr19 6 Apr19 dtype: object) #df['Start'],df['End']=s.str[0],s.str[-1]

user3483203 · Answer

Utilisation de cumsum sur le array sous-jacent

m = df.drop(['Name', 'count'], axis=1) u = m.to_numpy().cumsum(1) start = (u!=0).argmax(1) end = u.argmax(1) df.assign(start=m.columns[start], end=m.columns[end])

 Name Jan17 Jun18 Dec18 Apr19 count start end 0 Nick 0.0 1.7 3.7 0.0 2 Jun18 Dec18 1 Jack 0.0 0.0 2.8 3.5 2 Dec18 Apr19 2 Fox 0.0 1.7 0.0 0.0 1 Jun18 Jun18 3 Rex 1.0 0.0 3.0 4.2 3 Jan17 Apr19 4 Snack 0.0 0.0 2.8 4.4 2 Dec18 Apr19 5 Yosee 0.0 0.0 0.0 4.3 1 Apr19 Apr19 6 Petty 0.5 1.3 2.8 3.5 4 Jan17 Apr19

cs95 · Answer

`idxmax`

mask = df.drop(['Name', 'count'], axis=1) > 0 df.assign(start=mask.idxmax(axis=1), end=mask.iloc[:,::-1].idxmax(axis=1)) Name Jan17 Jun18 Dec18 Apr19 count start end 0 Nick 0.0 1.7 3.7 0.0 2 Jun18 Dec18 1 Jack 0.0 0.0 2.8 3.5 2 Dec18 Apr19 2 Fox 0.0 1.7 0.0 0.0 1 Jun18 Jun18 3 Rex 1.0 0.0 3.0 4.2 3 Jan17 Apr19 4 Snack 0.0 0.0 2.8 4.4 2 Dec18 Apr19 5 Yosee 0.0 0.0 0.0 4.3 1 Apr19 Apr19 6 Petty 0.5 1.3 2.8 3.5 4 Jan17 Apr19

Supprimez les colonnes non pertinentes, puis utilisez idxmax d'abord sur les colonnes, puis sur les colonnes inversées pour trouver respectivement le premier et le dernier index valides.

Rechercher la première et la dernière colonne non nulle dans chaque ligne d'un pandas dataframe

first_valid_index et last_valid_index

stack puis groupby

idxmax

`first_valid_index` et `last_valid_index`

`stack` puis `groupby`

`idxmax`