Python Pandas répliquer des lignes dans le cadre de données)

Question

Si les données ressemblent à:

Store,Dept,Date,Weekly_Sales,IsHoliday 1,1,2010-02-05,24924.5,FALSE 1,1,2010-02-12,46039.49,TRUE 1,1,2010-02-19,41595.55,FALSE 1,1,2010-02-26,19403.54,FALSE 1,1,2010-03-05,21827.9,FALSE 1,1,2010-03-12,21043.39,FALSE 1,1,2010-03-19,22136.64,FALSE 1,1,2010-03-26,26229.21,FALSE 1,1,2010-04-02,57258.43,FALSE

Et je veux dupliquer des lignes avec IsHoliday égal à TRUE, je peux faire:

is_hol = df['IsHoliday'] == True df_try = df[is_hol] df=df.append(df_try*10)

Mais existe-t-il une meilleure façon de procéder, car je dois dupliquer 5 fois les lignes de vacances et ajouter 5 fois si je l’utilise plus haut.

Karl D. · Accepted Answer

Tu peux mettre df_try dans une liste et faites ensuite ce que vous avez en tête:

>>> df.append([df_try]*5,ignore_index=True) Store Dept Date Weekly_Sales IsHoliday 0 1 1 2010-02-05 24924.50 False 1 1 1 2010-02-12 46039.49 True 2 1 1 2010-02-19 41595.55 False 3 1 1 2010-02-26 19403.54 False 4 1 1 2010-03-05 21827.90 False 5 1 1 2010-03-12 21043.39 False 6 1 1 2010-03-19 22136.64 False 7 1 1 2010-03-26 26229.21 False 8 1 1 2010-04-02 57258.43 False 9 1 1 2010-02-12 46039.49 True 10 1 1 2010-02-12 46039.49 True 11 1 1 2010-02-12 46039.49 True 12 1 1 2010-02-12 46039.49 True 13 1 1 2010-02-12 46039.49 True

Surya · Answer

Une autre façon est en utilisant la fonction concat ():

import pandas as pd In [603]: df = pd.DataFrame({'col1':list("abc"),'col2':range(3)},index = range(3)) In [604]: df Out[604]: col1 col2 0 a 0 1 b 1 2 c 2 In [605]: pd.concat([df]*3, ignore_index=True) # Ignores the index Out[605]: col1 col2 0 a 0 1 b 1 2 c 2 3 a 0 4 b 1 5 c 2 6 a 0 7 b 1 8 c 2 In [606]: pd.concat([df]*3) Out[606]: col1 col2 0 a 0 1 b 1 2 c 2 0 a 0 1 b 1 2 c 2 0 a 0 1 b 1 2 c 2

snooze_bear · Answer

C'est une vieille question, mais comme elle figure toujours en tête de mes résultats sur Google, voici une autre solution.

import pandas as pd import numpy as np df = pd.DataFrame({'col1':list("abc"),'col2':range(3)},index = range(3))

Supposons que vous souhaitiez répliquer les lignes où col1 = "b".

reps = [3 if val=="b" else 1 for val in df.col1] df.loc[np.repeat(df.index.values, reps)]

Vous pouvez remplacer le 3 if val=="b" else 1 dans l'interprétation de la liste avec une autre fonction pouvant renvoyer 3 si val == "b" ou 4 si val == "c" et ainsi de suite, ce qui rend le processus assez flexible.

DavidK · Answer

df = df_try for i in range(4): df = df.append(df_try) # Here, we have df_try times 5 df = df.append(df) # Here, we have df_try times 10

grofte · Answer

L'ajout et la concaténation sont généralement lents en Pandas, je vous recommande donc de simplement créer une nouvelle liste de lignes et de la transformer en un cadre de données (sauf si vous ajoutez une ligne ou concaténez quelques images).

import pandas as pd df = pd.DataFrame([ [1,1,'2010-02-05',24924.5,False], [1,1,'2010-02-12',46039.49,True], [1,1,'2010-02-19',41595.55,False], [1,1,'2010-02-26',19403.54,False], [1,1,'2010-03-05',21827.9,False], [1,1,'2010-03-12',21043.39,False], [1,1,'2010-03-19',22136.64,False], [1,1,'2010-03-26',26229.21,False], [1,1,'2010-04-02',57258.43,False] ], columns=['Store','Dept','Date','Weekly_Sales','IsHoliday']) temp_df = [] for row in df.itertuples(index=False): if row.IsHoliday: temp_df.extend([list(row)]*5) else: temp_df.append(list(row)) df = pd.DataFrame(temp_df, columns=df.columns)