Réplication des rangées dans les pandas

Question

Mon cadre de données sur les pandas ressemble à ceci:

 Person ID ZipCode Gender 0 12345 882 38182 Female 1 32917 271 88172 Male 2 18273 552 90291 Female

Je veux reproduire chaque ligne 3 fois comme:

 Person ID ZipCode Gender 0 12345 882 38182 Female 0 12345 882 38182 Female 0 12345 882 38182 Female 1 32917 271 88172 Male 1 32917 271 88172 Male 1 32917 271 88172 Male 2 18273 552 90291 Female 2 18273 552 90291 Female 2 18273 552 90291 Female

Et bien sûr, réinitialisez l'index pour qu'il soit:

0 1 2

J'ai essayé des solutions telles que:

pd.concat([df[:5]]*3, ignore_index=True)

et:

df.reindex(np.repeat(df.index.values, df['ID']), method='ffill')

Je n'ai pas eu de chance, si vous pouviez m'aider, je l'apprécierais.

U9-Forward · Accepted Answer

Essaye ça:

newdf = pd.DataFrame(np.repeat(df.values,3,axis=0)) newdf.columns = df.columns print(newdf)

Sortie:

 Person ID ZipCode Gender 0 12345 882 38182 Female 1 12345 882 38182 Female 2 12345 882 38182 Female 3 32917 271 88172 Male 4 32917 271 88172 Male 5 32917 271 88172 Male 6 18273 552 90291 Female 7 18273 552 90291 Female 8 18273 552 90291 Female

piRSquared · Answer

Celles-ci répètent les index et préservent les colonnes comme indiqué

`iloc` version 1

df.iloc[np.arange(len(df)).repeat(3)]

`iloc` version 2

df.iloc[np.arange(len(df) * 3) // 3]

IMCoins · Answer

Vous pouvez le faire comme ça.

def do_things(df, n_times): ndf = df.append(pd.DataFrame({'name' : np.repeat(df.name.values, n_times) })) ndf = ndf.sort_values(by='name') ndf = ndf.reset_index(drop=True) return ndf if __== '__main__': df = pd.DataFrame({'name' : ['Peter', 'Quill', 'Jackson']}) n_times = 3 print do_things(df, n_times)

Et avec des explications ...

import pandas as pd import numpy as np n_times = 3 df = pd.DataFrame({'name' : ['Peter', 'Quill', 'Jackson']}) # name # 0 Peter # 1 Quill # 2 Jackson # Duplicating data. df = df.append(pd.DataFrame({'name' : np.repeat(df.name.values, n_times) })) # name # 0 Peter # 1 Quill # 2 Jackson # 0 Peter # 1 Peter # 2 Peter # 3 Quill # 4 Quill # 5 Quill # 6 Jackson # 7 Jackson # 8 Jackson # The DataFrame is sorted by 'name' column. df = df.sort_values(by=['name']) # name # 2 Jackson # 6 Jackson # 7 Jackson # 8 Jackson # 0 Peter # 0 Peter # 1 Peter # 2 Peter # 1 Quill # 3 Quill # 4 Quill # 5 Quill # Reseting the index. # You can play with drop=True and drop=False, as parameter of `reset_index()` df = df.reset_index() # index name # 0 2 Jackson # 1 6 Jackson # 2 7 Jackson # 3 8 Jackson # 4 0 Peter # 5 0 Peter # 6 1 Peter # 7 2 Peter # 8 1 Quill # 9 3 Quill # 10 4 Quill # 11 5 Quill

Wen-Ben · Answer

Peut-être en utilisant concat

pd.concat([df]*3).sort_index() Out[129]: Person ID ZipCode Gender 0 12345 882 38182 Female 0 12345 882 38182 Female 0 12345 882 38182 Female 1 32917 271 88172 Male 1 32917 271 88172 Male 1 32917 271 88172 Male 2 18273 552 90291 Female 2 18273 552 90291 Female 2 18273 552 90291 Female

Réplication des rangées dans les pandas

iloc version 1

iloc version 2

`iloc` version 1

`iloc` version 2