pandas pivoter le tableau vers le bloc de données

Question

J'ai un dataframe (df) qui ressemble à ceci:

+---------+-------+------------+----------+ | subject | pills | date | strength | +---------+-------+------------+----------+ | 1 | 4 | 10/10/2012 | 250 | | 1 | 4 | 10/11/2012 | 250 | | 1 | 2 | 10/12/2012 | 500 | | 2 | 1 | 1/6/2014 | 1000 | | 2 | 1 | 1/7/2014 | 250 | | 2 | 1 | 1/7/2014 | 500 | | 2 | 3 | 1/8/2014 | 250 | +---------+-------+------------+----------+

Quand j'utilise remodeler en R, j'obtiens ce que je veux:

reshape(df, idvar = c("subject","date"), timevar = 'strength', direction = "wide") +---------+------------+--------------+--------------+---------------+ | subject | date | strength.250 | strength.500 | strength.1000 | +---------+------------+--------------+--------------+---------------+ | 1 | 10/10/2012 | 4 | NA | NA | | 1 | 10/11/2012 | 4 | NA | NA | | 1 | 10/12/2012 | NA | 2 | NA | | 2 | 1/6/2014 | NA | NA | 1 | | 2 | 1/7/2014 | 1 | 1 | NA | | 2 | 1/8/2014 | 3 | NA | NA | +---------+------------+--------------+--------------+---------------+

Utilisation de pandas:

df.pivot_table(df, index=['subject','date'],columns='strength') +---------+------------+-------+----+-----+ | | | pills | +---------+------------+-------+----+-----+ | | strength | 250 | 500| 1000| +---------+------------+-------+----+-----+ | subject | date | | | | +---------+------------+-------+----+-----+ | 1 | 10/10/2012 | 4 | NA | NA | | | 10/11/2012 | 4 | NA | NA | | | 10/12/2012 | NA | 2 | NA | +---------+------------+-------+----+-----+ | 2 | 1/6/2014 | NA | NA | 1 | | | 1/7/2014 | 1 | 1 | NA | | | 1/8/2014 | 3 | NA | NA | +---------+------------+-------+----+-----+

Comment obtenir exactement la même sortie qu'en R avec des pandas? Je veux seulement 1 en-tête.

DYZ · Accepted Answer

Après pivotement, convertissez la trame de données en enregistrements, puis revenez en trame de données:

flattened = pd.DataFrame(pivoted.to_records()) # subject date ('pills', 250) ('pills', 500) ('pills', 1000) #0 1 10/10/2012 4.0 NaN NaN #1 1 10/11/2012 4.0 NaN NaN #2 1 10/12/2012 NaN 2.0 NaN #3 2 1/6/2014 NaN NaN 1.0 #4 2 1/7/2014 1.0 1.0 NaN #5 2 1/8/2014 3.0 NaN NaN

Vous pouvez désormais "réparer" les noms des colonnes, si vous le souhaitez:

flattened.columns = [hdr.replace("('pills', ", "strength.").replace(")", "") \ for hdr in flattened.columns] flattened # subject date strength.250 strength.500 strength.1000 #0 1 10/10/2012 4.0 NaN NaN #1 1 10/11/2012 4.0 NaN NaN #2 1 10/12/2012 NaN 2.0 NaN #3 2 1/6/2014 NaN NaN 1.0 #4 2 1/7/2014 1.0 1.0 NaN #5 2 1/8/2014 3.0 NaN NaN

C'est maladroit, mais ça marche.