J'ai pandas dataframe df1
et df2
(df1 est vanila dataframe, df2 est indexé par 'STK_ID' & 'RPT_Date'):
>>> df1
STK_ID RPT_Date TClose sales discount
0 000568 20060331 3.69 5.975 NaN
1 000568 20060630 9.14 10.143 NaN
2 000568 20060930 9.49 13.854 NaN
3 000568 20061231 15.84 19.262 NaN
4 000568 20070331 17.00 6.803 NaN
5 000568 20070630 26.31 12.940 NaN
6 000568 20070930 39.12 19.977 NaN
7 000568 20071231 45.94 29.269 NaN
8 000568 20080331 38.75 12.668 NaN
9 000568 20080630 30.09 21.102 NaN
10 000568 20080930 26.00 30.769 NaN
>>> df2
TClose sales discount net_sales cogs
STK_ID RPT_Date
000568 20060331 3.69 5.975 NaN 5.975 2.591
20060630 9.14 10.143 NaN 10.143 4.363
20060930 9.49 13.854 NaN 13.854 5.901
20061231 15.84 19.262 NaN 19.262 8.407
20070331 17.00 6.803 NaN 6.803 2.815
20070630 26.31 12.940 NaN 12.940 5.418
20070930 39.12 19.977 NaN 19.977 8.452
20071231 45.94 29.269 NaN 29.269 12.606
20080331 38.75 12.668 NaN 12.668 3.958
20080630 30.09 21.102 NaN 21.102 7.431
Je peux obtenir les 3 dernières lignes de df2 en:
>>> df2.ix[-3:]
TClose sales discount net_sales cogs
STK_ID RPT_Date
000568 20071231 45.94 29.269 NaN 29.269 12.606
20080331 38.75 12.668 NaN 12.668 3.958
20080630 30.09 21.102 NaN 21.102 7.431
tandis que df1.ix[-3:]
donne toutes les lignes:
>>> df1.ix[-3:]
STK_ID RPT_Date TClose sales discount
0 000568 20060331 3.69 5.975 NaN
1 000568 20060630 9.14 10.143 NaN
2 000568 20060930 9.49 13.854 NaN
3 000568 20061231 15.84 19.262 NaN
4 000568 20070331 17.00 6.803 NaN
5 000568 20070630 26.31 12.940 NaN
6 000568 20070930 39.12 19.977 NaN
7 000568 20071231 45.94 29.269 NaN
8 000568 20080331 38.75 12.668 NaN
9 000568 20080630 30.09 21.102 NaN
10 000568 20080930 26.00 30.769 NaN
Pourquoi ? Comment obtenir les 3 dernières lignes de df1
(image sans index)? Pandas 0.10.1
N'oubliez pas DataFrame.tail
! par exemple. df1.tail(10)
Ceci est dû à l'utilisation d'indices entiers (ix
sélectionne ceux-ci par étiquette sur -3 plutôt que position , et ceci est inhérent à la conception: voir indexation d'entiers dans pandas "gotchas" *).
* Dans les versions plus récentes de pandas, préférez loc ou iloc pour supprimer l'ambiguïté d'ix en tant que position ou libellé:
df.iloc[-3:]
voir le docs.
Comme Wes le fait remarquer, dans ce cas précis, vous devriez simplement utiliser la queue!
Comment obtenir les N dernières lignes d'un pandas DataFrame?
Si vous découpez par position, ___getitem__
_ (c'est-à-dire, découper avec _[]
_) fonctionne bien et constitue la solution la plus succincte que j'ai trouvée pour résoudre ce problème.
_pd.__version__
# '0.24.2'
df = pd.DataFrame({'A': list('aaabbbbc'), 'B': np.arange(1, 9)})
df
A B
0 a 1
1 a 2
2 a 3
3 b 4
4 b 5
5 b 6
6 b 7
7 c 8
_
_df[-3:]
A B
5 b 6
6 b 7
7 c 8
_
Cela revient à appeler _df.iloc[-3:]
_, par exemple (iloc
délègue en interne les délégués à ___getitem__
_).
En passant, si vous voulez trouver les N dernières lignes de chaque groupe, utilisez groupby
et GroupBy.tail
:
_df.groupby('A').tail(2)
A B
1 a 2
2 a 3
5 b 6
6 b 7
7 c 8
_
Vous pouvez également prendre les trois dernières lignes d'une image comme ceci:
df1 = pd.DataFrame({'A': list('aaabbbbc'), 'B': np.arange(1, 9)})
df1[-3:]