J'ai une grande trame de données (plusieurs millions de lignes).
Je veux pouvoir faire une opération groupby dessus, mais simplement grouper par sous-ensembles consécutifs arbitraires (de préférence de taille égale), plutôt que d'utiliser une propriété particulière des lignes individuelles pour décider à quel groupe ils vont.
Le cas d'utilisation: je veux appliquer une fonction à chaque ligne via une carte parallèle dans IPython. Peu importe les lignes qui vont à quel moteur principal, car la fonction calcule un résultat basé sur une ligne à la fois. (Conceptuellement au moins; en réalité, c'est vectorisé.)
J'ai trouvé quelque chose comme ça:
# Generate a number from 0-9 for each row, indicating which tenth of the DF it belongs to
max_idx = dataframe.index.max()
tenths = ((10 * dataframe.index) / (1 + max_idx)).astype(np.uint32)
# Use this value to perform a groupby, yielding 10 consecutive chunks
groups = [g[1] for g in dataframe.groupby(tenths)]
# Process chunks in parallel
results = dview.map_sync(my_function, groups)
Mais cela semble très long et ne garantit pas des morceaux de taille égale. Surtout si l'index est clairsemé ou non entier ou autre.
Des suggestions pour une meilleure façon?
Merci!
En pratique, vous ne pouvez pas garantir des morceaux de taille égale: le nombre de lignes peut être premier, après tout, auquel cas vos seules options de segmentation seraient des morceaux de taille 1 ou un gros morceau. J'ai tendance à passer un tableau à groupby
. A partir de:
>>> df = pd.DataFrame(np.random.Rand(15, 5), index=[0]*15)
>>> df[0] = range(15)
>>> df
0 1 2 3 4
0 0 0.746300 0.346277 0.220362 0.172680
0 1 0.657324 0.687169 0.384196 0.214118
0 2 0.016062 0.858784 0.236364 0.963389
[...]
0 13 0.510273 0.051608 0.230402 0.756921
0 14 0.950544 0.576539 0.642602 0.907850
[15 rows x 5 columns]
où j'ai délibérément rendu l'index non informatif en le mettant à 0, nous décidons simplement de notre taille (ici 10) et divisons un tableau par lui:
>>> df.groupby(np.arange(len(df))//10)
<pandas.core.groupby.DataFrameGroupBy object at 0xb208492c>
>>> for k,g in df.groupby(np.arange(len(df))//10):
... print(k,g)
...
0 0 1 2 3 4
0 0 0.746300 0.346277 0.220362 0.172680
0 1 0.657324 0.687169 0.384196 0.214118
0 2 0.016062 0.858784 0.236364 0.963389
[...]
0 8 0.241049 0.246149 0.241935 0.563428
0 9 0.493819 0.918858 0.193236 0.266257
[10 rows x 5 columns]
1 0 1 2 3 4
0 10 0.037693 0.370789 0.369117 0.401041
0 11 0.721843 0.862295 0.671733 0.605006
[...]
0 14 0.950544 0.576539 0.642602 0.907850
[5 rows x 5 columns]
Les méthodes basées sur le découpage du DataFrame peuvent échouer lorsque l'index n'est pas compatible avec cela, bien que vous puissiez toujours utiliser .iloc[a:b]
pour ignorer les valeurs d'index et accéder aux données par position.
Utiliser numpy a ceci intégré: np.array_split ()
import numpy as np
import pandas as pd
data = pd.DataFrame(np.random.Rand(10, 3))
for chunk in np.array_split(data, 5):
assert len(chunk) == len(data) / 5
Je ne sais pas si c'est exactement ce que vous voulez, mais j'ai trouvé ces fonctions de groupeur sur n autre SO thread assez utile pour faire un pool multiprocesseur.
Voici un court exemple de ce fil, qui pourrait faire quelque chose comme ce que vous voulez:
import numpy as np
import pandas as pds
df = pds.DataFrame(np.random.Rand(14,4), columns=['a', 'b', 'c', 'd'])
def chunker(seq, size):
return (seq[pos:pos + size] for pos in xrange(0, len(seq), size))
for i in chunker(df,5):
print i
Ce qui vous donne quelque chose comme ça:
a b c d
0 0.860574 0.059326 0.339192 0.786399
1 0.029196 0.395613 0.524240 0.380265
2 0.235759 0.164282 0.350042 0.877004
3 0.545394 0.881960 0.994079 0.721279
4 0.584504 0.648308 0.655147 0.511390
a b c d
5 0.276160 0.982803 0.451825 0.845363
6 0.728453 0.246870 0.515770 0.343479
7 0.971947 0.278430 0.006910 0.888512
8 0.044888 0.875791 0.842361 0.890675
9 0.200563 0.246080 0.333202 0.574488
a b c d
10 0.971125 0.106790 0.274001 0.960579
11 0.722224 0.575325 0.465267 0.258976
12 0.574039 0.258625 0.469209 0.886768
13 0.915423 0.713076 0.073338 0.622967
J'espère que ça aide.
MODIFIER
Dans ce cas, j'ai utilisé cette fonction avec pool de processeurs de (approximativement) de cette manière:
from multiprocessing import Pool
nprocs = 4
pool = Pool(nprocs)
for chunk in chunker(df, nprocs):
data = pool.map(myfunction, chunk)
data.domorestuff()
Je suppose que cela devrait être très similaire à l'utilisation de la machinerie distribuée IPython, mais je ne l'ai pas essayé.
Un signe d'un bon environnement est de nombreux choix, donc j'ajouterai ceci de Anaconda Blaze , en utilisant vraiment Odo
import blaze as bz
import pandas as pd
df = pd.DataFrame({'col1':[1,2,3,4,5], 'col2':[2,4,6,8,10]})
for chunk in bz.odo(df, target=bz.chunks(pd.DataFrame), chunksize=2):
# Do stuff with chunked dataframe