web-dev-qa-db-fra.com

Convertir Pandas dataframe en Dask dataframe

Supposons que j'ai pandas dataframe comme:

df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})

Lorsque je le convertis en cadre de données dask, quels devraient être les paramètres name et divisions:

from dask import dataframe as dd 
sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index))

TypeError: init () manquant 1 argument positionnel requis: 'nom'

Edit: Supposons que je crée un pandas dataframe comme:

pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})

De même, comment créer un cadre de données dask car il a besoin de trois arguments supplémentaires comme name,divisions et meta.

sd=dd.Dataframe({'a':[1,2,3],'b':[4,5,6]},name=,meta=,divisions=)

Merci pour votre réponse.

17
rey

Je pense que vous pouvez utiliser dask.dataframe.from_pandas :

from dask import dataframe as dd 
sd = dd.from_pandas(df, npartitions=3)
print (sd)
dd.DataFrame<from_pa..., npartitions=2, divisions=(0, 1, 2)>

ÉDITER:

Je trouve solution :

import pandas as pd
import dask.dataframe as dd
from dask.dataframe.utils import make_meta

df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})

dsk = {('x', 0): df}

meta = make_meta({'a': 'i8', 'b': 'i8'}, index=pd.Index([], 'i8'))
d = dd.DataFrame(dsk, name='x', meta=meta, divisions=[0, 1, 2])
print (d)
dd.DataFrame<x, npartitions=2, divisions=(0, 1, 2)>
29
jezrael