Comment déterminer une taille de trame de données?
À l'heure actuelle, j'estime la taille réelle d'une trame de données comme suit:
headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size
C'est trop lent et je cherche un meilleur moyen.
Joli message de Tamas Szuromi http://metricbrew.com/how-to-estimate-rdd-or-dataframe-real-size-in-pyspark/
from pyspark.serializers import PickleSerializer, AutoBatchedSerializer
def _to_Java_object_rdd(rdd):
""" Return a JavaRDD of Object by unpickling
It will convert each Python object into Java object by Pyrolite, whenever the
RDD is serialized in batch or not.
"""
rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
return rdd.ctx._jvm.org.Apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)
JavaObj = _to_Java_object_rdd(df.rdd)
nbytes = sc._jvm.org.Apache.spark.util.SizeEstimator.estimate(JavaObj)
Actuellement, j'utilise l'approche ci-dessous, je ne sais pas si c'est la meilleure façon
df.persist(StorageLevel.Memory) df.count()
Sur l'interface utilisateur spark-web sous l'onglet Stockage, vous pouvez vérifier la taille qui s'affiche en Mo, puis je ne m'efforce pas d'effacer la mémoire.
df.unpersist()