J'ai une trame de données avec jusqu'à 10 millions d'enregistrements. Comment puis-je obtenir un décompte rapidement? df.count
prend beaucoup de temps.
Ça va prendre tellement de temps de toute façon. Du moins la première fois.
Une façon consiste à mettre en cache la trame de données, de sorte que vous pourrez en faire plus, à part compter.
Par exemple
df.cache()
df.count()
Les opérations suivantes ne prennent pas beaucoup de temps.
file.groupBy("<column-name>").count().show()