Cela signifie généralement que les données ont été extraites du cache et qu'il n'était pas nécessaire de réexécuter une étape donnée. Cela correspond à votre DAG qui montre que la prochaine étape nécessite un brassage (reduceByKey
). Chaque fois que le brassage est impliqué Spark met automatiquement en cache les données générées :
Shuffle génère également un grand nombre de fichiers intermédiaires sur le disque. À partir de Spark 1.3, ces fichiers sont conservés jusqu’à ce que les RDD correspondants ne soient plus utilisés et ne soient plus récupérés. Cette opération est effectuée de sorte que les fichiers de mélange ne doivent pas être recréés si le lignage est recalculé.