Pyspark dataframe comment supprimer des lignes avec des valeurs nulles dans toutes les colonnes?

Question

Pour une trame de données, avant c'est comme:

+----+----+----+ | ID|TYPE|CODE| +----+----+----+ | 1| B| X1| |null|null|null| |null| B| X1| +----+----+----+

Après j'espère que c'est comme:

+----+----+----+ | ID|TYPE|CODE| +----+----+----+ | 1| B| X1| |null| B| X1| +----+----+----+

Je préfère une méthode générale telle qu'elle puisse s'appliquer lorsque df.columns est très long. Merci!

Psidom · Accepted Answer

Une option consiste à utiliser functools.reduce pour construire les conditions:

from functools import reduce df.filter(~reduce(lambda x, y: x & y, [df[c].isNull() for c in df.columns])).show() +----+----+----+ | ID|TYPE|CODE| +----+----+----+ | 1| B| X1| |null| B| X1| +----+----+----+

où reduce produit une requête comme suit:

~reduce(lambda x, y: x & y, [df[c].isNull() for c in df.columns]) # Column<b'(NOT (((ID IS NULL) AND (TYPE IS NULL)) AND (CODE IS NULL)))'>

user6910411 · Answer

Fournir une stratégie pour na.drop est tout ce dont vous avez besoin:

df = spark.createDataFrame([ (1, "B", "X1"), (None, None, None), (None, "B", "X1"), (None, "C", None)], ("ID", "TYPE", "CODE") ) df.na.drop(how="all").show()

+----+----+----+ | ID|TYPE|CODE| +----+----+----+ | 1| B| X1| |null| B| X1| |null| C|null| +----+----+----+

Une formulation alternative peut être obtenue avec threshold (nombre de NOT NULL valeurs):

df.na.drop(thresh=1).show()

+----+----+----+ | ID|TYPE|CODE| +----+----+----+ | 1| B| X1| |null| B| X1| |null| C|null| +----+----+----+