J'ai un RDD Pyspark avec une colonne de texte que je veux utiliser comme filtre, j'ai donc le code suivant:
table2 = table1.filter(lambda x: x[12] == "*TEXT*")
Le problème est ... Comme vous le voyez, j'utilise le *
pour essayer de lui dire d'interpréter cela comme un caractère générique, mais sans succès. Quelqu'un a une aide non?
La fonction lambda est en pur python, donc quelque chose comme ci-dessous fonctionnerait
table2 = table1.filter(lambda x: "TEXT" in x[12])