Je suis nouveau à spark et jouais avec Pyspark.sql. Selon la documentation de pyspark.sql ici , on peut aller sur la définition de Spark dataframe et schéma comme ceci:
rdd = sc.textFile('./some csv_to_play_around.csv'
schema = StructType([StructField('Name', StringType(), True),
StructField('DateTime', TimestampType(), True)
StructField('Age', IntegerType(), True)])
# create dataframe
df3 = sqlContext.createDataFrame(rdd, schema)
Ma question est, que signifie le True
dans la liste schema
ci-dessus? Je n'arrive pas à le trouver dans la documentation. Merci d'avance
Cela signifie que si la colonne autorise les valeurs nulles, true
pour nullable et false
pour non nullable
StructField (nom, dataType, nullable): représente un champ dans un StructType. Le nom d'un champ est indiqué par son nom. Le type de données d'un champ est indiqué par dataType. nullable est utilisé pour indiquer si les valeurs de ces champs peuvent avoir des valeurs nulles.
Reportez-vous à Spark SQL et DataFrame Guide pour plus d'informations.