J'utilise Spark 1.6.1.
Nous essayons d'écrire un fichier ORC sur HDFS à l'aide de HiveContext et DataFrameWriter. Bien que nous puissions utiliser
df.write().orc(<path>)
nous préférons faire quelque chose comme
df.write().options(Map("format" -> "orc", "path" -> "/some_path")
C'est pour que nous ayons la flexibilité de changer le format ou le chemin racine en fonction de l'application qui utilise cette bibliothèque d'assistance. Où pouvons-nous trouver une référence aux options qui peuvent être passées dans DataFrameWriter? Je n'ai rien trouvé dans les documents ici
Où pouvons-nous trouver une référence aux options qui peuvent être passées dans DataFrameWriter?
La réponse la plus définitive et faisant autorité sont les sources :
Une description que vous pouvez trouver dans les documents, mais il n'y a pas une seule page (qui pourrait éventuellement être générée automatiquement à partir des sources pour rester le plus à jour).
La raison étant que les options sont séparées de l'implémentation du format exprès pour avoir la flexibilité que vous souhaitez offrir par cas d'utilisation (comme vous l'avez dûment noté):
C'est pour que nous ayons la flexibilité de changer le format ou le chemin racine en fonction de l'application qui utilise cette bibliothèque d'assistance.
Votre question semble similaire à Comment connaître les formats de fichiers pris en charge par Databricks? où j'ai dit:
Où puis-je obtenir la liste des options prises en charge pour chaque format de fichier?
Ce n'est pas possible car il n'y a pas API à suivre (comme dans Spark MLlib) pour définir les options. Chaque format ne cela seul ... malheureusement et votre meilleur pari est de lire la documentation ou (plus faisant autorité) le code source.