Azure Data Lake Analytics et Azure Databricks peuvent tous deux être utilisés pour le traitement par lots. Quelqu'un pourrait-il m'aider à comprendre quand choisir l'un plutôt que l'autre?
À mon humble avis, cela se résume en grande partie aux compétences existantes. Si vous avez une équipe expérimentée dans Spark, Java, Python, r ou Scala alors Databricks est un choix naturel. Si, d'autre part, vous avez une équipe avec des compétences SQL et c # existantes, alors le la courbe d'apprentissage pour eux avec U-SQL sera moins abrupte.
Cela mis à part, il y a d'autres questions qui peuvent éliminer les différences:
MISE À JOUR octobre 2018 : Pour autant que je sache, U-SQL ne prend pas actuellement en charge ADLS Gen 2, ce qui serait contre (heureux d'être corrigé) ). Je mettrai à jour le message si et lorsque ce support sera ajouté.
MISE À JOUR janvier 2019 : U-SQL n'a pas eu de mises à jour significatives depuis printemps 2018 .
HTH
Databricks a plus d'options linguistiques qui permettent à un professionnel avec différentes compétences de travailler sur les données. De plus, avec des databricks, vous pouvez exécuter des travaux avec des clusters en mémoire hautes performances.
Dans un projet, nous utilisons davantage le lac de données comme stockage et effectuons tous les travaux (ETL, analyse) via le bloc-notes Databricks. Stocker des données dans Data Lake coûte moins cher $.
Revenons à vos questions, si un travail par lots complexe, et différents types de professionnels travailleront sur les données que vous. Vous pouvez choisir une architecture Azure Data Lake + Databricks. Sinon, un Azure Data Lake satisferait vos besoins.
Jetez un oeil à ces 2 articles serait utile. https://databricks.com/glossary/data-lakehttps://visualbi.com/blogs/Microsoft/Azure/etl-Azure-databricks-vs-data-lake- analytique /