web-dev-qa-db-fra.com

Comment choisir entre Azure Data Lake Analytics et Azure Databricks

Azure Data Lake Analytics et Azure Databricks peuvent tous deux être utilisés pour le traitement par lots. Quelqu'un pourrait-il m'aider à comprendre quand choisir l'un plutôt que l'autre?

19
Pragmatic

À mon humble avis, cela se résume en grande partie aux compétences existantes. Si vous avez une équipe expérimentée dans Spark, Java, Python, r ou Scala alors Databricks est un choix naturel. Si, d'autre part, vous avez une équipe avec des compétences SQL et c # existantes, alors le la courbe d'apprentissage pour eux avec U-SQL sera moins abrupte.

Cela mis à part, il y a d'autres questions qui peuvent éliminer les différences:

  • Avez-vous besoin d'une interaction en temps réel (Databricks) ou d'une analyse en mode batch (les deux)? Bien qu'il existe un élément de rétroaction pour l'interactivité en temps réel pour U-SQL, veuillez voter .
  • Souhaitez-vous un modèle de paiement à l'utilisation (U-SQL) ou des clusters avec arrêt automatique après une certaine période (Databricks)?
  • Aimez-vous travailler dans un bloc-notes (Databricks) ou une méthode Visual Studio/VSCode/Powershell/.net sdk (U-SQL)?
  • Voulez-vous utiliser des bibliothèques Spark comme GraphX ​​(Databricks))?
  • Voulez-vous pouvoir exécuter et faire évoluer n'importe quel runtime (U-SQL)? Voir ici pour plus de détails.
  • Voulez-vous un émulateur de développement local (U-SQL)? L'émulateur U-SQL dans Visual Studio est transparent, c'est-à-dire que vous développez votre code par rapport à vos lecteurs locaux dans la même structure que votre lac (pour gratuit ), puis cliquez simplement sur le menu déroulant dans Visual Studio pour exécuter dans le cloud. Bien que je pense que vous pouvez avoir un environnement local Spark, je ne sais pas quelle est l'expérience de développement locale (et déconnectée) pour Databricks.
  • Utilisez-vous ADLS Gen 2 (uniquement Databricks)? Voir ici .

MISE À JOUR octobre 2018 : Pour autant que je sache, U-SQL ne prend pas actuellement en charge ADLS Gen 2, ce qui serait contre (heureux d'être corrigé) ). Je mettrai à jour le message si et lorsque ce support sera ajouté.

MISE À JOUR janvier 2019 : U-SQL n'a pas eu de mises à jour significatives depuis printemps 2018 .

HTH

29
wBob

Databricks a plus d'options linguistiques qui permettent à un professionnel avec différentes compétences de travailler sur les données. De plus, avec des databricks, vous pouvez exécuter des travaux avec des clusters en mémoire hautes performances.

Dans un projet, nous utilisons davantage le lac de données comme stockage et effectuons tous les travaux (ETL, analyse) via le bloc-notes Databricks. Stocker des données dans Data Lake coûte moins cher $.

Revenons à vos questions, si un travail par lots complexe, et différents types de professionnels travailleront sur les données que vous. Vous pouvez choisir une architecture Azure Data Lake + Databricks. Sinon, un Azure Data Lake satisferait vos besoins.

Jetez un oeil à ces 2 articles serait utile. https://databricks.com/glossary/data-lakehttps://visualbi.com/blogs/Microsoft/Azure/etl-Azure-databricks-vs-data-lake- analytique /

1
Wei-Hsuan Chou