Je parcourais les documents Microsoft:
https://docs.Microsoft.com/en-us/Azure/data-lake-store/data-lake-store-overview
Je suis nouveau sur Azure Data Lake et HDInsight. Il y a une déclaration dans l'URL qui dit que
"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."
Selon ma compréhension initiale, Data Lake Store est un magasin dans lequel tout type de données peut être stocké. Je pense que HDInsight fait aussi la même chose.
Ma question est quelle est la différence entre Azure Data Lake et Azure HDInsight? Si HDInsight peut être utilisé pour le stockage de fichiers ou pour tout type de stockage, pourquoi utiliser Data Lake? Ce serait formidable si quelqu'un pouvait préciser cela plus en détail. Merci.
La façon la plus simple de penser à Data Lake est de penser à ce grand conteneur qui ressemble à un vrai lac avec des rivières qui se jettent dans la rivière on ne sait jamais d'où proviennent les rivières (ni quel "type" de rivière ). Azure Data Lake a été introduit pour faciliter le Big Data aux développeurs, scientifiques de données et analystes, afin de stocker des données de toute taille. Il élimine les complexités liées à l’ingestion et au stockage de toutes vos données tout en accélérant la mise en place de Big Data}. Data Lake est capable de stocker la masse de différents types de données (données structurées, données non structurées, fichiers journaux, temps réel, images, etc.) et de les fusionner pour mettre en corrélation de nombreux types de données différents. Le point clé ici est que nous passons des méthodes traditionnelles aux outils modernes (comme Hadoop, Cassandra, NoSQL DB, etc.). Azure Data Lake comprend trois services:
Azure Data Lake Store ressemble à un service de fichiers basé sur un nuage ou à un système de fichiers dont la taille est à peu près illimitée. Nous pouvons exécuter des services sur les données contenues dans ce magasin. Vous pouvez donc utiliser Hadoop ou Spark dans un cluster HDInsight, ou vous pouvez utiliser le service analytique Azure Data Lake, qui est complémentaire à Azure Data Lake Store. En outre, ce service vous permet d'exécuter des travaux qui interrogent efficacement les données stockées dans le magasin Azure Data Lake et génèrent des résultats de sortie.
Azure Data Lake Store, n’est en réalité qu’un magasin de données. HDInsight peut également le faire dans le cluster que vous créez. Toutefois, lorsque vous arrêtez ce cluster, les données disparaissent également.
Il est courant que les clients utilisent Azure Data Lake Store ou Azure Storage pour fournir un stockage permanent distinct du cluster (calcul) utilisé pour traiter les données.
Gars
HDInsight est le service d'analyse, tandis qu'Azure Data Lake Storage est le service de stockage. Vous avez probablement besoin des deux pour disposer d'un cluster d'analyse fonctionnelle.
HDInsight fournit le cluster, gère entièrement les packages open source pour les analyses (Hadoop, Spark, etc.) et vous configurez votre cluster pour qu'il utilise Azure Data Lake Storage, qui prend en charge l'API HDFS (Hadoop FileSystem) au-dessus du stockage en cloud.
Azure Data Lake Storage Gen2 est ce que vous êtes censé commencer à regarder et qui fusionne les avantages d'Azure Storage et d'ADLS dans un seul service. - https://Microsoft.sharepoint.com/sites/infopedia/media/channels/kurt-delbene-on-compete
Documentation ADLS Gen 2 - https://docs.Microsoft.com/en-us/Azure/storage/data-lake-storage/introduction
Azure utilise une "méthode matérielle décomposée"
Vous pouvez associer ou supposer HDinsight en tant que cluster Hadoop et Azure Data Lake (ADL) en tant que HDFS. Mais ils sont détachés.
Hdinsight accède à l’ADL avec adl: //, et hdinsight jamais stockez les blocs de fichiers dans les nœuds (comme Hadoop), mais plutôt mappages au service de stockage.
Si vous arrêtez le cluster, le stockage ADL reste avec les fichiers qui y sont stockés. Vous pouvez accéder au stockage directement à l'aide d'un autre service ou outil (comme des briques Azure Data) ou vous pouvez créer un autre cluster hdinsight au-dessus des données.
En résumé,
Hdinsight est un service hadoop géré destiné à fournir une assistance informatique.
ADL est un service de stockage géré permettant de prendre en charge le stockage de fichiers volumineux (vous pouvez également choisir d’utiliser également des objets blobs. Toutefois, ces objets ont certaines limitations (la diffusion de fichiers vers un stockage via le cluster hdinsight n’est pas prise en charge)
Azure Data Lake Analytics fournit au serveur moins de calculs en utilisant Azure Data Lake Store pour le stockage de données, alors que dans HDInsight, nous devons spécifier et concevoir des noeuds Compute Virtual Machine conformément aux exigences de traitement. Il peut être avantageux pour les développeurs de travailler avec moins de calculs dans Azure Data Lake Analytics, dans la mesure où les besoins en dimensionnement du travail Analytics sont pris en charge immédiatement.