web-dev-qa-db-fra.com

Hadoop Vs Data Lake

J'ai entendu un nouveau terme Data Lake . J'ai googlé et j'ai eu ça 

Un lac de données est un référentiel de stockage à grande échelle et un moteur de traitement. Un lac de données fournit "un stockage massif pour tout type de données, une énorme puissance de traitement et la capacité de gérer des tâches ou des travaux simultanés pratiquement illimités"

Le terme lac de données est souvent associé au stockage d'objets orienté Hadoop. Dans un tel scénario, les données d'une organisation sont d'abord chargées dans la plate-forme Hadoop, puis des outils d'analyse commerciale et de fouille de données sont appliqués aux données là où elles résident sur les nœuds de cluster d'ordinateurs de base de Hadoop. 

La même chose est faite par Hadoop. Nous avons HDFS pour le stockage et MapReduce pour le calcul ... Je suis un peu confus à propos de Hadoop et de Data Lake. Quelle est la différence entre les deux. S'ils sont identiques, pourquoi ce terme? Ou comment définir un lac de données.

11
Kishore

Data Lake est une "idée" abstraite. Hadoop est une technologie/logiciel spécifique. Vous pouvez implémenter un lac de données en utilisant hadoop ou en utilisant un outil différent.

12
facha

Data Lake est une méthodologie de stockage de données dans un système facilitant la compilation de données dans des schémas et des formes structurelles variantes, généralement des objets ou des fichiers. 

Le concept d'un lac de données est étroitement lié à Apache Hadoop et à son écosystème de projets open source. Toutes les discussions sur le lac de données ont rapidement abouti à une description de la construction d'un lac de données en utilisant la puissance de l'écosystème Apache Hadoop. Il est devenu populaire car il offre un moyen rentable et techniquement réalisable de relever les défis du Big Data. Les organisations découvrent le lac de données comme une évolution de leur architecture de données existante.

Après le livre blanc sera un excellent exemple de la construction d’un lac de données avec Hadoop.

4
Praveen Kumar K S

La façon la plus simple de penser à Data Lake est de penser à ce grand conteneur qui ressemble à un véritable lac avec des rivières qui se jettent dans la rivière et dont vous ne savez jamais d'où proviennent les rivières (ni leur "type" de rivière). 

Data Lake est capable de stocker la masse de différents types de données (données structurées, données non structurées, fichiers journaux, temps réel, images, etc.) et de les fusionner pour mettre en corrélation de nombreux types de données différents. Le point clé ici est que nous passons des méthodes traditionnelles aux outils modernes ( comme Hadoop , Cassandra, NoSQL DB, etc.).

On crée tout un tas de données dont nous pourrions tirer parti si nous pouvions les analyser. Nous pouvons utiliser le nuage pour prendre ces données, les rassembler dans un magasin et les analyser. Dans Azure, nous avons le Azure Data Lake Store . Et nous pouvons prendre toutes ces données et les stocker dans Azure Data Lake Store. Azure Data Lake Store ressemble à un service de fichiers basé sur un nuage ou à un système de fichiers dont la taille est à peu près illimitée. 

Nous pouvons exécuter des services sur les données contenues dans ce magasin. Vous pouvez donc utiliser Hadoop ou Spark dans un cluster HDInsight ou le service analytique Azure Data Lake, qui est complémentaire à Azure Data Lake Store. En outre, ce service vous permet d'exécuter des travaux qui interrogent efficacement les données stockées dans le magasin Azure Data Lake et génèrent des résultats de sortie.

Azure Data Lake Store permet de stocker toutes les données que nous souhaitons analyser. Azure Data Lake Analytics en tant que service permettant d'exécuter des travaux qui interrogent ces données pour générer une sorte de sortie à analyser. Hadoop est une technologie spécifique / (technologie de cluster de traitement de données distribuée open source). Vous pouvez implémenter un lac de données en utilisant hadoop ou en utilisant un outil différent.

2
Nedzad G

Je dirais que cette question est trop semblable. 

"Oracle vs base de données".

Un lac de données est une méthode de stockage de données dans un système ou un référentiel . Hadoop se réfère à la théologie, Hadoop est un framework logiciel open source pour stocker des données ..__ le système de fichiers distribué utilisé dans Hadoop.

1