Existe-t-il des dépendances entreSparketHadoop?
Sinon, y a-t-il des fonctionnalités qui me manqueront lorsque je lanceraiSparkwithoutHadoop?
Spark peut fonctionner sans Hadoop, mais certaines de ses fonctionnalités reposent sur le code de Hadoop (par exemple, la gestion des fichiers Parquet). Nous utilisons Spark on Mesos et S3, ce qui était un peu difficile à installer mais fonctionne vraiment bien une fois l’opération terminée (vous pouvez lire un résumé de ce qui est nécessaire pour le configurer correctement ici ).
Spark est un moteur informatique distribué en mémoire.
Hadoop est un cadre pour le stockage distribué (HDFS) et le traitement distribué (FIL).
_ {Spark peut fonctionner avec ou sans composants Hadoop (HDFS/YARN))
Comme Spark ne possède pas son propre système de stockage distribué, il doit dépendre de l'un de ces systèmes de stockage pour l'informatique distribuée.
S3 - Travaux par lots non urgents. S3 s'adapte à des cas d'utilisation très spécifiques lorsque la localisation des données n'est pas critique.
Cassandra - Idéal pour l’analyse en continu des données et une surexploitation pour les travaux par lots.
HDFS - Idéal pour les travaux par lots sans compromettre la localisation des données.
Vous pouvez exécuter Spark dans trois modes différents: Standalone, YARN et Mesos
Consultez la question SE ci-dessous pour une explication détaillée sur le stockage distribué et le traitement distribué.
Par défaut, Spark n’a pas de mécanisme de stockage.
Pour stocker des données, un système de fichiers rapide et évolutif est nécessaire. Vous pouvez utiliser S3 ou HDFS ou tout autre système de fichiers. Hadoop est une option économique en raison de son faible coût.
De plus, si vous utilisez Tachyon, cela augmentera les performances avec Hadoop. Il est fortement recommandé Hadoop pour Apache spark processing .
Oui, l'étincelle peut fonctionner sans hadoop. Toutes les fonctionnalités d'étincelle principales continueront de fonctionner, mais vous manquerez de choses, comme la distribution facile de tous vos fichiers (code ainsi que des données) sur tous les nœuds du cluster via hdfs, etc.
Oui, vous pouvez installer Spark sans Hadoop . Ce serait un peu délicat Vous pouvez indiquer à arnon link d’utiliser parquet pour configurer S3 en tant que stockage de données . http://arnon.me/2015/08/spark-parquet-s3/
Spark effectue uniquement le traitement et utilise la mémoire dynamique pour effectuer la tâche, mais pour stocker les données, vous avez besoin d'un système de stockage de données. Ici, hadoop joue le rôle de Spark, il fournit le stockage pour Spark ..__ Une autre raison d'utiliser Hadoop avec Spark est qu'ils sont open source et que les deux peuvent s'intégrer facilement l'un de l'autre, par comparaison avec d'autres systèmes de stockage de données. Pour d’autres systèmes de stockage comme S3, vous devriez avoir du mal à le configurer comme indiqué dans le lien ci-dessus.
Mais Hadoop a aussi son unité de traitement appelée Mapreduce.
Voulez-vous connaître la différence dans les deux?
Consultez cet article: https://www.dezyre.com/article/hadoop-mapreduce-vs-Apache-spark-who-wins-the-battle/83
Je pense que cet article va vous aider à comprendre
quoi utiliser,
quand utiliser et
comment utiliser !!!
Selon la documentation de Spark, Spark peut s'exécuter sans Hadoop.
Vous pouvez l'exécuter en mode autonome sans aucun gestionnaire de ressources.
Mais si vous souhaitez exécuter une configuration multi-nœuds, vous avez besoin d'un gestionnaire de ressources tel que YARN ou Mesos et d'un système de fichiers distribué tel que HDFS, S3, etc.
Oui bien sûr. Spark est un framework de calcul indépendant. Hadoop est un système de stockage de distribution (HDFS) avec la structure de calcul MapReduce. Spark peut obtenir des données de HDFS, ainsi que de toute autre source de données telle qu'une base de données traditionnelle (JDBC), kafka ou même un disque local.
Oui, Spark peut fonctionner avec ou sans l'installation de Hadoop. Pour plus de détails, vous pouvez visiter - https://spark.Apache.org/docs/latest/