Au début, j'ai un VM auquel j'accède via Ubuntu, et ce VM est également Ubuntu 14.04. J'ai besoin d'installer Apache Spark dès que possible, mais je ne trouve rien qui puisse m'aider ou me donner des références qui expliquent le mieux. J'ai essayé une fois de l'installer sur ma machine locale Ubuntu 14.04 mais cela a échoué, mais le fait est que je ne veux pas l'installer sur un cluster.
Vous pouvez installer et commencer à utiliser spark en trois étapes faciles:
Accédez au dossier téléchargé à partir du terminal et exécutez la commande suivante:
tar -xvf spark-x.x.x.tgz //replace x's with your version
Accédez au dossier extrait et exécutez l'une des commandes suivantes:
./bin/spark-Shell // for interactive scala Shell
./bin/pyspark // for interactive python Shell
Vous êtes maintenant prêt à jouer avec spark.
Le processus à suivre est principalement le suivant:
Assurez-vous que la version 7 ou 8 de Java Development Kit est installée.
Dans l'étape suivante, installez Scala.
Et puis ajoutez ce qui suit à la fin du fichier ~/.bashrc
export SCALA_HOME=<path to Scala home>
export PATH=$SCALA_HOME/bin:$PATH
redémarrer bashrc.
$ . .bashrc
Dans l'étape suivante, installez git. La construction d'étincelles dépend de git.
Sudo apt-get install git
Enfin, téléchargez la distribution d’étincelles de ici
$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz
$ tar xvf spark-1.4.0.tgz
SBT (Simple Build Tool) est utilisé pour construire Spark, qui est fourni avec. Compiler le code
$ cd spark-1.4.0
$ build/sbt Assembly
Construire prend du temps.
Référez-vous à ce billet de blog , ici vous pouvez trouver des étapes plus détaillées pour installer Apache Spark sur Ubuntu-14.04
Ce message explique les étapes détaillées pour configurer Apache Spark-2.0 sur une machine Ubuntu/Linux. Pour exécuter Spark sur une machine Ubuntu, Java et Scala doivent être installés. Spark peut être installé avec ou sans Hadoop. Dans cet article, nous ne traiterons que de l’installation de Spark 2.0 Standalone. L'installation de Spark-2.0 sur Hadoop est expliquée dans un autre article. Nous verrons également comment installer des blocs-notes Jupyter pour exécuter des applications Spark avec Python avec le module pyspark . Commençons par vérifier et installer Java et scala.
$ scala -version
$ Java –version
Ces commandes devraient vous imprimer les versions si scala et Java sont déjà installés, sinon vous pouvez les installer à l’aide des commandes suivantes.
$ Sudo apt-get update
$ Sudo apt-get install Oracle-Java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ Sudo mkdir /usr/local/src/scala
$ Sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/
Vous pouvez à nouveau vérifier, à l'aide des commandes –version, si Java et scala sont installés correctement et afficheront – Scala code runner version 2.10.4 - Copyright 2002-2013, LAMP/EPFL et pour Java, il convient de l'afficherJava version "1.8.0_101" Environnement d'exécution Java SE (version 1.8.0_101-b13) Serveur 64 bits Java HotSpot (TM) VM (version 25.101-b14, mode mixte) Et mettez à jour le fichier .bashrc en ajoutant ces lignes à la fin.
export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
Et redémarrez bashrc en utilisant cette commande
$ . .bashrc
Installation de Spark Commencez par télécharger Spark à partir de https://spark.Apache.org/downloads.html en utilisant ces options Spark Realease: 2.0.0 Type de package: préconfiguré avec Hadoop 2.7 et Direct Télécharger.
Maintenant, allez à $ HOME/Downloads et utilisez la commande suivante pour extraire le fichier spark et le déplacer vers l’emplacement donné.
$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/`
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark
Ajoutez la ligne suivante au fichier ~/.bashrc. Cela signifie qu’il faut ajouter l’emplacement où se trouvent les fichiers du logiciel spark à la variable PATH.
export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH
Relancez à nouveau l’environnement .bashrc en utilisant ces commandes source ~/.bashrc
ou
. .bashrc
Maintenant, vous pouvez démarrer spark-Shell en utilisant ces commandes
$spark-Shell for starting scala API
$ pyspark for starting Python API
Je l'ai fait fonctionner en créant un projet Maven, puis j'ai inséré la dépendance de spark dans le fichier pom.xml. C’est ainsi que cela a fonctionné pour moi, car je devais programmer avec Java et non avec Scala.
Vous pouvez commencer par aller à http://spark.Apache.org/downloads.html pour télécharger Apache Spark. Si vous n'avez pas de cluster/d'installation Hadoop existant que vous devez exécuter, vous pouvez sélectionner l'une des options. Cela vous donnera un fichier .tgz que vous pouvez extraire avec tar -xvf [filename]
. À partir de là, vous pouvez lancer spark Shell et démarrer en mode local. Vous trouverez plus d'informations dans le guide de démarrage à l'adresse http://spark.Apache.org/docs/latest/ .