Apache-maven-3.3.3 installé, scala 2.11.6, puis exécuté:
$ git clone git://github.com/Apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package
Finalement:
$ git clone https://github.com/Apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests
Puis a exécuté le serveur:
$ bin/zeppelin-daemon.sh start
Exécution d'un simple bloc-notes commençant par %pyspark
, J'ai une erreur à propos de py4j
introuvable. Juste fait pip install py4j
( ref ).
Maintenant, je reçois cette erreur:
pyspark is not responding Traceback (most recent call last):
File "/tmp/zeppelin_pyspark.py", line 22, in <module>
from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf
J'ai essayé de régler mon SPARK_HOME
à: /spark/python:/spark/python/lib
. Pas de changement.
Deux variables d'environnement sont requises:
SPARK_HOME=/spark
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.Zip:$PYTHONPATH