web-dev-qa-db-fra.com

Apache Spark: Comment utiliser pyspark avec Python 3

J'ai construit Spark 1.4 à partir du maître de développement GH et la construction s'est bien déroulée. Mais quand je fais un bin/pyspark je reçois la version Python 2.7.9. Comment puis-je changer cela?

74
tchakravarty

Il suffit de définir la variable d'environnement:

export PYSPARK_PYTHON=python3

au cas où vous souhaiteriez un changement permanent, ajoutez cette ligne au script pyspark.

108
Rtik88
PYSPARK_PYTHON=python3 
./bin/pyspark

Si vous voulez exécuter dans IPython Notebook, écrivez:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

Si python3 n'est pas accessible, vous devez lui passer le chemin.

N'oubliez pas que le documentation actuelle (à partir de la version 1.4.1) contient des instructions obsolètes. Heureusement, il a été corrigé .

24
Piotr Migdal

1, modifier le profil: vim ~/.profile

2, ajoutez le code dans le fichier: export PYSPARK_PYTHON=python3

3, exécutez la commande: source ~/.profile

4, ./bin/pyspark

9
yangh

Regardez dans le dossier. La ligne Shebang est probablement dirigée vers le binaire 'env' qui recherche le chemin du premier exécutable compatible.

Vous pouvez remplacer python par python3. Modifiez env pour utiliser directement le binaire python3 codé en dur. Ou exécutez le binaire directement avec python3 et omettez la ligne Shebang.

4
rfkortekaas

Pour Jupyter Notebook, éditez le fichier spark-env.sh comme indiqué ci-dessous à partir de la ligne de commande

$ vi $SPARK_HOME/conf/spark-env.sh

Aller au bas du fichier et copier coller ces lignes

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

Ensuite, lancez simplement la commande suivante pour démarrer pyspark dans le cahier

$ pyspark
2
oya163