Qu'est-ce que la bibliothèque de versions spark SparkSession pris en charge

Question

Code Spark avec SparkSession.

 import org.Apache.spark.SparkConf import org.Apache.spark.SparkContext val conf = SparkSession.builder .master("local") .appName("testing") .enableHiveSupport() // <- enable Hive support. .getOrCreate()

Code pom.xml

<project xmlns="http://maven.Apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.Apache.org/POM/4.0.0 http://maven.Apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.cms.spark</groupId> <artifactId>cms-spark</artifactId> <version>0.0.1-SNAPSHOT</version> <name>cms-spark</name> <pluginRepositories> <pluginRepository> <id>scala-tools.org</id> <name>Scala-tools Maven2 Repository</name> <url>http://scala-tools.org/repo-releases</url> </pluginRepository> </pluginRepositories> <dependencies> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-sql_2.10</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>com.databricks</groupId> <artifactId>spark-csv_2.10</artifactId> <version>1.4.0</version> </dependency> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-Hive_2.10</artifactId> <version>1.5.2</version> </dependency> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.8.3</version> </dependency> </dependencies> <build> <plugins> <plugin> <artifactId>maven-Assembly-plugin</artifactId> <version>2.5.3</version> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs> </configuration> <executions> <execution> <id>make-Assembly</id> <!-- this is used for inheritance merges --> <phase>install</phase> <!-- bind to the packaging phase --> <goals> <goal>single</goal> </goals> </execution> </executions> </plugin> </plugins> </build> </project>

J'ai un problème. Je crée du code spark avec SparkSession, je reçois des problèmes que SparkSession ne trouve pas dans la bibliothèque SparkSql. Je ne peux donc pas exécuter de code spark. Je me demande quelle version pour trouver SparkSession dans la bibliothèque Spark. Je donne du code pom.xml.

Merci.

mat77 · Answer

vous avez besoin d'artefacts de base et SQL

<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> <dependencies> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.0.0-cloudera1-SNAPSHOT</version> </dependency> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.0.0-cloudera1-SNAPSHOT</version> </dependency> </dependencies>

Vitalii Kotliarenko · Answer

Vous avez besoin de Spark 2.0 pour utiliser SparkSession . Il est disponible dans le référentiel d'instantanés central de Maven comme pour l'instant:

groupId = org.Apache.spark artifactId = spark-core_2.11 version = 2.0.0-SNAPSHOT

La même version doit être spécifiée pour les autres artefacts Spark. Notez que 2.0 est toujours en version bêta et devrait être stable dans environ un mois, AFAIK.

Mise à jour. Alternativement, vous pouvez utiliser le fork Cloudera de Spark 2.0:

groupId = org.Apache.spark artifactId = spark-core_2.11 version = 2.0.0-cloudera1-SNAPSHOT

Le référentiel Cloudera doit être spécifié dans votre liste de référentiels Maven:

<repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository>