web-dev-qa-db-fra.com

spark-avro

Comment utiliser le paquet spark-avro pour lire le fichier avro à partir de spark-shell?

Comment extraire le schéma d'un fichier AVRO en Java

Stockage de valeurs nulles dans des fichiers avro

Intégration de la diffusion structurée Spark au registre de schémas Confluent

La valeur du paramètre "spark.yarn.executor.memoryOverhead"?

Comment lire le fichier Avro dans PySpark

Évolution du schéma au format parquet

Comment convertir un RDD avec une colonne SparseVector en un DataFrame avec une colonne en tant que vecteur

Encoder et assembler plusieurs fonctionnalités dans PySpark

Erreur du codeur lors de la tentative de mappage de la ligne dataframe sur la ligne mise à jour

Spark DataFrame: groupBy après orderBy maintient-il cet ordre?

Spark 2.0 Dataset vs DataFrame

Performances du filtre Spark DataSet

Comment préparer des données au format LibSVM à partir de DataFrame?

Encodeur pour le type de ligne Spark Datasets

Comment changer la casse de la colonne entière en minuscule?

convertir des données au format libsvm

Nom de la colonne avec un point spark

Quels sont les différents types de jointure dans Spark?

Spark structurée en continu - joignez un ensemble de données statiques à un ensemble de données en continu

Données de partition pour une jonction efficace pour Spark dataframe / dataset

Quelles sont les principales différences entre Apache Thrift, Google Protocol Buffers, MessagePack, ASN.1 et Apache Avro?

Comment encoder / décoder les messages Kafka en utilisant l'encodeur binaire Avro?

Puis-je fractionner un schéma Apache Avro sur plusieurs fichiers?

Valeurs par défaut des champs Avro

Générer un schéma Avro à partir de certains objets Java

Comment créer un schéma contenant une liste d'objets en utilisant Avro?

Comment réparer l'union de démarrage attendue. Vous avez obtenu VALUE_NUMBER_INT lors de la conversion de JSON en Avro sur la ligne de commande?

Chaîne Json à Java Object Avro

Avro vs. Parquet

Conversion JSON en AVRO

Conversion générique de POJO à Avro Record

Quels sont les avantages et les inconvénients du format parquet par rapport aux autres formats?

Pourquoi nous avons besoin de l'évolution du schéma Avro

Désérialiser un fichier Avro avec C #

Thrift, Avro, Protocolbuffers - Sont-ils tous morts?

Type logique d'horodatage de l'API Java d'Avro?

Le référentiel Maven Confluent ne fonctionne pas?

KafkaAvroSerializer pour sérialiser Avro sans schema.registry.url

Avro avec Java 8 dates comme type logique

Création d'un schéma avro approprié pour l'enregistrement d'horodatage

Unnesting in SQL (Athena): Comment convertir un tableau de structures en un tableau de valeurs extraites des structures?

Kafka registre de schéma non compatible dans la même rubrique

Comment passer les paramètres d'un registre de schéma spécifique lors de l'utilisation de Kafka Avro Console Consumer?

"La phase $ ChangStream est uniquement prise en charge sur les séries de répliques" Erreur lors de l'utilisation de Mongodb-Source-Connect

lier dynamiquement variable/paramètre dans Spark SQL?

Mise à jour d'une colonne dataframe dans spark

Comment optimiser le déversement aléatoire dans Apache Spark application

Comment créer un bloc de données correct pour la classification dans Spark ML

Enregistrer le cadre de données Spark en tant que table partitionnée dynamique dans Hive

Différence entre DataFrame, Dataset et RDD dans Spark

inferSchema dans le paquet spark-csv

comment ajouter un identifiant de ligne dans des cadres de données pySpark

Drop spark dataframe from cache

Comment gérer les caractéristiques catégoriques avec spark-ml?

Optimisation de la jointure DataFrame - Rejoindre le hachage de diffusion

Comment convertir DataFrame en RDD en Scala?

Comment filtrer un spark dataframe contre un autre dataframe

Suppression d'une colonne imbriquée de Spark DataFrame

Comment croiser la validation du modèle RandomForest?

Groupe DataFrame / Dataset Par comportement / optimisation

Enregistrer le modèle ML pour une utilisation future

Meilleur moyen d'obtenir la valeur maximale dans une colonne de données Spark

Pyspark et PCA: Comment puis-je extraire les vecteurs propres de ce PCA? Comment puis-je calculer la variance expliquée?

Comment définir une fonction d'agrégation personnalisée pour additionner une colonne de vecteurs?

"INSERT INTO ..." avec SparkSQL HiveContext

Comment interroger la colonne de données JSON en utilisant Spark DataFrames?

Comment convertir DataFrame en Dataset dans Apache Spark en Java?

Convertir des valeurs nulles en tableau vide dans Spark DataFrame

Pourquoi l'erreur "Impossible de trouver l'encodeur pour le type stocké dans un ensemble de données" lors de l'encodage JSON à l'aide des classes de cas?

Spark: Ajouter une colonne à la structure de données conditionnellement

Décompresser une liste pour sélectionner plusieurs colonnes dans un cadre de données spark

Quelle est la différence entre HashingTF et CountVectorizer dans Spark?

conditions multiples pour le filtre dans les cadres de données d'allumage

Spark API de jeu de données - rejoindre

Comment stocker des objets personnalisés dans Dataset?

Comment joindre deux DataFrames dans Scala et Apache Spark?

SparkSQL: Puis-je exploser deux variables différentes dans la même requête?

Qu'est-ce que la bibliothèque de versions spark SparkSession pris en charge

Devons-nous paralléliser un DataFrame comme nous parallélisons une Seq avant de former

Comment importer plusieurs fichiers csv en un seul chargement?

Comment créer un encodeur personnalisé dans les jeux de données Spark 2.X?

Comment créer DataFrame à partir de la liste des itérations de Scala?

Comment diviser Vector en colonnes - à l'aide de PySpark

Ecraser des partitions spécifiques dans la méthode d'écriture spark dataframe

Comment utiliser orderby () avec un ordre décroissant dans les fonctions de fenêtre Spark?

Pourquoi "Impossible de trouver le codeur pour le type stocké dans un jeu de données" lors de la création d'un jeu de données de classe de cas personnalisé?

Quelle est la différence entre les packages Spark ML et MLLIB

Récupération de valeurs distinctes sur une colonne avec Spark DataFrame

Diviser la colonne de chaîne Spark Dataframe en plusieurs colonnes

Filtrer les lignes par des valeurs distinctes dans une colonne dans PySpark

AttributeError: l'objet 'DataFrame' n'a pas d'attribut 'map'

comment filtrer une valeur nulle de spark dataframe

Fournir un schéma lors de la lecture d'un fichier csv en tant que structure de données

Comment se connecter au serveur Hive distant depuis spark

scala.collection.mutable.WrappedArray $ ofRef ne peut pas être converti en entier

PySpark Comment lire CSV dans Dataframe et le manipuler

Lecture de fichiers csv avec des champs entre guillemets contenant des virgules incorporées

Quelles sont les raisons possibles pour recevoir TimeoutException: les contrats à terme ont expiré après [n secondes] lorsque vous utilisez Spark

Pourquoi spark dites-moi que "le nom 'sqlContext' n'est pas défini", comment puis-je utiliser sqlContext?