web-dev-qa-db-fra.com

emr

Comment créer une table Hive à partir de données JSON?

Spark + EMR utilisant le paramètre "maximiserResourceAllocation" d'Amazon n'utilise pas tous les cœurs/vcores

Boosting spark.yarn.executor.memoryOverhead

"Conteneur tué par YARN pour dépassement des limites de la mémoire. 10,4 Go de mémoire physique utilisée)" sur un cluster EMR avec 75 Go de mémoire

collect () ou toPandas () sur un grand DataFrame dans pyspark / EMR

Comment copier des fichiers de S3 vers Amazon EMR HDFS?

Exportation de la table Hive dans un compartiment S3

Hive a-t-il quelque chose d'équivalent à DUAL?

Comment gérer les champs entre guillemets (CSV) lors de l'importation de données de S3 dans DynamoDB à l'aide d'EMR/Hive

Compresser le fichier sur S3

Pyspark --py-files ne fonctionne pas

Comment sélectionner un fichier d'aws s3 en utilisant un caractère sauvage

Où sont les journaux Spark sur EMR?

Ressources Spark non entièrement allouées sur Amazon EMR

Le rapport d'application pour application_ (état: ACCEPTED) ne se termine jamais pour Spark Submit (avec Spark 1.2.0 sur YARN)

Spark UI sur AWS EMR

Comment bootstrap installation des modules Python sur Amazon EMR?)

Comment redémarrer le fil sur AWS EMR

Spark à la fin du mode fil avec "Etat de sortie: -100. Diagnostics: conteneur libéré sur un noeud * perdu *"

Spark 2.0 déconseille l'utilisation de 'DirectParquetOutputCommitter', comment s'en passer?

Comment gérer le changement de schéma de parquet dans Apache Spark

Comment faire en sorte que Zeppelin redémarre proprement sur un cluster EMR?

La requête SQL dans Spark / scala Size dépasse Integer.MAX_VALUE

Temps d'écriture S3 extrêmement lent depuis EMR / Spark

EMR Spark - TransportClient: échec d'envoi de RPC

Comment exécuter spark submit sur Amazon EMR à partir de la fonction Lambda?

Comment régler spark job sur EMR pour écrire rapidement d'énormes données sur S3

Étrange spark ERREUR sur AWS EMR

Pouvons-nous considérer AWS Glue comme un remplacement pour EMR?

Tarification d'AWS Glue par rapport à AWS EMR

L'enregistrement de la trame de données dans le système de fichiers local entraîne des résultats vides

Impossible d'obtenir un SparkContext dans le nouveau cluster AWS EMR

l'erreur pyspark n'existe pas dans l'erreur JVM lors de l'initialisation de SparkContext

Comment soumettre des travaux Spark au cluster EMR à partir d'Airflow?

comment définir livy.server.session.timeout sur le bootstrap du cluster EMR?

Les blocs-notes EMR installent des bibliothèques supplémentaires

Comment faire pour que matplotlib fonctionne dans le bloc-notes Jupyter AWS EMR?

Limites de simultanéité AWS Athena: nombre de requêtes soumises VS nombre de requêtes en cours d'exécution

aws: le cluster EMR échoue "ERROR UserData: erreur rencontrée lors de la tentative d'obtention des données utilisateur" lors de la soumission de la tâche spark

ValueError: Point d'extrémité non valide: https: //s3..amazonaws.com

La session n'est pas active Pyspark dans un cluster AWS EMR