web-dev-qa-db-fra.com

hadoop-partitioning

Dans Apache Spark, pourquoi RDD.union ne conserve-t-il pas le partitionneur?

À quoi sert le comparateur de regroupement dans la carte hadoop

carte hadoop réduire le tri secondaire

Apache Spark: Obtenez le nombre d'enregistrements par partition

Hadoop Java Error: Exception dans le thread "principal" Java.lang.NoClassDefFoundError: WordCount (nom incorrect: org/myorg/WordCount)

DataNode ne démarre pas dans un seul nœud hadoop 2.6.0

Hive FAILED: La ligne ParseException 2: 0 ne peut pas reconnaître une entrée proche de '' macaddress '' 'CHAR' '(' dans la spécification de colonne

Quand utiliser le partitionnement d'espace binaire, Quadtree, Octree?

Qu'est-ce que le partitionnement MYSQL?

Informations de partition de cmd

Existe-t-il un moyen de scinder les résultats d’une requête de sélection en deux parties égales?

MAX () et MAX () OVER PARTITION BY génère l'erreur 3504 dans la requête Teradata

Comment savoir si un répertoire ou un fichier est monté / partitionné? (Serveur Linux)

Un tableau avec 80 millions d’enregistrements et l’ajout d’un index prend plus de 18 heures (ou indéfiniment)! Maintenant quoi?

Liste de partition LINQ en listes de 8 membres

équivalent en python de filter () obtenant deux listes de sortie (c'est-à-dire la partition d'une liste)

Moyen efficace de diviser une liste en listes de taille n

comment partitionner une table par colonne datetime?

Pandas: Échantillonnage d'un DataFrame

Remplir un disque avec une partition ext4 dans un script

Échec de la tentative de redimensionnement du volume EB 2fs

comment supprimer une partition sans perdre de données dans MySQL?

Cassandra: choisir une clé de partition

Partitionnement de base de données - Horizontal vs vertical - Différence entre la normalisation et le fractionnement de lignes?

Partage de base de données vs partitionnement

Comment mettre à jour les métadonnées de partition dans Hive, lorsque les données de partition sont supprimées manuellement de HDFS

Zookeeper est-il un must pour Kafka?

impossible de redimensionner la partition racine sur les centos EC2

Oracle Partition - Erreur ORA14400 - la clé de partition insérée ne correspond à aucune partition

Comment définir le partitionnement de DataFrame?

Liste de partitions Java 8

Comment fonctionne HashPartitioner?

Comment exécuter du SQL brut dans une migration Django

Comment partitionner une table par mois ("Both" YEAR & MONTH) et créer automatiquement des partitions mensuelles?

Comment définir le nombre de partitions/nœuds lors de l'importation de données dans Spark

pyspark partitionnement des données à l'aide de partitionby

Comment contrôler la taille de la partition dans Spark SQL

Dans Oracle SQL, puis-je interroger une partition d'une table au lieu d'une table entière pour accélérer son exécution?

Spark SQL saveAsTable n'est pas compatible avec Hive lorsque la partition est spécifiée

Déterminer le nombre optimal de partitions Spark en fonction des travailleurs, des cœurs et de la taille de DataFrame

le parquet en étincelle écrit devient lent à mesure que les cloisons se développent

Gestion de très grandes données avec mysql

Comment effectuer une opération sur chaque exécuteur une fois dans spark

Spark SQL - Différence entre df.repartition et DataFrameWriter partitionBy?

Évitez l'impact sur les performances d'un mode de partition unique dans les fonctions de fenêtre Spark

Comment partitionner et écrire DataFrame dans Spark sans supprimer les partitions sans nouvelles données?)

Comment créer une nouvelle partition avec Ansible

Quel est l'algorithme utilisé par la fonction ORA_HASH?

Données de partition pour une jonction efficace pour Spark dataframe / dataset

Spark connaît-il la clé de partitionnement d'un DataFrame?

Quelle est la meilleure façon de diviser une collection en 2 collections différentes?

Spark maintient-il le partitionnement du parquet en lecture?

Clé de partition Azure Cosmos DB - la clé primaire est-elle acceptable?

Comment optimiser le partitionnement lors de la migration de données depuis une source JDBC?

Comment migrer une table Postgres existante vers une table partitionnée de la manière la plus transparente possible?

Clé étrangère PostgreSQL 11 sur les tables de partitionnement

Partitionnement automatique par jour - PostgreSQL

Monter une partition ext4 native dans WSL2

Algorithme efficace pour obtenir le nombre de partitions d'entier avec des parties distinctes (fonction de partition Q)

Existe-t-il un .NET équivalent à Apache Hadoop?

Comment fonctionne l'algorithme de tri MapReduce?

Java vs Python sur Hadoop

Écrire des données sur Hadoop

Stockage d'images évolutif

Hadoop une carte et multiples Réduire

Que devrait être hadoop.tmp.dir?

Où HDFS stocke les fichiers localement par défaut?

Chaînage de plusieurs emplois MapReduce à Hadoop

Changer la taille du bloc du fichier DFS

Grands ensembles de données gratuits pour expérimenter avec Hadoop

Comment Hadoop effectue-t-il le fractionnement des entrées?

Où le framework hadoop mapreduce envoie-t-il mes instructions System.out.print ()? (stdout)

Différence entre porc et ruche? Pourquoi avoir les deux?

Pig Latin: chargez plusieurs fichiers d'une plage de dates (partie de la structure de répertoires)

Fusion de plusieurs fichiers en un seul dans Hadoop

Hive a-t-il une fonction de partage de chaîne?

Comment utiliser le type de données map dans Apache Pig?

Hadoop Streaming Job a échoué en python

Hadoop copier un répertoire?

Récupération en mode sécurisé Hadoop - prend trop de temps!

Où Hive stocke-t-il les fichiers dans HDFS?

Erreur HDFS: n'a pu être répliqué que sur 0 nœud au lieu de 1

Comment convertir un fichier .txt au format de fichier de séquence Hadoop

Créer une table temporaire dans Hive?

Hadoop, comment compresser la sortie du mappeur mais pas la sortie du réducteur

fusionner les fichiers de sortie après la phase de réduction

Juste assez Java pour Hadoop

Comment résoudre «La tentative de tâche_201104251139_0295_r_000006_0 n'a pas pu signaler l'état pendant 600 secondes».

Itérer deux fois sur les valeurs (MapReduce)

Rechercher/Trouver un fichier et son contenu dans Hadoop

COLLECT_SET () dans Hive, conserver les doublons?

La façon de vérifier la taille d'un répertoire HDFS?

Qu'est-ce que le Dremel de Google? En quoi est-il différent de Mapreduce?

Définition du nombre de tâches de carte et réduction des tâches

Hadoop sur OSX "Impossible de charger les informations de domaine depuis SCDynamicStore"

Hadoop: compresser le fichier en HDFS?

Traitement de données à grande échelle Hbase vs Cassandra

Comment copier des fichiers de S3 vers Amazon EMR HDFS?

LeaseExpiredException: aucune erreur de bail sur HDFS

Comment charger des données sur Hive à partir de HDFS sans supprimer le fichier source?