web-dev-qa-db-fra.com

parquet

Comment convertir un fichier csv en parquet

Index en parquet

Comment diviser des fichiers de parquet en plusieurs partitions dans Spark?

comment lire un fichier parquet, en autonome Java?

Avro vs. Parquet

Comment lire une collection imbriquée dans Spark

Comment lire un parquet en R et le convertir en R DataFrame?

Comment gérer des tâches trop longues (par rapport aux autres dans un travail) dans fil-client?

Parquet vs ORC vs ORC avec Snappy

Méthodes d'écriture de fichiers de parquet avec Python?

Lecture de DataFrame à partir d'un fichier de parquet partitionné

Comment lire un fichier Parquet dans Pandas DataFrame?

Comment puis-je obtenir les noms de schéma/colonne du fichier parquet?

Pouvons-nous charger le fichier Parquet directement dans Hive?

Ajouter de nouvelles données à des fichiers de parquet partitionnés

Spark SQL - Différence entre les formats de compression gzip, snappy et lzo

Exception d'étincelle: la tâche a échoué lors de l'écriture des lignes

Inspecter le parquet depuis la ligne de commande

Quels sont les avantages et les inconvénients du format parquet par rapport aux autres formats?

L'utilisation de Spark pour écrire un fichier parquet sur s3 sur s3a est très lente

Lecture de fichiers de parquet à partir de plusieurs répertoires dans Pyspark

Évolution du schéma au format parquet

comment fusionner plusieurs fichiers de parquet en un seul fichier de parquet à l'aide de la commande linux ou hdfs?

Plusieurs travaux d'étincelle ajoutant des données de parquet au même chemin de base avec partitionnement

Comment contrôlez-vous la taille du fichier de sortie?

Comment ajouter des données à un fichier parquet existant

Spark SQL saveAsTable n'est pas compatible avec Hive lorsque la partition est spécifiée

Comment copier et convertir des fichiers parquet en csv

le parquet en étincelle écrit devient lent à mesure que les cloisons se développent

Spark 2.0 déconseille l'utilisation de 'DirectParquetOutputCommitter', comment s'en passer?

créer des limes de parquet en java

Objet Json au format Parquet en utilisant Java sans conversion en AVRO (sans utiliser Spark, Hive, Pig, Impala)

Comment gérer le changement de schéma de parquet dans Apache Spark

Python: enregistrer pandas dataframe dans un fichier parquet

SPARK DataFrame: comment diviser efficacement la trame de données pour chaque groupe en fonction des mêmes valeurs de colonne

Comment partitionner et écrire DataFrame dans Spark sans supprimer les partitions sans nouvelles données?)

Est-il préférable d'avoir une grande lime à parquet ou beaucoup de petites limes à parquet?

Comment enregistrer un fichier de parquet partitionné dans Spark 2.1?

Impossible d'inférer le schéma lors du chargement du fichier Parquet

Comment lire des fichiers de parquet partitionnés de S3 en utilisant pyarrow en python

Spark: Lecture du fichier uniquement si le chemin existe

Données imbriquées dans Parquet avec Python

Ecrire du parquet de AWS Kinesis firehose vers AWS S3

En utilisant pyarrow comment ajouter un fichier parquet?

Quelles sont les différences entre plume et parquet?

Un moyen efficace de lire des colonnes spécifiques du fichier parquet dans spark

Comment convertir de nombreux fichiers CSV en parquet à l'aide d'AWS Glue

Comment forcer les types de parquet lors de la sauvegarde de pd.DataFrame?

Convertissez csv en fichier parquet en utilisant python

Comment identifier le backend des Pandas pour Parquet

Spark maintient-il le partitionnement du parquet en lecture?

Comment visualiser le fichier Apache Parquet sous Windows?

Une comparaison entre fastparquet et pyarrow?

Spark enregistrer (écrire) parquet un seul fichier

Écraser les fichiers de parquet du cadre dynamique dans AWS Glue

Stockage des données dans des fichiers HBase vs Parquet

Comment écrire un fichier de parquet de pandas dataframe en S3 en python

Que fait MSCK REPAIR TABLE dans les coulisses et pourquoi c'est si lent?

Comment écrire le type logique TIMESTAMP (INT96) sur parquet, en utilisant ParquetWriter?

Impossible de lire un fichier de parquet

Différence entre parquet Apache et flèche

Utilisation des prédicats pour filtrer des rangées de Pyarrow.Parquet.Parquet.ParquetTataSett

Python Erreur lors de l'utilisation de Pyarrow - ArrownoImplementedError: Prise en charge du codec 'Snappy' non construit