web-dev-qa-db-fra.com

comment lire un fichier parquet, en autonome Java?

les parquets de cloudera montrent des exemples d'intégration avec porc/ruche/impala. mais dans de nombreux cas, je veux lire le fichier parquet lui-même à des fins de débogage.

existe-t-il une simple Java api de lecteur pour lire un fichier parquet?

Merci Yang

15
teddy teddy

Ancienne méthode: (obsolète)

AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file);
GenericRecord nextRecord = reader.read();

Nouvelle méthode:

ParquetReader<GenericRecord> reader = AvroParquetReader.<GenericRecord>builder(file).build();
GenericRecord nextRecord = reader.read();

Je l'ai obtenu de ici et l'ai utilisé avec succès dans mes cas de test.

7
rishiehari

Vous pouvez utiliser AvroParquetReader de la bibliothèque parquet-avro pour lire un fichier parquet en tant qu'ensemble d'objets AVRO GenericRecord.

7
kostya