les parquets de cloudera montrent des exemples d'intégration avec porc/ruche/impala. mais dans de nombreux cas, je veux lire le fichier parquet lui-même à des fins de débogage.
existe-t-il une simple Java api de lecteur pour lire un fichier parquet?
Merci Yang
Ancienne méthode: (obsolète)
AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file);
GenericRecord nextRecord = reader.read();
Nouvelle méthode:
ParquetReader<GenericRecord> reader = AvroParquetReader.<GenericRecord>builder(file).build();
GenericRecord nextRecord = reader.read();
Je l'ai obtenu de ici et l'ai utilisé avec succès dans mes cas de test.
Vous pouvez utiliser AvroParquetReader
de la bibliothèque parquet-avro pour lire un fichier parquet en tant qu'ensemble d'objets AVRO GenericRecord
.