web-dev-qa-db-fra.com

Quelle est la différence entre S3 Select et Athena

J'essaie de comprendre quelle est la différence entre le service aws athena et le nouveau s3 select (toujours en avant-première). Et comment les cas d'utilisation sont-ils différents pour les deux? Il semble que les deux aident à sélectionner des données partielles de s3.

18
user3444718

Vous pouvez considérer AWS S3 Select comme une optimisation de stockage rentable qui permet de récupérer des données qui correspondent au prédicat dans S3 et glacier aka Filtrage push down.

AWS Athena est un service analytique entièrement géré qui permet d'exécuter des requêtes arbitraires conformes à la norme ANSI SQL - regrouper, avoir, fonctions de fenêtre et géo, SQL DDL et DML.

7
Sayat Satybald

Athena est (du peu que je l'ai utilisé) plus conçu comme un outil d'analyse ou de reporting commercial soutenu par S3.

S3 select semble utiliser le même type de technologie, mais je suppose qu'il vise plutôt une utilisation directe par les applications pour filtrer ou partager leurs ensembles de données.

3
mcfinnigan

S3 Select facilite la récupération de données spécifiques du contenu d'un objet à l'aide d'expressions SQL simples. Il n'est pas nécessaire de récupérer l'intégralité de l'objet. Cela peut être utilisé avec Lambda pour créer des applications sans serveur et peut être lié à des frameworks Big Data comme Apache Spark et Presto. Peut améliorer les performances jusqu'à 400%.

Amazon Athena est un service de requête interactif. Il est sans serveur. Pas besoin de charger des données dans Athena. Construit sur Presto et exécute SQL standard. Principalement utilisé pour analyser le Big Data.

2
Phoenix

Pour donner un aperçu selon ma compréhension:

Amazon Athena est un service de requête interactif qui facilite l'analyse des données dans Amazon S3 à l'aide de SQL standard. Athena est sans serveur, il n'y a donc aucune infrastructure à gérer et vous ne payez que pour les requêtes que vous exécutez.

L'avantage majeur de ceci à partir de maintenant est:

Athena est prêt à l'emploi intégré à AWS Glue Data Catalog, vous pouvez également utiliser les capacités ETL entièrement gérées de Glue pour transformer les données ou les convertir en formats en colonnes pour optimiser les coûts et améliorer les performances .

Maintenant, jusqu'où va le S3 Select:

  • À l'heure actuelle, l'utilisation de S3 Select est gratuite pendant la prévisualisation et il n'y a pas de définition de prix. Cependant, vous devrez postuler à la référence

  • Dans l'aperçu, S3 Select prend en charge les fichiers CSV, JSON et Parquet avec ou sans compression GZIP. Pendant l'aperçu, les objets chiffrés au repos ne sont pas pris en charge.

  • Étant donné que S3 Select est toujours en prévisualisation, AWS n'a pas de cas internes pour vérifier comment le service est utilisé. Cependant, je pourrais trouver une référence de n blog qui pourrait vous intéresser.

À mon avis, vous pouvez voir cette vidéo Twitch qui peut vous aider beaucoup.

2
Kush Vyas