web-dev-qa-db-fra.com

Modélisation dimensionnelle et ETL dans Redshift

J'ai fait des recherches sur la base de données de RedShift d'Amazon comme un remplacement futur possible de notre entrepôt de données. Mon expérience a toujours été utilisée par la modélisation dimensionnelle et les méthodes de Ralph Kimball. Il était donc un peu bizarre de voir que RedShift ne prend pas en charge les fonctionnalités telles que le type de données série pour une incrémentation automatique des colonnes.

Cependant, il y a ce dernier article de blog de l'AWS Big Data Blog sur la façon d'optimiser RedShift pour un schéma d'étoiles: https://blogs.aws.amazon.com/bigdata/post/tx1wzp38erpgk5k/Optimizing-for -Star-schémas-and-interlalevé-tri-sort-on-amazon-redshift

La question que j'ai concerne quelle est la meilleure pratique pour charger un schéma d'étoiles à Redshift? Je ne peux pas trouver cette réponse dans aucune des documents de Redshift.

Je me penche vers l'importation de mes fichiers de S3 dans des tables de stadification, puis utilisez SQL pour effectuer les transformations telles que des recherches et générer des touches de substitution avant d'insérer dans les tables de destination.

Est-ce ce que font actuellement les autres? Y a-t-il un outil d'ETL qui vaut l'argent pour faciliter cela?

9
njkroes

Je suis actuellement en train de traiter avec une tâche similaire. Il est de construire un modèle de processus et de conception de l'ETL. J'ai étudié beaucoup pour la meilleure façon de gérer et de trouver une source de techniques utiles incroyable que nous devrions définitivement appliquer lorsque vous travaillez avec MPP.

Pour répondre à la question

La question que j'ai concerne quelle est la meilleure pratique pour charger un schéma d'étoiles à Redshift?

assurez-vous de jeter un oeil à cette ressource . Je parie que vous le trouverez incroyablement utile. Il s'agit d'un document de 35 pages avec des techniques puissantes pour tirer parti de l'utilisation de magasins Columinaires MPP. Il soutient les commentaires que vous voyez comme

Notez que RedShift fonctionne parfois mieux si vous avez une table large avec des valeurs répétées plutôt qu'un fait et des dimensions. La raison en est que l'approche colonne permet à Redshift compresser les différentes valeurs à un niveau assez efficace. Je n'ai pas de formule pour quand utiliser de nombreuses dimensions vs une table large à plat, la seule façon est de l'essayer et de voir!

commentaire de Jon Scott

J'espère que vous le trouverez aussi utile que moi

2
Joao Caxias

Pour ETL, il y a de la colle AWS. C'est un service ETL géré et sans serveur qui se charge à Redshift (entre autres).

https://aws.amazon.com/glue/

2
Joshua Guttman