J'ai une certaine confusion quant à la manière de décider quoi choisir entre Data Consolidation/Data Integration
et Data Synchronisation
? Je sais que:
Intégration de consolidation/données de données : fait référence à la collecte et à l'intégration des données de plusieurs sources dans une seule destination. Au cours de ce processus, différentes sources de données sont réunies, ou consolidées, dans un seul magasin de données.
Synchronisation des données : désigne l'établissement de la cohérence entre les systèmes et les magasins de données et les mises à jour continues ultérieures pour maintenir la cohérence.
Supposons maintenant que j'ai un cas comme celui-ci concernant une entreprise:
- Les données sont présentes dans plusieurs sources Souvent souvent le département sage
- En raison de cette majorité de la société dépense dans la validation des données plutôt que sur une analyse utile pour la planification
- La définition de données varie également entre différentes sources
Maintenant, étant donné un tel cas qui vaut mieux utiliser - intégration de données/consolidation ou laisser les données dans différentes sources et synchroniser-la?
De plus, quelles autres informations utiles et pertinentes devrions-je rechercher cela pourraient aider à prendre la décision et à la manière dont ces informations supplémentaires réfléchiront à ma prise de décision?
En regardant cela à partir de la perspective de la fin de 2017, l'intégration des données serait un bon choix, associée à un examen des systèmes existants pour déterminer les candidats à des mises à niveau ou à des remplacements.
En utilisant un lac de données ou un entrepôt de données pour consolider les données commerciales importantes de chacun des systèmes disparates, vous fournissez aux utilisateurs une source unique de recherche et d'analyse. Les données sont validées dans le cadre du processus ETL et vous avez donc des contrôles et des soldes pour assurer des données de qualité. De plus, le déplacement de la requête et de l'analyse des systèmes opérationnels permet à leur pouvoir de se concentrer sur les transactions quotidiennes à jour.
Une autre alternative consiste à utiliser un système Elt (extrait, chargement, transformer). Cela peut ne pas convenir à tous ces systèmes disparates, mais il offre des avantages pour les compatibles. Elt déplacerait les données des systèmes opérationnels, puis effectuerait le processus de transformation ou transformerait le processus de transformation à la date de la requête. Cette approche facilite la charge de maintenance, car il n'y a pas de processus de transformation encombrant avant que les données ne soient disponibles pour les utilisateurs. Certains types de systèmes (la fonction et les types de données) sont probablement plus adaptés à ELT que d'autres. Pour mieux comprendre la différence, voici un bon article ETL/ELT 101 de Blog de Panopoly .
Pour garder l'entrepôt à jour, je vous recommanderais d'utiliser en temps réel ou à proximité des données en temps réel des systèmes transactionnels et des fichiers de données réguliers des systèmes de non-transaction. Avec les outils disponibles, ces processus pourraient être automatisés dans une large mesure une fois le flux de travail original vérifié.
Cela dépend de beaucoup de facteurs externes. Si vous venez de regarder les différents schémas de données, il ne serait probablement pas si difficile de consolider, de faire glisser l'une des sources de données dans l'autre ou de commencer fraîches avec une troisième, construisez-la à partir de zéro en tenant compte des besoins des deux ceux et migrer les données. Mais il y aura des dépendances comme
Il est donc impossible de dire qui serait préférable en général.
Quand je pense à la synchronisation, quelques idées me viennent à l'esprit:
Un premier exemple pourrait être un SCMS. Nous Synchroniser code parmi plusieurs magasins de données: notre système de fichiers local, système de fichiers du serveur et système de fichiers de collègue.
Nous voulons que les référentiels soient disponibles le plus longtemps possible pour nous permettre de synchroniser le code souvent.
Plus la fréquence de la synchronisation est supérieure est la facilité de fusionner pour tout le monde.
D'autre part, quand je pense en consolidation (intégration), j'ai tendance à penser à:
Un excellent exemple pourrait être ETLS . Habituellement ETLS avoir lieu moins souvent que les synchronisations.
Parce que la quantité de données à déplacer et à transformer, le processus est généralement plus lourd et complexe. Des charges lourdes et des transformations complexes nécessitent plus de ressources. Ou des environnements dédiés.
Les données proviennent généralement de plusieurs sources, mais cela revient rarement à ces sources.
Cela étant dit, nous arrivons à comprendre que les deux processus ne sont pas mutuellement exclusifs. Nous pourrions décider d'effectuer une nuit d'ETL d'abord et d'effectuer ultérieurement des synchronisations continues entre les différents systèmes.
Retour à votre cas spécifique dépend des exigences. Habituellement, nous détectons les priorités pendant la collecte des exigences et nous choisissons la stratégie appropriée lors de l'analyse des exigences.
Selon votre scénario, on dirait que la société a besoin d'une consolidation de données pour simplifier l'accès et la validation des données provenant de différentes sources.
Donc, je voudrais d'abord mettre en place toutes les sources de données dans un seul magasin de données et ultérieurement (si nécessaire), autorisez des synchronisations entre le magasin de données centrées et les différents départements.