Comment choisir entre la consolidation de données / l'intégration des données et la synchronisation des données?

Question

J'ai une certaine confusion quant à la manière de décider quoi choisir entre Data Consolidation/Data Integration et Data Synchronisation? Je sais que:

Intégration de consolidation/données de données : fait référence à la collecte et à l'intégration des données de plusieurs sources dans une seule destination. Au cours de ce processus, différentes sources de données sont réunies, ou consolidées, dans un seul magasin de données.

Synchronisation des données : désigne l'établissement de la cohérence entre les systèmes et les magasins de données et les mises à jour continues ultérieures pour maintenir la cohérence.

Supposons maintenant que j'ai un cas comme celui-ci concernant une entreprise:

- Les données sont présentes dans plusieurs sources Souvent souvent le département sage

- En raison de cette majorité de la société dépense dans la validation des données plutôt que sur une analyse utile pour la planification

- La définition de données varie également entre différentes sources

Maintenant, étant donné un tel cas qui vaut mieux utiliser - intégration de données/consolidation ou laisser les données dans différentes sources et synchroniser-la?

De plus, quelles autres informations utiles et pertinentes devrions-je rechercher cela pourraient aider à prendre la décision et à la manière dont ces informations supplémentaires réfléchiront à ma prise de décision?

Aby Sheffer · Answer

En regardant cela à partir de la perspective de la fin de 2017, l'intégration des données serait un bon choix, associée à un examen des systèmes existants pour déterminer les candidats à des mises à niveau ou à des remplacements.

En utilisant un lac de données ou un entrepôt de données pour consolider les données commerciales importantes de chacun des systèmes disparates, vous fournissez aux utilisateurs une source unique de recherche et d'analyse. Les données sont validées dans le cadre du processus ETL et vous avez donc des contrôles et des soldes pour assurer des données de qualité. De plus, le déplacement de la requête et de l'analyse des systèmes opérationnels permet à leur pouvoir de se concentrer sur les transactions quotidiennes à jour.

Une autre alternative consiste à utiliser un système Elt (extrait, chargement, transformer). Cela peut ne pas convenir à tous ces systèmes disparates, mais il offre des avantages pour les compatibles. Elt déplacerait les données des systèmes opérationnels, puis effectuerait le processus de transformation ou transformerait le processus de transformation à la date de la requête. Cette approche facilite la charge de maintenance, car il n'y a pas de processus de transformation encombrant avant que les données ne soient disponibles pour les utilisateurs. Certains types de systèmes (la fonction et les types de données) sont probablement plus adaptés à ELT que d'autres. Pour mieux comprendre la différence, voici un bon article ETL/ELT 101 de Blog de Panopoly .

Pour garder l'entrepôt à jour, je vous recommanderais d'utiliser en temps réel ou à proximité des données en temps réel des systèmes transactionnels et des fichiers de données réguliers des systèmes de non-transaction. Avec les outils disponibles, ces processus pourraient être automatisés dans une large mesure une fois le flux de travail original vérifié.

Martin Maat · Answer

Cela dépend de beaucoup de facteurs externes. Si vous venez de regarder les différents schémas de données, il ne serait probablement pas si difficile de consolider, de faire glisser l'une des sources de données dans l'autre ou de commencer fraîches avec une troisième, construisez-la à partir de zéro en tenant compte des besoins des deux ceux et migrer les données. Mais il y aura des dépendances comme

applications, techniquement et logiquement liées à l'une des magasins;
responsabilités organisationnelles de la qualité de service, de la continuité, de la conservation des données actuelles, des problèmes de confidentialité, de l'exploitation commerciale des données, et de cetera;
frais de licence pour les différents systèmes de base de données pouvant varier énormément, le contrat avec le vendeur peut seulement avoir été prolongé pendant plusieurs années, ce qui serait considéré comme un "investissement" par la haute direction;
general Company Politics: Qui a pour posséder les données Bew?;
?

Il est donc impossible de dire qui serait préférable en général.

Laiv · Answer

Quand je pense à la synchronisation, quelques idées me viennent à l'esprit:

Haute disponibilité des données entre systèmes.
Assimiler des données entre ces systèmes
Exchange de données entre ces systèmes
Haute volatiliy des données
Haute fréquence de l'échange de données (une fois une minute, une heure, une journée)
Processus LightweGe
Simplicité

Un premier exemple pourrait être un SCMS. Nous Synchroniser code parmi plusieurs magasins de données: notre système de fichiers local, système de fichiers du serveur et système de fichiers de collègue.

Nous voulons que les référentiels soient disponibles le plus longtemps possible pour nous permettre de synchroniser le code souvent.

Plus la fréquence de la synchronisation est supérieure est la facilité de fusionner pour tout le monde.

D'autre part, quand je pense en consolidation (intégration), j'ai tendance à penser à:

Grande quantité de données
Moins fréquence. Quotidien, hebdomadaire, mensuel, annuel.
Aucun échange de données, juste des systèmes de stockage de systèmes dans un seul magasin de données
Processus lourds
Complexité
Différents formats de données transformés en un seul modèle de données
Store de données centrée
Qualité des données

Un excellent exemple pourrait être ETLS . Habituellement ETLS avoir lieu moins souvent que les synchronisations.

Parce que la quantité de données à déplacer et à transformer, le processus est généralement plus lourd et complexe. Des charges lourdes et des transformations complexes nécessitent plus de ressources. Ou des environnements dédiés.

Les données proviennent généralement de plusieurs sources, mais cela revient rarement à ces sources.

Cela étant dit, nous arrivons à comprendre que les deux processus ne sont pas mutuellement exclusifs. Nous pourrions décider d'effectuer une nuit d'ETL d'abord et d'effectuer ultérieurement des synchronisations continues entre les différents systèmes.

Retour à votre cas spécifique dépend des exigences. Habituellement, nous détectons les priorités pendant la collecte des exigences et nous choisissons la stratégie appropriée lors de l'analyse des exigences.

Selon votre scénario, on dirait que la société a besoin d'une consolidation de données pour simplifier l'accès et la validation des données provenant de différentes sources.

Donc, je voudrais d'abord mettre en place toutes les sources de données dans un seul magasin de données et ultérieurement (si nécessaire), autorisez des synchronisations entre le magasin de données centrées et les différents départements.