Ingérez des données à jour dans votre entrepôt de données en temps quasi réel avec CDC

By |2022-03-08T06:36:59+00:0028 octobre 2021|

Vous en avez assez de gérer des données redondantes dans votre entrepôt de données ? Chargez les données de manière incrémentielle à l'aide de la capture de données modifiées pour remplir rapidement votre entrepôt de données sans vous soucier des données redondantes ou inexactes. 

 

Fini le temps où les entreprises pouvaient se permettre d'analyser leurs données à la fin de chaque semaine, voire chaque mois. L'évolution rapide du paysage commercial d'aujourd'hui a obligé les organisations à utiliser des entrepôts de données pour traiter et interroger leurs données en temps quasi réel afin d'extraire des informations rapides et de prendre des décisions commerciales rapides.

Le besoin d'un délai d'analyse plus rapide signifie que les données doivent souvent être capturées directement à partir des systèmes transactionnels au fur et à mesure de leur réception. Cela dit, il est hors de question de déplacer des bases de données entières à chaque fois que vous devez effectuer une analyse sur vos données. En effet, la copie de toutes vos données pour chaque requête peut être gourmande en ressources et entraîner des retards inutiles, en particulier lorsque votre base de données comprend des millions d'enregistrements.extraire rapidement des informations à partir des données grâce à la capture des données modifiées

Lorsque vous avez besoin de traiter des données rapidement, il est important de copier ou de migrer uniquement les données nouvelles ou modifiées vers votre entrepôt de données. La technologie Change Data Capture (CDC) peut vous aider à atteindre cet objectif en identifiant les modifications apportées à votre jeu de données source, en capturant ces modifications dans des tables de modifications temporaires et en les transmettant à l'entrepôt de données à des fins de création de rapports et d'analyse.

Pourquoi les données ne peuvent-elles pas être analysées et interrogées dans le système source ?

Il est important de répliquer les données avant de les analyser ou de les interroger pour plusieurs raisons.

Les données sont souvent initialement stockées dans des bases de données transactionnelles. Étant donné que ces bases de données sont de nature opérationnelle et n'ont pas été créées spécifiquement à des fins analytiques, il peut prendre un temps considérable pour interroger des données directement sur elles, en particulier lorsqu'il s'agit de gros volumes de données.

De plus, ces bases de données opérationnelles sont également régulièrement utilisées, ce qui signifie que l'interrogation ou l'analyse directement dans la table source peut potentiellement poser des problèmes de flux de données. Si les données de ces bases de données sont transformées ou manipulées directement à la source, il n'y aura probablement aucun moyen de revenir à la version originale des données. Effectuer une analyse dans la base de données transactionnelle source pendant que de nouvelles données sont saisies dans ces bases de données peut également provoquer des interruptions et potentiellement affecter la qualité des informations que vous extrayez.l'interrogation des données à la source peut affecter la vitesse

En répliquant les données des bases de données transactionnelles vers celles analytiques, vous pouvez à la fois réduire le délai de rentabilisation en traitant les données dans un système dédié aux requêtes complexes et conserver l'originalité des données sources. Change Data Capture facilite davantage le traitement rapide et pratique des données en ne répliquant que les données qui ne sont pas déjà disponibles dans la base de données de destination.

Lorsque vous utilisez CDC, vous n'avez pas non plus à attendre d'avoir une quantité importante de nouvelles données dans votre base de données source, car les données ne sont pas transférées par lots. Au lieu de cela, vous pouvez créer, planifier et orchestrer vos pipelines de données pour vous assurer que seules les données nouvelles ou modifiées sont migrées de la source à la destination dès que le changement se produit, ce qui accélère considérablement l'ensemble du processus de migration.

Comment la capture de données modifiées rationalise vos analyses

Supposons que votre organisation multinationale traite avec des milliers de clients dans plusieurs emplacements géographiques. Lorsque votre réseau est si vaste, vous devez certainement maintenir une base de données avec les coordonnées de tous ces clients et stocker leurs informations dans un référentiel centralisé pour un accès facile. Le moindre changement dans les informations d'un seul de ces clients doit être propagé à votre entrepôt de données pour s'assurer qu'il continue de servir de source unique de vérité.

Copier les données de milliers de clients juste pour propager un changement dans un enregistrement sera extrêmement gourmand en ressources et peut entraîner des retards inutiles dans l'analyse. Avec Change Data Capture, vous pouvez vous assurer que seules les nouvelles informations sont déplacées de la base de données source vers l'entrepôt de données afin que vos informations soient basées sur des données précises et mises à jour.

L'un des plus grands avantages de l'utilisation de CDC pour identifier, capturer et transmettre les modifications de vos systèmes sources à votre entrepôt de données ou à vos bases de données analytiques est l'efficacité de l'ensemble du processus en termes de ressources. Cela vous évite d'exécuter périodiquement des requêtes à charge élevée. Pour votre entreprise, cela se traduit directement par des temps de chargement réduits et un délai d'analyse plus rapide pour une meilleure prise de décision.Rationalisez l'analyse des données avec la capture des données modifiées

Avec Change Data Capture, vous pouvez également évoluer sans vous soucier du manque d'intégrité ou d'exhaustivité des données, car CDC garantit que votre référentiel central est toujours rempli avec les bonnes données sans aucun délai.

L'utilisation de CDC garantit également que vos ressources ne seront pas étouffées à certains moments de la journée ou de la semaine, car au lieu de charger des données dans votre entrepôt de données par lots et d'interroger de gros volumes de données en une seule fois, vous pouvez le faire au fur et à mesure. est reçu. Comme le processus ne nécessite pas trop de ressources, vous pouvez également économiser sur les dépenses en matériel spécifique pour maintenir le processus de chargement des données.

Types de CDC

Il existe différentes manières d'implémenter CDC dans votre entrepôt de données. Regardons chacun d'eux de plus près :

Capture de données de modification basée sur le journal

La capture de données de modification basée sur les journaux est un moyen fiable de garantir que les modifications au sein du système source sont transmises à l'entrepôt de données. Dans le CDC basé sur un journal, un journal des transactions est créé dans lequel chaque changement, y compris les insertions, les suppressions et les modifications des données déjà présentes dans le système source, est enregistré. Les données à la source sont ensuite comparées aux données du journal des transactions pour voir s'il y a des changements qui doivent être propagés à l'entrepôt de données.

le cdc transactionnel implique la création d'un journal des transactions de toutes les modifications et nouvelles données de votre base de données source

Les journaux créés dans ce type de CDC garantissent également que les transactions normales au sein du système source ne sont pas affectées par le traitement continu des données directement à la source. Ce processus réduit la latence et peut vous aider à créer un référentiel centralisé sans surcharger vos systèmes avec un traitement supplémentaire pour suivre les modifications transactionnelles.

Capture de données modifiées basée sur un déclencheur

Ce type de capture de données modifiées implique la création de fonctions spécifiques pour capturer les modifications au fur et à mesure qu'elles se produisent dans la base de données source. Par exemple, un déclencheur SQL AFTER DELETE capturera le instance de votre base de données après la suppression d'un enregistrement.

Lorsque vous utilisez un CDC basé sur des déclencheurs, votre base de données créera une autre table pour enregistrer les modifications en plus de maintenir un journal des transactions. Cela peut non seulement augmenter la latence, mais également augmenter le risque de manquer certains changements au cas où les déclencheurs ne seraient pas définis correctement pour certains scénarios ou si les déclencheurs étaient accidentellement désactivés.

Le maintien d'un ensemble supplémentaire de modifications basées sur des déclencheurs impose également une charge supplémentaire à l'architecture et peut consommer beaucoup de ressources au cas où vous traiteriez de très gros volumes de données ou enregistreriez des modifications sur plusieurs tables simultanément.

Étant donné que c'est généralement le scénario avec les grandes organisations, vous devrez peut-être tester le CDC basé sur des déclencheurs en apportant quelques modifications sur une base de données plus petite et voir si la latence et la charge sont quelque chose avec lesquelles vous pouvez travailler à long terme. Cela dit, le CDC basé sur des déclencheurs est particulièrement utile dans les architectures basées sur des événements où vous devez absolument mettre à jour l'entrepôt de données lorsque certaines modifications sont apportées à la base de données source.

Capture de données de modification basée sur le fournisseur

Pour la capture de données modifiées basée sur le fournisseur, des scripts sont mis à disposition par les fournisseurs de base de données pour surveiller un ou plusieurs champs d'une table de base de données. Ces scripts peuvent ensuite identifier et enregistrer toute modification apportée à la table. Comme le CDC basé sur des déclencheurs, la capture de données modifiées basée sur le fournisseur implique également la récupération des données de la base de données source au fur et à mesure que des modifications sont apportées, ce qui impose une charge supplémentaire au système.

Optimisez votre architecture analytique avec la capture de données modifiées

Capturer les changements dans vos systèmes sources et les propager à votre entrepôt de données est essentiel pour vous assurer que vous pouvez extraire des informations rapides et précises. Avec Astera Le composant CDC intégré de DW Builder vous permet de créer des pipelines de données élaborés et de copier toutes les données nouvelles et modifiées dans votre entrepôt de données sans taper une seule ligne de code.

Astera DW Builder est livré avec des centaines de transformations intégrées pour maximiser la valeur que vous pouvez extraire de vos données. Automatisez vos pipelines de données et tirez parti des fonctionnalités intégrées telles que la capture de données modifiées pour vous assurer que votre entrepôt de données est toujours à jour sans aucune intervention manuelle.

Prêt à créer un entrepôt de données autorégulé qui fournit des données à jour à votre architecture de BI et de reporting en temps quasi réel ? Contactez-nous pour discuter de votre cas d'utilisation ou prendre Astera DW Builder pour un essai routier aujourd'hui!

Articles Relatifs

Visualisation des données : connecter votre entrepôt de données à un outil de BI

Votre parcours vers la visualisation de données BI a probablement impliqué la création d'un entrepôt de données et le remplissage de données pertinentes à partir de plusieurs sources -...
EN SAVOIR PLUS

Construire des pipelines de données : un guide pour améliorer l'efficacité des...

En créant vos propres pipelines de données, vous pouvez remplir progressivement votre entrepôt de données existant à une vitesse pour des analyses plus rapides...
EN SAVOIR PLUS

Modernisez votre architecture de données grâce à une approche basée sur les meilleures pratiques de dimensionnement...

La modélisation dimensionnelle des données est à la base de la conception efficace d'un entrepôt de données depuis des décennies. La méthodologie de Kimball promet des performances de requête optimisées...
EN SAVOIR PLUS