Blogs

Accueil / Blogs / Mode d'optimisation du refoulement dans Astera Centerprise

Table des matières
L'automatisé, Pas de code Pile de données

Apprener comment Astera Data Stack peut simplifier et rationaliser la gestion des données de votre entreprise.

Mode d'optimisation du refoulement dans Astera Centerprise

Le 14 septembre 2022

Processus ELT complétant l'approche ETL traditionnelle pour une performance améliorée et des résultats agiles

Introduction

ETL (Extraire, Transformer, Charger) et ELT (Extraire, Charger et Transformer) sont deux approches de la manipulation de données souvent confondues avec des substituts. La situation dans laquelle l'une ou l'autre approche est utilisée dépend de nombreux facteurs, tels que le type de base de données source et cible, la puissance de traitement du serveur de base de données, le volume de données et la complexité des transformations. En fin de compte, l'objectif est de permettre aux utilisateurs de déplacer efficacement des données en grands volumes.

optimisation du refoulement

ELT se différencie d'ETL en fonction de l'emplacement du traitement de la transformation. Dans un processus ETL, les données sont transformées dans la zone de transfert qui est généralement placée entre les systèmes source et cible (entrepôt de données). Au contraire, dans un processus ELT, les transformations ont lieu dans la base de données cible. Le moteur de base de données alimentant le système de gestion de base de données (SGBD) effectue les transformations dans un processus ELT, tandis que les transformations se produisent sur une troisième machine dans un processus ETL. Les transformations dans ETL sont généralement effectuées sur un serveur de base de données relationnel séparé physiquement et logiquement des systèmes source et cible. Ceci est fait pour minimiser l'impact de l'activité périodique ETL sur les systèmes source et cible.

ETL - Approche d'extraction, de transformation et de chargement

Les entreprises collectent et fusionnent des données provenant de sources multiples, ce qui entraîne une hétérogénéité des plates-formes et des formats de données. Un logiciel ETL apporte les données source au serveur pour la transformation et écrit les données transformées dans la cible. Il effectue également des contrôles d'intégrité sur les données entrantes.

Un outil ETL est un élément important de la construction d’un entrepôt de données. Il peut être utilisé pour extraire uniquement les informations pertinentes, les analyser et les valider pour les adapter au format standard de l'entreprise, puis pour charger des données structurées et nettoyées dans un entrepôt de données. Les données chargées dans l'entrepôt de données étant déjà nettoyées et transformées, les utilisateurs professionnels ont plus de facilité à les analyser.

ELT - Approche d'extraction, de chargement et de transformation

Dans certaines situations, au lieu de déplacer des volumes de données vers un système logiciel ETL, les utilisateurs peuvent optimiser les performances en plaçant les tables de transfert dans la base de données de destination. Le principal avantage d'une approche ELT est son efficacité en termes de temps, car elle charge les données directement sur la destination et délègue le traitement au SGBD. Cela réduit le temps entre l'extraction et le processus de chargement et permet ainsi à l'utilisateur final de disposer facilement des données. Cependant, étant donné que des données non transformées sont chargées sur les systèmes cibles, une interface visuelle soignée représente le coût d’opportunité du temps réduit de livraison des données. Mei Yang Selvage, analyste chez Gartner, déclare que «ELT est principalement approprié pour les charges de travail avec une transformation et un nettoyage limités. »

Mode d'optimisation du refoulement

Qu'est-ce que le mode d'optimisation du refoulement?

Le mode Pushdown dans Astera Centerprise permet aux utilisateurs de choisir le lieu du traitement des données en transmettant la logique de transformation à la base de données source ou cible lorsqu'ils résident sur le même serveur. Ceci élimine le mouvement inutile des données, réduit la latence du réseau en fournissant des résultats agiles et améliore les performances globales.

Comment fonctionne l'optimisation de refoulement?

La nécessité d'extraire et de migrer d'importants volumes de données, des systèmes sources vers un serveur tiers pour les transformations, fait perdre un temps précieux aux utilisateurs. Lorsque la base de données source et la base de données cible se trouvent sur le même serveur, les utilisateurs peuvent gagner du temps en évitant les mouvements de données inutiles. L'exécution d'un travail en mode pushdown transfère la logique de transformation à la base de données source ou cible. Au lieu de lancer le
En transformant la logique de transformation en parties en extrayant les informations de la source, en appliquant des transformations puis en les chargeant sur la destination, les commandes sont émises et exécutées via des requêtes SQL consolidées générées automatiquement. Lorsque les entreprises ont besoin d'un traitement de données en masse, cette approche offre des avantages majeurs en termes de performances en éliminant les transferts de données entre la base de données et le serveur ETL.

Types de mode d'optimisation du refoulement

Il existe deux types de modes d'optimisation du pushdown:

  1. Mode d'optimisation pushdown
  2. Mode d'optimisation pushdown partiel

Astera CenterpriseL'algorithme intelligent de 's décide si les performances du travail seront optimisées en l'exécutant dans une optimisation partielle du refoulement
mode ou le mode d'optimisation pushdown complet. La figure 3-4 illustre les requêtes SQL relatives aux travaux exécutés en mode d’optimisation par refoulement partiel et complet.

optimisation du refoulement

La partie mise en surbrillance dans la figure 3 est la partie du travail exécutée en mode pushdown. Cet exemple ne pousse que partiellement la logique de transformation (transformation globale) vers la base de données source. Par conséquent, il est appelé refoulement partiel.

Le refoulement complet, au contraire, fait référence à l'exécution d'un travail en mode refoulement du début à la fin. La figure 4 montre un exemple de travail exécuté dans refoulement complet mode.

Il est important de noter ici que les requêtes SQL correspondantes (dans les deux modes) sont générées automatiquement sans script ni codage manuel.

optimisation du refoulement

Vérifier la fonctionnalité de travail en mode Pushdown dans Astera Centerprise

Tous les travaux ne peuvent pas être exécutés en mode pushdown. Par exemple, si les destinations source et cible ne se trouvent pas dans la même base de données relationnelle, l'étape d'extraction et de transfert de données ne peut pas être éliminée. En outre, certaines logiques de transformation telles que "rechercher", l'analyse de noms et d'adresses ou le traitement de chaînes complexes ne peuvent pas être supprimés.

optimisation du refoulement

Vérifier la fonction de travail à la baisse dans Astera Centerprise identifie les logiques de transformation et les instructions SQL pouvant être transférées dans la base de données source ou cible.

 

optimisation du refoulement

Fournisseurs de bases de données pris en charge dans le Astera Mode d'optimisation du refoulement

In Astera Centerprise, Le mode d’optimisation du refoulement est pris en charge par les fournisseurs suivants:

1. MSSQL
2. Postgres
3 Oracle
4. SQL
5. MySQL (version 7.3)

Conclusion

Au lieu de comparer ETL et ELT (optimisation du refoulement) comme différentes approches pour obtenir les mêmes résultats, voyez-les comme différents outils conçus pour répondre à différents besoins de l'entreprise. Les deux approches ont leurs avantages et leurs inconvénients. Par conséquent, les utiliser comme outils complémentaires plutôt que comme substituts produira les meilleurs résultats pour votre entreprise. Astera Centerprise offre les deux capacités. Les utilisateurs peuvent décider de l'approche en tenant compte des facteurs qui affectent le traitement général des données.

Voulez-vous essayer la fonctionnalité d'optimisation du refoulement dans Astera Centerprise? Téléchargez un essai gratuit d'intégrer des volumes massifs de données à des vitesses incroyables.

Tu pourrais aussi aimer
Qu'est-ce qu'un catalogue de données ? Fonctionnalités, meilleures pratiques et avantages
Schéma en étoile contre. Schéma en flocon de neige : 4 différences clés
Comment charger des données d'AWS S3 vers Snowflake
Considérant Astera Pour vos besoins en gestion de données ?

Établissez une connectivité sans code avec vos applications d'entreprise, vos bases de données et vos applications cloud pour intégrer toutes vos données.

Connectons-nous maintenant !
connectons-nous