Blogs

Home / Blogs / Presentamos la nueva función de diseño dinámico en Astera Centerprise 8.0

Tabla de Contenido
El automatizado, Sin código Pila de datos

Aprende cómo Astera Data Stack puede simplificar y agilizar la gestión de datos de su empresa.

Presentamos la nueva característica de diseño dinámico en Astera Centerprise 8.0

Octubre 2, 2023

En un convencional ETL o ELT canalización, todo el mapeo de datos está estrechamente vinculado a un esquema definido estáticamente. Los tipos de datos, el número de columnas y los nombres de las columnas se generan en función del diseño original de las tablas de origen correspondientes.

Bajo este enfoque, cualquier modificación en los archivos o tablas de origen debe reflejarse manualmente en flujos de trabajo y flujos de datos relacionados. Si bien estas tareas generalmente son limitadas, en situaciones en las que se reciben datos transaccionales desde varias ubicaciones, algunas fuentes de entrada pueden contener columnas adicionales o seguir diferentes convenciones de registro para campos específicos. Además, los departamentos interesados ​​suelen estar más que dispuestos a ajustar la forma en que se comunican sus datos de forma continua.

Con diseños estáticos en su lugar, es posible que se solicite a los usuarios que realicen varios ajustes manuales en sus mapeo de datos y transformaciones para resolver las desviaciones del esquema actualizado.

AsteraLa nueva opción de diseño dinámico agiliza estas tareas que consumen mucho tiempo con características intuitivas que permiten la configuración de parámetros para las entidades de origen y destino. Todos los cambios se propagan automáticamente a través de los mapas de datos vinculados. Estos cambios se inician en función de las rutas y relaciones que ya incumben a los campos existentes dentro de sus flujos de datos y flujos de trabajo, independientemente de la estructura visible de las entidades de origen.

Con los diseños dinámicos habilitados, estos diferenciales se pueden identificar e implementar automáticamente en sus procesos ETL y ELT sin interrumpir su integraciones de datos.

Casos de uso de diseño dinámico

Hemos identificado varios escenarios en los que la capacidad de automatizar los cambios estructurales en los diseños sería ventajoso para nuestros usuarios. Los usos potenciales de esta característica incluyen:

  1. Actualización rápida de diseños de flujo de datos cuando se agregan, eliminan o modifican columnas en la fuente.
  2. Realización de procesos similares (limpieza, transformaciones, migraciones) en múltiples flujos de datos con un ajuste manual mínimo.
  3. Crear un proceso ETL o ELT dinámico que seleccione automáticamente archivos dispares de una ubicación determinada y los cargue en nuevos destinos.

Estos casos de uso se explican con más detalle a continuación.

Manejo de anomalías de diseño

En el siguiente flujo de datos, puede ver que la entidad fuente permite tres campos predeterminados, que luego se mejoran con una transformación de valor variable y constante.

mapeo de datos

Objeto único actualizado en un diseño dinámico

Ahora, podemos usar la pantalla del generador de diseño para configurar un nuevo parámetro para la fuente, como se muestra a continuación.

constructor de diseño dinámico

Configuración de parámetros en Source Entity Layout Builder

Una vez que se habilitan los diseños dinámicos, la salida para esta entidad se actualiza automáticamente con todos los campos nuevos enviados a través de la misma lógica de mapeo. La nueva estructura de tabla aparece de la siguiente manera:

vista previa de datos de diseño dinámico

Vista previa de datos que muestra campos agregados para la entidad de origen en diseño dinámico

Podemos probar aún más esta función agregando un campo al archivo de origen sin cambiar el diseño del objeto de origen en Astera Centerprise. Esto nos mostrará si el cambio se refleja con precisión en flujo de datos.

Supongamos que verificamos la salida en el destino después de volver a ejecutar el flujo de datos. En ese caso, podemos ver que se ha ejecutado automáticamente un diferencial para resolver cualquier discrepancia entre la entidad de origen y el archivo de Excel. Luego, el campo adicional se incorpora sin problemas al mapeo existente. El proceso exacto ocurrirá cada vez que se eliminen campos del archivo de origen.

diseño dinámico

Salida actualizada dinámicamente

Diseños dinámicos en migraciones de datos de gran volumen

Bases de datos actualizadas dinámicamente

La eficacia real de esta función se hace evidente cuando la implementamos en un objeto de flujo de trabajo, que selecciona una serie de archivos de origen de un repositorio y los ejecuta a través de una serie de transformaciones preestablecidas.

mapeo de datos

Múltiples objetos de origen actualizados en un diseño dinámico

Arriba, tenemos una fuente de base de datos dinámica configurada para apuntar hacia una entrada definida en la transformación de variables.

fuente de la base de datos

Parámetros de configuración para el origen de la base de datos

Sin embargo, la transformación de la variable no contiene definiciones para un archivo o directorio fuente.

En este caso, las definiciones son proporcionadas por una fuente externa de elementos del sistema de archivos en un flujo de trabajo (Vea abajo)

proceso de diseño

Fuente del sistema de archivos externo que proporciona definiciones para el flujo de datos actualizado dinámicamente

Este objeto de origen está configurado para apuntar hacia un directorio que contiene 26 archivos diferentes, cada uno con un diseño diferente.

Como puedes ver arriba, la ruta completa y el nombre del archivo de entrada se han vinculado a un objeto variable en el flujo de datos. Este flujo de trabajo también se ha configurado para ejecutarse en un bucle, por lo que cada archivo en el directorio de origen se seleccionará y ejecutará a través del objeto de flujo de datos, que se adaptará dinámicamente al nuevo diseño y ejecutará el archivo de origen a través de las transformaciones proporcionadas en el último caso de uso sin necesidad de ningún ajuste manual por parte del usuario.

También configuramos la tabla de destino en nuestro flujo de datos original para cargar todos los archivos transformados en un destino CSV, definido como una versión en mayúsculas del nombre del archivo de origen, como lo indica una expresión diferente en la entidad variable.

Consultas SQL actualizadas dinámicamente

Hemos usado el consulta SQL Objeto de origen para seleccionar todos los campos de la tabla Empleados en la base de datos de origen en el diagrama a continuación.

Flujo de datos dinámico de consulta SQL

Fuente de consulta SQL en un flujo de datos dinámico

Consulta SQL

Instrucción SELECT

Una vez más, las rutas de los parámetros en la variable dependen de las entradas de un objeto de flujo de trabajo externo, como se ve a continuación.

flujo de datos dinámico

Fuente de flujo de trabajo externo que proporciona valores de parámetros para el flujo de datos dinámico

En este caso, hemos seleccionado una fuente delimitada que contiene un total de nombres de tablas 26. Este objeto se pasa a través de una transformación de expresión que coloca el nombre de la tabla proporcionada en un SELECCIONAR ambiental

Luego, esta declaración se vincula al campo de variable de entrada sqlquery1 en el flujo de datos. Como resultado, la declaración de selección realizada en la fuente en Fig 4 se actualizará dinámicamente para recoger datos de una nueva tabla cada vez que se ejecute el flujo de datos.

También se puede acceder individualmente a cada nuevo flujo de datos generado dinámicamente si se requieren ajustes adicionales en función de la tabla de entrada.

Como puede ver, el archivo fuente en Fig 5 se ha configurado para ejecutarse en un bucle, por lo que el flujo de trabajo continuará proporcionando nuevos nombres de tabla, que se utilizarán en Higo 4's Fuente de consulta SQL. Al implementar diseños dinámicos, los usuarios pueden ahorrarse el tiempo y el esfuerzo que dedican a crear varios flujos de datos individuales para realizar las mismas operaciones en tablas de origen dispares.

Limpieza de datos y diseños dinámicos

Otra implementación altamente efectiva de diseños dinámicos es en operaciones de limpieza de datos a gran escala. Un conjunto de datos constantemente actualizado debe ser validado por precisión y consistencia antes de pasar a los sistemas de informes y análisis.

En un esquema convencional, el diseño debe actualizarse manualmente siempre que se actualicen los datos de origen. En los casos en que la función en cuestión realizó cambios estructurales en sus tablas sin informar a los desarrolladores, las actividades de limpieza de datos pueden interrumpirse por completo. Esto creará un impacto considerable en la toma de decisiones tanto a nivel ejecutivo como operativo.

Además, si es necesario limpiar varias tablas de la misma manera, los desarrolladores necesitarían crear procesos individuales para tratar con cada fuente.

limpieza de datos

Limpieza de datos en flujo de datos actualizado dinámicamente

La figura anterior muestra un objeto fuente que está configurado para elegir archivos CSV de una fuente de entrada en función de los valores proporcionados en la transformación variable.

La entidad de destino se configuró de manera similar para crear un nuevo destino en función de las definiciones proporcionadas en la transformación variable.

entrada de valores variables

Valores variables para entrada y salida

transformación de datos

Limpieza de datos de campos de entrada

Si bien el flujo de datos actualmente muestra solo un campo que se envía a través de este proceso, podemos agregar varias columnas adicionales a la fuente sin ningún problema.

Estos se integrarán perfectamente en el mapeo existente basado en el Identificación del cliente campo de guía, transformado y salida al destino recién configurado.

Astera CenterpriseCaracterística de diseños dinámicos

¿Busca propagar cambios a un objeto de destino o crear una canalización de flujo de datos completa que pueda responder en tiempo real a las actualizaciones y modificaciones de sus conjuntos de datos de origen? Astera Centerprise le permite agregar diseños dinámicos que agregan flexibilidad incluso a las asignaciones de datos más complejas.

Puedes programar un consulta sin compromiso con nuestro equipo técnico hoy para obtener más información sobre esta y otras características.

También te puede interesar
¿Qué es un catálogo de datos? Características, mejores prácticas y beneficios
Esquema de estrella vs. Esquema de copo de nieve: 4 diferencias clave
Cómo cargar datos desde AWS S3 a Snowflake
Considerando Astera ¿Para sus necesidades de gestión de datos?

Establezca conectividad sin códigos con sus aplicaciones empresariales, bases de datos y aplicaciones en la nube para integrar todos sus datos.

¡Conectémonos ahora!
conectemos