Presentamos la nueva característica de diseño dinámico en Astera Centerprise 8.0

By |2020-09-28T00:50:54+00:006 de enero de 2020.|

En un convencional ETL o ELT canalización, toda la asignación de datos está estrechamente vinculada a un esquema definido estáticamente en el que los tipos de datos, el número de columnas y los nombres de las columnas se generan en función del diseño original de las tablas de origen correspondientes.

Bajo este enfoque, cualquier modificación en los archivos o tablas de origen debe reflejarse manualmente en los flujos de datos y flujos de trabajo relacionados. Si bien estas tareas son generalmente limitadas, en situaciones en las que se reciben datos transaccionales de una amplia variedad de ubicaciones, algunas fuentes de entrada pueden contener columnas adicionales o seguir diferentes convenciones de grabación para campos específicos. Además, los departamentos interesados ​​generalmente están más que dispuestos a ajustar cómo se comunican sus datos de manera continua.

Con diseños estáticos en su lugar, es posible que se solicite a los usuarios que realicen varios ajustes manuales en sus mapeo de datos y transformaciones de datos para resolver las desviaciones del esquema actualizado.

AsteraLa nueva opción de diseño dinámico optimiza estas tareas que requieren mucho tiempo con características intuitivas que permiten la configuración de parámetros para las entidades de origen y destino con todos los cambios propagados automáticamente a través de los mapas de datos vinculados. Estos cambios se inician en función de las rutas y relaciones que ya incumben a los campos existentes dentro de sus flujos de datos y flujos de trabajo, independientemente de la estructura visible de las entidades de origen.

Con los diseños dinámicos habilitados, estos diferenciales se pueden identificar e implementar automáticamente en sus procesos ETL y ELT sin interrumpir su integraciones de datos.

Casos de uso de diseño dinámico

Hemos identificado una serie de escenarios en los que la capacidad de automatizar cambios estructurales en los diseños sería ventajosa para nuestros usuarios. Los usos potenciales de esta característica incluyen:

  1. Actualización rápida de diseños de flujo de datos cuando se agregan, eliminan o modifican columnas en la fuente.
  2. Realización de procesos idénticos (limpieza, transformaciones, migraciones) en múltiples flujos de datos con un mínimo ajuste manual.
  3. Creación de un proceso ETL o ELT dinámico que pueda seleccionar archivos dispares de una ubicación determinada y cargarlos en nuevos destinos automáticamente.

Estos casos de uso se explican con más detalle a continuación.

Manejo de anomalías de diseño

En el siguiente flujo de datos, puede ver que la entidad fuente permite tres campos predeterminados, que luego se mejoran con una transformación de valor variable y constante.

Objeto único actualizado en un diseño dinámico

Ahora, podemos usar la pantalla del generador de diseño para configurar un nuevo parámetro para la fuente como se muestra a continuación.

Configuración de parámetros en Source Entity Layout Builder

Una vez que se habilitan los diseños dinámicos, la salida para esta entidad se actualiza automáticamente con todos los campos nuevos enviados a través de la misma lógica de mapeo. La nueva estructura de tabla aparece de la siguiente manera:

Vista previa de datos que muestra campos agregados para la entidad de origen en diseño dinámico

Podemos probar aún más esta característica agregando un campo adicional al archivo fuente sin hacer ningún cambio en el diseño del objeto fuente en Astera Centerprise. Esto nos mostrará si el cambio se refleja con precisión en el flujo de datos.

Ahora, si verificamos la salida en el destino después de volver a ejecutar el flujo de datos, podemos ver que se ha ejecutado automáticamente un diferencial para resolver cualquier discrepancia entre la entidad fuente y el archivo Excel. El campo adicional se incorpora a la perfección en el mapeo existente. El mismo proceso tendrá lugar siempre que se eliminen los campos del archivo fuente.

Salida actualizada dinámicamente

Diseños dinámicos en migraciones de datos de alto volumen

Bases de datos actualizadas dinámicamente

La verdadera efectividad de esta característica se hace evidente cuando la implementamos en un objeto de flujo de trabajo, que selecciona una matriz de archivos fuente de un repositorio y los ejecuta a través de una serie de transformaciones preestablecidas.

Múltiples objetos de origen actualizados en un diseño dinámico

Arriba, tenemos una fuente de base de datos dinámica que está configurada para apuntar hacia una entrada definida en la transformación de la variable.

Parámetros de configuración para el origen de la base de datos

Sin embargo, la transformación de la variable no contiene definiciones para un archivo o directorio fuente.

En este caso, las definiciones son proporcionadas por una fuente externa de elementos del sistema de archivos en un flujo de trabajo (Vea abajo)

Fuente del sistema de archivos externo que proporciona definiciones para el flujo de datos actualizado dinámicamente

Este objeto fuente está configurado para apuntar hacia un directorio que contiene diferentes archivos 26, cada uno con un diseño diferente.

Como puedes ver arriba, La ruta completa y el nombre del archivo de entrada se han vinculado al objeto variable en el flujo de datos. Este flujo de trabajo también se ha configurado para ejecutarse en un bucle, por lo que cada archivo en el directorio de origen se recogerá y se ejecutará a través del objeto de flujo de datos, que se adaptará dinámicamente al nuevo diseño y ejecutará el archivo de origen a través de las transformaciones proporcionadas en el último caso de uso sin la necesidad de ningún ajuste manual por parte del usuario.

También hemos configurado la tabla de destino en nuestro flujo de datos original para cargar todos los archivos transformados en un destino CSV, que se define como una versión en mayúscula del nombre de archivo de origen original como se indica mediante una expresión adicional en la entidad variable.

Consultas SQL actualizadas dinámicamente

En el diagrama a continuación, usamos el consulta SQL Objeto de origen para seleccionar todos los campos de la tabla Empleados en la base de datos de origen.

Fuente de consulta SQL en un flujo de datos dinámico

Instrucción SELECT

Una vez más, las rutas de parámetros en la variable dependen de las entradas de un objeto de flujo de trabajo externo como se ve a continuación.

Fuente de flujo de trabajo externo que proporciona valores de parámetros para el flujo de datos dinámico

En este caso, hemos seleccionado una fuente delimitada que contiene un total de nombres de tablas 26. Este objeto se pasa a través de una transformación de expresión que coloca el nombre de la tabla proporcionada en un SELECCIONAR ambiental

Esta declaración se vincula al campo variable de entrada sqlquery1 en el flujo de datos. Como resultado, la instrucción select realizada en origen en Fig 4 se actualizará dinámicamente para recoger datos de una nueva tabla cada vez que se ejecute el flujo de datos.

También se puede acceder a cada nuevo flujo de datos generado dinámicamente individualmente, si se requieren ajustes adicionales basados ​​en la tabla de entrada.

Como puede ver, el archivo fuente en Fig 5 se ha configurado para ejecutarse en un bucle para que el flujo de trabajo continúe proporcionando nuevos nombres de tabla que se utilizarán en Higo 4's Fuente de consulta SQL. Al implementar diseños dinámicos de esta manera, los usuarios pueden ahorrarse el tiempo y el esfuerzo dedicados a crear varios flujos de datos individuales para realizar las mismas operaciones en tablas de origen dispares.

Limpieza de datos y diseños dinámicos

Otra implementación altamente efectiva de diseños dinámicos es en las operaciones de limpieza de datos a gran escala, en las que un conjunto de datos constantemente actualizado debe ser validado por su precisión y consistencia antes de pasar a los sistemas de informes y análisis.

En un esquema convencional, el diseño debería actualizarse manualmente cada vez que se actualizan los datos de origen. En los casos en que la función en cuestión realizó cambios estructurales en sus tablas sin informar a los desarrolladores, las actividades de limpieza de datos pueden verse interrumpidas por completo. Esto creará un impacto considerable en la toma de decisiones tanto a nivel ejecutivo como operativo.

Además, si es necesario limpiar varias tablas de la misma manera, los desarrolladores necesitarían crear procesos individuales para tratar con cada fuente.

Limpieza de datos en flujo de datos actualizado dinámicamente

La figura anterior muestra un objeto fuente que está configurado para elegir archivos CSV de una fuente de entrada en función de los valores proporcionados en la transformación variable.

La entidad objetivo se ha configurado de manera similar para crear un nuevo destino basado en las definiciones proporcionadas en la transformación de variables.

Valores variables para entrada y salida

Limpieza de datos de campos de entrada

Si bien el flujo de datos actualmente muestra solo un campo que se envía a través de este proceso, podemos agregar varias columnas adicionales a la fuente sin ningún problema.

Estos se integrarán perfectamente en el mapeo existente basado en el Identificación del cliente campo de guía, transformado y salida al destino recién configurado.

Agregue adaptabilidad instantánea a sus flujos de datos con Astera CenterpriseCaracterística de diseños dinámicos

Ya sea que esté buscando propagar cambios a un objeto de destino o crear una tubería de flujo de datos completa que pueda responder en tiempo real a las actualizaciones y modificaciones de sus conjuntos de datos de origen, los diseños dinámicos pueden agregar flexibilidad incluso a las asignaciones de datos más complejas.

Para obtener más información sobre esta y otras características, puede programar un consulta sin compromiso con nuestro equipo técnico hoy.