Optimice las canalizaciones de datos y descubra el verdadero poder de su almacén de datos

By |2021-11-09T08:18:08+00:0015 de Octubre,2021|

El almacenamiento de datos efectivo requiere una red de canalizaciones de datos bien mantenidas para entregar datos de alta calidad para informes y análisis avanzados. Pero los procesos ETL manuales no brindan la escalabilidad, la agilidad y la velocidad necesarias para mantenerse al día con los requisitos empresariales modernos.

Siga leyendo para descubrir cómo puede crear una arquitectura de canalización de datos basada en metadatos que pueda liberar el verdadero poder de su sistema de BI.

Si bien existen muchos beneficios al configurar canalizaciones de datos e implementar un almacén de datos, el valor real de un EDW se hace evidente cuando finalmente puede visualizar los datos en hermosos cuadros de mando consolidados utilizando plataformas como Tableau o PowerBI. En una arquitectura de datos bien ajustada, estas herramientas frontend sirven como única fuente de verdad para toda su toma de decisiones, habilitando todo, desde el monitoreo de KPI hasta análisis de tendencias históricas e incluso análisis predictivos avanzados. Pero, por supuesto, antes de desbloquear ese potencial transformador, debe asegurarse de que la capa de BI cuente con datos relevantes, precisos y estandarizados.

Ingrese ETL, un término que ha sido sinónimo de almacenamiento de datos desde el inicio de la tecnología. En aquel entonces, el caso de uso principal consistía en extraer grandes lotes de datos de una base de datos transaccional y aplicar transformaciones para mejorar su calidad o alinearlos con un modelo de datos utilizando uniones, agregados y otras funciones similares. Luego, estos lotes se cargaron en un repositorio listo para análisis donde los usuarios podían consultarlos fácilmente.

Pero el mundo de la inteligencia empresarial avanza a la velocidad del rayo y las empresas han tenido que evolucionar sus procesos ETL al mismo tiempo. Echemos un vistazo a algunos de estos desarrollos.

De la codificación a una arquitectura de canalización de datos basada en metadatos

Las organizaciones modernas se ocupan de mucho más que una sola base de datos transaccional. Aunque tienen varias fuentes que generan volúmenes importantes de datos, sus canales de datos deben admitir todos estos sistemas y métodos de consumo.

Tradicionalmente, los desarrolladores crean manualmente procesos ETL para cada uno de estos sistemas. Estas canalizaciones de datos se prueban y optimizan después de la implementación en un entorno de producción y luego se recodifican para tener en cuenta cualquier cambio en el esquema del sistema de origen.

https://imgs.xkcd.com/comics/data_pipeline.png

Con una impulsado por metadatos Proceso ETL, muchos pasos del proceso se pueden automatizar. Entonces, en este enfoque, los metadatos para todas las tablas de origen y destino se mantienen en un repositorio central, incluidos los esquemas de las tablas de la base de datos, las relaciones de clave externa / primaria y los tipos de datos para campos individuales. De manera similar, cualquier lógica comercial y transformación de datos utilizada para mantener la calidad y relevancia de los datos de origen se extrae de la base de datos transaccional. Asignaciones de datos utilizados para mover datos entre tablas en los sistemas de origen y el almacén de datos también se almacenan aquí.

Hay algunas ventajas importantes de hacer las cosas de esta manera.

Primero, puede diseñar flujos en el nivel lógico y, al hacerlo, minimizar cualquier variabilidad presente en las tuberías codificadas construidas a lo largo de los años por múltiples desarrolladores. Esto significa que la construcción de canalizaciones de datos se puede simplificar para colocar conectores de origen preempaquetados en una plantilla de mapeo de datos, aplicar las transformaciones necesarias y luego mapear a una tabla de destino dentro de su almacén de datos.

Las plantillas se pueden mantener y ejecutar fácilmente de forma inmediata para entregar datos nuevos a su almacén de datos según sea necesario, lo que garantiza la puntualidad de los informes y análisis posteriores.

Ahora tiene trabajos ETL escalables que se pueden diseñar rápidamente desde cero, actualizar o incluso reutilizar a medida que se integran nuevas fuentes en su arquitectura. Estas ventajas encajan perfectamente con un ágil moderno metodología, donde el desarrollo tiene lugar en múltiples ciclos iterativos.

Latencia de datos - ¿Cuan bajo Puedes ir?

Las canalizaciones de datos eficientes son garantes de una baja latencia

¿Es este el estado ideal para su arquitectura de datos?

Lo mencionamos un poco antes, pero la puntualidad es uno de los principales significantes de la inteligencia empresarial de alta calidad.

Supongamos que está buscando crear una campaña de remarketing para atraer clientes anteriores y obtener clientes potenciales con productos relevantes de su cartera. Cuanto más actualizada sea su inteligencia, más atractivas serán estas ofertas. Por otro lado, si confía en datos de compra de meses o incluso años para guiar sus esfuerzos, la eficacia de la campaña se verá disminuida. Desde la detección de fraudes hasta la optimización de la cadena de suministro, existe una gran cantidad de actividades comerciales que dependen igualmente de la información actualizada.

En medio de estas condiciones operativas, no sorprende que muchas empresas estén intentando que los datos estén disponibles en su almacén de datos lo más rápido posible.

Hace un par de años, la transmisión de datos se presentó como los respuesta. En este enfoque, los datos estarían disponibles para su consulta en el almacén de datos tan pronto como llegaran a la base de datos de origen. Ahora, eso suena muy bien en teoría, pero hay algunos detalles a considerar.

En primer lugar, su base de datos debe permitir que los datos se registren y recuperen al mismo tiempo, por lo que se trata de importantes gastos de recursos. El segundo factor es la calidad de los datos. Existe una posibilidad cada vez mayor de que aparezcan datos duplicados o erróneos en los informes finales en un sistema de BI en tiempo real. En cuyo caso, puede terminar teniendo que realizar transformaciones adicionales en estos datos (esencialmente) sin procesar antes de que estén listos para el análisis.

En comparación, micro-lotes proporciona una alternativa más rentable con una latencia de datos mínima y, en última instancia, datos de mejor calidad. Con este tipo de proceso ETL casi en tiempo real, los datos se cargan en el almacén de datos a intervalos específicos según los requisitos de cada canal de datos. Estos desencadenantes se pueden configurar minuto a minuto en el caso de, por ejemplo, un sistema de detección de fraude o diariamente para los informes de ventas en curso.

Por supuesto, el procesamiento por lotes regular aún puede proporcionar toda la funcionalidad que necesita para análisis históricos de nivel más amplio. Sin embargo, es importante tener en cuenta que no desea adoptar un enfoque a expensas de otro porque se requerirán diferentes latencias en función de las necesidades de los usuarios de BI.

Presentación de la refinería de datos

Cree canalizaciones de datos para pasar de los datos sin procesar a BI

Se necesita trabajo para pasar de los datos sin procesar a la inteligencia empresarial

No es ningún secreto que la mayor parte del tiempo invertido en canalizaciones ETL se dedica a salvaguardar la calidad, precisión y relevancia de los datos que terminan en el almacenamiento de datos. Agregue un entorno regulatorio más estricto con políticas como GDPR, HIPPA y SOC2 implementadas en las principales industrias y la gestión adecuada de datos se convierte en un objetivo aún más claro.

Las empresas deben examinar este problema desde diferentes ángulos a lo largo de la canalización de datos.

  • Disponibilidad de datos: En la etapa de extracción, es necesario recopilar los datos correctos y ponerlos a disposición de los usuarios finales.
  • Consistencia de los datos: Los datos deben ser confiables y estar formateados para compartirlos entre diferentes grupos de interés.
  • Redundancia de datos: La canalización de datos debe tener procesos para eliminar datos obsoletos, triviales o duplicados.
  • Informe de datos: Solo se deben recuperar los datos relevantes para análisis e informes en la capa de BI.

Cuando se habla de hacer que los datos correctos estén disponibles, la clave es realmente tener un sistema sólido de registros en su lugar. Entonces, digamos que está construyendo una tabla de dimensiones de clientes a partir de varias tablas de origen en su base de datos. Es posible que tenga datos sobre sus niveles de ingresos provenientes de dos tablas separadas, una con un enfoque específico de ventas y otra que brinda una descripción general más detallada del nivel de marketing. Querrá construir su canalización de tal manera que priorice automáticamente los datos de la última tabla, ya que es probable que sea más precisa y esté actualizada.

La coherencia de los datos se trata de la correcta aplicación de las transformaciones. Hay dos funciones que son particularmente importantes en este caso. Primero, la capacidad de crear expresiones personalizadas para validar conjuntos de datos de entrada basados ​​en la lógica empresarial interna. En segundo lugar, una capacidad de limpieza de datos más amplia que le permite deduplicar y corregir registros. Idealmente, también querrá una opción de creación de perfiles de datos para que pueda profundizar en sus datos y averiguar cuántos registros fallan en las verificaciones estándar debido a información faltante, duplicada o incompleta.

Ahora, una gran parte del proceso de generación de informes se define por cómo estructura realmente su almacén de datos. Si sigue una metodología al estilo de Kimball, los mercados de datos específicos pueden exponerse a grupos de usuarios en función de su nivel de autorización. Sin embargo, cuando se trata de construir las canalizaciones de datos reales, los controles de acceso basados ​​en roles aseguran que el acceso a la capa de preparación de datos más importante esté restringido a aquellos que lideran el proceso de diseño del almacén de datos.

ELT: aprovechar el poder de las canalizaciones de datos verdaderamente escalables

Las sólidas canalizaciones de datos se integran a la perfección con la nube

Con Cloud Data Warehousing y ELT, el cielo es el límite

Podrías estar pensando: ¿Pensé que estábamos discutiendo a favor de ETL aquí? Pero esta idea de que los dos enfoques son de alguna manera diametralmente opuestos es simplemente simplemente mal. Ya sea que esté optando por ETL o ELT, la elección correcta depende completamente de cómo se construya su arquitectura de datos y los detalles de cada canal de datos, lo que nos lleva al almacén de datos en la nube.

Entonces, cuando las bases de datos locales eran el único juego en la ciudad, los desarrolladores tenían que tener cuidado con la forma en que distribuían su poder de cómputo y almacenamiento porque estas infraestructuras pueden ser costosas de configurar y expandir. En este caso, enviar transformaciones al servidor de la base de datos requirió una consideración cuidadosa. La consecuencia fue que las empresas prefirieron procesar estas operaciones en la capa ETL, lo que facilita la ampliación.

Esa ecuación ha cambiado con la introducción del almacenamiento de datos en la nube. Mire plataformas como Amazon Redshift o Microsoft Azure. Ofrecen todo lo que necesita para el almacenamiento de datos moderno, como un potente motor MPP para una ejecución rápida de consultas, almacenamiento de datos en columnas para análisis optimizados y almacenamiento en caché en memoria a un precio más rentable. De repente, tiene una base de datos lista para análisis que puede implementar en minutos y escalar según sea necesario para igualar el volumen de sus datos entrantes.

Ahora, con este tipo de arquitectura implementada, tiene sentido pasar a un enfoque ELT en el que puede transferir datos directamente desde los sistemas de origen al almacén de datos. Luego, aproveche la capacidad informática inherente del motor de la base de datos para realizar transformaciones de datos. Un tiempo de generación de valor más rápido es un gran beneficio aquí porque los datos están disponibles en el destino para informes y análisis a un ritmo más rápido con procesos ejecutados en paralelo con la carga de datos.

Por otro lado, ETL todavía tiene un papel importante que desempeñar en las empresas donde la gobernanza de datos es primordial y usted desea asegurarse de que solo los registros debidamente limpiados caigan en el almacén de datos.

Otra cosa con la que debe tener cuidado con ELT es que el código que está desarrollando para realizar transformaciones en el almacén de datos de destino no lo bloquea en una plataforma en particular. Idealmente, desea canalizaciones de datos independientes de la plataforma que puedan funcionar en varios sistemas de origen y destino.

Astera DW Builder: las mejores capacidades ETL de su clase para el desarrollo de almacenamiento de datos

Astera Constructor DW está construido sobre un motor ETL / ELT de potencia industrial. Viene con una gran cantidad de funcionalidades que lo hacen ideal para el almacenamiento de datos moderno.

Estos incluyen la arquitectura backend, que cuenta con un motor de procesamiento paralelo que puede manejar el procesamiento de datos complejos y de alto volumen con facilidad, y DW Builder's modo de optimización pushdown, que permite a los usuarios ejecutar canalizaciones de datos en modo ELT con solo presionar un botón.

El producto también ofrece soporte para más de 40 fuentes y destinos con soporte para sistemas de archivos planos, bases de datos locales líderes en la industria como SQL Server y Oracle Database para almacenes de datos en la nube como Amazon Redshift, Snowflake y Microsoft Azure, también. como múltiples herramientas de BI. Agregue más de 500 transformaciones listas para usar, incluidas la calidad de los datos y las opciones de validación de datos, y tendrá todas las herramientas que necesita para construir tuberías de datos rápidas, precisas y sin errores para el almacén de datos sin escribir una línea de código.

Construya su almacén de datos sin problemas con ADWB

Estas funciones están respaldadas por capacidades de automatización integrales a través de un componente de programación de trabajos y orquestación de flujo de trabajo integrado.

Para una primera prueba de Astera Constructor de DW, haga clic aquí. O, si está interesado en discutir su caso de uso de almacenamiento de datos con nuestro equipo técnico, contáctenos en este enlace.