Impulse el desarrollo de almacenamiento de datos con modelado de datos automatizado

By |2021-10-06T11:37:15+00:0017 de septiembre de 2021.|

¿Qué pasaría si pudiera combinar el diseño y el desarrollo de un almacén de datos en un proceso automatizado y fluido que lo llevara de la generación de informes básicos a la analítica avanzada en solo unas semanas? Bueno, obtenga el modelado de datos correcto y podrá crear una arquitectura de BI que sea rápida, escalable y ágil. Siga leyendo para conocer cómo hacer que el desarrollo basado en modelos de datos funcione para su empresa.

 

En esencia, los almacenes de datos están diseñados para responder preguntas comerciales. Estos podrían variar desde simples consultas descriptivas centradas en generar informes periódicos hasta análisis mucho más ambiciosos orientados a investigar los factores detrás de un escenario. Para obtener este tipo de inteligencia dirigida de su sistema de BI, debe asegurarse de que los requisitos del usuario estén estrechamente entrelazados en su ciclo de vida de desarrollo.

La mejor manera de conectar los objetivos del usuario final con su arquitectura de datos es poniendo modelado de datos en la parte delantera y central de su almacén de datos. Estos esquemas visualizan entidades y relaciones que constituyen los sistemas fuente, organizándolos en una estructura optimizada adecuada para consultas rápidas y usabilidad. Más importante aún, muestran la lógica empresarial subyacente detrás de los diferentes procesos operativos en un formato inmediatamente comprensible para los usuarios no técnicos y desarrolladores por igual.

Si se diseñan correctamente, los modelos de datos pueden servir como un plan aprobado para todo su almacenamiento de datos. Le ayudarán a identificar de dónde deben recuperarse los datos críticos, las plataformas que pueden respaldar mejor su base de datos física y cómo fluirán las canalizaciones de datos desde el origen hasta el destino.

Echemos un vistazo a algunas técnicas fundamentales de modelado de datos que son esenciales para este proceso.

Comience en la fuente

Modelos de datos en ADWB

Replica tus sistemas fuente con precisión y podrías terminar con un esquema que se parece a esto

Lo primero que debe asegurarse durante el modelado de esquemas es que puede replicar los sistemas de origen en el nivel lógico con precisión.

Para hacerlo, debe identificar dónde residen sus datos críticos: ¿se encuentra en un base de datos local, un lago de datos en la nube o en una plataforma CRM como Salesforce? Por supuesto, solo las tablas específicas dentro de estas aplicaciones serán relevantes para propósitos de BI. Si ya ha estado creando informes en sus sistemas transaccionales, tendrá una buena idea sobre qué conjuntos de datos deben integrarse en su almacén de datos. En última instancia, desea asegurarse de poder ejecutar las mismas consultas que antes, sin interrupciones.

Cree un marco de metadatos estandarizado

Arquitectura del modelo de datos

Fuente de la imagen: https://www.vecteezy.com/free-vector/data

A medida que crea modelos de datos para abarcar todas sus fuentes, metadatos debe aplicarse de forma coherente en cada uno de ellos.

En la etapa de diseño, desea:

  • Establecer relaciones entre entidades utilizando claves primarias y claves externas apropiadas
  • Asegúrese de que está uniendo tablas correctamente y que los tipos de relación de entidad están correctamente definidos, por lo tanto, muchos a muchos, uno a muchos, padre-hijo, etc.
  • Disponga de un alias adecuado para garantizar que se devuelva el tipo / campo de entidad cuando se realiza una consulta en el almacén de datos. Por ejemplo, si establece que los Clientes y los Pedidos tienen una relación entre padres e hijos, es fácil filtrar Clientes por Pedido, pero si intenta hacerlo al revés, deberá asegurarse de que los pedidos estén vinculados a un cliente único, de lo contrario, la consulta fallará. Este problema se resuelve mediante alias.
  • Las convenciones de nomenclatura para los atributos también deben estandarizarse en todo el modelo de datos para garantizar una fácil comprensión.

Recuerde, debe asegurarse de que no haya variaciones entre los metadatos en las tablas del sistema de origen y las entidades del almacén de datos; de lo contrario, se producirán incompatibilidades cuando se llene el almacén de datos. Estas discrepancias harán que sea mucho más difícil crear mapeo de datos para mover datos del origen al destino.

Poniendo un marco de metadatos en su lugar reduce significativamente la deuda técnica creada por las variaciones en el modelo de datos y las tuberías de datos posteriores. Estas discrepancias requieren más actividades de mantenimiento y dificultan la actualización de diferentes tipos de esquemas de forma coherente. En su lugar, ha probado y probado, y lo más importante, plantillas adaptables sin escribir ningún código.

A continuación, se pueden generar scripts basados ​​en estos modelos de datos enriquecidos con metadatos y propagarlos directamente a una base de datos física.

Agilice su modelo de datos

Cómo hacer que su modelo de datos sea ágil

Con Agile, debería poder integrar los cambios en su modelo de datos de manera mucho más fluida que esto.

Es importante comprender que el modelado de datos no es una actividad estática. En la empresa moderna, una BI precisa y oportuna es esencial para casi todos los departamentos. Eso significa que más usuarios acceden al almacén de datos. Ahora, a medida que estos requisitos evolucionen, el consumidor de datos deberá actualizar la arquitectura existente para integrar nuevas fuentes rápidamente. Esta capacidad debe integrarse en su enfoque de diseño.

El modelado de esquemas debe centrarse en proporcionar entregables basados ​​en los requisitos comerciales actuales en lugar de crear un modelo de datos aprobado para toda la empresa antes de que comience el desarrollo. Crear un modelo de datos que represente la totalidad de sus operaciones comerciales requeriría una cantidad significativa de tiempo y esfuerzo de diseño inicial. Tanto es así que para cuando el desarrollo realmente comience, el esquema puede estar desactualizado.

En un enfoque ágil, los modelos de datos se construirían de acuerdo con los requisitos actuales de BI en varias iteraciones. Supongamos que su gerente de ventas desea comparar el desempeño en varias unidades regionales después de una reestructuración organizacional. Su equipo crearía un modelo de datos para reflejar específicamente este proceso comercial (también conocido como mercado de datos) que sería capaz de generar la información necesaria en un par de semanas. Como resultado, el almacén de datos crece de manera incremental de una manera mucho más consistente. En cada fase, se produce un nuevo resultado que el usuario final puede verificar inmediatamente para verificar su precisión y relevancia.

En la práctica, deben existir varios aspectos para permitir que tal enfoque prospere.

Primero, los usuarios comerciales deben poder trabajar en estrecha colaboración con el modelador de datos durante todo el proceso de diseño. Esto significa que el esquema debe diseñarse de manera que ambos equipos lo entiendan fácilmente, de modo que se minimice cualquier error de comunicación.

En segundo lugar, si el proceso de diseño permite a los usuarios acceder a los sistemas de origen, seleccionar tablas relevantes y replicarlas en un modelo de datos, el tiempo de implementación se reducirá significativamente. Ahora, los consumidores de datos dispondrán de las funcionalidades necesarias para garantizar que los conjuntos de datos, sobre los que se debe informar, estén disponibles en el modelo de datos terminado. Cuando estos requisitos cambian, también se pueden agregar nuevas tablas al modelo inicial utilizando las mismas técnicas.

Un enfoque de modelado de datos ágil también debería permitir la implementación de algún sistema de control de versiones para que las actualizaciones del esquema original se puedan rastrear y monitorear. Con varias versiones implementadas, puede deshacer cualquier modificación si es necesario.

Exponer datos según la necesidad de conocerlos

Datos para mí pero no para ti

El enfoque iterativo le permite tener una perspectiva mucho más granular de los datos entregados para propósitos de BI.

En lugar de exponer todos sus sistemas de origen en un modelo de datos empresarial que luego está abierto al acceso de todos los miembros de la organización, diseña esquemas personalizados para cumplir con los requisitos de cada grupo de usuarios. Estos equipos pueden limitar sus consultas a conjuntos de datos relevantes y así mejorar la eficiencia de sus informes y análisis. Al mismo tiempo, desde la perspectiva de la seguridad de los datos, la organización garantiza que la información confidencial solo esté expuesta a los usuarios autorizados.

Adopte un enfoque agnóstico de esquemas

Enfoque agnóstico de esquemas para el modelado de datos

¿Qué diseño de esquema elegirás?

Entonces, cuando hablamos de las mejores prácticas de modelado de datos, el esquema que nos viene a la mente es Modelo dimensional de Kimball. En este esquema, las tablas se organizan en una estructura aproximada en forma de estrella con una tabla de hechos central que proporciona medidas comerciales y tablas de dimensiones vinculadas que proporcionan contexto a estos números.

Esta estructura ha sido dominante en la industria durante más de tres décadas, por una buena razón. El modelo dimensional está diseñado principalmente para un rendimiento rápido de consultas y proporciona mucha flexibilidad al agregar nuevas fuentes con fines de generación de informes. También es un enfoque orientado a procesos comerciales para el diseño de almacenes de datos. En otras palabras, organiza y presenta los datos de una manera que los usuarios finales pueden comprender fácilmente.

Sin embargo, existen razones por las que los usuarios finales podrían considerar una arquitectura alternativa. Por ejemplo, un esquema en estrella tradicional incorpora muchas combinaciones, lo que puede obstaculizar el rendimiento de la consulta en algunos casos. En cambio, es posible que prefieran ir con algunas tablas anchas (muchas columnas) ya que este diseño se adapta mejor a algunas herramientas de visualización. Además, el enfoque permitiría a los usuarios finales simplificar las consultas para una sola tabla en lugar de aplicar múltiples combinaciones, lo que aumenta el riesgo de errores.

Un diseño alternativo que ha ganado considerable popularidad en los últimos años es la arquitectura de la bóveda de datos. Este esquema da como resultado una arquitectura flexible que combina el enfoque orientado a los negocios del modelo dimensional con la escalabilidad del formato 3NF adoptado por Bill Inmon. El DV consta de hubs que representan los aspectos identificativos de una empresa, y cada uno contiene claves naturales para estos procesos. También hay vínculos que sirven como tablas interseccionales que definen relaciones de muchos a muchos entre los diferentes centros de la arquitectura. Por último, los satélites contienen los atributos descriptivos de Hubs y Links.

Dependiendo de sus requisitos de BI, se podría preferir cualquiera de estas arquitecturas, pero las técnicas de modelado de datos que emplee deberían permitirle diseñar y propagar diferentes tipos de esquemas con facilidad, ya sea un modelo dimensional, 3NF o una bóveda de datos.

Astera DW Builder: una herramienta de almacenamiento de datos basada en modelos de datos

El modelado de datos automatizado se encuentra en la base misma de ADWB

El modelado de datos automatizado se encuentra en la base misma de ADWB

Astera DW Builder es una herramienta de automatización de almacenamiento de datos basada en metadatos que acelera radicalmente su camino hacia el desarrollo de almacenamiento de datos.

Este producto coloca el modelado de datos en el centro de sus capacidades. Permitiéndole diseñar modelos de datos de mejores prácticas desde cero o realizar ingeniería inversa a partir de sistemas de origen existentes con la misma facilidad a través de simples comandos de arrastrar y soltar.

A partir de ahí, puede enriquecer sus esquemas con especificaciones adicionales para cosas como atributos de tabla, tipos de datos, claves primarias, claves externas. En el nivel de modelo dimensional, puede definir tipos de SCD para campos dinámicos, fechas de vigencia / vencimiento y claves sustitutas para facilitar la carga y consulta efectivas. ADWB también es compatible con otros enfoques de diseño líderes, incluidas las bóvedas de datos y los modelos de datos 3NF. Estas descripciones luego se envían a un motor que automáticamente diseña todo este esquema en una base de datos física.

Trabajar lógicamente en un proceso unificado potencia el desarrollo de su almacén de datos, reduciendo los tiempos de implementación de meses o incluso años a solo días.

Este nuevo enfoque también fomenta la colaboración. Los interesados ​​no técnicos pueden comprender fácilmente las definiciones lógicas y los elementos visuales que se utilizan en un modelo de datos enriquecido con metadatos. Este conocimiento les permite participar en las implementaciones desde el inicio hasta el final, asegurando que los entregables estén mucho más alineados con sus necesidades.

El modelo de datos ahora sirve esencialmente como una capa de abstracción, lo que permite a los usuarios finales ver los datos del sistema de origen sin acceder directamente a ellos. Esta separación significa que puede proporcionar datos relevantes a usuarios específicos sin preocuparse por problemas de gobierno de datos.

Cuando llega el momento de analizar los datos entregados, los metadatos se pueden propagar a cualquier plataforma de BI donde se utilicen para identificar los conjuntos de datos que se importarán a través del modelo de datos.

Otro beneficio significativo aquí es el agnosticismo de la plataforma porque el modelo de datos no está codificado en ninguna base de datos específica; sirve como un esquema que se puede leer y replicar fácilmente en cualquier base de datos en la nube o en las instalaciones.

Finalmente, si observa la naturaleza rápidamente fluctuante de los datos empresariales, la capacidad de actualizar y modificar los elementos de metadatos en el modelo de datos es esencial, lo que le permite iterar a gran velocidad y, por lo tanto, ajustar las canalizaciones de informes en función de las necesidades actuales de los usuarios comerciales.

Cuando se juntan todos estos elementos, se habla de un proceso rápido, ágil y verdaderamente eficiente en el uso de recursos para el desarrollo del almacén de datos.

¿Quiere ver de primera mano cómo estas funcionalidades pueden impulsar el desarrollo de su almacén de datos? Regístrate ahora para nuestro próximo seminario web, donde los expertos en productos y los conocedores de la industria demostrarán el potencial de este enfoque de mejores prácticas. Tú también puedes ponte en contacto con nosotros directamente para concertar una consulta basada en sus necesidades actuales.