Modernice su arquitectura de datos con un enfoque de mejores prácticas para el modelado de datos dimensionales

By |2021-11-15T06:09:47+00:0022nd septiembre, 2021|

El modelado de datos dimensionales ha sido la base del diseño eficaz de un almacén de datos durante décadas. La metodología de Kimball promete un rendimiento optimizado de las consultas y una estructura simplificada que las partes interesadas pueden comprender fácilmente en todos los niveles de la empresa. Siga leyendo para descubrir cómo nuestro enfoque automatizado lo ayuda a implementar este esquema para lograr la máxima efectividad en su almacén de datos.

Para construir una arquitectura analítica verdaderamente moderna que habilite técnicas avanzadas como aprendizaje automático, análisis predictivo, pronósticos y visualizaciones de datos, necesita implementar el modelado de datos dimensionales en su almacén de datos. Hay algunas marcas de verificación que un sistema de BI debe cumplir antes de poder calificar.

Primero, debe ser capaz de recopilar y procesar grandes volúmenes de datos de fuentes transaccionales dispares. En segundo lugar, debe manejar registros tanto actuales como históricos. En tercer lugar, debe admitir una variedad de operaciones de consulta complejas y en constante cambio. Por último, debe generar datos relevantes y actualizados para sus usuarios finales.

La clave para cumplir con estas expectativas radica en la etapa de diseño durante el modelado de datos. Las decisiones que tome aquí afectarán directamente la agilidad, el rendimiento y la escalabilidad de su almacén de datos.

Pero, ¿por qué el modelado de datos dimensionales?

Esquema de un esquema en estrella

El esquema de estrella clásico

 

Digamos que opta por un esquema 3NF, que minimiza la redundancia de datos mediante la normalización. El número de mesas aumentará sustancialmente. Esto significa que cualquier consulta que se ejecute en un esquema 3NF implicaría muchas combinaciones complejas.

En comparación, modelado dimensional Las técnicas ofrecen una estructura simplificada y desnormalizada que produce muchas menos combinaciones y, por lo tanto, mejora el rendimiento de las consultas. Los modelos de datos dimensionales también admiten datos que cambian lentamente y dimensiones específicas de fecha / hora, las cuales facilitan el análisis histórico. Los usuarios finales entienden más fácilmente este esquema, lo que les permite colaborar con su equipo de desarrollo utilizando un lenguaje común. Como resultado, resulta mucho más fácil construir un almacén de datos en torno a los procesos comerciales reales y evolucionar el modelo de datos para abarcar las necesidades cambiantes de su empresa.

Veamos algunos factores críticos que harán de sus modelos dimensionales un factor clave para el desarrollo de su almacén de datos.

Preste atención al grano

Preste atención al grano al crear un modelo de datos dimensional

Encontrar el grano adecuado para su tabla de hechos es esencial (pista: el trigo no funcionará)

Por lo general, querrá crear modelos dimensionales individuales para diferentes áreas de operación en su empresa. Cada uno de estos procesos tendrá un grano definido; este es el nivel de detalle en el que se almacenan los datos en tablas de hechos y dimensiones relacionadas. Es esencial mantener un grano consistente en los modelos de datos dimensionales para garantizar el mejor rendimiento y usabilidad durante la fase de consumo. De lo contrario, podría terminar con informes y análisis mal calculados.

Para un excelente ejemplo de esto, digamos que está diseñando un modelo de datos dimensional para su proceso de ventas. Tiene dos fuentes diferentes en las que se registran los datos, una que rastrea las facturas nacionales por transacción y la otra que rastrea los pedidos generados a nivel mundial por mes. Una tabla es mucho más adecuada para la posterior división y división de datos, mientras que la última esencialmente proporciona una vista resumida del proceso de ventas, que solo será útil para informes y análisis de alto nivel.

En general, cuando los datos se relacionan con diferentes procesos comerciales, puede suponer que será necesario crear varios modelos. Por lo tanto, debe poder diseñar estos esquemas con precisión en función de las relaciones entre entidades identificadas en el sistema de origen. Las tablas de hechos y dimensiones deben asignarse correctamente con el nivel de detalle adecuado.

Al mudarse a un Procesos que le permite automatizar el modelado de esquema inicial, puede asegurarse de que estos conceptos básicos se apliquen correctamente a su esquema. A partir de ahí, puede trabajar para adaptarlo más a sus requisitos de BI. Más importante aún, puede actualizar fácilmente sus modelos para reflejar los cambios en el sistema de origen o los requisitos del usuario final y luego propagar estos cambios a través de sus canales de datos sin necesidad de un trabajo manual extenso.

Otro detalle crítico para lograr su enfoque correcto es asegurarse de que su enfoque de modelado dimensional incluya tablas de dimensiones de fecha. Estas tablas proporcionan varios tipos de medición de fechas específicas, como diarias, mensuales, anuales, trimestres fiscales o días festivos. En última instancia, esto ayudará a los usuarios finales a filtrar y agrupar sus datos de manera más eficiente durante la fase de consumo.

Maneje automáticamente sus datos que cambian lentamente

Explicar los registros históricos a través de un ejemplo

Esos registros históricos pueden ser útiles (https://xkcd.com/2075/)

Los procesos comerciales se encuentran en una etapa de cambio constante. Los empleados se unen a la organización, ascienden y finalmente se jubilan. Los clientes se mudan a una nueva dirección o cambian sus datos de contacto. En algunos casos, departamentos enteros son absorbidos, renombrados o reestructurados. Por lo tanto, debe asegurarse de que su modelo dimensional pueda reflejar este entorno dinámico con precisión.

Aplicando el técnica correcta de manipulación de la SCD a sus modelos de datos dimensionales, puede contabilizar los cambios en los registros en el sistema de origen y, si es necesario, conservar los datos históricos para su posterior análisis. Ahora, hay varios tipos de SCD disponibles según sus requisitos. Las técnicas van desde SCD Tipo 1 para sobrescribir valores pasados ​​hasta SCD Tipo 3 que actualiza el registro actual mientras agrega un nuevo campo para mostrar el valor anterior del atributo.

La tabla de dimensiones también puede contener campos adicionales para reflejar cuándo entró en vigencia un cambio en particular (Fecha de vigencia / Fecha de vencimiento) o la moneda de un registro específico (Versión) en caso de que se hayan realizado múltiples cambios a lo largo de los años. Incluso puede tener un indicador de bandera activo para indicar qué versión de un registro está en uso en el momento del informe.

Una advertencia aquí es que es engorroso facilitar estas inserciones y actualizaciones durante la carga del almacén de datos manualmente. Después de todo, estamos hablando de implementar procesos para verificar automáticamente los cambios en el registro del sistema de origen y luego identificar si los registros deben sobrescribirse o actualizarse. En el último caso, es posible que sea necesario generar varias claves sustitutas nuevas, por no mencionar varios campos nuevos. También tendrá que crear un mapeo de datos para todas estas actividades.

Si está desarrollando su almacén de datos con la ayuda de una herramienta de modelado de datos dimensionales que sigue un enfoque basado en metadatos sin código, simplemente puede asignar los tipos de SCD relevantes a los atributos en el nivel lógico. Luego, estos detalles se propagarán a un motor ETL que puede manejar automáticamente las inserciones / actualizaciones posteriores, las uniones y las consideraciones de mapeo de datos sin ningún esfuerzo manual.

Agilizar la carga de la tabla de hechos

Optimice la carga de tablas de hechos con modelos de datos dimensionales

Todas las canalizaciones de datos conducen a tablas de hechos y dimensiones

La carga de la tabla de hechos es otra área que introduce una gran cantidad de esfuerzo manual adicional durante el desarrollo de la canalización de datos. Este proceso implica la ingeniería de múltiples uniones entre tablas de dimensiones. Teniendo en cuenta que las tablas de hechos generalmente contienen millones de registros, el alto costo de realizar esta operación es evidente.

Cada vez que se completa la tabla de hechos, las búsquedas en el modelo de datos dimensionales hacen una referencia cruzada de cada clave comercial con la tabla de dimensiones relevante y la convierten en una clave sustituta. Suponga que la tabla de dimensiones es particularmente grande o que se han realizado varios cambios en los registros de origen (en el caso de dimensiones que cambian lentamente). En ese caso, la búsqueda puede llevar mucho tiempo y muchos recursos. Por supuesto, esta tarea se repetirá de forma coherente ya que los datos transaccionales se actualizan constantemente.

En muchos casos, es posible que deba crear una mesa de preparación entre el sistema de origen y el almacén de datos para almacenar todos estos datos históricos y así facilitar su procesamiento durante la carga.

También podría tener que realizar asignaciones de datos jerárquicas avanzadas de los sistemas de origen para garantizar que los datos con el grano correcto se carguen en la tabla de hechos.

Ahora, si volvemos al enfoque basado en metadatos descrito anteriormente, podemos encontrar una manera de acelerar este proceso de manera radical. Si, en cambio, configura atributos de hechos dentro del modelo de datos dimensionales, luego usa estas entidades en la canalización de datos, el motor ETL / ELT subyacente puede llevar a cabo automáticamente las uniones y búsquedas requeridas para la población del almacén de datos.

 

Ponga en marcha procesos para hacer frente a los hechos que llegan temprano

Los modelos de datos dimensionales ayudan a almacenar datos históricos

A veces, es posible que la realidad de su entorno empresarial no se ajuste perfectamente a los requisitos de un esquema estándar.

Por ejemplo, se puede generar una identificación de empleado para un recluta antes de que la organización tenga información sobre quiénes son o incluso una fecha de incorporación específica para el candidato. Si ha creado un modelo de datos dimensional para reflejar su proceso de RR.HH., este escenario dará como resultado un registro de tabla de hechos sin atributos dimensionales relacionados. Esencialmente, una búsqueda de clave externa fallida.

Ahora, en este caso, es cuestión de esperar a que llegue la información deseada, por lo que el mejor enfoque es reemplazar los datos faltantes con una dimensión de marcador de posición que contenga valores predeterminados. Luego, una vez que los detalles del empleado se registran en su totalidad, los atributos se pueden actualizar en la tabla correspondiente. En otros casos, es posible que no desee procesar el registro en absoluto, en cuyo caso querrá que la entrada se marque u omita por completo durante el llenado del almacén de datos.

Independientemente de cómo maneje estas situaciones, su modelo de datos dimensional debe permitir configuraciones dinámicas que reflejen la naturaleza de su negocio.

Diseñe modelos de datos dimensionales enriquecidos con metadatos a gran velocidad con Astera Constructor DW

Astera Constructor DW es una herramienta integral de modelado de datos dimensionales que le permite diseñar modelos de dimensiones integrales a partir de un sistema transaccional en minutos.

Nuestro motor intuitivo puede desarrollar automáticamente un esquema que mejor se ajuste a la asignación de hechos y dimensiones en función de las relaciones entre entidades contenidas en la base de datos de origen. Alternativamente, puede hacer uso de la caja de herramientas rica en funciones de ADWB para crear su propio modelo dimensional desde cero, completo con tablas de hechos, dimensiones y fechas. Luego, simplemente configure cada entidad con los atributos necesarios, incluidos los tipos de SCD, claves sustitutas, claves comerciales y otros metadatos de identificación.

También ofrecemos varias funcionalidades para acelerar el proceso de carga del almacén de datos, incluidos cargadores de hechos y dimensiones dedicados para acelerar la transferencia de datos a su destino. ADWB también proporciona un objeto de consulta de modelo de datos especialmente diseñado que le permite unir varias tablas del sistema de origen para crear una entidad de origen jerárquica que puede asignar fácilmente a las tablas del almacén de datos relevantes.

Para ver más de cerca Astera Las capacidades de automatización de almacenamiento de datos y modelado dimensional de DW Builder, ¡Contáctanos con nosotros ahora. O echa un vistazo el producto para usted.