Blog

Inicio / Blog / Usos de la construcción de un almacén de datos SCD en Astera Constructor DW

Tabla de Contenido
El automatizado, Sin código Pila de datos

Aprende cómo Astera Data Stack puede simplificar y agilizar la gestión de datos de su empresa.

Usos de la creación de un almacén de datos SCD en Astera Constructor DW

11th noviembre, 2022

Dimensiones que cambian lentamente

Un almacén de datos SCD es el quid del seguimiento de los cambios en los datos. El cambio está siempre presente en todos los negocios. Desde una perspectiva de recursos humanos, los empleados son promovidos y obtienen nuevos títulos, mientras que las políticas de remuneración y seguro se modifican cada año que pasa. En marketing, las líneas de productos se renombran, fusionan o lanzan con gran fanfarria. En Ventas, llegan nuevos clientes y las cuentas clave se transfieren de un agente a otro.

La pregunta es, ¿sus informes dan cuenta de esta constante evolución? ¿Su arquitectura de BI está construida para proporcionar una vista actual e histórica de sus datos, o solo obtiene instantáneas periódicas de cada sistema de origen?

Para alguien que construye un almacenamiento de datos, la mejor manera de lidiar con los atributos cambiantes es a través de dimensiones cambiantes lentamente. Las dimensiones que cambian lentamente en un almacén de datos almacenan información actual y anterior a lo largo del tiempo. Estas tablas reflejan los cambios a medida que ocurren dentro de los atributos seleccionados en cada dimensión. Según sus requisitos, pueden sobrescribir entradas existentes o crear campos adicionales para mostrar versiones anteriores de un registro.

AsteraEs nuevo constructor de almacén de datos (ADWB) proporciona un diseñador de modelos de datos completo que facilita la configuración de sus tablas de dimensiones y la asignación de diferentes Tipos de SCD a los atributos seleccionados. Echemos un vistazo a algunos de los casos de uso que nuestro producto puede ayudarlo a abordar.

Corrección de registros erróneos en un almacén de datos SCD

Cualquier sistema de origen que se base en la entrada manual de datos es propenso a errores humanos. Desde nombres y direcciones hasta cotizaciones y estimaciones, existen varios registros en sus sistemas de origen que pueden necesitar ser corregidos para mayor precisión. En tales casos, mantener una versión anterior de un registro en el almacén de datos solo agregaría una complejidad inútil a sus datos. La mejor solución es tratar las entradas en estos campos como atributos SCD-1, donde los valores actuales sobrescriben los datos anteriores.

almacén de datos scd

Centro de datos de ventas creado con el diseñador de modelos de datos DWB

Supongamos que ha utilizado DWB para diseñar un modelo dimensional de su sistema de ventas y ha notado algunos nombres de clientes incorrectos en el último lote de actualizaciones. Simplemente abra la dimensión Cliente en el diseñador del modelo de datos y configure el Nombre del cliente como SCD1 - Actualizar en el menú desplegable.

tipos de dimensión que cambian lentamente

Configuración del tipo de SCD para el atributo CustomerName

Ahora, cuando se realicen correcciones en la base de datos de origen, el registro correspondiente se actualizará en el almacén de datos, como se muestra a continuación. Esto se denomina dimensión de tipo 1 en un almacén de datos.

Tabla de dimensiones del cliente antes de la corrección

almacén de datos scd 2

Tabla de dimensiones del cliente con SCD1 aplicado al campo Nombre del cliente

almacén de datos scd 3

Comparación de datos actuales y pasados ​​en un almacén de datos dimensional

Una de las funciones clave del almacén de datos empresarial es la compatibilidad con el análisis estratégico a largo plazo, que requiere que los cambios dentro de un atributo se conserven y rastreen a lo largo del tiempo.

Supongamos que su empresa fusionó recientemente varias sucursales de distrito y creó nuevas regiones para sus puntos de venta. Si desea realizar un seguimiento de cómo el rendimiento de las ventas se ve afectado por la reorganización, podría tratar el campo Distrito como una dimensión de tipo 2 que cambia lentamente. Esto asegurará que los cambios en los distritos de tiendas se muestren como nuevos registros dentro de la tabla.

En DWB, puede aplicar la opción SCD2 - Actualizar e insertar para el campo Distrito en la tabla de dimensiones de la tienda. A medida que se realizan cambios en el atributo de origen, se crearán e insertarán nuevas versiones del registro en la tabla de dimensiones, con una clave sustituta única asignada a cada uno. Según el tipo de análisis que la empresa desee realizar, también puede seleccionar las opciones Fecha de vigencia y Fecha de vencimiento para que cualquier cambio en las regiones de la tienda se pueda rastrear hasta un período específico.

La siguiente tabla ilustra cómo estas configuraciones afectarían la salida de su tabla de dimensiones.

Tabla existente

tipos de scd

Tabla actualizada - SCD2 (fecha de vigencia y fecha de vencimiento)

Seguimiento de cambios de estado

Ciertos departamentos, como Recursos Humanos, esperan cambios frecuentes en los registros dentro de sus sistemas. Por ejemplo, la designación de un empleado puede cambiar varias veces al año. En estos casos, las empresas generalmente quieren poder mantener el historial de datos y al mismo tiempo poder consultarlos rápidamente en función del valor de atributo más actual.
En DWB, puede optar por lidiar con esta situación configurando el Título del trabajo como un campo SCD6. Esto significa que la tabla usaría elementos de SCD1, SCD2 y SCD3 para registrar cambios en este atributo. Estos elementos son los siguientes:

  • Se agrega una fila para rastrear los cambios en el atributo a medida que ocurren (SCD2)
  • Una columna adicional muestra el valor actual del atributo (SCD3)
  • El campo de valor actual se sobrescribirá para mostrar el valor de atributo actualizado (SCD1)

El siguiente ejemplo muestra cómo aparecerían los cambios en el campo Job_Title si se implementa SCD6.

Tabla actual

dimensión que cambia lentamente en la casa de guerra de datos

Tabla actualizada: SCD6 (indicador activo, fecha de vigencia y fecha de vencimiento)

Automatice su almacén de datos SCD empresarial

AsteraEl generador de almacenamiento de datos basado en metadatos puede ayudarlo a diseñar, construir e implementar su proyecto de almacenamiento de datos en días. Con una gama completa de funciones de modelado dimensional y una plataforma ETL robusta para acelerar el mapeo, la carga y la preparación de datos, le brindamos una plataforma única con todas las herramientas que necesita para que su implementación de EDW sea un éxito.

Vea cómo nuestro producto puede ayudarlo a resolver su caso de uso hoy. Hacer clic esta página para ponerse en contacto con nuestro equipo técnico.

Preguntas Frecuentes
Como sugiere lo mismo, los tipos de dimensiones que cambian lentamente (SCD) se utilizan para capturar los cambios lentos dentro de un almacén de datos a lo largo del tiempo, en lugar de un programa continuo. El almacén de datos SCD ayuda a informar datos históricos y asociar atributos dimensionales a cualquier dato dado.

Hay seis tipos de dimensiones que cambian lentamente (SCD):

  • Tipo 0 o dimensión fija: En esta dimensión fija, no se permiten cambios ya que la dimensión nunca cambia
  • Tipo 1 o sin historial: Los registros se actualizan directamente sin registros de valores históricos de este tipo.
  • Versionado de tipo 2 o fila: Se pueden crear nuevos registros adicionales en este tipo, y los registros modificados se pueden rastrear con indicadores y datos operativos. 
  • Tipo 3 o columna de valor anterior: Se puede agregar una nueva columna en este tipo y los cambios se pueden rastrear en un atributo en particular. 
  • Tipo 4 o tabla de historial: Utiliza una tabla histórica para registrar todos los cambios mientras muestra el valor actual en una tabla dimensional. 
  • Tipo 6 o SCD híbrido: Combina técnicas de SCD (Dimensión que cambia lentamente) Tipos 1, 2 y 3 para rastrear el cambio

Algunos de los ejemplos y casos de uso comunes de SCD en el almacén de datos son:

  • Arreglar registros erróneos
  • Comparación actual vs. Datos pasados 
  • Seguimiento de cambios de estado  

También te puede interesar
Las 7 principales herramientas de agregación de datos en 2024
Marco de gobernanza de datos: ¿qué es? Importancia, Pilares y Mejores Prácticas
Las mejores herramientas de ingesta de datos en 2024
Considerando Astera ¿Para sus necesidades de gestión de datos?

Establezca conectividad sin códigos con sus aplicaciones empresariales, bases de datos y aplicaciones en la nube para integrar todos sus datos.

¡Conectémonos ahora!
conectemos