Blog

Inicio / Blog / Data Vault 101: una guía completa para el almacenamiento de datos escalable

Tabla de Contenido
El automatizado, Sin código Pila de datos

Aprende cómo Astera Data Stack puede simplificar y agilizar la gestión de datos de su empresa.

Data Vault 101: una guía completa para el almacenamiento de datos escalable

27 de febrero de 2024.

A medida que las empresas manejan volúmenes de datos cada vez mayores y más diversos, gestionarlos se ha vuelto cada vez más difícil. Sólo el 5% de las empresas sienten que tienen la gestión de datos bajo control, mientras 77% de los líderes de la industria consideran que el creciente volumen de datos es uno de los mayores desafíos. 

Data Vault es una tecnología emergente que permite arquitecturas de datos transparentes, ágiles y flexibles, lo que hace que las organizaciones basadas en datos estén siempre listas para las necesidades comerciales en evolución.  

¿Qué es una bóveda de datos?  

Una bóveda de datos es una técnica de modelado de datos que le permite construir almacenes de datos para análisis a escala empresarial. Le permite adaptarse a los requisitos empresariales que cambian rápidamente con un enfoque ágil e incremental, evitando la necesidad de una reingeniería exhaustiva. También garantiza el seguimiento histórico y la auditoría de los datos, ya que almacena todos los datos de los sistemas de origen sin actualizaciones ni eliminaciones.

 

Arquitectura de bóveda de datos

Una bóveda de datos sigue una arquitectura de tres capas que contiene la bóveda de información sin procesar, comercial y de información. Este diseño le permite crear almacenes de datos ágiles y escalables resistentes a los cambios en los sistemas de origen y los requisitos comerciales.  

Bóveda sin procesar 

La bóveda en bruto es la más granular. nivel, y almacena datos lo más cerca posible del formato de origen. También realiza un seguimiento de toda la información de auditoría desde la fuente. 

Dado que la bóveda sin formato es de solo inserción, nunca se eliminan ni actualizan datos. Esto garantiza que la bóveda sin procesar conserve el historial completo y la trazabilidad de los datos. La bóveda en bruto compuesta por centros, enlaces y satélites. Estas tablas capturan claves comerciales, relaciones y atributos de sus datos. 

  • Hubs representan conceptos comerciales centrales, como clientes, productos o vehículos. Almacenan las claves comerciales que identifican de forma única estos conceptos, junto con cierta información de metadatos, como la fecha de carga y el ID de secuencia. Los usuarios pueden utilizar las claves comerciales para consultar información sobre un centro. Por ejemplo, un Local el centro tiene Identificación del cliente como clave de negocio, y un Producto El centro tendrá un ID del Producto como clave empresarial. 
  • Enlaces representan las relaciones entre centros. Los enlaces almacenan las combinaciones de claves comerciales y muestran cómo están conectados esos centros. Por ejemplo, un vínculo entre Local y Producto Los centros pueden ser un Transacciones de compra tabla de enlaces. Contendrá datos relevantes para ambos centros, como  Fecha de compra, Cantidad, Precio total.
    Para asegurarse de que cada transacción pueda identificarse de forma única, la bóveda de datos concatenará las Identificación del cliente y ID del Producto, luego genere una clave hash basada en la cadena concatenada.
  • Satélites tienda las descriptivo información sobre centros y enlaces. Contienen los atributos que describen las características o estados de los hubs y enlaces a lo largo del tiempo. Por ejemplo, el satélite para el Local hub puede almacenar la información del cliente Nombre, Apellido, Dirección, Número de teléfono, etc.
    Asimismo, el satélite para el Transacciones de compra La tabla de enlaces puede almacenar información como Método de pago, Estado de entrega, Fecha de carga, Fuente de registro. En esta tabla, Método de pago y Estado de entrega proporcionar información adicional sobre cada transacción. Fecha de carga y Fuente de registro son campos de metadatos.
      

Bóveda empresarial 

La bóveda empresarial es otra capa derivada de la bóveda sin formato. Aplica reglas comerciales seleccionadas, cálculos, limpieza de datos y funciones de calidad de datos a los datos. La bóveda empresarial también puede contener concentradores, enlaces y satélites, pero normalmente se crean en función de las necesidades empresariales y no suelen ser una copia directa de los que se encuentran en la bóveda sin formato. La bóveda empresarial es útil para brindar asistencia en consultas y facilitar el acceso de los usuarios a los datos. 

A continuación se muestran algunas transformaciones de datos y reglas de calidad de datos que podrían aplicarse en Business Vault en nuestro ejemplo:

  • Transformación de datos: cálculo del valor de vida del cliente: Es posible que tenga una regla de transformación que calcule el valor de por vida de cada cliente en función de su historial de compras. Esto podría implementarse como una nueva tabla Satélite en Business Vault que asocie cada Identificación del cliente con un atributo LifetimeValue calculado. El Valor del tiempo de vida podría calcularse como la suma de Precio total para todas las transacciones asociadas con cada Identificación del cliente.
  • Transformación de datos – Ventas por categoría de producto: Es posible que desee realizar un seguimiento de las ventas totales de cada categoría de producto. Esto podría implementarse como un nuevo Hub y Satélite en Business Vault que asocie cada Categoría con un calculado Ventas totales atributo.
  • Reglas de calidad de datos: Es posible que tenga reglas comerciales que apliquen estándares de calidad de datos. Por ejemplo, es posible que tenga una regla que marque cualquier transacción en la que el Precio total es menor que cero, o donde el Identificación del cliente or ID del Producto no existe en las respectivas tablas Hub. Estas reglas se pueden implementar como controles en el proceso de carga de datos o como restricciones en el esquema de la base de datos. 

Bóveda de información 

La bóveda de información (también conocida como information marts) es una capa de presentación construida a partir de la bóveda sin procesar y la bóveda empresarial para respaldar la generación de informes y análisis. Está compuesto por estructuras fáciles de usar, como esquemas en estrella. que representanor data marts. 

La bóveda de información puede aplicar más transformaciones y agregaciones a los datos para prepararlos para su consumo por parte de los usuarios finales o las herramientas de inteligencia empresarial. 

Bóveda de datos

Arquitectura de bóveda de datos

Aprenda a utilizar los mercados de información para entregar datos personalizados y relevantes a sus usuarios finales.

La combinación de bóveda sin formato, bóveda empresarial y mercados de información permite una mejor integridad de los datos, una carga casi en tiempo real y una mejor adaptación a las nuevas necesidades empresariales sin afectar las estructuras existentes.  

Beneficios de la bóveda de datos  

Flexibilidad y adaptabilidad 

La bóveda de datos puede manejar múltiples sistemas de origen y relaciones que cambian con frecuencia minimizando la carga de trabajo de mantenimiento. Esto significa que un cambio en un sistema fuente que crea nuevos atributos se puede implementar fácilmente agregando otro satélite al modelo de bóveda de datos. 

De manera similar, las relaciones nuevas y cambiantes se pueden manejar cerrando un vínculo y creando otro. Estos ejemplos muestran el alto nivel de flexibilidad y adaptabilidad que proporciona el almacén de datos. 

Escalabilidad 

A medida que crece el volumen de datos o se agregan más sistemas de origen, la bóveda de datos se escala fácilmente. Puede introducir nuevos centros, enlaces y satélites para incorporar fuentes o entidades de datos adicionales sin alterar la estructura existente. El almacén de datos le permite acomodar más datos y más usuarios sin comprometer el rendimiento o la calidad. 

Preservación de datos históricos 

El uso de tablas satelitales en la bóveda de datos garantiza que se conserven los datos históricos. Esto es fundamental para realizar un seguimiento de los cambios a lo largo del tiempo, analizar tendencias y cumplir con los requisitos de cumplimiento normativo. Por ejemplo, en un almacén de datos clínicos, es importante almacenar datos históricos para comprender cómo han evolucionado los diagnósticos de los pacientes o las especialidades de los proveedores con el tiempo.

Linaje de datos y auditabilidad 

Data Vault incorpora el linaje de datos y la auditabilidad en el modelo de Data Vault. En otras palabras, la bóveda de datos almacena la fecha de carga y la fuente de datos de cada nuevo registro, indicándonos cuándo y de dónde provienen los datos. Además, puede analizar claves hash y diferencias hash para comparar rápidamente valores de fila e identificar cambios. Estas características ayudan a garantizar la calidad, la trazabilidad y la responsabilidad de los datos. 

Consistencia 

La bóveda de datos garantiza la coherencia de los datos al capturarlos de manera coherente incluso cuando los datos de origen o su entrega son inconsistentes. Esto significa que el almacén de datos puede proporcionar información confiable y precisa para las decisiones comerciales. Además, la bóveda de datos permite la carga paralela de datos con el uso de valores hash, lo que mejora la velocidad de acceso a los datos y la satisfacción del usuario. 

Agilidad 

Data Vault respalda el desarrollo ágil y la evolución de los requisitos del almacén de datos siguiendo una metodología que incluye varios principios de procesos de trabajo ágiles. Esto significa que los proyectos de bóveda de datos tienen ciclos de lanzamiento cortos y de alcance controlado que permiten al equipo de desarrollo trabajar en estrecha colaboración con las necesidades comerciales y crear una mejor solución. 

Bóveda de datos frente a técnicas tradicionales de almacenamiento de datos 

La bóveda de datos es una técnica de modelado para construir almacenes de datos, pero difiere de las técnicas tradicionales como el modelo dimensional y 3NF. Tiene algunas diferencias clave en términos de carga de datos, modelado de datos y agilidad de los datos. 

Carga de datos  

La bóveda de datos carga datos de manera diferente en comparación con las técnicas tradicionales de almacenamiento de datos. Normalmente, los almacenes de datos siguen Extraer-Transformar-Cargar (ETL) Flujo de trabajo donde los datos se transforman y validan antes de cargarse en el almacén. En esta técnica, debe actualizar o eliminar registros existentes en el almacén en función de los cambios en los sistemas de origen. 

Por el contrario, la bóveda de datos aprovecha el flujo de trabajo Extraer-Cargar-Transformar (ELT), donde los datos se almacenan directamente en la bóveda sin procesar desde el sistema de origen. Las reglas, transformaciones o validaciones comerciales se aplican más adelante en el proceso, generalmente dentro de la bóveda comercial.  

Este enfoque le permite agregar nuevos registros al almacén sin actualizar ni eliminar registros existentes. Puede aplicar reglas de negocio, transformaciones y validaciones solo cuando necesite utilizar los datos para informes o análisis. 

Modelado de datos 

Un almacén de datos tradicional normalmente utiliza un modelado dimensional o un modelado normalizado (3NF) para organizar los datos en hechos y dimensiones o entidades y relaciones., respetuosamente 

Data Vault utiliza una técnica de modelado híbrido que combina las mejores prácticas de modelado dimensional y normalizado. Aprovecha un esquema radial para representar los datos de una manera histórica y flexible. Si la bóveda de datos es el modelado de datos ideales Para usted depende de sus requisitos. 

Agilidad de datos 

Un almacén de datos suele tener una estructura rígida y estable diseñada para cumplir con los requisitos comerciales actuales y previstos. La estructura del almacén puede cambiar con el tiempo debido a cambios en los requisitos comerciales, los sistemas fuente o los estándares de calidad de los datos. Sin embargo, dichos cambios pueden requerir esfuerzos y recursos significativos para modificar los procesos ETL, los esquemas de almacén y los informes existentes. 

Data Vault se adapta a los requisitos comerciales que cambian rápidamente al separar las partes estables y temporales de un modelo de datos. Esto significa que los conceptos empresariales centrales y sus relaciones se almacenan en centros y enlaces, que rara vez cambian. Por el contrario, los atributos descriptivos y sus cambios a lo largo del tiempo se almacenan en satélites, que pueden agregarse o modificarse fácilmente. 

De esta manera, el almacén de datos evita la necesidad de una reingeniería exhaustiva del almacén de datos cuando se introducen nuevas fuentes o atributos o se modifican los existentes. 

Capacidad para manejar grandes volúmenes de datos 

Data Vault admite la carga paralela de datos de diferentes fuentes, lo que aumenta la velocidad y la eficiencia de la integración de datos. Data Vault se basa en metodologías y técnicas ágiles, lo que le permite entregar valor de forma continua y iterativamentey colaborar activamente con los usuarios empresariales.

Mejores prácticas de almacenamiento de datos  

La bóveda de datos puede manejar entornos de datos complejos y dinámicos. Sin embargo, para garantizar una implementación exitosa de la bóveda de datos, es importante seguir las mejores prácticas y evitar errores comunes. A continuación se ofrecen algunos consejos y recomendaciones de expertos en la materia: 

  • Planificación y definir claramente el modelo de negocio y los requisitos antes de diseñar la bóveda de datos. Esto ayuda identifica el clave conceptos de negocio, relaciones y atributos que formarán la base de centros, enlaces y satélites.
  • Utilice herramientas de automatización para acelerar y simplificar el desarrollo y mantenimiento de la bóveda de datos. Las herramientas de automatización pueden ayudar a generar código, modelos de datos, documentación y pruebas basadas en patrones y metadatos predefinidos. 
  • Siga las bóveda de datos 2.0 estándares y mejores prácticas para garantizar la coherencia, la calidad y la escalabilidad de la bóveda de datos. Data Vault 2.0 es una versión actualizada de la metodología original que incorpora nuevas características como claves hash, carga paralela, columnas de auditoría y Business Vault.  
  • Evite sobrecargar la bóveda de datos con datos innecesarios o redundantes. Data vault está diseñado para almacenar datos sin procesar de sistemas fuente sin aplicar ninguna transformación o regla comercial. Sin embargo, esto no significa que uno deba cargar todo en la bóveda de datos sin filtrar o validar los datos. Los usuarios sólo deben cargar los datos relevantes, precisos y útiles para sus necesidades comerciales. 
  • Supervise y pruebe las bóvedas de datos periódicamente para garantizar su rendimiento, confiabilidad y precisión. La bóveda de datos es una estructura de datos dinámica y en evolución que puede adaptarse a cambios en las fuentes de datos y los requisitos comerciales. Sin embargo, esto también significa que los usuarios deben realizar un seguimiento de los cambios y su impacto.s en la bóveda de datos.  

Construya un almacén de datos con Astera  

Data Vault ofrece muchos beneficios, como escalabilidad, auditabilidad, paralelismo y adaptabilidad, lo que lo convierte en una excelente opción para las necesidades modernas de almacenamiento de datos. Astera DW Builder es un diseño de almacén de datos automatizado y sin código y ETL/ELT herramienta que permite a los usuarios crear bóvedas de datos en minutos.

Para obtener más información sobre Astera DW Builder y sus funciones de bóveda de datos, visite el sitio web or solicite una demo . 

También te puede interesar
Las 7 principales herramientas de agregación de datos en 2024
Marco de gobernanza de datos: ¿qué es? Importancia, Pilares y Mejores Prácticas
Gobernanza de datos: hoja de ruta hacia el éxito y obstáculos a evitar
Considerando Astera ¿Para sus necesidades de gestión de datos?

Establezca conectividad sin códigos con sus aplicaciones empresariales, bases de datos y aplicaciones en la nube para integrar todos sus datos.

¡Conectémonos ahora!
conectemos