Arquitectura de almacén de datos: tipos, componentes y conceptos

By |2022-05-13T09:45:36+00:0023 de mayo,2019|

Durante las últimas décadas, la arquitectura del almacén de datos ha sido el pilar de los ecosistemas de datos corporativos. Y a pesar de las numerosas alteraciones en los últimos cinco años en el campo de Big Data, computación en la nube, análisis predictivo y tecnologías de la información, los almacenes de datos solo han ganado más importancia. Hoy, la importancia de almacenamiento de datos no se puede negar, y hay más posibilidades disponibles para almacenar, analizar e indexar datos que nunca.

Este artículo discutirá los diversos conceptos básicos de la arquitectura del almacén de datos, los diferentes modelos de almacén de datos empresariales (EDW), sus características y componentes significativos, y explorará el propósito principal de un almacén de datos en las industrias modernas.

¿Qué es un almacén de datos?

Un almacén de datos es un repositorio centralizado que incluye información pasada y conmutativa de una o varias fuentes. Los empleados de una organización pueden utilizar este repositorio para realizar análisis, obtener información y realizar previsiones futuras.

El proceso ETL es un concepto fundamental de almacén de datos:

  • Extraer: Recopilación de datos de diversas fuentes heterogéneas
  • Transformar: Conversión de datos por debajo del estándar en datos limpios, estructurados y verificados que están listos para usar.
  • Carga: Carga de los datos en un nuevo destino

Los EDW agilizan los procesos de generación de informes y BI de las empresas. En lugar de procesar transacciones, un almacén de datos funciona como una base de datos relacional y realiza consultas y análisis. La principal diferencia entre las bases de datos transaccionales y los almacenes de datos es que las bases de datos transaccionales no generan análisis, mientras que los análisis se realizan de manera eficiente en el almacén de datos. En resumen, las bases de datos transaccionales y los almacenes de datos son similares excepto por el aspecto analítico.

Un modelo de almacén de datos normalmente incluye datos transaccionales históricos. Sin embargo, también puede contener datos de otras fuentes. Distingue la capacidad analítica de la capacidad transaccional, lo que permite a las empresas recopilar datos de numerosas fuentes. De esta manera, ayuda en:

  • Conservación de registros
  • Evaluar los datos para comprender mejor y mejorar las operaciones corporativas

Herramientas y características de un almacén de datos

Junto con una base de datos relacional, un diseño de almacén de datos puede contener una Herramienta de extracción, transformación y carga (ETL), análisis numérico, capacidades de generación de informes, capacidades de minería de datos y otras aplicaciones. Estas herramientas y características manejan el procedimiento de acumular datos, convertirlos en información valiosa y transmitirlos a los analistas de negocios y otros usuarios. Estas capacidades permiten múltiples aplicaciones y usos del almacenamiento de datos. Por ejemplo, el sector bancario puede utilizar almacenes de datos para crear modelos financieros que pueden mejorar la rentabilidad.

Otra ejemplo de caso de uso de almacenamiento de datos es la gestión de la cadena de suministro, donde el análisis de datos y la previsión ayudan a reducir los plazos de entrega y optimizar las operaciones.

Sin embargo, el comienzo de cualquier iniciativa de almacenamiento de datos requiere un proceso de evaluación holístico y riguroso. Las plantillas de evaluación del almacén de datos se utilizan a menudo para este propósito. Ofrecen información detallada sobre las necesidades comerciales, las expectativas, los aspectos técnicos de la construcción, planificación y operación de un almacén de datos.

También es importante tener en cuenta que la evaluación del almacén de datos no es un evento único y, a menudo, depende de las necesidades únicas de una empresa. Estas evaluaciones son necesarias para saber qué problemas clave puede enfrentar una organización al planificar la construcción de un almacén de datos desde cero.

Características del diseño del almacén de datos.

Las siguientes son las principales características del diseño, desarrollo y mejores prácticas de almacenamiento de datos:

Tema enfocado

Un diseño de almacén de datos utiliza un tema particular. Proporciona información sobre un tema en lugar de las operaciones de una empresa. Estos temas pueden estar relacionados con ventas, publicidad, marketing y más.

En lugar de centrarse en operaciones o transacciones comerciales, el almacenamiento de datos enfatiza la inteligencia comercial (BI), es decir, mostrar y analizar datos para la toma de decisiones. También ofrece una interpretación sencilla y concisa de un tema en particular al eliminar datos que pueden no ser útiles para los tomadores de decisiones.

unificada

Al utilizar el modelado de almacenamiento de datos, un diseño de almacenamiento de datos unifica e integra datos de diferentes bases de datos de una manera colectiva adecuada. Incorpora datos de diversas fuentes, como bases de datos relacionales y no relacionales, archivos planos, mainframes y sistemas basados ​​en la nube. Además, un almacén de datos debe mantener una clasificación, diseño y codificación consistentes para facilitar un análisis de datos eficiente.

Variación de tiempo

A diferencia de otros sistemas operativos, el almacén de datos almacena datos centralizados de un período de tiempo determinado. Por lo tanto, los datos recopilados se identifican dentro de un período de tiempo específico y brindan información desde la perspectiva pasada. Además, los datos no se pueden estructurar ni modificar una vez que ingresan al almacén.

No volatilidad

Otra característica importante de un almacén de datos es la no volatilidad, lo que significa que los datos primarios no se eliminan cuando se carga nueva información en el almacén de datos. Además, los datos solo se pueden leer y se pueden actualizar de forma intermitente para ofrecer una imagen completa y actualizada al usuario.

Automatización del diseño de almacenamiento de datos 

La automatización del diseño del almacén de datos puede Impulse el desarrollo de su almacén de datos. Es esencial acertar en su enfoque. Primero, identifique dónde residen sus datos críticos y qué datos son relevantes para sus iniciativas de BI.

Luego, cree un marco de metadatos estandarizado que proporcione un contexto crítico para estos datos en la etapa de modelado de datos. Dicho marco podría hacer coincidir su modelo de almacén de datos con el sistema de origen y garantizar que las relaciones entre las entidades se construyan adecuadamente con claves primarias y externas correctamente definidas. También establecería que las tablas se unen correctamente y que los tipos de entidad-relación se asignan con precisión.

Además, debe contar con procesos que le permitan integrar nuevas fuentes y otras modificaciones en su modelo de datos de origen y volver a implementarlo. Adoptar un enfoque iterativo proporcionará una perspectiva más granular de los datos entregados para propósitos de BI y vistas materializadas.

Puede adoptar un 3NF o enfoque de modelado dimensional, según sus requisitos de BI. Este último es mejor, ya que lo ayudará a crear una estructura simplificada y desnormalizada para su modelo de almacén de datos.

Mientras lo hace, aquí hay algunos consejos esenciales que debe tener en cuenta:

  • Mantenga un grano consistente en modelos de datos dimensionales
  • Aplique la técnica correcta de manipulación de SCD a sus atributos dimensionales
  • Optimice la carga de la tabla de hechos mediante un enfoque basado en metadatos
  • Poner en marcha procesos para hacer frente a los hechos que llegan temprano

Finalmente, los miembros del equipo pueden probar la calidad y la integridad de los modelos de datos antes de implementarlos en la base de datos de destino. tener un verificación automatizada del modelo de datos La herramienta puede proporcionar importantes ahorros de tiempo.

Seguir estas mejores prácticas al automatizar el modelado de esquemas lo ayudará a actualizar sin problemas su modelo y propagar los cambios en sus canales de datos.

El siguiente paso en el proceso de diseño del almacén de datos es seleccionar la arquitectura de almacenamiento de datos adecuada.

Tipos de arquitectura de almacenamiento de datos

Una arquitectura de almacenamiento de datos define la disposición de los datos en diferentes bases de datos. Dado que los datos deben organizarse y limpiarse para que sean valiosos, una estructura de almacenamiento de datos moderna identifica la técnica más eficaz para extraer información de los datos sin procesar. Usando un modelo dimensional, los datos sin procesar en el área de preparación se extraen y se convierten en una estructura de almacenamiento de consumibles simple para brindar inteligencia comercial valiosa. Además, a diferencia de un almacén de datos en la nube, un modelo de almacén de datos tradicional requiere servidores locales para que funcionen todos los componentes del almacén.

Al diseñar un almacén de datos corporativo, hay tres tipos diferentes de modelos a considerar:

Almacén de datos de un solo nivel

La estructura de una arquitectura de almacenamiento de datos de un solo nivel produce un conjunto denso de datos y reduce el volumen de datos depositados. Aunque es beneficioso para eliminar redundancias, este tipo de diseño de almacén no es adecuado para empresas con requisitos de datos complejos y numerosos flujos de datos. Aquí es donde entran en juego las arquitecturas de almacenamiento de datos de varios niveles, ya que se ocupan de flujos de datos más complejos.

Almacén de datos de dos niveles

En comparación, la estructura de datos de un modelo de almacén de datos de dos niveles divide las fuentes de datos tangibles del propio almacén. A diferencia de un solo nivel, el diseño de dos niveles utiliza un sistema y un servidor de base de datos.

Las organizaciones pequeñas en las que un servidor se utiliza como data mart suelen utilizar este tipo de arquitectura de almacenamiento de datos. Aunque es más eficiente en el almacenamiento y la organización de datos, la estructura de dos niveles no es escalable. Además, solo admite un número nominal de usuarios.

Almacén de datos de tres niveles

El tipo de arquitectura de almacenamiento de datos de tres niveles es el tipo más común de diseño DWH moderno, ya que produce un flujo de datos bien organizado desde información sin procesar hasta información valiosa.

El nivel inferior en el modelo de almacén de datos generalmente se compone del servidor del banco de datos que crea una capa de abstracción en los datos de numerosas fuentes, como los bancos de datos transaccionales utilizados para usos de front-end.

El nivel medio incluye un Procesamiento analítico en línea (OLAP) servidor. Este nivel altera los datos en una disposición más adecuada para el análisis y el sondeo multifacético desde la perspectiva del usuario. Dado que incluye un servidor OLAP preconstruido en la arquitectura, también podemos llamarlo almacén de datos centrado en OLAP.

El tercer y más alto nivel es el nivel de cliente, que incluye las herramientas y la Interfaz de programación de aplicaciones (API) que se utilizan para el análisis de datos de alto nivel, consultas e informes. Sin embargo, las personas apenas incluyen el cuarto nivel en la arquitectura del almacén de datos, ya que a menudo no se considera tan integral como los otros tres tipos.

El siguiente diagrama DW ilustra las tres capas de un almacén de datos:

Diseño de almacén de datos | ETL |Centro de información de almacén de datos

Fuente: DatawarehouseInfo.com

Como se ilustra con más detalle en el diagrama de almacenamiento de datos, estos son los diferentes tipos de arquitectura de almacenamiento de datos tradicional. Ahora, aprendamos sobre los componentes principales de un almacén de datos (DWH) y cómo ayudan a construir y escalar un almacén de datos en detalle.

Componentes principales de Arquitectura DWH

Las diferentes capas de un almacén de datos o los componentes de una arquitectura DWH son:

  1. Base de datos de almacenamiento de datos

El componente central de una arquitectura DW es una base de datos que almacena todos los datos de la empresa y la hace manejable para la generación de informes. Obviamente, esto significa que debe elegir qué tipo de base de datos utilizará para almacenar datos en su almacén.

Los siguientes son los cuatro tipos de bases de datos que puede utilizar:

  • Bases de datos relacionales típicas son las bases de datos centradas en filas que quizás utilice a diario, por ejemplo, Microsoft SQL Server, SAP, Oracle e IBM DB2.
  • Bases de datos analíticas se desarrollan con precisión para que el almacenamiento de datos mantenga y gestione los análisis, como Teradata y Greenplum.
  • Aplicaciones de almacenamiento de datos no son exactamente bases de datos de almacenamiento, pero varios distribuidores ahora ofrecen aplicaciones que ofrecen software para la gestión de datos, así como hardware para almacenar datos. Por ejemplo, SAP Hana, Oracle Exadata e IBM Netezza.
  • Bases de datos basadas en la nube se puede alojar y recuperar en la nube para que no tenga que adquirir ningún hardware para configurar su almacén de datos, por ejemplo, Amazon Redshift, Google BigQuery y Microsoft Azure SQL.

2. Herramientas de extracción, transformación y carga (ETL)

Las herramientas ETL son componentes centrales del diseño de un almacén de datos empresarial. Estas herramientas ayudan a extraer datos de diferentes fuentes, transformarlos en un arreglo adecuado y cargarlos en un almacén de datos.

La herramienta ETL que elija determinará:

  • El tiempo empleado en la extracción de datos.
  • Aproximaciones a la extracción de datos.
  • Tipo de transformaciones aplicadas y la simplicidad para hacerlo.
  • Definición de regla de negocio para Validación y limpieza de datos. para mejorar la analítica del producto final
  • Relleno de datos extraviados
  • Esquema de la distribución de información desde el depósito fundamental a sus aplicaciones de BI

3. Metadatos

En una arquitectura DW, los metadatos describen la base de datos del almacén de datos y ofrecen un marco para los datos. Ayuda a construir, preservar, manejar y hacer uso del almacén de datos.

Hay dos tipos de metadatos en el almacenamiento de datos:

  • Los metadatos técnicos se compone de información que los desarrolladores y gerentes pueden utilizar al ejecutar tareas de administración y desarrollo del almacén.
  • Metadatos empresariales incluye información que ofrece un punto de vista fácilmente comprensible de los datos almacenados en el almacén.
Metadatos y sus aplicaciones en una arquitectura de almacén de datos

Foto tomada de www.softwaretestinghelp.com/metadata-in-data-warehouse-etl/

Los metadatos juegan un papel importante para que las empresas y los equipos técnicos comprendan los datos presentes en el almacén y los conviertan en información.

Su almacén de datos no es un proyecto, es un proceso. Para que su implementación sea lo más efectiva posible, debe adoptar un enfoque verdaderamente ágil, que requiere un arquitectura de almacenamiento de datos basada en metadatos.

Este es un enfoque visual para el almacenamiento de datos que aprovecha los modelos de datos enriquecidos con metadatos para impulsar todos los aspectos del proceso de desarrollo, desde la documentación de los sistemas de origen hasta la replicación de esquemas en una base de datos física y la facilitación del mapeo desde el origen hasta el destino.

 

El esquema del almacén de datos es configurado a nivel de metadatos, lo que significa que no tiene que preocuparse por la calidad del código y cómo resistirá grandes volúmenes de datos. De hecho, puede administrar y controlar sus datos sin entrar en el código.

También, usted puede Probar modelos de almacenamiento de datos al mismo tiempo. antes de la implementación y replicar su esquema en cualquier base de datos líder. Un enfoque basado en metadatos conduce a una cultura de desarrollo iterativo y prepara la implementación de su almacén de datos para el futuro, de modo que pueda actualizar la infraestructura existente con los nuevos requisitos sin interrumpir la integridad y usabilidad de su almacén de datos.

Junto con las capacidades de automatización, un diseño de almacén de datos basado en metadatos puede agilizar el diseño, el desarrollo y la implementación, lo que lleva a una implementación sólida de almacenamiento de datos.

4. Herramientas de acceso al almacén de datos

Un almacén de datos utiliza una base de datos o un grupo de bases de datos como base. Las corporaciones de almacenamiento de datos generalmente no pueden trabajar con bases de datos sin el uso de herramientas a menos que tengan administradores de bases de datos disponibles. Sin embargo, ese no es el caso de todas las unidades de negocio. Es por eso que utilizan la ayuda de varias herramientas de almacenamiento de datos sin código, como:

  • Herramientas de consulta y reporte. Ayude a los usuarios a producir informes corporativos para análisis que pueden ser en forma de hojas de cálculo, cálculos o elementos visuales interactivos.
  • Herramientas de desarrollo de aplicaciones ayudar a crear informes personalizados y presentarlos en interpretaciones destinadas a fines de informes.
  • Herramientas de minería de datos para almacenamiento de datos sistematizar el procedimiento de identificación de matrices y enlaces en grandes cantidades de datos utilizando métodos de modelado estadístico de vanguardia.
  • Herramientas OLAP ayudar a construir un almacén de datos multidimensional y permitir el análisis de datos empresariales desde numerosos puntos de vista.

5. Bus de almacenamiento de datos

Define el flujo de datos dentro de una arquitectura de bus de almacenamiento de datos e incluye una despensa de datos. Un data mart es un nivel de acceso que permite a los usuarios transferir datos. También se utiliza para particionar datos que se producen para un grupo de usuarios en particular.

6. Capa de informes del almacén de datos

La capa de informes en el almacén de datos permite a los usuarios finales acceder a la interfaz de BI o la arquitectura de la base de datos de BI. El propósito de la capa de informes en el almacén de datos es actuar como un tablero para la visualización de datos, crear informes y extraer cualquier información requerida.

Mejores prácticas de arquitectura de almacenamiento de datos

  • Crean modelos de almacenamiento de datos que están optimizados para la recuperación de información en enfoques dimensionales, desnormalizados o híbridos.
  • Seleccione un enfoque único para los diseños de almacenamiento de datos, como el enfoque de arriba hacia abajo o el de abajo hacia arriba, y apéguese a él.
  • Limpie y transforme siempre los datos con una herramienta ETL antes de cargar los datos en el almacén de datos.
Los datos se limpian y transforman en herramientas ETL antes de que se integren en la arquitectura del almacén de datos.

Foto tomada de medium.com/@vishwan/data-preparation-etl-in-business-performance-37de0e8ef632

  • Cree un proceso de limpieza de datos automatizado en el que todos los datos se limpien uniformemente antes de cargarlos.
  • Permita compartir metadatos entre diferentes componentes del almacén de datos para un proceso de extracción fluido.
  • Asegúrese siempre de que los datos estén integrados correctamente y no solo consolidados cuando los traslade de los almacenes de datos al almacén de datos. Esto requeriría la normalización 3NF de los modelos de datos.

Construya su almacén de datos con Astera Constructor DW

Astera Constructor DW es una solución de almacenamiento de datos de un extremo a otro que automatiza el diseño y la implementación de un almacén de datos en un entorno sin código. Utiliza un enfoque basado en meta que permite a los usuarios manipular datos utilizando un conjunto completo de transformaciones integradas sin secuencias de comandos ETL complejas o secuencias de comandos SQL.

Artículos Relacionados

Enfoque tradicional frente al almacenamiento de datos basado en metadatos

  Desde sistemas de información de gestión monolíticos hasta almacenes de datos y lagos de datos modelados dimensionalmente, hemos visto cambios masivos en cómo...
LEER MÁS

El enfoque basado en metadatos se encuentra con la automatización del almacén de datos: una combinación perfecta...

En la parte anterior, explicamos por qué la tecnología de automatización del almacén de datos debe ser una parte integral de su...
LEER MÁS

Cómo las organizaciones obtienen los beneficios de la automatización del almacenamiento de datos utilizando Astera DW ...

Los almacenes de datos permiten a las empresas ver sus datos desde todos los puntos finales en una ubicación centralizada y procesarlos para obtener información...
LEER MÁS