Una guía para principiantes de arquitectura de almacenamiento de datos

By | 2019-12-24T11:18:48+00:00 23rd mayo, 2019|

Durante las últimas tres décadas, la arquitectura del almacén de datos ha sido el pilar de los ecosistemas de datos corporativos. Y, a pesar de las numerosas alteraciones en los últimos cinco años en el campo del Big Data, la computación en la nube, el análisis predictivo y las tecnologías de la información, los almacenes de datos solo han adquirido más importancia. Hoy en día, hay más posibilidades disponibles para almacenar, analizar e indexar datos, pero la importancia de almacenamiento de datos No se puede negar.

¿Qué es un almacén de datos y por qué es importante?

Un almacén de datos es un repositorio que incluye información pasada y conmutativa de una o varias fuentes. Agiliza la elaboración de informes y los procesos de negocios de BI. En lugar de procesar transacciones, un almacén de datos funciona como una base de datos relacional y realiza consultas y análisis.

Un almacén de datos normalmente incluye datos transaccionales históricos. Sin embargo, también puede contener datos de otras fuentes. Distingue la capacidad analítica de la capacidad de transacción y permite a las empresas amalgamar datos de numerosas fuentes. De esta manera, asiste en:

  • Preservando registros pasados
  • Evaluar los datos para comprender y mejorar las operaciones corporativas.

Junto con una base de datos relacional, un diseño de almacén de datos puede contener una Herramienta de extracción, transformación y carga (ETL), análisis numérico, capacidades de generación de informes, capacidades de extracción de datos y otras aplicaciones que manejan el procedimiento de recopilación de datos, la convierten en información valiosa y la transmiten al analista de negocios y otros usuarios.

Características del diseño del almacén de datos.

Las siguientes son las principales características del diseño del almacén de datos:

Tema enfocado

Un diseño de almacén de datos utiliza un tema particular. Proporciona información sobre un tema en lugar de las operaciones de una empresa. Estos temas pueden estar relacionados con ventas, publicidad, marketing y más.

En lugar de centrarse en las operaciones o transacciones comerciales, el almacenamiento de datos se centra en la inteligencia empresarial (BI), es decir, muestra y analiza los datos para la toma de decisiones. También ofrece una interpretación sencilla y concisa del tema en particular al eliminar datos que pueden no ser útiles para quienes toman las decisiones.

unificada

Un diseño de almacén de datos unifica e integra todos los datos análogos de diferentes bases de datos de una manera colectivamente aceptable utilizando el modelado de datos. Incorpora datos de diversas fuentes, como bases de datos relacionales y no relacionales, archivos planos, mainframe, sistemas basados ​​en la nube, etc. Además, un almacén de datos debe mantener una nomenclatura, diseño y codificación consistentes para facilitar el análisis efectivo de los datos.

Variación de tiempo

A diferencia de otros sistemas operativos, un almacén de datos almacena los datos recopilados en un extenso horizonte temporal. Los datos recopilados se identifican con una duración específica y proporcionan información desde la perspectiva del pasado. Además, cuando los datos se introducen en el almacén, no se pueden reestructurar ni modificar.

No volatilidad

Otra característica importante es la no volatilidad, lo que significa que los datos anteriores no se eliminan cuando se cargan datos nuevos en el almacén de datos. Además, los datos solo se pueden leer y se pueden actualizar de forma intermitente para ofrecer al usuario una imagen completa y actualizada.

Tipos de arquitectura de almacenamiento de datos

Una arquitectura de almacén de datos define la disposición de los datos y la estructura de almacenamiento. Como los datos deben organizarse y limpiarse para que sean valiosos, la arquitectura de un almacén de datos se centra en identificar la técnica más efectiva para extraer información de datos sin procesar en el área de almacenamiento y convertirla en una estructura de consumibles simple utilizando un modelo dimensional que ofrece una valiosa inteligencia empresarial. .

Al diseñar el almacén de datos de una empresa, hay tres tipos principales de arquitectura a tener en cuenta.

Arquitectura de un solo nivel

Una arquitectura de almacenamiento de datos de un solo nivel se centra en producir un conjunto denso de datos y reducir el volumen de datos depositados. Aunque es beneficioso para eliminar redundancias, esta arquitectura no es adecuada para empresas con requisitos de datos complejos y numerosas secuencias de datos.

Arquitectura de dos niveles

Esta arquitectura divide las fuentes de datos tangibles del propio almacén. Aunque es más eficiente en el almacenamiento y organización de datos, la arquitectura de dos niveles no es escalable. Además, solo soporta un número nominal de usuarios.

Arquitectura de tres niveles

Este es el tipo más común de arquitectura de almacenamiento de datos, ya que produce un flujo de datos bien organizado desde información sin procesar hasta información valiosa.

El nivel inferior generalmente comprende el servidor de base de datos que crea una capa de abstracción sobre datos de numerosas fuentes, como los bancos de datos transaccionales utilizados para usos front-end.

El nivel medio incluye un Procesamiento analítico en línea (OLAP) servidor. Desde la perspectiva del usuario, este nivel altera los datos en una disposición que es más adecuada para el análisis y el sondeo multifacético.

El tercer y más alto nivel es el nivel de cliente, que incluye las herramientas y la Interfaz de programación de aplicaciones (API) utilizadas para el análisis de datos de alto nivel, consultas e informes.

Principales componentes de la arquitectura de almacenamiento de datos

Ahora que hemos analizado las tres arquitecturas del almacén de datos, veamos los componentes principales de un almacén de datos.

Un diseño de almacén de datos consta principalmente de cinco componentes clave.

1. Base de datos de almacenamiento de datos

El componente central de una arquitectura de almacenamiento de datos es un banco de datos que almacena todos los datos de la empresa y los hace manejables para los informes. Obviamente, esto significa que debe elegir qué tipo de base de datos utilizará para almacenar datos en su almacén.

Los siguientes son los cuatro tipos de bases de datos que puede utilizar:

  • Bases de datos relacionales típicas cuáles son las bases de datos centradas en filas que tal vez usas a diario. Por ejemplo, Microsoft SQL Server, SAP, Oracle e IBM DB2.
  • Bases de datos analíticas que se desarrollan con precisión para el almacenamiento de datos para sostener y gestionar los análisis. Por ejemplo, Teradata y Greenplum.
  • Aplicaciones de almacenamiento de datos que no son exactamente un tipo de bases de datos de almacenamiento, pero varios distribuidores ahora ofrecen aplicaciones que ofrecen software para la gestión de datos, así como hardware para almacenar datos. Por ejemplo, SAP Hana, Oracle Exadata e IBM Netezza.
  • Bases de datos basadas en la nube que se puede alojar y recuperar en la nube para que no tenga que adquirir ningún hardware para configurar su almacén de datos. Por ejemplo, Amazon Redshift, Microsoft Azure SQL y Google BigQuery.

2. Herramientas de extracción, transformación y carga (ETL)

Las herramientas ETL son fundamentales para la arquitectura de un almacén de datos. Estas herramientas ayudan a extraer datos de diferentes fuentes, a transformarlos en un arreglo adecuado y a cargarlos en un almacén de datos.

La herramienta ETL que elija determinará:

  • El tiempo empleado en la extracción de datos.
  • Aproximaciones a la extracción de datos.
  • Tipo de transformaciones aplicadas y la simplicidad para hacerlo.
  • Definición de regla de negocio para Validación y limpieza de datos. para mejorar la analítica del producto final
  • Relleno de datos extraviados
  • Esquema de la distribución de información desde el depósito fundamental a sus aplicaciones de BI

3. Metadatos

Los metadatos describen el almacén de datos y ofrecen un marco para los datos. Ayuda a construir, preservar, manejar y hacer uso del almacén de datos.

Se puede caracterizar en dos tipos:

  • Los metadatos técnicos, que comprende información que los desarrolladores y administradores pueden utilizar al ejecutar tareas de administración y desarrollo de almacenes.
  • Metadatos empresariales, que comprende información que ofrece un punto de vista fácilmente comprensible de los datos almacenados en el almacén.

Los metadatos juegan un papel importante tanto para las empresas como para los equipos técnicos para comprender los datos presentes en el almacén y convertirlos en información.

4. Herramientas de acceso al almacén de datos

Un almacén de datos utiliza una base de datos o un grupo de bases de datos como base. Los usuarios corporativos generalmente no pueden trabajar con bases de datos directamente. Es por eso que utilizan la asistencia de varias herramientas. Algunas de estas herramientas incluyen:

  • Herramientas de consulta y reporte., que ayuda a los usuarios a producir informes corporativos para análisis que pueden ser en forma de hojas de cálculo, cálculos o visuales interactivos.
  • Herramientas de desarrollo de aplicaciones, que ayudan a crear informes personalizados y los presentan en interpretaciones destinadas a fines de informes específicos.
  • Herramientas de minería de datos, que sistematiza el procedimiento de identificación de matrices y enlaces en grandes cantidades de datos utilizando métodos de modelado estadístico de vanguardia.
  • Herramientas OLAP, que ayudan a construir un almacén de datos multidimensional y permiten el análisis de datos empresariales desde numerosos puntos de vista.

5. Bus de almacenamiento de datos

Define el flujo de datos dentro de una arquitectura de almacenamiento de datos e incluye un data mart. Un data mart es un nivel de acceso utilizado para transferir datos a los usuarios. Se utiliza para particionar los datos que se producen para el grupo de usuarios en particular.