Blog

Inicio / Blog / Conceptos de almacén de datos: enfoque Kimball vs. Inmon

Tabla de Contenido
El automatizado, Sin código Pila de datos

Aprende cómo Astera Data Stack puede simplificar y agilizar la gestión de datos de su empresa.

    Conceptos de Data Warehouse: enfoque de Kimball vs. Inmon

    3rd septiembre, 2024

    Cuando se trata de almacenamiento de datos (DWH), dos de los enfoques de almacenamiento de datos más ampliamente discutidos y explicados son la metodología Inmon y Kimball. Durante años, la gente ha debatido sobre qué enfoque de almacenamiento de datos es mejor y más eficaz para las empresas. Sin embargo, todavía no hay una respuesta definitiva ya que ambos métodos tienen sus ventajas e inconvenientes.

    En este blog, discutiremos los conceptos básicos de un almacén de datos, sus características y compararemos los dos enfoques de almacén de datos populares: Kimball vs. Inmon.

    El concepto de almacén de datos clave permite a los usuarios acceder a una versión unificada de la verdad para la toma de decisiones, informes y pronósticos comerciales oportunos. DWH funciona como un sistema de información con todos los datos pasados ​​y conmutativos almacenados de una o más fuentes.

    Modelos de almacén de datos

    Modelos de almacén de datos referirse a diseños y estructuras arquitectónicos utilizados para organizar y gestionar datos dentro de un entorno de almacenamiento de datos. Estos modelos dictan cómo se almacenan, acceden y utilizan los datos con fines analíticos. Las secciones principales incluyen:

    • Almacén virtual: Consta de bases de datos separadas que se pueden consultar colectivamente, lo que permite a los usuarios acceder a los datos como si estuvieran almacenados en un único almacén.
    • Mercado de datos: Centrado en funciones o departamentos comerciales específicos, que contiene subconjuntos de datos diseñados para el análisis.
    • Almacén de datos empresariales: Repositorio completo que integra datos de diversas fuentes en una organización, respaldando análisis e informes en toda la empresa.

    Características de un almacén de datos

    Las siguientes son las cuatro características de un almacén de datos:

    • Orientado al sujeto: Un almacén de datos utiliza un tema y proporciona información sobre un tema específico en lugar de las operaciones actuales de una empresa. En otras palabras, el proceso de almacenamiento de datos está más equipado para manejar un tema específico. Ejemplos de temas o temas incluyen ventas, distribuciones, marketing, etc.
    • Integrado: La integración se define como el establecimiento de una conexión entre una gran cantidad de datos de múltiples bases de datos o fuentes. Sin embargo, también es fundamental que los datos se almacenen en el almacén de datos de forma unificada. El proceso de almacenamiento de datos integra datos de múltiples fuentes, como un mainframe, bases de datos relacionales, archivos planos, etc. Además, ayuda a mantener códigos consistentes, medidas de atributos, convenciones de nomenclatura y formatos.
    • Variante de tiempo: La variante de tiempo en un DW es más extensa en comparación con otros sistemas operativos. Los datos almacenados en un almacén de datos se recuperan con un período de tiempo específico y brindan información desde una perspectiva histórica.
    • No volátil: En el almacén de datos no volátiles, los datos son permanentes, es decir, cuando se insertan nuevos datos, los datos anteriores no se reemplazan, omiten ni eliminan. En este almacén de datos, los datos son de solo lectura y solo se actualizan a determinados intervalos. Las dos operaciones de datos realizadas en el almacén de datos son el acceso a los datos y la carga de datos.
    Enfoques del almacenamiento de datos

    Características y funciones del almacén de datos (Fuente: GeeksforGeeks)

    Funciones de un almacén de datos

    El almacén de datos funciona como un repositorio. Ayuda a las organizaciones a evitar el costo de los sistemas de almacenamiento y los datos de respaldo a nivel empresarial. Las funciones destacadas del almacén de datos son:

    Enfoque de normalización frente a desnormalización

    La normalización se define como una forma de reorganización de los datos. Esto ayuda a cumplir dos requisitos principales en una almacén de datos empresarial es decir, eliminar la redundancia de datos y proteger la dependencia de los datos. Por otro lado, la desnormalización aumenta la funcionalidad de la infraestructura del sistema de base de datos.

    Almacén de datos frente a base de datos

    Las principales diferencias entre el almacén de datos y la base de datos se resumen en la siguiente tabla:

    Base de datos Almacenamiento de Datos
    Una base de datos es una combinación de datos relacionados. El almacén de datos sirve como un sistema de información que contiene datos históricos y conmutativos de una o varias fuentes.
    Se utiliza una base de datos para registrar datos. Se utiliza un almacén de datos para analizar datos.
    Una base de datos es una colección de datos orientada a aplicaciones. El almacén de datos es la recopilación de datos orientada al sujeto.
    Una base de datos utiliza procesamiento transaccional en línea (OLTP). El almacén de datos utiliza el procesamiento analítico en línea (OLAP).
    Las tablas de bases de datos y las uniones están normalizadas, por lo tanto, son más complicadas.  Las tablas y uniones del almacén de datos están desnormalizadas, por lo tanto, son más simples.
    Para el diseño se utilizan técnicas de modelado ER. Para el diseño se utilizan técnicas de modelado de datos.

    Los dos conceptos de almacenamiento de datos: Kimball vs. Inmon

    Ambas metodologías de diseño de almacenes de datos tienen sus pros y sus contras. Repasémoslos en detalle para descubrir cuál es mejor.

    La Metodología Kimball

    Iniciado por Ralph Kimball, el modelo de datos de Kimball sigue un enfoque de abajo hacia arriba para diseño de arquitectura de almacén de datos en el que los data marts se forman primero en función de los requisitos comerciales.

    Luego se evalúan las fuentes de datos primarias y se Herramienta Extraer, Transformar y Cargar (ETL) se utiliza para recuperar datos de varias fuentes y cargarlos en un área de preparación del servidor de base de datos relacional. Una vez que los datos se cargan en el área de preparación del almacén de datos, la siguiente fase incluye cargar datos en un modelo de almacén de datos dimensional que no está normalizado por naturaleza. Este modelo divide los datos en la tabla de hechos, que son datos transaccionales numéricos o tabla de dimensiones, que es la información de referencia que respalda los hechos.

    El esquema en estrella es el elemento fundamental del modelo de almacén de datos dimensional. La combinación de una tabla de hechos con varias tablas dimensionales a menudo se denomina esquema en estrella. El modelado dimensional de Kimball permite a los usuarios construir varios esquemas en estrella para satisfacer diversas necesidades de generación de informes. La ventaja del esquema en estrella es que las consultas de tablas dimensionales pequeñas se ejecutan instantáneamente.

    Para integrar datos, el enfoque de Kimball para el ciclo de vida de Data Warehouse sugiere la idea de dimensiones de datos conformadas. Existe como una tabla de dimensiones básica compartida entre diferentes tablas de hechos (como cliente y producto) dentro de un almacén de datos o como las mismas tablas de dimensiones en varios data marts de Kimball. Esto garantiza que un solo elemento de datos se utilice de manera similar en todos los hechos.

    Una herramienta de diseño importante en la metodología de almacenamiento de datos de Ralph Kimball es la matriz de bus empresarial o la arquitectura de bus de Kimball que registra verticalmente los hechos y registra horizontalmente las dimensiones conformadas. La matriz de Kimball, que forma parte de la arquitectura del bus, muestra cómo se construyen los esquemas en estrella. Los equipos de gestión empresarial lo utilizan como entrada para priorizar qué fila de la matriz de Kimball se debe implementar primero.

    El enfoque de Kimball para el ciclo de vida del almacén de datos también se basa en hechos conformados, es decir, data marts que se implementan por separado junto con una arquitectura robusta.

    Arquitectura del almacén de datos del método Kimball

    Figura 2. Explicación de la arquitectura básica de Kimball Data Warehouse (Fuente: Zentut)

    Ventajas de la Metodología Kimball

    Algunos de los principales beneficios del concepto de almacenamiento de datos de Kimball incluyen:

    • El modelado dimensional de Kimball es rápido de construir ya que no implica normalización, lo que significa una rápida ejecución de la fase inicial del almacenamiento de datos de procesos.
    • Una ventaja del esquema en estrella es que la mayoría de los operadores de datos pueden comprenderlo fácilmente debido a su estructura desnormalizada, que simplifica las consultas y el análisis.
    • La huella del sistema de almacenamiento de datos es trivial porque se centra en áreas y procesos comerciales individuales en lugar de en toda la empresa. Por lo tanto, ocupa menos espacio en la base de datos, lo que simplifica la administración del sistema.
    • Permite la recuperación rápida de datos del almacén de datos, ya que los datos se segregan en tablas de hechos y dimensiones. Por ejemplo, la tabla de hechos y dimensiones para la industria de seguros incluiría transacciones de pólizas y transacciones de reclamos.
    • Un equipo más pequeño de diseñadores y planificadores es suficiente para la gestión del almacén de datos porque los sistemas de origen de datos son estables y el almacén de datos está orientado a procesos. Además, la optimización de consultas es sencilla, predecible y controlable.
    • Estructura dimensional conformada para calidad de los datos estructura. El enfoque de Kimball para el ciclo de vida del almacén de datos también se conoce como enfoque de estilo de vida dimensional empresarial porque permite que las herramientas de inteligencia empresarial profundicen en varios esquemas en estrella y genere información confiable.
    Metodología del ciclo de vida de Kimball DW / BI - Kimball Group

    Enfoque de Kimball para el ciclo de vida del almacén de datos (Fuente: Kimball Group)

    Desventajas de la Metodología Kimball

    Algunos de los inconvenientes del Kimball Almacenamiento de datos El concepto de diseño incluye:

    • Los datos no están completamente integrados antes de la presentación de informes; la idea de una "fuente única de verdad se pierde".
    • Pueden ocurrir irregularidades cuando los datos se actualizan en la arquitectura Kimball DW. Esto se debe a que, en la técnica de desnormalización, se agregan datos redundantes a las tablas de la base de datos.
    • En la arquitectura Kimball DW, pueden ocurrir problemas de rendimiento debido a la adición de columnas en la tabla de hechos, ya que estas tablas son bastante detalladas. La adición de nuevas columnas puede expandir las dimensiones de la tabla de hechos, lo que afecta su rendimiento. Además, el modelo de almacén de datos dimensional se vuelve difícil de modificar con cualquier cambio en las necesidades comerciales.
    • Como el modelo de Kimball está orientado a los procesos comerciales, en lugar de centrarse en la empresa en su conjunto, no puede manejar todos los requisitos de informes de BI.
    • El proceso de incorporar grandes cantidades de datos heredados en el almacén de datos es complejo.

    El metodo Inmon

    Bill Inmon, el padre del almacenamiento de datos, ideó el concepto para desarrollar un almacenamiento de datos que identifique las principales áreas temáticas y entidades con las que trabaja la empresa, como clientes, productos, proveedores, etc. La definición de Bill Inmon de un almacén de datos es que es una "recopilación de datos variable en el tiempo, integrada, no volátil y orientada al tema en apoyo de las decisiones de gestión".

    Luego, el modelo crea un modelo lógico completo para cada entidad primaria. Por ejemplo, se construye un modelo lógico para productos con todos los atributos asociados con esa entidad. Este modelo lógico podría incluir diez entidades diversas bajo producto, incluidos todos los detalles, como impulsores comerciales, aspectos, relaciones, dependencias y afiliaciones.

    El sistema Enfoque de diseño de Bill Inmon utiliza la forma normalizada para construir la estructura de la entidad, evitando la redundancia de datos tanto como sea posible. Esto da como resultado una identificación clara de los requisitos comerciales y la prevención de irregularidades en la actualización de datos. Además, la ventaja de este enfoque de arriba hacia abajo en diseño de bases de datos es que es robusto a los cambios comerciales y contiene una perspectiva dimensional de los datos en todo el data mart.

    A continuación, se construye el modelo físico, que sigue la estructura normalizada. Este modelo de Bill Inmon crea una única fuente de verdad para todo el negocio. La carga de datos se vuelve menos compleja debido a la estructura normalizada del modelo. Sin embargo, usar este arreglo para realizar consultas es un desafío, ya que incluye numerosas tablas y enlaces.

    Esta metodología de data warehouse de Inmon propone la construcción de data marts por separado para cada división, como finanzas, marketing, ventas, etc. Todos los datos que ingresan al data warehouse están integrados. El almacén de datos actúa como una única fuente de datos para varios data marts a fin de garantizar la integridad y coherencia en toda la empresa.

    Conceptos de Data Warehouse: Kimball vs. Inmon Approach 2

    Figura 3. Explicación de la arquitectura básica de almacenamiento de datos de Bill Inmon (Fuente: Universidad de Stanford)

    Ventajas del Método Inmon

    El enfoque de diseño de Bill Inmon ofrece los siguientes beneficios:

    • El almacén de datos actúa como una fuente de verdad unificada para todo el negocio, donde todos los datos están integrados.
    • Este enfoque tiene una redundancia de datos muy baja. Por lo tanto, hay menos posibilidades de irregularidades en la actualización de datos, lo que hace que el proceso de almacenamiento de datos basado en el concepto ETL sea más sencillo y menos susceptible a fallas.
    • Simplifica los procesos comerciales, ya que el modelo lógico representa objetos comerciales detallados.
    • Este enfoque ofrece una mayor flexibilidad, ya que es más fácil actualizar el almacén de datos en caso de que haya algún cambio en los requisitos comerciales o en los datos de origen.
    • Puede manejar diversos requisitos de informes en toda la empresa.

    Desventajas del Método Inmon

    Los posibles inconvenientes de este enfoque son los siguientes:

    • La complejidad aumenta a medida que se agregan varias tablas al modelo de datos con el tiempo.
    • Se requieren recursos capacitados en el modelado de datos de almacenamiento de datos, que pueden ser costosos y difíciles de encontrar.
    • La configuración preliminar y la entrega requieren mucho tiempo.
    • Se requiere una operación de proceso ETL adicional ya que los data marts se crean después de la creación del almacén de datos.
    • Este enfoque requiere que los expertos administren un almacén de datos de manera efectiva.

    ¿Qué enfoque de almacén de datos elegir?

    Ahora que hemos evaluado el enfoque de Kimball frente a Inmon y hemos visto las ventajas y los inconvenientes de ambos métodos, surge la pregunta: ¿Cuál de estos conceptos de almacén de datos serviría mejor a su negocio?

    Ambos enfoques consideran almacenamiento de datos como un repositorio central que admite informes comerciales. Además, ambos tipos de enfoques utilizan conceptos ETL para la carga de datos. Sin embargo, la principal diferencia radica en modelar los datos y cargarlos en el almacén de datos.

    El enfoque utilizado para la construcción del almacén de datos influye en el tiempo de entrega preliminar del proyecto de almacenamiento y la capacidad de soportar posibles variaciones en el diseño de ETL.

    ¿Aún no estás seguro de la conclusión del dilema entre Kimball e Inmon? Podemos ayudarle a decidir cuál de estos enfoques de almacenamiento de datos le ayudaría a mejorar su gestión de la calidad de los datos marco de la mejor manera?

    Hemos reducido algunos aspectos que pueden ayudarlo a decidir entre los dos enfoques.

    • Informar necesidades: Si necesita informes integrados y de toda la organización, entonces el enfoque de Bill Inmon es más adecuado. Pero si necesita informes centrados en el proceso comercial o el equipo, opte por el método Kimball.
    • Plazo del proyecto: Diseñar un modelo de datos normalizado es comparativamente más complejo que diseñar un modelo desnormalizado. Esto hace que el enfoque de Inmon sea un proceso que requiere mucho tiempo. Por lo tanto, si tiene menos tiempo para la entrega, opte por el método Kimball.
    • Plan de reclutamiento prospectivo: La mayor complejidad de la creación de modelos de datos en el enfoque del almacén de datos de Inmon requiere un equipo más grande de profesionales para la gestión del almacén de datos. Por lo tanto, elija en consecuencia.
    • Cambios frecuentes Si es probable que sus necesidades de informes cambien más rápidamente y se trata de sistemas de origen volátiles, opte por el método Inmon, ya que ofrece más flexibilidad. Sin embargo, si las necesidades de informes y los sistemas de origen son comparativamente estables, es mejor utilizar el método de Kimball.
    • Principios organizacionales: Si las partes interesadas y los directores corporativos de su organización reconocen la necesidad del almacenamiento de datos y están listos para asumir los gastos, entonces el método de almacenamiento de datos de Bill Inmon sería una apuesta más segura. Por otro lado, si los responsables de la toma de decisiones no están preocupados por el meollo del enfoque y solo buscan una solución para mejorar los informes, entonces es suficiente optar por el método de almacenamiento de datos de Kimball.

    Línea de fondo

    Tanto los conceptos de almacenamiento de datos de Kimball como los de Inmon se pueden utilizar para diseñar modelos de almacenamiento de datos con éxito. De hecho, varias empresas utilizan una combinación de estos dos enfoques (llamado modelo de datos híbrido).

    En el modelo de datos híbrido, el método Inmon crea un modelo de almacén de datos dimensional de un almacén de datos. Por el contrario, se sigue el método de Kimball para desarrollar mercados de datos utilizando el esquema en estrella.

    Es imposible afirmar qué enfoque es mejor, ya que ambos métodos tienen sus ventajas e inconvenientes y funcionan bien en diferentes situaciones. Un diseñador de almacenamiento de datos debe elegir un método, según los diversos factores que se analizan en este artículo.

    Por último, para que cualquier método sea eficaz, debe estar bien pensado, explorado en profundidad y desarrollado para gratificar a su empresa. inteligencia empresarial los requisitos de información.

    Astera Data Warehouse Builder: una solución de almacenamiento de datos automatizada

    Astera Generador de almacenamiento de datos ofrece una plataforma integrada para diseñar, implementar y probar grandes volúmenes almacenes de datos y Automatice los procesos para alcanzar información significativa rápidamente, sin la molestia de escribir códigos ETL.

    Las organizaciones se están moviendo hacia automatización del almacén de datos para ahorrar costos, maximizar la productividad y obtener información procesable más rápido. La automatización del almacenamiento de datos le permite crear rápidamente mercados de datos de alta calidad, crear canalizaciones de datos autorregulables y brindar información relevante a los tomadores de decisiones a través de herramientas de BI y análisis.

    La automatización del almacenamiento de datos elimina la parte que consume más tiempo al llenar un almacenamiento de datos: escribir código ETL/ELT. Como no se requiere codificación manual de SQL, los desarrolladores pueden concentrar su energía en trabajar en un nivel lógico (nivel de diseño) para crear flujos de integración más eficientes.

    Además, la automatización le ayuda a diseñar un infraestructura de almacenamiento de datos ágil. El resultado es un repositorio de datos más adaptable y receptivo que se puede consultar de manera eficiente, lo que genera información valiosa en segundos y le permite extraer información valiosa.

    En pocas palabras, eliminar la intervención manual en los pasos de planificación, modelado e implementación le permite construir un almacén de datos de mejor calidad con éxito, eso también, en cuestión de semanas o incluso días.

    Autores:

    • Tehreem Naeem
    También te puede interesar
    Cómo utilizar la IA para extraer datos de un PDF: beneficios y casos de uso
    Comportamiento del modelo: por qué su empresa necesita la extracción de datos LLM
    Extracción de extractos bancarios: software, beneficios y casos de uso
    Considerando Astera ¿Para sus necesidades de gestión de datos?

    Establezca conectividad sin códigos con sus aplicaciones empresariales, bases de datos y aplicaciones en la nube para integrar todos sus datos.

    ¡Conectémonos ahora!
    conectemos