Aplicación de virtualización de datos en la empresa: tablas de ensayo

By | 2019-08-23T10:57:38+00:00 7 de agosto, 2019|

En la era de la empresa basada en datos, las organizaciones de todas las escalas manejan un flujo constante de entradas estructuradas, semiestructuradas y no estructuradas extraídas tanto de sistemas heredados como de API conectadas a la nube. Con una gran variedad y volumen de datos para almacenar y procesar, los equipos de TI se han encontrado luchando por desarrollar infraestructuras que sean capaces de cumplir con sus requisitos en rápida evolución.

Desafortunadamente, estas configuraciones rara vez siguen algún tipo de estrategia de datos planificada. En cambio, muchas organizaciones optan por confiar en un surtido improvisado de repositorios, plataformas y sistemas de informes para resolver sus desafíos de datos. Dichas implementaciones generalmente requieren cantidades significativas de datos para consolidar y replicar a través de Procesos ETL que debe diseñarse y ejecutarse consistentemente para garantizar la puntualidad de los datos empresariales. Sin embargo, si las fuentes de entrada o los sistemas de análisis de una empresa se actualizan en algún momento, sus canales de flujo de datos deberán ajustarse en consecuencia, lo que solo aumentará el tiempo y el costo del desarrollo de la infraestructura.

En un momento en que los ejecutivos de C-suite y los empleados de primera línea dependen por igual de conocimientos inmediatos para impulsar su toma de decisiones diaria, esta arquitectura inflexible a menudo no proporciona a los usuarios finales acceso a los datos que necesitan.

Resolviendo desafíos de datos en toda la empresa con la virtualización de datos

La virtualización de datos ofrece una solución eficiente y rentable para muchos de estos problemas. Esta tecnología permite que los datos se asignen desde fuentes dispares a una capa de virtualización perfectamente integrada sin ningún movimiento físico o duplicación. Las entradas se pueden alimentar a los sistemas de informes y análisis de la misma manera que una base de datos física.

Para las organizaciones que intentan obtener un valor más profundo de sus puntos de contacto digitales, sistemas transaccionales y flujos de datos externos, los beneficios de la virtualización parecen claros. Oportunamente informes de Forrester muestran un marcado crecimiento en la adopción de la virtualización de datos empresariales (EDV) en todo el mundo con varios tomadores de decisiones clave que indican un cambio hacia EDV en el futuro cercano. Como parte de esta tendencia, el informe muestra que la tecnología está siendo adoptada por un amplio segmento de industrias que incluyen servicios financieros, telecomunicaciones, petróleo y gas, seguros y comercio electrónico. Mientras tanto, Gartner predice que hasta 50% de las organizaciones emplearán alguna forma de EDV en su arquitectura de datos por parte de 2020.

Estas estadísticas demuestran claramente la aplicabilidad de la virtualización en una variedad de configuraciones, desde optimizar la entrega de análisis de clientes hasta permitir la integración de las redes sociales y los conocimientos de IoT en el almacén de datos de la empresa (EDW). AsteraVirtualización de datos El módulo está diseñado para facilitar estas implementaciones. Nuestra herramienta EDV combina el mapeo intuitivo de datos de arrastrar y soltar y las funcionalidades ETL tradicionales con un completo generador de modelos de datos virtuales que se conecta a más de 40 diferentes fuentes, incluidas aplicaciones web, archivos planos, documentos, así como una variedad de bases de datos físicas y en la nube.

En esta serie de artículos, lo llevaremos a través de una serie de casos de uso efectivos para Astera Virtualización de datos.

Tablas de montaje

¿Por qué introducir tablas de etapas en su arquitectura de datos?

Las tablas de etapas son una característica común en cualquier arquitectura de datos tradicional. Aquí, proporcionan almacenamiento para los registros y tablas extraídos de varios sistemas de origen en toda la empresa. Una vez que se trasladan al área de preparación, estos conjuntos de datos se combinan y se transforman en un formato estandarizado que se alinea con la estructura de la base de datos de destino, optimizando así la carga de ETL.

Desacoplamiento de datos

La carga de datos puede ser un proceso lento que ocupa la base de datos de producción durante horas. Esto no solo supone una carga sustancial para los sistemas de origen, sino que también significa que el proceso de carga puede interrumpirse en cualquier momento debido a la falta de disponibilidad del servidor. A menos que estas interrupciones sean monitoreadas activamente, los usuarios finales terminarán con datos incompletos en el destino.

Las tablas de etapas eliminan esta dependencia al actuar como un repositorio para los datos recuperados actualmente, mientras que otros sistemas de origen se ponen en línea. Una vez que estén disponibles, las tablas de destino se pueden cargar con todos los datos operativos relevantes.

Seguridad

Las bases de datos de producción y otros sistemas operativos pueden contener una variedad de datos confidenciales que solo deberían ser accesibles para usuarios finales autorizados. Con las tablas de preparación, los arquitectos de datos pueden garantizar que solo los registros relevantes estén disponibles para estas partes interesadas para consultas y análisis.

Arquitectura simplificada

Sin una tabla de preparación, el almacén de datos incluiría tablas intermedias para manejar las transformaciones requeridas para preparar los datos para su publicación. Estas tablas crearán una complejidad adicional en sus plataformas de informes y análisis y podrían afectar el rendimiento de las consultas.

Calidad de datos mejorada

La limpieza previa de los datos en la tabla de etapas ayuda a garantizar que las inconsistencias y redundancias se minimicen cuando los datos se mueven a su destino. Esto es especialmente importante porque pueden existir múltiples versiones de un registro en diferentes fuentes.

Programacion independiente

Mientras que algunos sistemas fuente contienen datos relativamente estáticos que cambian con poca frecuencia, otros son mucho más dinámicos y pueden actualizarse semanalmente o incluso a diario. Las tablas de etapas permiten planificaciones de carga individualizadas que se adaptan a cada sistema de origen. Esto garantiza que las tablas relevantes en el almacén de datos se mantengan lo más actualizadas posible.

Aplicación de virtualización de datos a tablas de ensayo

En una tabla de etapas virtualizada, los metadatos de los sistemas internos y externos se toman y reflejan en una capa semántica separada, creando un vista abstraída de fuentes de datos empresariales. Mediante Astera Virtualización de datos, estas vistas se pueden unir y enriquecer aún más con la lógica empresarial. Como resultado, los usuarios finales pueden conectar sus sistemas de análisis e informes a fuentes de datos dispares desde un único repositorio, a pesar de que no se ha producido ningún movimiento de datos real.

En comparación con las tablas de etapas basadas en ETL, el área de etapas virtualizada muestra algunas ventajas claras.

  • Idealmente, las tablas de preparación deberían estar separadas de los sistemas fuente persistentes, para enfatizar el hecho de que estos repositorios son de naturaleza temporal. Sin embargo, colocar tablas de preparación en un servidor de base de datos separado hará que la carga de datos sea menos eficiente en cuanto al rendimiento. La virtualización introduce una barrera lógica entre el área de preparación y las bases de datos operativas y elimina por completo la necesidad de movimiento de datos.

  • En un enfoque de mejores prácticas, las tablas de preparación físicas deben truncarse antes y después de cada carga para reducir el tiempo necesario para cada nueva actualización, así como el espacio de almacenamiento requerido por la tabla de preparación. Estos costos de mantenimiento y almacenamiento se minimizan con la virtualización de datos.

  • La virtualización de datos proporciona una vista casi en tiempo real de los sistemas de origen, lo que garantiza que los datos de la tabla de preparación sean siempre tan frescos y precisos como sea posible.

  • Se pueden agregar fuentes de datos adicionales a través de una conexión simple en la capa de abstracción. No adicional Tuberías ETL son requeridos.

  • La replicación de datos se mantiene al mínimo, por lo que se reducen las posibilidades de robo o acceso no autorizado. Esto también ayuda a mantener a las organizaciones en el lado correcto de las regulaciones de gestión de datos.

  • La virtualización oculta los esquemas de la tabla fuente de los consumidores de datos, en su lugar presenta todos los datos en una única vista simplificada que permite una carga eficiente en los sistemas de análisis / informes.

Tablas de montaje en Astera Virtualización De Datos

In Astera Virtualización de datos, admitimos a través de conectores 40 en una amplia gama de plataformas, sistemas y tipos de archivos desde libros de Excel hasta bases de datos relacionales, soluciones de almacenamiento de datos como Teradata, así como arquitecturas heredadas basadas en COBOL y otros lenguajes de programación.

El concepto que impulsa nuestra tecnología es que permite que las empresas se unan entradas heterogéneas en una capa unificada donde los sistemas fuente originales son completamente invisibles para los consumidores de datos. Esto es posible gracias a nuestro diseñador de modelos virtuales. Usando la funcionalidad de arrastrar y soltar, los usuarios pueden importar objetos fuente relevantes en la ventana del diseñador y configurar conexiones a los sistemas fuente apropiados.

Fig 1: A Modelo virtual compuesto por entidades 158

En el diagrama anterior, hemos construido un modelo virtual masivo que muestra instantáneas en tiempo real de una amplia variedad de sistemas fuente. Una vez que nuestro modelo ha sido verificado e implementado, todas estas tablas serán accesibles como una única base de datos virtual para los consumidores.

Sin embargo, en ciertos casos, los editores de datos pueden necesitar aplicar transformaciones adicionales a sus conjuntos de datos de origen para permitir un análisis e informes más efectivos en su destino. En este caso, pueden configurar un área de preparación para sus datos de origen en una entidad reutilizable conocida como subflujo.

Los subflujos contienen mapeo y lógica de decisión compleja (reglas de validación, transformaciones, expresiones). Se pueden conectar a cualquier fuente o destino preferido de la misma manera que un objeto de flujo de datos.

En el flujo de datos anterior, hemos reunido tablas de facturas de varios departamentos de ventas regionales en toda la organización. Sin embargo, algunos de estos departamentos mantienen clientes en países fuera de sus áreas de venta. Esto crea una imagen distorsionada de las ganancias derivadas de ciertas regiones. Para combatir este problema, podemos organizar los datos de las facturas en un subflujo y aplicar una expresión para filtrar valores irrelevantes. Hemos demostrado dicho proceso en el subflujo a continuación.

Fig. 2: Transformación de expresiones aplicada a la tabla de facturas en subflujo

Luego podemos integrar el subflujo en el modelo virtual arrastrando y soltando una entidad de subflujo desde la caja de herramientas y apuntándola hacia el conjunto de datos filtrado.

Fig. 3: Transformación de subflujo en un modelo virtual

Ahora el modelo está listo para ser publicado y consumido de la misma manera que cualquier otro. base de datos física. De esta manera, podemos obtener todas las funcionalidades de una tabla de etapas tradicional dentro de Astera Virtualización de datos.

Construyendo el Almacén de Datos Operativos Modernos con ADV

A medida que las arquitecturas de datos continúan evolucionando, también lo hacen las posibles aplicaciones de virtualización de datos dentro de la empresa. En los próximos artículos de esta serie, discutiremos cómo nuestra tecnología puede permitir a los usuarios comerciales extraer informes en tiempo real e inteligencia transaccional de sus fuentes operativas cotidianas.

Si tiene un caso de uso más específico que le gustaría explorar, siempre puede contacto Nuestro equipo de ventas y soporte para una consulta privada. O bien, pruebe el producto usted mismo descargando el Versión de prueba of Astera Virtualización de datos.