Blogs

Inicio / Blogs / Sesión de preguntas y respuestas en vivo con James Serra sobre la automatización del diseño del almacén de datos

Tabla de Contenido
El automatizado, Sin código Pila de datos

Aprende cómo Astera Data Stack puede simplificar y agilizar la gestión de datos de su empresa.

Sesión de preguntas y respuestas en vivo con James Serra sobre la automatización del diseño de almacenes de datos

Ammar Alí

Gestor de Contenidos

20 de febrero de 2023.

Hemos lanzado nuestra plataforma de automatización de almacenamiento de datos (DWA) de próxima generación, Astera Constructor DW que acelera y simplifica el desarrollo del almacén de datos. Es una solución unificada impulsada por metadatos que permite a las organizaciones diseñar, desarrollar e implementar almacenes de datos de nivel empresarial en días.

Recientemente organizamos un Webinar donde tuvimos la oportunidad de conectarnos con James Serra. James es un líder intelectual de renombre en el uso y la aplicación de Big Data y análisis avanzado. Actualmente trabaja para EY como líder de arquitectura de plataforma de datos y anteriormente trabajó en Microsoft durante siete años como arquitecto de soluciones especializado en big data y almacenamiento de datos.

En nuestra última discusión, hablamos con James para obtener información privilegiada sobre desarrollo de almacenamiento de datos moderno. En esta sesión de preguntas y respuestas en vivo, profundizamos en el concepto de automatización del diseño del almacén de datos.

¿Qué opinas del concepto de modelo de datos empresariales? ¿Cree que es hora de pasar de esta idea de preparar todos sus requisitos por adelantado y pasar a un ciclo de desarrollo? Si no es así, ¿cómo pasaría de este enfoque a un estilo más iterativo de almacenamiento de datos?

Creo que la mayoría de los clientes han pasado de ese tipo de enfoque en cascada en el que pasan mucho tiempo reuniendo requisitos. Han cambiado a un tipo de desarrollo ágil en cascada, y mucho de esto tiene que ver con las herramientas que han aparecido últimamente. Si observa algo como las herramientas de inteligencia empresarial, descubrí que los clientes ahora están usando esa herramienta para definir los requisitos comerciales en lugar de que alguien de TI vaya a un cliente diciendo: “Bien, ¿cuál es su requisito? Vamos a derribarlo, vamos a construir algo ”, regrese y descubra que está mal, y tenga este ciclo en marcha. Ahora dicen: "Oye, usa el prototipo y lo usaremos como requisitos comerciales".

Las modernas herramientas de generación de informes ETL le permiten crear prototipos y crear esos requisitos fácilmente. Y si no es así, suele ser “Oye, necesitamos una victoria rápida. Vamos, comencemos a construir algo y mostremos el valor de lo que hemos construido y entusiasmemos a las personas y los usuarios finales ". Mucho tiempo, [ayuda] a desbloquear presupuestos, y luego también atrae a esos usuarios finales desde el principio, para que sienta que son parte de lo que está construyendo allí, y luego pueden obtener algo de valor para que elijas algo que puedas hacer a corto plazo que tenga mucho valor, y luego salgas con eso.

Ahora, siempre digo que quieres tener en cuenta tu objetivo final. Es como construir una ciudad que vas a dividir en pueblos. Puede crear un plano para esta ciudad con todos los pueblos allí. Luego vas, construyes una ciudad y construyes una encima de la otra. No vas y construyes todo y lo abres allí.

Por lo tanto, debe tener esa visión a largo plazo de adónde quiere ir, pero obtiene esas ganancias rápidas desde el principio.         

¿Cuáles son sus pensamientos sobre las bóvedas de datos? ¿Crees que pronto va a superar al modelado dimensional como técnica preferida, o todo tiene su lugar? 

Diré que no hay forma de que la bóveda de datos se haga cargo del modelado dimensional. Ha existido durante más de 20 años y tiene un gran caso de uso. Encuentro clientes que necesitan hacer mucho seguimiento histórico y auditorías utilizando la bóveda de datos, pero no hay muchos de esos casos de uso que requieran algo tan sofisticado como, digamos, la bóveda de datos allí.

Entonces, creo que tiene su lugar. Pero veo que el 99 por ciento de los clientes usan una especie de esquema en estrella junto con una tercera forma normal allí, y mucho depende de [si] obtiene el rendimiento que necesita en una tercera forma normal. Si me sumo a una docena de mesas, es posible que pueda obtener ese rendimiento y pasaré a un esquema de estrella. Es una capa adicional de detalles, pero obtienes muchos beneficios al tener esa capa adicional allí.

Además, es útil cuando se busca un BI de autoservicio. Si no tengo un esquema en estrella, entonces debo conocer la relación entre todas esas tablas, lo cual puede ser muy difícil para un usuario final. Por lo general, tienes una persona en la empresa que sabe cómo unirse a todo, y confías en esa persona.

En su lugar, crea ese esquema en estrella y luego es BI de autoservicio. Podría simplemente ir a una herramienta de informes y arrastrar campos al formulario y construirlo sin tener que entender el funcionamiento de las relaciones debido al esquema en estrella. Entonces, te da eso, por lo que hay una gran razón para el esquema en estrella, y yo diría que probablemente el 75 por ciento de las empresas que veo usarán un esquema en estrella además de una tercera forma normal.

Hablando un poco sobre la perspectiva del modelado dimensional de modelado de datos, ¿cuál crees que es el papel que deben desempeñar los metadatos? ¿Cree que un marco basado en metadatos puede beneficiar el diseño del almacén de datos? Y si es así, ¿cómo?   

Últimamente he visto un gran esfuerzo en la creación de catálogos de datos para los clientes. La idea detrás de eso es que están recopilando muchos datos y usted quiere evitar la duplicación de datos.

Estamos haciendo esto en EY a gran escala porque están trayendo todos estos datos de terceros. Podría ser literalmente decenas de millones de dólares de terceros, y no quiere que alguien salga y obtenga una licencia porque no se dio cuenta de que los datos ya estaban allí.

Entonces, creemos un catálogo de metadatos y creemos una herramienta de descubrimiento de datos en un mercado donde cualquier usuario final pueda ir: “Oye, necesito crear algo usando este tipo de datos en particular. Me pregunto si lo tenemos. Vayamos al catálogo y veamos si está allí ". [Ahora] podemos acceder instantáneamente a esos datos y evitar la duplicación.

Además, una gran cosa últimamente con los clientes es el linaje. “Obtuve este valor n en este cálculo. ¿Como llegamos alla? ¿De dónde vino ahí dentro? Quiero asegurarme de que esté bien ". Entonces, regresan y miran. El linaje de los metadatos es importante cuando quiere asegurarse de que está construyendo un esquema y que el esquema también es metadato.

Entonces, esta es otra cosa que creo que comenzará a ver con un empujón de personas que catalogan no solo los datos, sino también los conjuntos de datos. Creo que verá que integrado más con los catálogos de datos es “Oye, es solo que [eso] puede ser lo suficientemente genial como para que pueda ver que tenemos datos de clientes y datos de productos, pero tal vez alguien ya haya creado este conjunto de datos. Tal vez alguien ya haya creado un informe y un panel sobre eso, y puedo usarlo rápidamente en lugar de reinventar la rueda ".

Entonces, los metadatos son tan importantes ahora y sin ellos cuando tenemos esta proliferación de datos y, en algunos casos, tenemos datos en un lago de datos que no tiene sus propios metadatos dentro, [entonces] tenemos que crear esos [metadatos]. Por lo tanto, necesita un producto de este tipo, una solución que combine todo eso, de modo que sea mucho más fácil para las personas descubrir los datos.

Enfoque centrado en el modelo de datos

Evidentemente, vivimos en la era de los macrodatos. ¿Cómo crees que la explosión en la variedad de volumen y la velocidad ha impactado el arco de datos?

Sí. Es más desafiante porque ahora debes pensar en el tamaño de los datos. Y [por ejemplo,] tengo que crear un modelo, puede que no funcione si no lo hago correctamente. Por lo tanto, agrega mucha más importancia para asegurarse de que el diseño sea correcto. Y también, la gobernanza de datos es una gran parte de ella.

[Suponga que] los datos entran en un modelo. ¿Cómo puedo asegurarme de que esté limpio y de que estoy uniendo datos correctamente? La principal razón que veo para el fracaso de los proyectos de big data warehouse es que no hay suficiente tiempo en la gobernanza de datos.

Salen con un conjunto de datos, y simplemente dices: "Genial, voy a usar este conjunto de datos" y luego dices: "¡Espera un minuto! Estos datos son incorrectos ". Si esa es su primera impresión, ha perdido la confianza desde el principio. No van a confiar en nada de lo que salga, por lo que debe dedicar mucho tiempo antes de validar esos datos, asegurándose de que el conjunto de datos sea correcto.

Traiga a los usuarios desde el principio, dígales que está probando estas cosas y asegúrese de que sea válido. Es una forma de hacerlo. Pero es muy importante ganarse su confianza cuando desarrolle estas soluciones, así que asegúrese de tener suficiente tiempo para la gobernanza de datos.

¿Qué opina de la afirmación de que un modelo de esquema de almacenamiento de datos sólido y verificado equivale a una arquitectura general de almacenamiento de datos de alta calidad?

Estoy de acuerdo con eso. Nuevamente, si la gobernanza de datos está en su lugar, entonces esto se convierte en algo más que tecnología, y he tenido muchas discusiones con los clientes [sobre cómo] [puede] tener la mejor tecnología del mundo, pero realmente necesita tener las personas y el proceso en su lugar.

Necesitamos esa gobernanza de datos, tal vez un centro de excelencia, reuniones para decidir quién es el propietario de los datos y un proceso de investigación para limpiar los datos. Si limpiamos los datos y los almacenes de datos, también los devolvemos al sistema de origen; todas estas cosas deben discutirse allí.

Por lo tanto, es muy importante contar con las personas adecuadas y las habilidades adecuadas, lo cual es muy desafiante, especialmente ahora que últimamente hemos visto una escasez de talento allí y encontrar personas con estos conjuntos de habilidades es un desafío, pero hay suficientes ejemplos. allí puede ir y ver cómo las personas configuran su empresa y sus grupos y las personas en el proceso para este tipo de soluciones que estamos construyendo y tratar de seguir esas mejores prácticas.

Dada la tecnología MPP y el almacenamiento en columnas, ¿ve una tendencia a utilizar el modelo OBT de una gran tabla para informes y análisis sobre un modelo dimensional?

Bueno, un MPP, para aquellos que no lo sepan, eso es procesamiento en paralelo múltiple. Entonces, la idea es que puedo realizar consultas que podrían tardar horas en ejecutarse como un SMP [multiprocesamiento simétrico] o una solución típica y ponerlas en el sistema MPP, y se ejecutarán entre 20 y 100 veces más rápido. alli. Podría hacer eso con tablas de tercera forma normal. Puede hacerlo incluso mejor con un esquema en estrella, pero he visto resultados tremendos para una gran cantidad de datos, incluso con muchas combinaciones diferentes.

Entonces, lo bueno de la tecnología MPP es que no tienes que ir a los extremos para desnormalizar esos datos. Mi conclusión es que casi siempre desea ir al esquema en estrella por numerosas razones, y la idea de que necesita esta gran mesa, no la necesita, con la tecnología MPP, en la mayoría de los casos.

Algunos productos de terceros requerían que hicieras eso, o por debajo de la cobertura, lo estamos haciendo, debido a problemas de rendimiento. Pero debido a que la tecnología ha avanzado tanto, es raro que encuentre a un cliente que se haya esforzado tanto en crear una mesa grande. En su lugar, utilizan el esquema en estrella.

¿Qué papel realmente tiene que jugar la automatización? ¿Y qué tipo de ventajas cree que las empresas pueden ver al utilizar una solución especialmente diseñada para impulsar la verificación del modelado de datos y otros procesos?

Me encantan los atajos. Entonces, cuando hablé con los clientes, fue: “¡Bien, espere un minuto aquí! De lo que estás hablando ... Creo que probablemente podrías usar algunas herramientas de automatización y productos de terceros aquí. Sí, hay un gasto adicional, pero el ahorro de tiempo y la precisión que puede obtener podría valer la pena, así que sí, estoy a favor de esas herramientas de terceros.

Por supuesto, existen compensaciones. Tienes que adquirir el conjunto de habilidades, así que si no lo sabes, tienes que aprenderlo. Y, ¿es una herramienta de automatización que requiere esa herramienta de automatización todo el tiempo en el futuro o simplemente está creando el código que puede recoger y usar? Porque si siempre tiene que usar esa herramienta, entonces podría haber algunos desafíos con eso.

Como producto, se basa en las actualizaciones de sus características, [el software de automatización del almacén de datos [tiene] que actualizarlo también, o tal vez no pueda usar todas las características. Entonces, tienes que mirarlo muy de cerca. Pero ahora hay tantas buenas herramientas que atacan ese proceso que proporciona la automatización.

Especialmente en la mayoría de los casos, lo que los clientes están construyendo no es tan diferente de lo que han construido miles de otros clientes. Entonces sí, hay una herramienta de automatización para eso. Es muy raro que esté construyendo algo tan único o a tal escala que una herramienta de terceros no sea de ayuda.

Aún más, si se encuentra en alguna industria que es popular como la atención médica, las finanzas, la banca o el comercio minorista, todas tienen escenarios muy repetibles para los que puede usar una herramienta de automatización.

¿Hay algunas palabras de despedida que quieras dejarnos?

Siempre digo que si nunca ha recorrido este camino antes y está construyendo una solución real, busque algunos expertos, busque algunas personas. Una vez más, el talento es difícil de encontrar ahora, pero encuentre alguna empresa de consultoría o una empresa de terceros que haya recorrido este camino antes, al principio del proceso.

Porque esto es lo que hago, en mi rol en EY como líder de arquitectura [sé] que debes tomar algunas decisiones realmente clave desde el principio y si tomas esas decisiones equivocadas en el futuro, puede terminar costándote mucho tiempo y dinero.

Por lo tanto, busque personas que puedan ayudarlo a tomar las decisiones correctas desde el principio porque todos los proyectos que he visto fracasaron; podría ser [debido a] una parte, personas o procesos; es raro que la tecnología sea mala. Es que eligió la tecnología incorrecta. Querías una base de datos relacional e intentas que funcione donde una solución NoSQL, por ejemplo, sería mucho mejor.

Por lo tanto, obtenga mucha ayuda desde el principio para tomar esas grandes decisiones clave y comprenda lo que se avecina en el camino, en el futuro y las hojas de ruta de muchos productos. Si está utilizando un producto específico, asegúrese de saber qué se está desarrollando durante los próximos tres a seis meses.

Estos proyectos requieren mucho tiempo para construirse, y usted no quiere estar en unos meses, y también otras empresas dicen: "Tenemos este nuevo producto y una nueva función", y usted dice: "Oh, debería sabemos acerca de esto? " y digo esto porque gran parte de mi papel en mi trabajo era asegurarme de que la gente estuviera informada sobre lo que vendría en el futuro.

Porque los proyectos de almacenamiento de datos son caminos largos, y son seis meses o un año que los está construyendo. En realidad, nunca termina, pero muchas de esas grandes decisiones se tomarán desde el principio, y necesitas conocer esa hoja de ruta, así que esas serían mis palabras de despedida.

Automatización del diseño de almacén de datos mediante Astera Constructor DW

Astera DW Builder es una solución de almacenamiento de datos de extremo a extremo automatizada que permite a las empresas pasar del origen a los conocimientos a la velocidad de la luz. La plataforma ágil basada en metadatos permite a las empresas integrar datos dispersos en un sistema de BI ágil y crear una puerta de enlace centralizada para realizar análisis a escala empresarial.

Cree un almacén de datos desde cero con ADWB

Astera DW Builder ofrece un entorno de desarrollo integrado de código cero para construir su almacén de datos en un nivel lógico. La solución proporciona un entorno de desarrollo integrado que automatiza todas las tareas estándar de modelado de datos hasta la implementación de su almacén de datos. Para una primera prueba de Astera Constructor de DW, haga clic aquí.

También te puede interesar
Gobernanza de la información versus gobernanza de los datos: un análisis comparativo
Marco de calidad de datos: qué es y cómo implementarlo
Todo lo que necesita saber sobre la integridad de los datos 
Considerando Astera ¿Para sus necesidades de gestión de datos?

Establezca conectividad sin códigos con sus aplicaciones empresariales, bases de datos y aplicaciones en la nube para integrar todos sus datos.

¡Conectémonos ahora!
conectemos