Blog

Inicio / Blog / P/R: Trabajar con el almacén de datos de alto volumen en Centerprise

Tabla de Contenido
El automatizado, Sin código Pila de datos

Aprende cómo Astera Data Stack puede simplificar y agilizar la gestión de datos de su empresa.

Q / A: Trabajar con el almacén de datos de gran volumen en Centerprise

17 de Octubre,2022

El primero en nuestro Centerprise Serie de seminarios web sobre mejores prácticas discute las características de Centerprise que la convierten en la solución de integración ideal para el almacén de datos de gran volumen. Los temas incluyen calidad de los datos (perfilado, medidas de calidad y validación), traducción de datos a esquema en estrella (manteniendo relaciones de clave externa y cardinalidad con dimensiones que cambian lentamente) y rendimiento, incluida la consulta de datos con uniones en la base de datos y almacenamiento en caché. Hemos publicado las preguntas y respuestas a continuación, que profundizan en algunos temas interesantes.

Maneje datos de gran volumen con un almacén de datos.

P: ¿Pueden los perfiles de datos ser independientes?

A: Sí, absolutamente. Eso es exactamente lo que se hace en el ejemplo de análisis de orden que se muestra a continuación. Si observas los objetivos, no estoy escribiendo en un almacén de datos ni moviendo ningún dato, todo lo que estoy haciendo es crear informes para eso. Entonces, sí, puede utilizar esta información como una pieza independiente, lo que estoy haciendo en este caso es recopilar información sobre este esquema en particular

P: ¿Podemos agrupar un montón de reglas de calidad de datos y usarlas en múltiples flujos?

A: si Como se muestra a continuación, puede crear varias reglas y convertirlas en un componente razonable simplemente arrastrando y soltando en el proyecto. Puede ver que este componente de verificación de datos se convierte en un cuadro gris y ahora es por referencia. Ahora, si tengo cualquier otro flujo, puedo usar esta verificación de datos porque es por referencia. Es una muy buena práctica que cada vez que pueda hacer algo reutilizable debe hacerlo. Te agradecerás en el futuro.

P: Explique cómo el caché de búsqueda persistente mejora el rendimiento

R: En el ejemplo a continuación que utiliza la búsqueda de productos de dimensiones, esto es algo que se usará una y otra vez, por lo que no es necesario que cargue esta tabla de dimensiones cada vez. Puede ver dónde esta tabla de dimensión puede tener cientos de miles de filas en ella, así que si está cargando cada tabla de hechos y, al hacerlo, tiene que cargar todos los datos para una búsqueda, claramente todo el procesamiento, todo el procesamiento. datos que se cruzan al migrar. va a ser consumido en sólo búsquedas. Así que en cambio ahora en Centerprise Puede utilizar el Caché de búsqueda persistente. Centerprise tiene una base de datos integrada donde almacena esta información, que se almacena en el disco, por lo que no tiene que preocuparse por el uso de la memoria. Cada vez que una búsqueda utiliza esta etiqueta, consultará ese caché en lugar de hacer un viaje a la base de datos. De todos modos, ir a la base de datos es intrínsecamente costoso, y hacer un viaje a una tabla muy grande una y otra vez y recuperar todos los registros es extremadamente costoso y puede detener el proceso. Recomiendo usar el Caché persistente siempre que tenga la opción de hacerlo.

P: ¿Cuáles son las causas más frecuentes de los problemas de rendimiento al cargar los almacenes de datos con los que los usuarios han experimentado? Centerprise?

R: La causa número uno de problemas de rendimiento con Centerprise, como con cualquier integración de datos programa, es el volumen de datos: tener demasiadas búsquedas, especialmente demasiadas búsquedas en una columna. En el siguiente ejemplo, puede ver que en la tabla de hechos todas las claves necesitan algún tipo de búsqueda y si tiene, por ejemplo, 10 búsquedas justo antes de la tabla de dimensiones, cada una de esas búsquedas debe completarse antes de poder insertar el registro. en una tabla de hechos. Por lo tanto, tener muchas búsquedas ineficientes ralentizará considerablemente el flujo de datos.

Un segundo problema que podría afectar el rendimiento es la consulta inicial. La forma de resolver esto es parametrizar estas consultas, lo que se puede hacer de dos maneras diferentes. Primero, puedes usar variables que se controlan desde el exterior. Por ejemplo, si tiene un flujo de trabajo que activa todos sus flujos de datos, puede configurar este flujo de trabajo para registros por un período de tiempo limitado, por ejemplo, una semana. Esto reducirá significativamente la cantidad de datos entre la base de datos de origen y Centerprise.

Una tercera opción es muy similar a usar variables, pero en su lugar usa carga incremental basada en campos de auditoría. Si tiene un campo que sabe que se garantiza que se modificará cada vez que se produzca un cambio, puede usar el encabezado de fecha de modificación en el campo de auditoría como se muestra en el ejemplo a continuación y almacenará esa información en un archivo.

Luego, en las siguientes ocasiones, el flujo de datos se ejecutará, consultará ese archivo y básicamente hará lo mismo que definió en su "cláusula where", pero lo hará automáticamente en ese archivo "where". Por lo tanto, la ventaja es que no tiene que realizar un seguimiento de las variables, la desventaja es que ahora tiene un archivo incremental por objeto desde el que se está cargando. Esto resalta el hecho de que incluso puede desear que las fuentes sean acciones compartidas, de esa manera no tiene que seguir definiéndolos y sus campos de auditoría.

P: ¿Usa la escritura basada en restricciones determina automáticamente la secuencia de escritura?

A: sí lo hace. No importa a cuántas tablas esté escribiendo mientras estén en la misma base de datos. Eliges el uso de escritura basada en restricciones y se sabe en qué orden de escritura. Sabe que tiene que escribir primero al cliente y luego al pedido de ventas; se encarga del orden de las operaciones que escribe para usted.

P: ¿Cómo se compara el Diff Processor con el rendimiento de upsert?

A: Diff Processor es mucho más rápido que el upsert. Upsert disparará otra consulta para ver si la información existe o no, mientras que el Diff Processor funciona enviando todos los registros en grupos al sistema de destino. Luego se escriben en una tabla temporal y se unen. Esa comparación ocurre en el lado de la base de datos en lugar de en Centerprise lado, por lo que se preparan trozos grandes en el lado de la base de datos en lugar de utilizar una consulta separada para averiguar si es necesario realizar una inserción o actualización. Básicamente, upsert lo hace un registro a la vez y Diff Processor compara en lotes. Hemos descubierto que son órdenes de magnitud más rápidos.

P: ¿Apoya la carga rápida para Teradata?

R: Sí, tanto la carga rápida como la carga múltiple son compatibles con Teradata. La carga rápida se usa automáticamente cuando está escribiendo en una tabla vacía.

 

También te puede interesar
Filtrado de datos: una guía completa de técnicas, beneficios y mejores prácticas 
Experimente la conectividad sin código con CRM utilizando Astera Conectores CAPI
Principales herramientas de gobernanza de datos para 2024
Considerando Astera ¿Para sus necesidades de gestión de datos?

Establezca conectividad sin códigos con sus aplicaciones empresariales, bases de datos y aplicaciones en la nube para integrar todos sus datos.

¡Conectémonos ahora!
conectemos