Centerprise Mejores Prácticas: Ajuste de rendimiento en el diseño de flujo de datos

By |2019-09-13T10:26:41+00:0025th noviembre, 2013|

In Parte I de este blog de dos partes, hablamos sobre cómo los flujos de datos son la piedra angular de cualquier proyecto de integración de datos en Centerprise y discutimos algunas de las mejores prácticas de modularidad y reutilización para aprovechar al máximo su Centerprise proyectos de integración. Esta semana veremos algunas de las mejores prácticas para ajustar el rendimiento. los Centerprise la plataforma de procesamiento paralelo se ha creado para una velocidad y un rendimiento superiores, por lo que diseñar sus flujos de datos para aprovechar las capacidades del software puede afectar significativamente su rendimiento de integración de datos.

Fuentes de datos
Con frecuencia, un flujo de datos se puede optimizar mediante un ajuste fino en la fuente de datos. Aquí hay algunas técnicas útiles de optimización:

Filtrado en base de datos: Al cargar datos de una base de datos, ingrese una cláusula where para filtrar los datos en la fuente. Cargando datos en Centerprise y luego filtrando usando el Centerprise Transformación de filtro puede degradar significativamente el rendimiento.

Evitar mapear campos adicionales: El origen de la tabla de la base de datos crea automáticamente una consulta para cargar solo los campos que están asignados. Para aprovechar esta optimización, asigne solo los campos que se utilizan en las acciones posteriores.

Ordenar para tener éxito en las uniones: El rendimiento de Centerprise Las combinaciones mejoran en órdenes de magnitud cuando se trabaja con datos previamente ordenados. Donde sea posible, evite clasificar los datos en Centerprise y ordene en su lugar en su consulta de base de datos agregando orden por cláusula.

Particionamiento: Centerprise La base de datos y las fuentes de archivos permiten la partición de datos, que acelera la lectura al dividir un conjunto de datos en fragmentos y leer estos fragmentos en paralelo. Utilice la partición si está moviendo una tabla de datos grande

Captura De Cambio De Datos: Si transfiere periódicamente cambios de datos incrementales, considere usar uno de CenterpriseCambie los patrones de captura de datos (CDC) para asegurarse de que sus datos estén tan actualizados como lo necesita. Centerprise admite una variedad de estrategias de CDC que le permiten seleccionar la estrategia adecuada para adaptarse a su entorno y requisitos. Consulte Recursos adicionales al final de este documento para obtener más información sobre Centerprise cambiar la captura de datos.

Une
Centerprise Unir transformaciones le permite unirse a múltiples fuentes de datos. Unirse a menudo implica ordenar las secuencias de datos entrantes, por lo que es la razón más común para los problemas de rendimiento. Aquí están las prácticas a tener en cuenta al usar uniones:

  • Uniendo datos en Centerprise es mucho tiempo Utilice las combinaciones de base de datos siempre que sea posible.
  • Ordenar los datos en la fuente cuando sea apropiado. Unir flujos de datos ordenados es mucho más rápido.
  • Al unir datos de la misma base de datos, use la opción Unión de base de datos en la transformación de unión. Cuando se especifica la opción Unión de base de datos, Centerprise construye y ejecuta una sola consulta uniendo varias tablas. Esto puede mejorar el rendimiento en la mayoría de las situaciones.
  • Reducir el número de campos en la transformación de unión también mejora el rendimiento, así que asegúrese de eliminar cualquier campo innecesario.

Búsquedas

Las búsquedas son otra fuente de problemas de rendimiento en los trabajos de integración. Centerprise ofrece varias técnicas de almacenamiento en caché para mejorar el rendimiento de las búsquedas. Experimente con las opciones de búsqueda en caché y seleccione las opciones que funcionen mejor para situaciones específicas. Algunos consejos son:

  • Si trabaja con un conjunto de datos grande que no cambia con frecuencia, considere usar el nuevo Centerprise Persistent Lookup Cache, que almacena una instantánea de la tabla de búsqueda en el disco local del servidor y la usa en ejecuciones posteriores. En situaciones donde la tabla de búsqueda se actualiza diariamente, se puede tomar una instantánea en la primera ejecución después de la actualización y se puede usar a lo largo del día para procesar datos incrementales.
  • Si trabaja con un conjunto de datos grande pero usa solo una pequeña fracción de los elementos en una sola ejecución, considere usar la opción Caché en el primer uso
  •  Si se usa una búsqueda en varios lugares dentro del mismo flujo, considere usar una búsqueda separada
  • Cuando sea apropiado, use una combinación de base de datos en lugar de una función de búsqueda

Destinos

Centerprise soporta carga masiva para bases de datos populares. Cuando sea posible, use la carga masiva para los destinos de la base de datos y experimente con los tamaños de lote de carga masiva para ajustar el rendimiento. Centerprise ofrece una Transformación Diff Processor que se puede usar para comparar un flujo de datos entrantes con datos existentes en la tabla y aplicar diferencias. En ciertas situaciones, esta transformación puede acelerar sustancialmente los flujos de datos.

Reglas generales

  • Evita los pasos innecesarios. Algunos pasos, como el registro de nivel de registro, incurren en una mayor sobrecarga de rendimiento y solo deben usarse durante el desarrollo para aislar los problemas de datos.
  • La ventana de supervisión del trabajo muestra el tiempo de ejecución para cada paso. Estos no son números precisos, pero proporcionan una aproximación aproximada del tiempo empleado en cada paso y se pueden utilizar para optimizar pasos específicos.