Seis razones por las que Hadoop no es una solución de integración

By |2019-08-23T06:06:51+00:0023rd agosto, 2019|

En agosto nuestro blog, "Por qué el software propietario puede ser más rentable que el código abierto comercial", Lectores informados sobre los altos costos potenciales de elegir el código abierto comercial (COS) sobre el software propietario. En este blog, nos basamos en ese tema al analizar las dificultades de adoptar Hadoop como una solución de integración de datos.

En caso de que se lo pregunte, Hadoop es un proyecto que está siendo construido, usado y mantenido por una comunidad global de contribuyentes y usuarios. Es un marco de software de código abierto desarrollado para el almacenamiento y el procesamiento a gran escala de conjuntos de datos.

En respuesta a los clientes que muestran un creciente interés en el uso potencial de Hadoop para ayudar en los procesos de integración de datos para respaldar los requisitos de análisis y almacenamiento de datos, los analistas de Gartner, Merv Adrian y Ted Friedman definieron su posición en un artículo publicado el año pasado que Hadoop no es una solución de integración de datos..

Hay una diferencia entre una plataforma y una solución. Si bien Hadoop puede ofrecer algunas capacidades de datos robustas, no es una solución de integración de datos completa y lista para usar, y puede costar mucho más que el costo inicial de un paquete de integración de datos comerciales.

Estas son algunas de las razones clave por las que Hadoop no es una buena opción si está buscando una solución de integración de datos completa:

  1. Compensaciones de tiempo de desarrollo
    Debido a que Hadoop no es una solución completa, invertirá tiempo significativo en el proyecto y recursos de desarrollo para escribir código personalizado que permita a Hadoop realizar funciones básicas de integración de datos.
  2. Disponibilidad de desarrolladores experimentados de Hadoop
    El desarrollo de código personalizado para Hadoop requiere una gran experiencia en la codificación de MapReduce, un conjunto de habilidades que solo un pequeño número de desarrolladores posee. Las habilidades que sus desarrolladores existentes han invertido en aprender otra codificación de integración de datos no son transferibles para Hadoop, por lo que habrá una curva de aprendizaje empinada.
  3. Fiabilidad de los datos
    Los complejos procesos de integración de datos de hoy deben ser confiables, con monitoreo robusto, manejo de errores, evaluación de calidad y capacidades administrativas. El soporte para estas capacidades en Hadoop es limitado y no existe ninguna funcionalidad para el perfil y la calidad de los datos. Deberá invertir en herramientas de terceros y codificación personalizada para garantizar la confiabilidad y calidad de sus datos.
  4. Soporte
    Al igual que con otras plataformas de código abierto, porque Hadoop es un proyecto comunitario impulsado por las contribuciones de los usuarios, no se garantiza la obtención de soporte cuando y donde lo necesite. El soporte se proporciona con sus soluciones de integración de datos comerciales, pero para Hadoop tendrá que confiar en encontrar una respuesta dentro de la comunidad. El tiempo de finalización de su proyecto de integración de datos podría verse seriamente comprometido mientras espera ayuda.
  5. Integración con sistemas heredados.
    Las soluciones patentadas de integración de datos han desarrollado amplias capacidades de conectividad para permitir la integración con sistemas heredados para fines de migración de datos. Hay poca compatibilidad con la integración con otras herramientas en Hadoop, por lo que si necesita acceder a datos heredados, tendrá que escribir un código personalizado e implementar procesos ETL complicados, lo que se suma a su tiempo y costos de desarrollo.
  6. Estándares
    A medida que los datos se vuelven más complejos, los estándares son cada vez más importantes. A diferencia de las soluciones de integración de datos patentadas que brindan administración de metadatos sofisticada, Hadoop no tiene administración de metadatos, lo que limita su capacidad para cumplir con los estándares.

Resumen

Hadoop tiene capacidades sólidas para almacenar y administrar grandes cantidades de datos de manera económica y eficiente, pero es una plataforma, no una solución de integración de datos. Si está pensando en adoptar Hadoop para sus necesidades de integración de datos, debe estar preparado para contratar desarrolladores con experiencia en escribir código Hadoop, para invertir una cantidad significativa de tiempo y dinero para que estas personas conviertan la plataforma Hadoop en algo parecido a una solución de integración de datos. y para permitir largos programas de implementación y finalización de proyectos.

Por otro lado, invertir en una solución completa de integración de datos como Centerprise Data Integrator lo tendrá en funcionamiento con todas las tecnologías y capacidades que necesita para satisfacer sus necesidades de integración de datos de forma rápida y sencilla.