Sechs Gründe, warum Hadoop keine Integrationslösung ist

By |2019-08-23T06:06:51+00:00October 16th, 2014|

Im August unser Blog “Warum proprietäre Software kostengünstiger als kommerzielles Open Source sein kann“, Aufgeklärte Leser über die potenziell hohen Kosten für die Wahl von kommerziellem Open Source (COS) gegenüber proprietärer Software. In diesem Blog bauen wir auf dieses Thema, indem wir die Fallstricke der Einführung von Hadoop als Datenintegrationslösung diskutieren.

Falls Sie sich fragen, Hadoop ist ein Projekt, das von einer globalen Community von Mitwirkenden und Benutzern erstellt, verwendet und verwaltet wird. Es handelt sich um ein Open-Source-Software-Framework, das für die Speicherung und Verarbeitung von Datensätzen in großem Maßstab entwickelt wurde.

Als Reaktion auf das zunehmende Interesse von Kunden an der potenziellen Verwendung von Hadoop zur Unterstützung von Datenintegrationsprozessen zur Unterstützung von Data Warehousing- und Analyseanforderungen haben die Gartner-Analysten Merv Adrian und Ted Friedman ihre Position in einem im letzten Jahr veröffentlichten Artikel definiert Hadoop ist keine Datenintegrationslösung.

Es gibt einen Unterschied zwischen einer Plattform und einer Lösung. Hadoop bietet zwar einige robuste Datenfunktionen, ist jedoch keine vollständige, sofort einsatzbereite Datenintegrationslösung und kann weitaus mehr kosten als die ursprünglichen Kosten eines kommerziellen Datenintegrationspakets.

Hier einige wichtige Gründe, warum Hadoop keine gute Wahl ist, wenn Sie nach einer vollständigen Datenintegrationslösung suchen:

  1. Kompromisse bei der Entwicklungszeit
    Da Hadoop keine vollständige Lösung ist, investieren Sie erhebliche Projektzeit und Entwicklungsressourcen in das Schreiben von benutzerdefiniertem Code, mit dem Hadoop grundlegende Datenintegrationsfunktionen ausführen kann.
  2. Verfügbarkeit erfahrener Hadoop-Entwickler
    Die Entwicklung von benutzerdefiniertem Code für Hadoop erfordert umfassende Kenntnisse in der MapReduce-Codierung, eine Fähigkeit, über die nur wenige Entwickler verfügen. Die Fähigkeiten, die Ihre vorhandenen Entwickler in das Erlernen anderer Datenintegrationscodierungen investiert haben, sind für Hadoop nicht übertragbar, sodass eine steile Lernkurve entsteht.
  3. Zuverlässigkeit der Daten
    Die komplexen Datenintegrationsprozesse von heute müssen zuverlässig sein und über eine robuste Überwachung, Fehlerbehandlung, Qualitätsbewertung und Verwaltungsfunktionen verfügen. Die Unterstützung dieser Funktionen in Hadoop ist begrenzt und es gibt keine Funktionen für die Datenprofilierung und -qualität. Sie müssen in Drittanbieter-Tools und benutzerdefinierte Codierungen investieren, um die Zuverlässigkeit und Qualität Ihrer Daten zu gewährleisten.
  4. Unterstützung
    Wie bei anderen Open Source-Plattformen ist es nicht garantiert, dass Hadoop ein Community-Projekt ist, das von den Beiträgen der Benutzer angetrieben wird. Es ist nicht garantiert, wann und wo Sie Unterstützung benötigen. Ihre kommerziellen Datenintegrationslösungen bieten Unterstützung. Für Hadoop müssen Sie sich jedoch darauf verlassen, dass Sie innerhalb der Community eine Antwort finden. Die Zeit für die Fertigstellung Ihres Datenintegrationsprojekts kann erheblich beeinträchtigt werden, während Sie auf Hilfe warten.
  5. Integration mit Altsystemen
    Proprietäre Datenintegrationslösungen haben umfassende Konnektivitätsfunktionen entwickelt, um die Integration mit Altsystemen für Datenmigrationszwecke zu ermöglichen. Die Integration mit anderen Tools in Hadoop wird kaum unterstützt. Wenn Sie auf ältere Daten zugreifen müssen, müssen Sie benutzerdefinierten Code schreiben und komplizierte ETL-Prozesse implementieren, was Ihre Zeit- und Entwicklungskosten erhöht.
  6. Standards
    Je komplexer die Daten werden, desto wichtiger werden Standards. Im Gegensatz zu proprietären Datenintegrationslösungen, die ein ausgefeiltes Metadatenmanagement bieten, verfügt Hadoop über kein Metadatenmanagement, wodurch die Fähigkeit zur Einhaltung von Standards eingeschränkt wird.

Zusammenfassung

Hadoop verfügt über starke Funktionen zum kostengünstigen und effizienten Speichern und Verwalten großer Datenmengen. Es handelt sich jedoch um eine Plattform und nicht um eine Datenintegrationslösung. Wenn Sie daran denken, Hadoop für Ihre Datenintegrationsanforderungen einzusetzen, sollten Sie bereit sein, Entwickler einzustellen, die Erfahrung mit dem Schreiben von Hadoop-Code haben, und diesen Personen viel Zeit und Geld zu investieren, um die Hadoop-Plattform in eine Datenintegrationslösung zu verwandeln. und um lange Projektimplementierungs- und Abschlusspläne zu ermöglichen.

Andererseits investieren Sie in eine vollständige Datenintegrationslösung wie Centerprise Data Integrator Sie verfügen über alle Technologien und Funktionen, die Sie benötigen, um Ihre Datenintegrationsanforderungen schnell und einfach zu erfüllen.