Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co Teil 3: Hadoop

0

Tag-Cloud-Data-WarehourseTagxedo---CreatorIm ersten Beitrag dieser Serie wurden die Grenzen herkömmlicher Data Warehouses aufgezeigt und im zweiten Teil, wie Analytische Datenbanken und NoSQL-Datenbanken diese Grenzen für Big Data-Szenarien erweitern können. Eine weitere vielversprechende Technologie für die Verarbeitung großer Datenmengen ist Hadoop.

Hadoop setzt dort an, wo traditionelle Data Warehouse-Systeme an ihre Grenzen stoßen. Das Grundproblem beim Einsatz herkömmlicher Data Warehouse-Technologien ist der rapide Anstieg der Betriebskosten, wenn große Datenmengen verarbeitet werden. Zudem werden immer mehr unstrukturierte Daten erzeugt, die nicht in die Logik eines Data Warehouse passen.

Hadoop ist ein Open Source-basiertes Framework für die Erfassung, Organisation, Speicherung, Suche und Analyse unterschiedlich strukturierter Daten auf einem Cluster von Standardrechnern. Durch diese Architektur kann Hadoop extrem skalieren und sehr große Datenmengen performant verarbeiten. Damit eignet es sich hervorragend für die batch-orientierte Verarbeitung gigantischer Datenmengen. Die Verwendung von Standard-Hardware sorgt zudem dafür, dass die anfallenden Hardwarekosten überschaubar bleiben und ermöglicht ein ausgezeichnetes Preis-Performance-Verhältnis. Neben der reinen Open Source-Version der Software existieren einige kommerzielle Distributionen, wie zum Beispiel Cloudera, Hortonworks oder MapR. Neben professionellem Support bieten diese Distributoren auch erweiterte Funktionalitäten.

Hadoop zeichnet sich vor allem durch die folgenden Merkmale aus:

  • Java-basiertes Open Source-Framework
  • Hadoop Distributed File System (HDFS) als verteiltes Dateisystem
  • MapReduce-Algorithmus für die parallele Verarbeitung der Daten
  • Hive als Data Warehouse-Datenbank auf Hadoop
  • Hbase als NoSQL-Datenbank auf Hadoop

Bei der Verarbeitung sehr großer Datenmengen bringt Hadoop damit folgende technologischen Vorteile mit:

  • Schnelle und einfache Skalierbarkeit des Clusters
  • Hohe Verarbeitungs- und Analysegeschwindigkeit durch Parallelisierung
  • Gleichzeitige Verarbeitung mehrerer Datentypen (strukturiert, halbstrukturiert, unstrukturiert)
  • Fähigkeit, Text zu verarbeiten
  • Niedrige Kosten durch Open Source und Standard-Hardware

Hadoop ist keine Datenbank, sondern basiert auf dem verteilten Dateisystem HDFS und dem MapReduce-Algorithmus zur Verarbeitung der Daten. Deshalb ist Hadoop zum einen ein Datenarchiv und zum anderen auch eine Plattform zur Datenanalyse und  aufbereitung. Hadoop bietet die Basisfunktionalitäten eines Data Warehouse und ermöglicht damit beispielsweise Aggregationen sowie Summen- oder Mittelwertbildungen. Außerdem stellt Hadoop mit Hive auch eine Datenbank mit SQL-ähnlicher Sprache zur Verfügung, die jedoch nicht immer ausreichende Performance garantiert.

Der Nutzen von Hadoop vervielfacht sich aber, wenn es in Kombination mit anderen Technologien genutzt wird: Die Ergebnisse der Hadoop-Verarbeitung können in einem Data Warehouse oder in Data Marts abgelegt werden, wo sie sich dann mit allen Vorteilen einer Data Warehouse-Plattform nutzen lassen. Die eigentlichen Rohdaten existieren dabei weiter nur im Hadoop-System. Zwar entwickeln derzeit nahezu alle Anbieter von Hadoop-Distributionen auch Werkzeuge für einen performanten SQL-Zugriff auf Daten in Hadoop. Doch auch wenn diese Entwicklungen vielversprechend sind, beim aktuellen Stand der Technik ist es sinnvoller, Hadoop mit dem klassischen Data Warehouse-Ansatz zu kombinieren.

Ergänzung statt Ersatz
Das Ziel des Hadoop-Einsatzes ist also nicht, das Data Warehouse zu ersetzen, sondern es sinnvoll zu ergänzen, um die Vorteile beider Welten nutzen zu können. Denn trotz aller Vorzüge ist Hadoop nicht für jeden Anwendungsfall geeignet, etwa wenn nur geringe Datenmengen analysiert werden sollen. Außerdem ist die Einführung von Hadoop aufwendig, da zuerst viel Wissen aufgebaut werden muss.

Nach dem Blick auf die Grenzen von Data Warehouses und die Erweiterungsmöglichkeiten durch Analytische Datenbanken, NoSQL und Hadoop wird der noch ausstehende und letzte Beitrag der Reihe einen Blick auf Anwendungsszenarien werfen und aufzeigen, wie sich unterschiedliche Big Data-Technologien sinnvoll kombinieren lassen.

Die anderen Teile der Blogserie finden Sie hier:

Tags: , , , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten. Er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source für Datenanalyse und -aufbereitung gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen und als Experte der Computerwoche weiter.
Webprofile von Stefan: Twitter, XING, Google+

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.