Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co – Teil 1: Das Data Warehouse und seine Grenzen

2
Klassisches Data Warehouse (Quelle Pentaho)

Klassisches Data Warehouse (Quelle Pentaho)

Seit vielen Jahren setzen Unternehmen auf Technologien zur Datenintegration und auf ein Data Warehouse, um ihre Unternehmensprozesse zu optimieren. Denn in den Datenbergen ihrer IT-Systeme liegt wertvolles Wissen und ein enormes Potential verborgen. Mit Business Intelligence Werkzeugen lässt es sich zutage fördern. Allerdings produzieren Unternehmen immer schneller immer mehr Daten und benötigen gleichzeitig Auswertungen in immer kürzeren Intervallen. Der klassische Data Warehouse-Ansatz stößt da an seine Grenzen. Big Data-Technologien versprechen Abhilfe und eine Modernisierung des althergebrachten Data Warehouse-Konzepts.

Sate-of-the-art anno 198X
In Zeiten von Big Data, MapReduce und NoSQL wirkt das aus den 80er Jahren stammende Konzept des Data Warehouse angestaubt. Laut Definition ist es „eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“ Das Data Warehouse integriert relevante Informationen aus allen operativen Quellen eines Unternehmens und liefert Analysen und Berichte zur Steuerung des Unternehmens. Diese in Informationen verwandelten Daten tragen dazu bei, bessere Entscheidungen zu treffen und Wettbewerbsvorteile zu erringen.

Die Daten werden mit sogenannten Extraktions-, Transformations- und Ladeprozessen (ETL-Prozessen) automatisiert im Data Warehouse zusammengeführt. Dabei werden sie bereinigt, angereichert und konsolidiert. Zusätzlich können Data Marts aufgebaut werden, die für spezielle Anwendungen, Organisationseinheiten oder Geschäftsbereiche Abzüge des Data Warehouse erstellen. Data Marts sind in der Regel multidimensional aufgebaut und lassen sich daher optimal von analytischen Anwendungen nutzen. Das Data Warehouse bzw. die Data Marts sind die zentrale Datenbasis für alle Analysen und Berichte im Unternehmen.

Relationale Datenbanksysteme sind ausgereift …
Data Warehouse-Systeme basieren auf relationalen Datenbanksystemen (RDBMS), die eine Reihe von Vorteilen bieten:

•    Ausgereifte, hoch entwickelte Datenbanksoftware
•    Weit verbreitetes, schnell verfügbares Wissen
•    SQL als mächtige und standardisierte Abfragesprache
•    Viele Business Intelligence-Frontends verfügbar
•    Hohe Zuverlässigkeit und Konsistenz
•    Umfangreiche Security-Features für die Zugriffskontrolle
•    Backup- und Rollback-Features bei Datenverlusten

Neue Anforderungen an Data Warehouse und Analysen (Quelle Pentaho)

Neue Anforderungen an Data Warehouse und Analysen (Quelle Pentaho)

… und ausgereizt!
Allerdings bereitet die Skalierung von RDBMS bei extrem hohen Datenvolumen unter Umständen Probleme: Bei kommerzieller Datenbanksoftware können hohe Lizenzkosten auftreten und die Performance leidet in der Regel bei hohen Datenvolumen, wodurch ETL-Prozesse wie auch die Abfragegeschwindigkeit ausgebremst werden. Bei umfangreichen Modellen kann es außerdem schwierig sein, das Schema einer relationalen Datenbank zu erweitern und anzupassen. Zusätzlich zum reinen Volumen können auch die Frequenz der Datenerzeugung und deren Speicherung eine Herausforderung darstellen. Werden zudem immer mehr Daten in nicht standardisierten Formaten für geschäftliche Analysen herangezogen, stoßen relationale Datenbanken schnell an ihre Grenzen. Sie sind schlichtweg nicht auf die Speicherung von unstrukturierten Daten ausgelegt und deshalb keine ideale Lösung für den Umgang mit heterogenen Datenformaten.

Diese Grenzen herkömmlicher Data Warehouses haben dazu geführt, dass unterschiedliche technologische Ansätze entwickelt wurden, die diese Probleme lösen. Die nächsten Beiträge dieser kleinen Serie gehen auf neue Technologien sowie das Zusammenspiel zwischen Data Warehouse und den Big Data Stores ein und zeigen, wie sich Synergien nutzen und die Vorteile beider Ansätze kombinieren lassen:

Tags: , , , , ,

Stefan Müller - Director Big Data Analytics
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Big Data Analytics aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.
Webprofile von Stefan: Twitter, LinkedIn, XING