Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co. Teil 4: Big Data-Technologien im Zusammenspiel

2

Big-Data-SchildZum Abschluss unserer kleinen Blogserie über die Grenzen des Data Warehouse und neue Möglichkeiten mit Big Data-Technologien widmen wir uns dem Zusammenspiel dieser beiden Komponenten. Denn Big Data-Technologien werden im Unternehmen nicht nur isoliert genutzt, sondern auch im Zusammenspiel mit herkömmlichen Business Intelligence(BI)-Methoden.

Betreibt beispielsweise eine Firma eine Webapplikation oder Webseite, die viel Traffic generiert, und will die Daten sammeln, um das Verhalten der Besucher zu analysieren, drängt sich ein kombinierter Ansatz geradezu auf. Das Ziel ist es, eine sogenannte Clickstream-Analyse der Websitebesuche und der Aktionen der Anwender zu erstellen. Diese Analyse hilft dem Marketing, die Besucher besser zu verstehen und wertvolle Erkenntnisse aus ihrem Verhalten abzuleiten.

Log-Daten in NoSQL-Datenbank speichern
Die für diese Analysen benötigten Rohdaten liegen in den Logs der Webserver vor. Es ist sinnvoll, die Daten der Webapplikation direkt in einer NoSQL(Not only SQL)-Datenbank zu speichern, weil die Datenbank effizient mit den großen Mengen an Log-Daten umgehen kann. Außerdem verfügt sie über die notwendige Flexibilität, um neue Datenobjekte unkompliziert zu ergänzen.

Nehmen wir für unser Beispiel an, dass täglich 100 Millionen neue Datensätze anfallen. Mit traditionellen ETL(Extract, Transform, Load)- und Data Warehouse-Technologien wird die Verarbeitung dieser Datenmengen mit ihren verschiedenen Datentypen schnell zu einem zeitlichen Problem. Deshalb werden sie in Hadoop abgelegt, was eine leistungsfähige Batch-Verarbeitung zur Aufbereitung der Daten ermöglicht. Die Log-Daten werden dabei zu Stunden, Hosts oder Page Level verdichtet und mit Informationen aus anderen Quellen angereichert.

Bereit für den Einsatz leistungsstarker BI-Werkzeuge
Anschließend werden die Daten aggregiert und in das Data Warehouse bzw. die analytische Datenbank geladen. Dort steht der volle Funktionsumfang von SQL zur Verfügung und auf den veredelten Datenbestand lassen sich dann unterschiedliche Technologien für performante Abfragen anwenden. Das sind optimale Voraussetzungen für Abfragen mit komplexen Filtern, Joins und Gruppierungen sowie die Nutzung von OLAP (Online Analytical Processing).

Selbstverständlich sind bei dieser Architektur noch verschiedene Kombinationen bzw. Datenströme möglich. So lässt sich etwa ein Reporting auch direkt auf NoSQL aufsetzen oder die Log-Daten lassen sich direkt in Hadoop ablegen.

Totgesagte leben länger – Koexistenz des Data Warehouse mit den Big Data Stores
Das Beispiel Clickstream-Analyse macht deutlich, dass das Konzept des Data Warehouse auch in Zeiten von Big Data aktueller denn je ist. Und das gilt auch, obwohl die klassische Umsetzung nur mit einer relationalen Datenbank bei einigen Anforderungen an seine Grenzen stößt. Das Modell des Data Warehouse bietet viele Vorteile und ermöglicht die Benutzung leistungsstarker BI-Frontends.

Die Herausforderung ist deshalb, das Data Warehouse sinnvoll mit Big Data-Technologien zu ergänzen und zu erweitern, um die Schwächen der klassischen Architektur auszugleichen. Denn moderne BI und Data Warehouse-Architekturen müssen in der Lage sein, unterschiedlichste Daten zu verarbeiten.

Schnittstellen zu neuen und alten Datenquellen
Umgekehrt stellen Big Data-Technologien die ETL- und Datenintegrationswerkzeuge vor neue Anforderungen. Damit Daten aus unterschiedlichen Quellen kombiniert und transformiert werden können, müssen die Werkzeuge Schnittstellen zu NoSQL und Hadoop bzw. verwandten Lösungen ebenso bereitstellen wie zu relationalen Datenbanken, Files und anderen traditionellen Quellen.

Die Mühe, die in den Aufbau einer solchen Architektur gesteckt werden muss, lohnt sich aber. Fachabteilungen und Unternehmen als Ganzes können die so gewonnenen Erkenntnisse für bessere Entscheidungen nutzen. Die neue Realität ist also nicht der Abschied vom Data Warehouse, sondern der Aufbruch in eine Zukunft, in der die Kombination alter und neuer Ansätze bessere und schnellere Analysen ermöglicht.

Wenn Sie sich nun fragen, was Ihr erster Schritt in diese Big Data-Zukunft sein könnte, schauen Sie doch einfach mal hier vorbei. Wir finden bestimmt auch die passende Lösung für Ihr Unternehmen.

Die anderen Teile der Blogserie finden Sie hier:

Tags: , , , ,

Stefan Müller – Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut und in Richtung Big Data weiterentwickelt hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.

Webprofile von Stefan: Twitter, LinkedIn, XING

2 Gedanken zu „Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co. Teil 4: Big Data-Technologien im Zusammenspiel

  1. Pingback: Die neue Realität: Erweiterung des Data Warehouse um Hadoop, NoSQL & Co - Teil 1: Das Data Warehouse und seine Grenzen - Business Open Source Blog

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.