Best Practice: Aufbau eines Data Warehouse System mit OSS

0
Ein Warenhaus für Daten

Ein Warenhaus für Daten

Unternehmen und ihr Umfeld produzieren immer schneller, immer größere Datenmengen. Die anfallenden Daten bergen ein riesiges wirtschaftliches Potenzial – wenn sie richtig verarbeitet und analysiert werden. Ein Data Warehouse System bildet die ideale Grundlage dafür. In diesem Best Practice-Bericht zeigen wir, wie und mit welchen Open-Source-Lösungen ein leistungsfähiges Data Warehouse aufgebaut werden kann.

 

Wenn es darum geht, bessere unternehmerische Entscheidungen auf Grundlage von Datenbeständen zu treffen, ist Data Warehousing nach wie vor das bestimmende Datenhaltungskonzept vieler Unternehmen. Allerdings macht die zunehmende Datenflut die Integration heterogener Datenquellen in einem abgestimmten Datenpool zu einer technisch anspruchsvollen Aufgabe. Außerdem ist der Aufbau eines Data Warehouse häufig mit hohen Lizenz- und Hardwarekosten verbunden. Für Unternehmen, die lieber in Software-Anpassungen investieren als in Software-Lizenzen, stellen praxiserprobte Open Source-Lösungen daher eine echte Alternative dar. Im Bereich Data Management haben Open Source-Software (OSS)-Lösungen einen hohen Reifegrad erreicht. Doch eignet sich Open Source auch für den Aufbau eines performanten Datenlagers?

Diese Best Practice zeigt, wie Sie mit Open Source ein leistungsfähiges Data Warehouse realisieren. Dazu wird eine prototypische Beispielarchitektur konzipiert und aufgebaut. Zum Einsatz kommen die Lösungen Pentaho und Infobright.

Datenlager mit 5-Schichten-Architektur
Ein Data Warehouse System besteht aus fünf Ebenen: Datenquelle, Datenerfassung, Datenhaltung, Datenanalyse und Datenpräsentation. Data Warehouses führen Daten über Extraktions-, Transformations- und Ladeprozesse automatisiert zusammen und bereiten sie auf. Sollen für spezielle Anwendungen oder Geschäftsbereiche Abzüge des Data Warehouse erstellt werden, kann man zusätzlich Data Marts aufbauen. Data Marts sind in der Regel multidimensional konstruiert und daher optimal von analytischen Anwendungen nutzbar. An diesem Konzept hat sich bis heute nicht viel geändert: Data Warehouses stellen die zentrale Datenbasis für alle Analysen und Berichte dar, mit denen das Unternehmen gesteuert werden kann. Das Data Warehouse-System unseres Prototyps besitzt die in der untenstehenden Abbildung dargestellte Struktur.

Open Source Data Warehouse System - Aufbau einer Beispielarchitektur

Open Source Data Warehouse System – Aufbau einer Beispielarchitektur

Als Datengrundlage kommen die Testdaten AdventureWorks2008R2(AWR2) zum Einsatz. Der ETL-Prozess auf der Ebene der Datenerfassung wird mit Pentaho Data Integration realisiert. Das Werkzeug ist Teil der Open Source Lösung Pentaho Business Analytics Suite, die in diesem Beispiel auch für die Datenanalyse und Datenpräsentation verwendet wird. Das eigentliche Data Warehouse innerhalb der Datenhaltung wird mit dem analytischen Datenbankmanagementsystem Infobright abgebildet. Als OLAP-Server kommt Pentaho Mondrian zum Einsatz. Das notwendige XML-Schema wird mit der Pentaho Schema Workbench erzeugt. Sind diese Komponenten umgesetzt, können die Daten auf der Datenpräsentationsebene durch verschiedene Tools von Pentaho in Form von Analysen, Dashboards und Reports aufbereitet werden.

Datengrundlage: multinationales Unternehmen
Die Daten der Backup-Datei repräsentieren ein auf die Fertigung und den Vertrieb von Fahrrädern spezialisiertes, multinationales Unternehmen. Das Datenmodell besteht aus mehr als 70 Tabellen, aufgeteilt nach fünf Unternehmensbereichen. In seiner Komplexität entspricht das Modell den Datenbankstrukturen realer Unternehmen und eignet sich daher gut für Demonstrationszwecke. Der Microsoft SQL-Server ist zwar keine Open Source Software. Das Backup kann aber in CVS-Dateien umgewandelt und anschließend per Bulk Load als Massenimport in jede Open Source-Datenbank geladen werden.

In den folgenden Teilen werden die einzelnen Schichten des Data Warehouse und die dabei zum Einsatz kommenden Open Source-Werkzeuge näher beschrieben.

Dieser Blogbeitrag ist ein Auszug aus dem Whitepaper „Aufbau eines Data Warehouse mit Pentaho“, welches hier kostenfrei runtergeladen werden kann.

 

Diese Artikel könnten Sie auch interessieren:

Tags: , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten. Er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source für Datenanalyse und -aufbereitung gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen und als Experte der Computerwoche weiter.
Webprofile von Stefan: Twitter, XING, Google+

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.