Open Source Data Warehouse – Diese Daten gehören ins Lager

0
Diese Daten gehören ins Datenlager

Pentaho Data Integration erfasst auch unstrukturierte Daten

Ursprünglich für Reportings und einfache Analysen entworfen, erwarten Unternehmen von einem Data Warehouse heute, dass auf Basis operativer Daten auch spezielle Ad-hoc-Auswertungen für unterschiedliche Fachanwender möglich sind. Der Ausbau des Data Warehouse mit kommerzieller Datenbanksoftware kann dabei schnell zu hohen Lizenz- und Betriebskosten führen. Für die Umsetzung des ETL-Prozesses in unserem Best Practice nutzen wir deshalb das Open Source Tool Pentaho Data Integration.

Datenerfassung mit Pentaho Data Integration
Die Datenerfassung beschäftigt sich mit dem Extrahieren, Transformieren und Laden (ETL) von Daten in das Data Warehouse. Ziel ist es, eine homogene, qualitativ hochwertige Datenbasis zu schaffen, auf der Analysen ausgeführt werden können. Im Rahmen unseres OSDW-Prototyps sollen Vertriebsdaten ausgewertet werden. Zur Erinnerung: unser Datenmodell besteht aus einer OLTP-Datenbank mit mehr als 70 Tabellen, die sich in Human Ressources, Person, Production, Purchasing und Sales unterteilen.

Best Practice für Lookup- und Join-Operationen
Pentaho Data Integration bietet vordefinierte ETL-Schritte, die über eine grafische Drag-and-Drop-Oberfläche (Spoon) erstellt werden. Auf diese Weise können auch Nicht-Programmierer mit geringem Aufwand professionelle ETL-Routinen und -Jobs aufbauen. Um Daten vergleichen und kombinieren zu können, verwendet das Tool Lookup- und Join-Operationen. Da innerhalb des ETL-Prozesses viele Tabellen kombiniert werden müssen, wirkt sich die Auswahl der richtigen Schritte deutlich auf die Verarbeitungsgeschwindigkeit aus. Die wichtigsten Schritte sind:

  • Database Lookup: ermöglicht den Abgleich verschiedener Tabellen einer Datenbank;
  • Stream Lookup: zu vergleichende Daten können direkt aus dem Stream extrahiert werden;
  • Merge Join: setzt die klassische Join-Operation um und eignet sich insbesondere für große Data Sets mit hoher Kardinalität;
  • Database Join: verknüpft Datenbanktabellen und erstellt native Abfragen;
  • Dimension Lookup: kombiniert die Funktionalitäten von Insert/Update und Database Lookup;

Umsetzung des ETL-Prozesses
Bevor mit dem Befüllen des Data Warehouse begonnen werden kann, müssen die Datenverbindungen zwischen Datenquelle und dem Data Warehouse definiert werden: entscheidend sind die Auswahl der richtigen Datenbank, der Einsatz des richtigen Treibers sowie benutzerspezifische Einstellungen. Insgesamt sollen fünf Dimensionen in Bezug auf die OLTP-Datenbank erstellt werden, und zwar Datum, Kunde, Produkt, Vertriebsweg und Währung. Wichtig ist, dass die JDBC-Treiber der beiden Datenbanken im Verzeichnis lib des Data Integration Tool hinterlegt sind.

Dimensionen, Tabellen und Kategorien festlegen
Die Dimensionen DimCurrency und DimCustomer werden aus der Sales-Tabelle erzeugt und kommen ohne Join-Operation aus. Für die Analyse werden lediglich Name und Kürzel der Währung übernommen sowie Vor- und Nachname in einem gemeinsamen Feld kombiniert. DimPerson wird über Database Lookup um die Strukturen Telefonnummer und E-Mail-Adresse erweitert. DimProduct wird aus drei Tabellen der OLTP-Datenbank generiert. Den Ausgangspunkt der Transformation bildet die Tabelle Produktion, diese wird um die Attribute Name und Produktkategorie der Tabelle Produktion erweitert. Das zweite Attribut dient dabei als Schlüssel der zweiten Lookup-Operation auf die Tabelle Produktkategorie. Die Transformation DimSalesTerritory entspricht den vorangegangenen Prozessen. Diese wird im durch Lookups um die Attribute Name und Gruppe der Tabellen Land/Region und Vertriebsgebiet erweitert. Im Anschluss wird die Dimension innerhalb eines Merge Joins mit der Tabelle Adresse verknüpft.

DimDate lässt sich nicht aus der OLTP-Datenbank extrahieren, sondern muss manuell erzeugt werden. Als Grundlage dient eine CSV-Datei, die eine eindeutige Identifikationsnummer, das konkrete Datum und den entsprechenden Wochentag enthält. Die CSV lässt sich in Pentaho Data Integration über CSV Input File einbinden. Anschließend können die Daten verarbeitet und in die Zieldatenbank geladen werden.

FactSales
Ausgangspunkt bildet die Tabelle Sales. Diese enthält bereits viele wichtige Schlüssel und Kennzahlen. Die Verbindungen sind aber selten performant gestaltet, weshalb im ersten Abschnitt OrderDate und ShipDate durch DimDate ersetzt werden, das innerhalb der Dimension generiert wurde. Anschließend wird noch das Attribut ToCurrencyCode über einen Lookup integriert. Als Schlüssel dient die CurrencyRateID. Mittels Merge Join wird noch die Tabelle SalesOrderDetail integriert, die Detailinformationen zu den einzelnen Bestellungen liefert. Die kombinierten Datensätze haben unterschiedliche Aggregationsstufen, weshalb sie nachträglich angepasst werden müssen. Um die Daten weiterverarbeiten zu können, wird pro Bestellung ein zusätzlicher Datensatz angelegt, der die aggregierten Kennzahlen beinhaltet. Insgesamt enthält die fertige Faktentabelle sieben Schlüssel und sechs Kennzahlen.

Dieser Blogbeitrag ist ein Auszug aus dem Whitepaper „Aufbau eines Data Warehouse mit Pentaho“ welches hier kostenfrei runtergeladen werden kann.

Diese Artikel könnten Sie auch interessieren:

Tags: , , , , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut und in Richtung Big Data weiterentwickelt hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.
Webprofile von Stefan: Twitter, LinkedIn, XING

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.