#PCMD15: „Wir verarbeiten täglich 10 Millionen Datensätze mit Pentaho“

0
Jan Stender und Peter Fabricius berichten über ihr Egaming-Portal auf dem Pentaho Community Meeting

Jan Stender und Peter Fabricius berichten über ihr Egaming-Portal

Die edict egaming GmbH verarbeitet pro Tag 10 Millionen Datensätze aus 12 Quellsystemen mit ca. 250 einzelnen Jobs. Das BI-Portal, das hinter diesen gigantischen Prozessen steht, basiert auf Pentaho. Am 5. Februar stellen Jan Stender und Peter Fabricius das Projekt auf dem Pentaho Community Meeting vor.

Im Vorfeld habe ich die beiden zu ihrem Vortrag und ihre Erwartung für das #PCMD15 befragt:

Wer seid ihr und wie ist eure Verbindung zu Pentaho?
Mein Name ist Jan Stender und ich bin verantwortlich für die Business Intelligence-Lösung bei der edict egaming GmbH. Unterstützt werde ich bei meiner Arbeit von drei weiteren Kollegen und von Peter Fabricius als freiberuflichem Consultant.
Pentaho habe ich während eines umfassenden Auswahlverfahrens 2009 für eine BI-Lösung für die edict kennengelernt. Dabei gab es zwar Lösungen mit größerem Funktionsumfang, aber es gab keine, bei der man mit einer kostenlosen Version beginnen und dann später auf eine Bezahlversion umsteigen konnte. Damals eher als Proof of Concept und Übergangslösung gedacht, setzen wir heute Pentaho Data Integration (PDI) und Pentaho Report Designer sowie das Portal mit Mondrian und Saiku schon seit 4 Jahren ein. An einen Anbieterwechsel ist nicht mehr zu denken.
Peter Fabricius haben wir als Experten für Pentaho und Oracle Datenbanken dazugeholt. Er kennt Pentaho seitdem er PDI 2007 für ein Proof of Concept eingesetzt hat.

Welches Thema wird euer Vortrag beim Pentaho Community Meeting haben, worum geht es dabei?
Unser Vortrag hat den Titel „ETL Jobsteuerung mit Jenkins“. Wir verarbeiten täglich ca. 10 Millionen Datensätze aus 12 Quellsystemen mit ca. 250 einzelnen Jobs. Um unsere ETLs zu automatisieren, haben wir anfänglich auf den Scheduler im BI-Portal gesetzt. Leider war diese Lösung schwierig zu warten und konnte keine Abhängigkeiten zwischen verschiedenen Jobs darstellen.
Da wir Jenkins bereits für Continuous Integration im Unternehmen einsetzten und es mit Hilfe einiger Plugins auch komplexe Abhängigkeiten in Jobs darstellen kann, lag es nahe, damit auch das Scheduling von ETL Jobs zu versuchen.
Im Vortrag werden wir zeigen, wie wir Jenkins und ein selbsterstelltes Job Framework verwenden, um dynamisch neue Quellsysteme anzubinden und bestehende Anbindungen anzupassen.

Was sind eure Erwartungen an das Community-Event?
Ich möchte die Leute hinter Pentaho kennenlernen und mir konstruktives Feedback für unsere Lösung abholen. Weiterhin hoffe ich zu sehen, wozu andere Anwender Pentaho nutzen und dadurch Inspirationen für unsere zukünftige Nutzung der einzelnen Produkte zu bekommen. Schließlich ist das Community Meeting sicherlich ein guter Einstieg, um nach Jahren des Nehmens (Software als CE, Hilfen im Forum usw.) auch einmal etwas an die Community zurückzugeben.

Tags: , , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten. Er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source für Datenanalyse und -aufbereitung gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen und als Experte der Computerwoche weiter.
Webprofile von Stefan: Twitter, XING, Google+

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.