Zum zweiten Mal: Die Pentaho-Community trifft sich in Frankfurt

2
Stefan Müller begrüßt die Teilnehmer des Pentaho Community Meetings PCMD

Stefan Müller begrüßt die Teilnehmer des PCMD

Erfahrungen austauschen, Probleme diskutieren, neue Funktionen kennenlernen: Das Pentaho Community Meeting (PCMD) richtet sich an die Anwender der Pentaho BI-Suite im deutschsprachigen Raum. Am heutigen Tag findest es zum zweiten Mal in Frankfurt statt. In diesem Artikel und auf Twitter (#PCMD15) berichten wir live von der Veranstaltung und den Vorträgen.

Die wichtigsten Aussagen des Pentaho Community Meetings:

  • Pentaho ist zu einer Plattformlösung für BI-Anforderungen geworden, ohne seine modulbasierte Herkunft zu verleugnen
  • Die BI-Suite wird von Unternehmen immer häufiger als Standardlösung betrachtet
  • Data Governance wird immer wichtiger (benutze ich meine Daten nur oder verstehe ich sie tatsächlich?)
  • Pentaho wird schwerpunktmäßig zur Integration verschiedener Datenquellen, Reporting und Schaffung einheitlicher Kennzahlensysteme sowie Auswertungsmöglichkeiten eingesetzt
  • Ein kleines Programm von Jens Bleuel sorgt dafür, dass selbst geschriebene Plugins ohne Datenschutzprobleme auf den PDI/Kettle Solution Share geladen werden können
  • Deutsche See nutzt Pentaho und Ctools für ein webbasiertes, unternehmensweites Reporting-Portal
  • Mercateo schafft mit Pentaho einen einheitlichen Datenbestand und Auswertungsmöglichkeiten für einen Webshop mit 18 Millionen Artikeln und 1,25 Millionen Geschäftskunden
  • edict egaming setzt zur Scheduling von Pentaho Data Integration Jobs das Java-Tool Jenkins ein und verarbeitet so täglich 10 Millionen Datensätze

Nach dem großen Erfolg des ersten Pentaho Community Meetings Deutschland letztes Jahr stand für mich schnell fest, dass wir die Veranstaltung wiederholen würden. Gemeinsam mit Pentaho luden wir daher im Dezember die Pentaho-Anwendergemeinde nach Frankfurt ein. Das Meet/n/Work am Frankfurter Hauptbahnhof, das wir aufgrund seiner zentralen Lage wieder gewählt hatten, scheint dieses Mal fast aus den Nähten zu platzen: schon eine viertel Stunde vor Beginn der Veranstaltung sind alle Stühle besetzt und die Referenten vollzählig da, inklusive Matt Casters, Pedro Alves und Jens Bleuel von Pentaho. Nach einer kurzen Begrüßung eröffnet Pedro Alves das Pentaho Community Meeting Deutschland.

"Starting from the data" - Pentaho Community Manager Pedro Alves

„Starting from the data“ – Pentaho Community Manager Pedro Alves

Pedro Alves: Data Governance
„It all starts on the data side“ – Pedro beschreibt die Bemühungen von Pentaho in den letzten Jahren, von der reinen Bereitstellung alleinstehender BI-Tools zu einer End-to-End-Lösung mit Plattformcharakter zu kommen. Eines der immer wichtiger werdenden Themen ist dabei „Data Governance“: „Governed access to data is on the center of our offering“, beschreibt Pedro den Ansatz von Pentaho. Wenn Leute von überall her auf Daten frei zugreifen können, sind Misinterpretationen vorprogrammiert. Deshalb ist Data Governance sehr wichtig. Daten müssen validiert sein, sodass sich daraus auch die richtigen Schlüsse ziehen lassen. Der Pentaho Stack ist daher aus verschiedenen Schichten aufgebaut: Über den Kern der Datenintegration legen sich die Schichten Metadata Annotations und Analytical Ready Datasets, die ganz oben von Adhoc-Datenanalysen oder Precanned Data Delivery, also der Bereitstellung von fertigen Datensets für Datenauswertungen, abgerundet wird (hier geht´s zum aufgezeichneten Video von Pedros Vortrag auf Youtube).

Matt Carsters, Chief Architect of Pentaho Data Integration beim Pentaho Community Meeting

Matt Carsters, Chief Architect of Pentaho Data Integration

Matt Casters: Pentaho wird zum Standard in Unternehmen
Matt Casters ist als Nächster an der Reihe. Matt verantwortet bei Pentaho den Bereich Datenintegration. Er versteht sich gut mit seinem Community Manager, weshalb es dieser ihm nicht übel nimmt, dass Matt seinem Vortrag den Hinweis vorausschickt „in contrast to Pedro I´m going to do this talk in English“. Matt gibt einen Überblick zu den aktuellen Entwicklungen im Unternehmen und der Community. Pentaho hat in den letzten Monaten stark in Entwicklung und Forschung investiert und die Support-Prozesse verbessert. Auch personalmäßig hat sich einiges getan, so wurden vor allem die Vertriebs-, Pre-Sales- und Service-Teams verstärkt. Das ist laut Matt auf das starke Wachstum der Märkte für LE und Big Data zurückzuführen. Generell gehört Pentaho nicht mehr zu den Exoten auf dem BI-Markt, sondern wird immer mehr zum Standard, wenn sich Unternehmen nach Lösungen für Datenaufbereitungen und -auswertungen umschauen. Schaut man sich den Big Data-Bereich an, gewinnen die Entscheidungsfaktoren Integration, Skalierung und Sicherheit zunehmend an Bedeutung, während hingegen interessanterweise die Faktoren Preis und Open Source – in früheren Jahren für viele Unternehmen noch ausschlaggebend – immer unwichtiger werden. Wie Pedro betont Matt die Bedeutung von Data Governance, Data Profiling und Data Lineage: Es wird immer bedeutender, die Daten selbst sowie die Zusammenhänge und dahinter liegenden Prozesse zu verstehen.

Der PDI/Kettle Solution Share, präsentiert von Jens Bleuel auf dem Pentaho Community Meeting

Der PDI/Kettle Solution Share, präsentiert von Jens Bleuel

Jens Bleuel: PDI/Kettle Solution Share
Jens Bleuel stellt den PDI/Kettle Solution Share vor. Der Share dient dem Teilen von selbst geschriebenen Plugins oder Anwendungen für Pentaho Data Integration mit der Community. Häufig ist dabei das Problem, dass das Programm sensitive Daten enthält, die nicht für die Öffentlichkeit bestimmt sind (z.B. IP-Adressen, Benutzernamen, Passwörter etc.) und die man daher nicht mit der Community teilen möchte. Jens hat dafür ein kleines Tool geschrieben, das dafür sorgt, dass diese Daten gelöscht werden. Das Tool steht auf Jens´ Blog zum Download bereit und soll, so hofft Jens, die Anzahl der eingereichten Lösungen erhöhen (Jens´ aufgezeichneter Vortrag auf Youtube).

Helmut Borghorst von der Deutschen See stellt das Pentaho-Portal vor

Helmut Borghorst von der Deutschen See stellt das Pentaho-Portal vor

Projektbericht Deutsche See
Der erste Projektbericht kommt aus dem hohen Norden: die Deutsche See bildet mit Pentaho ihr Berichtswesen ab. In einem auf Ctools, Pentaho Reports und Pentaho Analyzer basierenden Webportal können die Mitarbeiter Verkaufsdaten und andere wichtige Kennzahlen einsehen und zu Berichten zusammenstellen. Helmut Borghorst schildert, wie das Unternehmen zuvor mit Exceltabellen und pdf-Reports arbeitete und irgendwann feststellte, dass eine flexiblere Lösung her musste. Deutsche See führte daraufhin Pentaho Reports und Pentaho Analyzer ein, mit deren Hilfe die Berichte automatisiert verschickt werden konnten. Mit dem reinen Versand der Reports war es aber nicht getan. Das Unternehmen beschloss daher, Pentaho Ctools einzuführen, um ein webbasiertes Reportingportal aufzubauen.

Das Portal zeigt Daten nach verschiedenen Themen aufbereitet an, z.B. Kunden, Unternehmen, Verkauf, Service, Markt etc. Ein Kundenberater der Deutschen See kann so zum Beispiel die Daten zu jedem Kunden von unterwegs aus aufrufen. Im Portal sind alle kundenbezogenen Daten hinterlegt wie Ansprechpartner, Kontaktdaten, generierter Umsatz oder gekaufte Produkte. Die Daten schließen sogar das aktuelle Wetter beim Kunden mit ein, aber noch nicht den Fußballverein, wie Borghorst betont. Momentan sind im Portal 100 Berichte angelegt, weitere sind in Planung. Die Mitarbeiter können auch selbst Berichte anlegen. Laut Borghorst sind die größten Errungenschaften des Projekts die größere Flexibilität und das Abschaffen der vielen verschiedenen selbst gemachten Excelblätter (ein Punkt, der auch bei den folgenden Projektvorstellungen immer wieder auftaucht). Die Mitarbeiter haben mit Pentaho einen zentralen Einstiegspunkt und Arbeitsbereich, außerdem greifen sie auf einen einheitlichen Datenbestand zu. Beweggründe, Pentaho einzuführen, waren die höhere Flexibilität und geringeren Kosten, eine vergleichbare Lösung von kommerziellen Anbietern hätte ein Vielfaches gekostet, so Borghorst.

René Schult von Mercateo beim Pentaho Community Meeting

René Schult von Mercateo

Projektbericht Mercateo: Ecommerce-Portal mit 18 Millionen Artikeln
Mercateo ist eine Online-Beschaffungsplattform für Händler. Wie René Schult, Leiter des Bereichs Business Intelligence bei Mercateo, erklärt, enthält das Ecommerce-Portal über 18 Millionen Artikel für 1,25 Millionen Geschäftskunden in elf europäischen Ländern. Das Datenwachstum bei Mercateo ist groß: es beträgt derzeit ca. 5 GB täglich und beläuft sich insgesamt auf ca. 1,5 Terabyte. Die Daten kommen aus sechs verschiedenen Quellen: SAP-Daten, Orderdaten aus Oracle, Apache Logs, Daten aus eigenen Logs, Kommunikationsdaten aus dem Callcenter, die in einen MS SQL-Server laufen, und externe Daten vom FTP-Server. Mercateo hatte für Auswertungen Cognos im Einsatz sowie verschiedene selbst erstelle Auswertungssysteme.

Abgesehen von der Tatsache, dass Cognos sehr teuer war, war der „Wildwuchs“ bei den Auswertungstools ein zunehmendes Problem. Es gab viele Adhoc-Auswertungen, die auf Zuruf von Entwicklern erstellt wurden, und zahlreiche Exceltabellen, die die Anwender selbst kreiiert hatten aus Mangel an Schnittstellen zu den Quellsystemen. Das Unternehmen beschloss daher, zunächst eine zentrale Datenbasis und Pentaho einzuführen. In die dazu eingesetzte PostgreSQL-Datenbank wurden alle Daten eingespeist. Dazu wurden die XML-Server über RMI-Schnittstellen und selbst geschriebene Java-Programme angebunden, die Logs und Datenbanken wurden via Python-Skripte ausgelesen.

Bei der Umsetzung des Projekts gab es verschiedene Probleme, sowohl auf der Nutzerseite als auch im technischen Bereich. So waren die Anwender anfangs überhaupt nicht begeistert von der neuen Lösung, die höchst kritisch mit den lieb gewonnenen Altsystemen verglichen wurde. Dahinter stand jedoch ein noch viel tiefgreifenderes Problem: die meisten Nutzer „verstanden“ viele Daten überhaupt nicht. Sie mussten daher zunächst im Datenverständnis geschult werden: Was wird mir da überhaupt angezeigt? Welche Daten will ich eigentlich haben? Welche Kennzahlen muss ich kennen? Um eine größere Akzeptanz zu erreichen, musste Schult auch zu drastisch anmutenden Schritten greifen und die bestehenden Auswertungssysteme kurzerhand abschalten. Das Ganze barg viel Konfliktpotenzial, aber nach der intensiven Auseinandersetzung der User mit der neuen Anwendung stieg die Akzeptanz spürbar an.

Peter Fabricius (links) und Jan Stender präsentieren Mehrmandantenfähigkeit beim Online-Casino-Anbieter edict egaming

Peter Fabricius (links) und Jan Stender präsentieren ETL-Jobs mit Jenkins bei einem Online-Casino-Anbieter

Projektbericht edict egaming: PDI Jobscheduling mit Jenkins
Die edict egaming GmbH entwickelt und betreibt Online-Casino-Lösungen. Für das Data Warehouse fallen bei der edict täglich mindestens zehn Millionen Datensätze an, die aus zwölf verschiedenen Casino-systemen kommen. Wie Jan Stender von edict und IT-Berater Peter Fabricius schildern, plante edict zunächst, mit PDI-Jobs die Verarbeitung der einzelnen ETL-Prozesse zu steuern und zu kontrollieren. Als problematisch stellte sich heraus, dass zum Betrieb PDI-Knowhow notwendig war, was eine Übergabe aus der Entwicklung in die Produktion erschwerte. Zudem wurde durch Betriebsaktivitäten regelmäßig Code geändert, was nicht in das Konzept der Funktionstrennung zwischen Entwicklung und Produktion passte. Zudem waren Nachfahraktionen und manueller Eingriff in die Produktion sehr zeitaufwändig. Grund genug, einen Scheduler zu verwenden. Mit Jenkins, eigentlich einem Tool aus der Java-Entwicklung, konnte eine kostengünstige Alternative zu kommerziellen Schedulern gefunden werden. In Kombination mit verschiedenen Plugins lassen sich mit Jenkins auch komplexe Abhängigkeiten einführen, Laufzeitoptimierungen vornehmen und grafisch übersichtlich aufbereiten.

Jan Stender betont, dass Jenkins die richtige Entscheidung war. Es gäbe zwar andere Scheduler mit größeren Funktionsumfang, diesen würden sie aber gar nicht benötigen. Wichtig ist, dass Jenkins zu seiner vollen Form erst über die Plugins auflaufe. Zu überlegen sei, ob ein Plugin für Pentaho Data Integration für Jenkins entwickelt werden sollte. Die Präsentation von Jan und Peter findet sich auf Peters Blog, das aufgezeichnete Video vom Vortrag auf Youtube.

Verschiedene Projekte, ähnliche Herausforderungen
So unterschiedlich die vorgestellten Projekte auch sind, es kristallisiert sich doch eines heraus: die Problemstellungen, aufgrund derer Unternehmen Pentaho einführen, ähneln sich. Es handelt sich meistens um die Integration verschiedener Datenquellen, Etablierung eines Reporting-Systems und Eindämmung des Excel-Wildwuchs (ein Begriff, der heute wie kein anderer Schmunzeln und heftiges Kopfnicken hervor gerufen hat). Während der Vorträge hat sich immer wieder gezeigt, wie Pentaho aufgrund der offenen Architektur und der modulartigen Bauweise geeignet ist, um in heterogenen IT-Landschaften zur Konsolidierung der Datenbasis eines Unternehmens eingesetzt zu werden, um darauf ein Berichtswesen, Datenanalysen oder andere BI-Anwendungen zu bauen. Die vielen Aspekte, die dabei zu beachten sind, und die Probleme, die dabei auftreten können, wurden im Anschluss bei Pizza und Bier noch ausführlich diskutiert.

Ich danke im Namen der it-novum allen Anwesenden für ein gelungenes zweites Pentaho Community Meeting, den Referenten für die spannenden Beiträge und Matt Casters, Jens Bleuel und Pedro Alves für ihre Präsenz! Ich freue mich auf das nächste Community Meeting 2016 🙂

Diese Artikel könnten Sie auch interessieren:

Bildergalerie

Das Pentaho Community Meeting im Social Web:

Tags: , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten. Er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source für Datenanalyse und -aufbereitung gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen und als Experte der Computerwoche weiter.
Webprofile von Stefan: Twitter, XING, Google+

2 Gedanken zu „Zum zweiten Mal: Die Pentaho-Community trifft sich in Frankfurt

  1. Pingback: Save the Date: Pentaho Community Meeting 2016 – OSBI-Blog

  2. Pingback: Internationales Pentaho-Anwendertreffen 2017 in Deutschland!

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.