Die 5 besten Tipps für Datenintegrationsprobleme So nehmen Sie die gängigsten Hürden

0

Die Integration von Daten gleicht manchmal einem Hürdenlauf

Die Datenschlacht ist in vollem Gange: Unternehmen, die ihre Daten nicht für die Geschäftsausrichtung nutzen können, werden dem Wettbewerbsdruck nicht standhalten können. Dabei ist Datenintegration die Basis, um Mehrwerte aus Unternehmensdaten zu gewinnen. In dieser Blogreihe erkläre ich die 5 besten Lösungen für typische Probleme bei der Integration und Aufbereitung von Daten.

Im ersten Beitrag geht es darum, wie sich Daten anbinden und verwerten lassen. Eine wichtige Rolle spielen dabei Datensilos, strukturierte, semi- und unstrukturierte Daten sowie der richtige Umgang mit Daten aus SAP-Systemen. Eine umfassende Beschreibung aller 5 Lösungen finden Sie im gleichnamigen Whitepaper.

Problem 1: Wie lassen sich Daten anbinden und verwerten

Von Datensilos und ihrer Beseitigung

Daten sind in jedem Unternehmen reichlich vorhanden, aber leider oft nur isoliert und schwer zugänglich. Diese Datensilos gilt es zunächst aufzulösen – das hat für jede Datenstrategie oberste Priorität. Solche Silos entstehen, wenn Daten separat in einzelnen Enterprise-Applikationen und Abteilungslösungen gespeichert werden. Die Daten stehen dann nur für die konkrete Anwendung zur Verfügung. Ohne den Bezug zum restlichen Unternehmen mit seiner Vielzahl an Datenquellen fehlt aber jeglicher Kontext, um wertvolle Erkenntnisse zu gewinnen. Zudem ist der Datenzugriff oft nur den Nutzern der jeweiligen Anwendung möglich.

Über strukturierte, semi- und unstrukturierte Daten

Analysten rechnen mit einem Datenwachstum von bis zu 800 Prozent in den kommenden fünf Jahren. Bis zu 80 Prozent dieser Daten werden unstrukturiert sein. Beim Auflösen der Datensilos ist die unterschiedliche Beschaffenheit der Daten zu beachten: strukturierte, semi-strukturierte und unstrukturierte. Jede dieser Datenarten bringt eigene Herausforderungen für die Verarbeitung und Integration mit sich.

Ein typisches Beispiel für strukturierte Daten sind SAP-Daten. Semi- und unstrukturierte Daten sind beispielsweise Logs, Sensor- und Videodaten. Gegenwärtig wertet man nur den geringsten Teil dieser Informationen aus, denn

  • sie liegen in sehr unterschiedlichen Formaten vor, etwa als Bilder, Texte, Maschinen- und Sensordaten. Dadurch ist es schwierig, ein passendes Tool zu finden, das auf alle Informationen zugreifen und das jeweilige Datenformat lesen und verarbeiten kann.
  • das Datenvolumen ist extrem hoch.
  • sie müssen in geeigneter Form extrahiert werden.
  • oft müssen spezifische (manuelle) Lösungen entwickelt werden, damit sich die Daten überhaupt anbinden lassen.
  • die Vielzahl an Daten-Updates und die fehlende Vergleichbarkeit ihrer Quellen verkomplizieren die Prozesse.
  • es fehlt häufig an Fachwissen über Datenintegration und den Umgang mit Datenquellen.

EXKURS: Herausforderungen im Umgang mit SAP-Daten

77 Prozent aller Transaktionsumsätze weltweit durchlaufen SAP-Systeme. Die nahezu unzähligen Unternehmensanwendungen machen SAP zu einer der wichtigsten Datenquelle für viele Unternehmen. Der Zugriff darauf ist aber meist alles andere als einfach:

  • SAP-Daten sind in der Regel nur mit relativ hohem Aufwand über standardisierte Schnittstellen – unter Einhaltung der SAP Security – zugänglich.
  • SAP führt Berechnungen on the fly durch, also beim Abruf des gewünschten Business-Prozesses. Viele Daten stehen deshalb nur während der Laufzeit der Applikation bereit und lassen sich somit für Analysen nicht oder nur schwer heranziehen. Typische Beispiele sind Lieferabrufe oder Verfügbarkeiten.
  • SAP-Daten anzubinden und weiterzuverarbeiten, erfordert großes Wissen über die zugrunde liegenden Datenquellen, Tabellen und Strukturen.

Einen ausführlichen Leitfaden zur richtigen Aufbereitung von SAP-Daten für Analysen finden Sie hier.

Die Lösung: Moderne Datenarchitektur mit Data Pipelines

Daten-Pipelines gestatten es, strukturierte, semi-strukturierte und unstrukturierte Informationen aus den unterschiedlichsten Quellen zu extrahieren, aufzubereiten und schließlich zu analysieren. Von zentraler Bedeutung hierbei ist die Kontextualisierung von Daten.

Strukturierte Daten

Datenintegrations-(DI) Werkzeuge für die Entwicklung von Daten-Pipelines erlauben einen flexiblen Zugriff auf strukturierte Informationen, etwa Kunden- oder SAP-Daten aus unterschiedlichsten Quellen, einerlei, ob es sich dabei um ein ERP-, CRM- oder ein anderes operatives System handelt. Bei SAP umgeht man das beschriebene „on the fly“-Problem, weil die DI-Werkzeuge auch selbst auf den jeweiligen Business-Prozess zugreifen, der die SAP-Daten verwendet.

Die Daten werden für die nachgelagerten Business Intelligence-Applikationen optimiert und in einem Data Warehouse abgelegt. Dieser Ablauf bietet viele Vorteile:

  • Einfaches Blending der Daten mit Daten aus anderen Quellen und unstrukturierten Daten
  • Keine Umwege mehr über Excel
  • Maximaler Erkenntnisgewinn durch die Einbeziehung aller Datenquellen und das Korrelieren dieser Daten
  • Optimale Grundlage für viele Data Science Usecases
  • Maximale Flexibilität für zukünftige datengetriebene Usecases
  • In Bezug auf SAP: schneller Zugriff auf die strukturierten Daten unter Beachtung der SAP Sicherheitsrichtlinien (SAP Policies)

EXKURS: Temporäre Pufferung von SAP-Daten

Um SAP-Daten unter Beachtung der Policy-Richtlinien zu integrieren, sollte eine DI-Software bereitgestellte SAP-Funktionen aufrufen. Da aber SAP Informationen intern in eigenen temporären Tabellen puffert, besteht die Gefahr von Time-outs. Es sollte daher eine DI-Software zum Einsatz kommen, die die Pufferung von SAP-Tabellen gering hält. Eine Lösung wie der Hitachi Data Connector for SAP ruft im Server-Mode nur kleine Pakete ab. Das Puffern übernimmt und steuert der integrierte Pentaho Server von Hitachi Vantara.

Unstrukturierte Daten

Schätzungen zufolge liegen weltweit rund 80 Prozent der Daten in unstrukturierter Form vor. Geht es um ihre Integration, sollte eine DI-Software große Datenmengen durch Parallelisierung verarbeiten können. Ein leistungsstarkes ETL-(Extract, Transform, Load)-Werkzeug ist beispielsweise Pentaho Data Integration. Damit lassen sich Daten aus allen Arten von Quellsystemen laden, von Logdaten über Fertigungssysteme bis hin zu SAP-Lösungen.

Im nächsten Beitrag geht es um schlechte Performance und wie sich diese einfach optimieren lässt.

Diese Artikel könnten Sie auch interessieren:

Tags: , , ,

Stefan Müller - Director Big Data Analytics
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Big Data Analytics aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.
Webprofile von Stefan: Twitter, LinkedIn, XING