Die 5 besten Tipps für Datenintegrationsprobleme Tipp 3: Für eine gute Datenqualität sorgen

0

Mangelnde Datenqualität ist ein häufiges Problem

Mangelnde Datenqualität ist ein häufiges Problem

Ob duplizierte, unvollständige oder inkonsistente Daten: schlechte Datenqualität kostet die Wirtschaft beträchtliche Summen. Diese Kosten steigen von Jahr zu Jahr, da die Datenabhängigkeit der Unternehmen kontinuierlich zunimmt. Zudem können Entscheider aufgrund der geringen Datenqualität das Vertrauen in Big Data-Analysen verlieren und deshalb lieber darauf verzichten wollen. Doch gegen unzureichende Datenqualität kann man etwas tun.

Während ich in den ersten beiden Beiträgen dieser Serie beschrieben habe, wie man Daten anbindet und verwertet bzw. wie man die Performance von Datenabfragen verbessert, widme ich mich im dritten Beitrag dem wichtigen Thema der Datenqualität. Meistens handelt es sich um eines der drei folgenden Probleme:

Duplizierte Daten

Sind die gleichen Daten mehrfach im System abgelegt, dann liegt das in der Regel an einem schlechten Integrationsprozess. Redundante Daten beanspruchen nicht nur Speicherplatz, sondern können zu fehlerhaften Handlungen oder Aussagen führen. Ist beispielsweise in einem CRM-System eine Kundenadresse x-mal hinterlegt, dann erhält dieser Kunde möglicherweise auch x Anschreiben im Zuge einer Marketingkampagne, was keinen professionellen Eindruck hinterlässt.

Unvollständige Daten

Eine schlechte Datenintegration kann auch dazu führen, dass Daten gelöscht werden oder verloren gehen. Die Datensätze werden somit unbrauchbar, denn

  • die Zusammenhänge zwischen den verbliebenen Daten stimmen nicht mehr.
  • für die vorhandenen Daten fehlt der Kontext.
  • Die Gewichtung zwischen den Daten verschiebt sich und liefert so fehlerhafte Aussagen.

Inkonsistente Daten

Inkonsistent bedeutet, dass nicht alle Daten in einem einheitlichen, vom System lesbaren Format vorliegen. Im einfachsten Fall sind nur schlecht verwaltete Konventionen für die Dateinamen die Ursache. Ein anderer Grund könnte sein, dass die verschiedenen Datentypen miteinander vermischt sind, etwa wenn in einem Datensatz für Temperaturangaben auch Preise stehen. Auch hier sind die Auswirkungen unschön, denn nicht lesbare Daten sind für das System quasi nicht vorhanden – mit den oben beschriebenen Konsequenzen. Wenn die Daten zwar lesbar sind, jedoch nicht im einheitlichen Format vorliegen,fällt ein Mehraufwand an, um sie umzuwandeln.

Datenquellen vorab auf ihre Qualität prüfen

Sind die originären Daten bereits falsch, dann zieht sich dieser Fehler durch den gesamten Prozess. Daher ist es besonders wichtig, dass Unternehmen sehr sorgfältig bei der Aufnahme von Daten vorgehen bzw. die Qualität ihrer Datenquellen genau prüfen.

Sorgenkinder in vielen Firmen sind Adress- und Telefondaten. Ein Grund dafür ist, dass sie häufig manuell eingepflegt werden, etwa von den Mitarbeitern ins ERP-System oder vom Kunden in eine Eingabemaske auf der Webseite. Schnell schleicht sich da ein Tippfehler ein, oder eine Angabe wird vergessen. Gibt der Kunde die Adresse telefonisch an, kann es akustische Missverständnisse geben.

Zwar lassen sich fehlerhafte oder unvollständige Angaben nicht ganz ausschließen, Unternehmen können aber eine technische Unterstützung einbauen. Datenqualitätssoftware erkennt Felder in einer Datenbank, die wahrscheinlich nicht richtig oder ungenau ausgefüllt sind. So werden beispielsweise bei einer deutschen Postleitzahl nur fünfstellige Eingaben als richtig anerkannt. Je nachdem, welche Datentypen fehlen, kann das System fehlende Informationen auch aus anderen Datenquellen abrufen und ergänzen. Beispielweise, indem es auf eine Post-Datenbank zugreift und die Postleitzahl ermittelt, die zur angegebenen Vorwahl passt.

Die Lösung: Hochwertige Daten automatisiert integrieren

Die meisten der oben aufgeführten Probleme lassen sich lösen, indem man die im Unternehmen anfallenden Daten strukturiert ablegt und sie automatisiert integriert. Zuvor ist eine Planung zwingend, die festlegt, wie die Daten künftig strukturiert sein sollen, welche Datenquellen vorliegen und wie der Prozess der Datenintegration abzulaufen hat. Insbesondere sollte sichergestellt sein, dass die anfallenden Daten standardisierte Bezeichnungen erhalten und nur in den festgelegten Formaten vorliegen. Eine strukturierte, verbindlich festgelegte Datenablage unterstützt insbesondere die IT bei späteren Erweiterungen oder Updates.

Man sollte zudem darauf achten, ein System zur Datenintegration einzusetzen, das bereits während des Data Blending doppelte Daten automatisch identifiziert und entfernt.
Der automatisierte Zugriff auf die Datenquellen sorgt überdies dafür, dass die Daten vollständig integriert werden und keine Fehler durch manuelle Eingaben auftreten.

Eine umfassende Beschreibung dieser und vier weiterer Lösungen finden Sie im Whitepaper „Die 5 besten Lösungen für Datenintegration“.

Diese Artikel könnten Sie auch interessieren:

Tags: , ,

Stefan Müller - Director Big Data Analytics
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Big Data Analytics aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.
Webprofile von Stefan: Twitter, LinkedIn, XING