Skip to main content

DSGVO und Big Data

Wie sich die DSGVO (GDPR) auf Big Data Analytics auswirkt

Die Hauptziele der DSGVO, dem neuen EU-Gesetz zur Speicherung von personenbezogenen Daten, bestehen darin, den EU-Bürgern die Kontrolle über ihre personenbezogenen Daten zurückzugeben. Wichtige Punkte sind die Notwendigkeit der Einwilligung in die Verwendung personenbezogener Daten, das Recht auf Löschung personenbezogener Daten und die Verpflichtung, Personen im Falle eines Verstoßes zu benachrichtigen. Die Sanktionen sind drastisch: es drohen Geldstrafen von bis zu 20 Millionen EUR oder bis zu 4% des jährlichen weltweiten Umsatzes. Diese Geldbußen stellen ein erhebliches finanzielles Risiko für Unternehmen dar.

Vor diesem Hintergrund stehen Verantwortliche vor technischen, fachlichen und organisatorischen Herausforderungen für ihre analytische Systeme wie z.B.:

  • Klärung, was personenbezogene Daten sind
  • 'privacy by design' und 'privacy by default'
  • Pseudonymisierung und Anonymisierung
  • Geforderte Datenqualität durch die DSGVO

DSGVO und Data Science

Die DSGVO beeinflusst Data Science und Datawarehousing in der Praxis in folgenden Bereichen: Erstens setzt die DSGVO der Verarbeitung personenbezogener Daten und der Erstellung von Verbraucherprofilen engere Grenzen. Zweitens müssen Unternehmen, die Technologien für die automatisierte Entscheidungsfindung einsetzen, den Verbrauchern ein "Recht auf eine Erklärung" zugestehen. Drittens macht die DSGVO Unternehmen für Verzerrungen und Diskriminierungen bei automatisierten Entscheidungen verantwortlich. Viertens müssen Unternehmen beachten, dass auch bestehende Analysen mit personenbezogenen Daten mit Inkrafttreten der DSGVO illegal werden können.

Es gibt viel zu tun

Unternehmen müssen die von ihnen erfassten Daten auf DSGVO-Betroffenheit untersuchen, Compliance-Verfahren implementieren, ihre Verarbeitungsvorgänge bewerten und vieles mehr. it-novum untersucht die DSGVO-Regelungen und entwickelt Lösungen für die Behandlung der DSGVO mit unseren Pentaho Datenintegrations- und Analyselösungen.

GDPR für BI

Lösungsansätze mit Pentaho und Cloudera

Der Cloudera Navigator beinhaltet u.a. ein Metadaten Repository, das es ermöglicht, zu jeder Tabelle/Datei oder Verzeichnis Metadaten in Form von zusätzlichen Tags (z.B. „WICHTIG“) zu speichern. Diese Tags können anschließend gesucht und in der Data Lineage dargestellt werden.

Wenn die zutreffenden Daten im Cloudera Navigator durch Metadaten „markiert“ wurden, sind alle „Orte“ bekannt, in denen sich GDPR-relevante Daten befinden und wie sie weiter verarbeitet werden.

Bei einem Datenabfluss (z.B. Hackerangriff) helfen diese Informationen die Betroffenen zu informieren, da bekannt ist, welche Daten betroffen sind. Des Weiteren erlaubt es eine klare Governance, z.B. durch Einschränkung des Benutzerkreises zu entscheiden, wer auf die Daten zugreifen darf. Darüber hinaus ist es möglich, durch die Auditfunktionen des Navigators tatsächliche Datenabflüsse stark einzugrenzen.

Das Erstellen dieser Metadaten-Tags für die Daten sowie das Übermitteln an den Cloudera Navigator wird von Pentaho übernommen. Dazu ruft Pentaho den passenden API Endpoint des Navigators auf und übermittelt den Metadaten-Tag. Die Möglichkeit eines automatisierten Erkennens des passenden Metadata Tags bietet z.B. ein Pattern-Recognition-Verfahren.

Anonymisierung und Pseudonymisierung

Unternehmen sollten den Zugriff auf personenbezogene Daten ihrer Kunden beschränken. Implementieren Sie eine robuste Anonymisierung, sodass Analytiker standardmäßig nicht auf personenbezogene Daten zugreifen können. Definieren Sie anschließend einen Ausnahmeprozess, der den Zugriff auf personenbezogene Daten in Ausnahmefällen unter angemessener Sicherheit zulässt.

Um weiterhin mit Personendaten arbeiten zu können, ohne die strengen Richtlinien der DSGVO zu verletzen, können Analysen mit pseudonymisierten Daten geführt werden. Technisch lässt sich eine solche Pseudonymisierung, also das Ersetzen des Klarnamens durch ein Pseudonym durch Pentaho, bereits beim Ingest in den Data Lake umsetzen.

Recht auf Vergessen

Implementieren Sie einen Prozess, um Kundenfragen und Bedenken bezüglich automatisierter Entscheidungen zu bearbeiten. Stellt ein Kunde z.B. eine Anfrage für das Löschen seiner personenbezogenen Daten, ist es wichtig zunächst einmal zu ermitteln, wo diese überhaupt gespeichert sind. Das geschieht durch das Suchen des Metadata Tags im Navigator und anhand der Data Lineage und anschließender Übergabe an einen entsprechend entwickelten Pentaho ETL Job, der die Daten aus allen relevanten Verarbeitungsstufen löscht.

ETL im Data Lake

Daten werden im Data Lake normalerweise in verschiedenen Formen weiter verarbeitet. Hierbei ist es wichtig, die Metadata Tags weiter zu pflegen. Entfallen personenbezogene Daten, so kann das GDPR Tag wieder entfernt werden.

Bei prediktiven Modellen, die personenbezogene Daten verwenden, sollte geklärt werden, ob diese Daten wirklich für Analysen notwendig sind und ob sie einen eindeutigen Informationsmehrwert bieten. Relevant ist auch die Frage, ob das Vorhersagemodell einen zulässigen Anwendungsfall unterstützt, zum Beispiel ein Anti-Geldwäsche-Fall. Abschließend definieren Sie einen Review- und Annahmeprozess für kundenorientierte Vorhersagemodelle, der unabhängig von den Modellentwicklern ist.

DSGVO Reporting

Unternehmen müssen allen Stakeholdern (Mitarbeitern, Tochterunternehmen, Kunden und Prüfern) Informationen zum Compliance-Status und Fortschrittsberichte liefern. Prüfern und Zertifizierungsstellen muss eine gesetzeskonforme Verarbeitung nachgewiesen werden und den Offenlegungspflichten gegenüber Betroffenen ist nachzukommen.

All diese Informationen sind zeitnah und übersichtlich bereitzustellen. Die Kombination des Cloudera Navigators mit Pentaho hilft, diese Reporting-Anforderungen zu erfüllen.

Disclaimer

Die in diesem Artikel enthaltenen Informationen sind nicht als Rechtsberatung zu verstehen und sollten auch nicht als solche ausgelegt werden. Unternehmen, die der DSGVO unterliegen, dürfen sich nicht auf die hierin enthaltenen Informationen verlassen und sollten Rechtsberatung von ihrem eigenen Rechtsbeistand oder einem anderen professionellen Rechtsdienstleister einholen.


Stefan Müller
Director Big Data Analytics

Planen Sie ein Projekt oder wünschen Sie mehr Informationen zum Thema DSGVO und Big Data?

Kontaktieren Sie Ihren persönlichen Ansprechpartner.

Anfrage Senden