Lebensretter Pseudonymisierte Daten helfen Leben zu schützen

0
16.10.2020ǀ ǀ Big Data

Sicherere Events dank Geodaten

Auch Events werden mit Geodaten sicherer

Geodaten, bei denen die Verbindung zu personenbezogenen Informationen reversibel entfernt wurde, eröffnen ganz neue Möglichkeiten für Rettung und Sicherheit: sie ermöglichen nämlich unter anderem die Früherkennung von Panikpotenzial bei großen Menschenansammlungen und interaktive Anwendungen wie die Corona-Karte, die in Echtzeit aktualisiert wird. Pseudonymisierungstechniken sorgen dabei für den nötigen Datenschutz.

Die Zeiten, dass Karten papierbasierte, statische Konstrukte waren, sind lang vorbei. Die GPS-Technik hat sie in hochdynamische Anwendungen verwandelt, die nicht nur Menschen und Lieferwägen orten kann, sondern auch Rettungsdienste wie Feuerwehr, Polizei, Ambulanz.

Interaktive Karten besitzen mittlerweile einen Informationsgehalt, dessen Umfang und Detailgrad nach oben beliebig offen scheint. Grund dafür ist die ständig wachsende Zahl an Datenquellen, die Informationen in Karten(dienste) einspeisen: Kameras an Orten mit hohem Personenaufkommen schicken Bewegtbilder an Karten und machen so die Ermittlung der Auslastung von neuralgischen Punkten möglich, seien es Straßenkreuzungen oder Fußballstadien. Auch das IoT hat zahlreiche neue Anwendungsfälle eröffnet.

Voraussetzung dafür ist, dass die dahinter stehen Geoinformationssysteme (GIS) mit den Plattformen kommunizieren können, in welchen die Daten integriert und aufbereitet werden.

Datenschutz – oder nicht?

Da es sich bei vielen dieser Daten um personenbezogene Informationen handelt, unterliegt der Umgang damit natürlich der europäischen Datenschutzrichtlinie. Die Zusammenführung und Auswertung von Mobilfunkdaten, Gesichtsfotos oder Fahrzeugaufnahmen erfordert deshalb die Einhaltung der DSGVO.
Das Dilemma dabei: zwar muss die Privatsphäre der erfassten Personen gewahrt werden, gleichzeitig sollen diese aber auch identifizierbar sein, sollte die Auswertung eine mögliche Gefährdung ans Tageslicht gebracht haben oder die Aufklärung von Verbrechen möglich machen.

Anonymisierung greift zu kurz

Um die Anforderungen an den Datenschutz erfüllen zu können, versuchte man anfangs, die Informationen zu anonymisieren. Das war technisch einfach, denn es mussten lediglich alle personenbezogenen Informationen vom Datensatz separiert und gelöscht werden. Was sauber klingt, hat aber seine Tücken: werden Daten endgültig gelöscht, sind sie nicht mehr für polizeiliche Nachforschungen verwendbar.
Um diese unbefriedigende Situation zu lösen, müssen auf der einen Seite die Daten von der betroffenen Person getrennt werden, auf der anderen Seite muss es aber auch möglich sein, unter bestimmten Umständen auf diese Person rückschließen zu können.

Das ist möglich, wenn man Daten nicht anonymisiert sondern pseudonymisiert.

Reversible Anonymisierung

Bei der Pseudonymisierung werden personenbezogene Informationen verarbeitet, können aber keiner bestimmten Person zugeordnet werden. Dazu wird an die Stelle von Merkmalen wie der Name ein sogenanntes Token gestellt. Das sind Schlüssel oder Pseudonyme, die in einer getrennten Datei gespeichert werden. Nur wer die passenden Zugangsrechte hat, kann auf sie zugreifen.

Doch auch das reicht nicht aus und daran sind ausgerechnet Innovationen wie Machine Learning-Algorithmen und Künstliche Intelligenz schuld: die richtige Rechenleistung vorausgesetzt, können darauf basierende Anwendungen Querverbindungen herstellen, wenn es genügend Datensätze aus verschiedenen Datenquellen gibt.

Das heißt, dass es nach wie vor möglich ist, auf die Datensätze bestimmter Leute zu kommen. Denn eine Person wird weiterhin anhand eines einzigartigen Merkmals identifiziert, erzeugt während des Prozesses der Pseudonymisierung. Diese Art von Angriffe auf die echte Identität einer Person sind innerhalb des Datensatzes oder mehrerer Quellen möglich, die dasselbe pseudonymisierte Attribut für einen Menschen verwenden. Dasselbe geschieht, wenn Pseudonyme selbsterklärend sind und die originäre Identität des Betroffenen nicht ausreichend verschleiern.

Ein weiteres Problem sind die vielen Daten, die erfasst, aber nicht alle pseudonymisiert werden. Wenn der Datensatz noch ausreichend Fast-Identifikatoren aufweist, erlaubt das trotzdem Rückschlüsse auf die echte Person.

Anonymität wird nur durch dynamische Pseudonymisierung erreicht

Die Schlussfolgerung aus all dem ist, dass die Pseudonymisierung zweifach erfolgen muss, wenn eine „echte Anonymität“ gemäß DSGVO erreicht werden soll:

  • Statische Token müssen durch dynamische Token ersetzt werden. Das heißt, dass „Michael Maier“an verschiedenen Stellen auch unterschiedlich kodiert werden muss. So muss also bei jedem Auftreten des Namens ein anderer dynamischer Token anstelle des statischen Tokens ABCDE erhalten.
  • Außer direkten Identifikatoren wie Name oder Adresse müssen auch indirekte Identifikatoren explizit angesprochen und maskiert werden.

Nur durch die Anwendung beider Punkte kann das Risiko einer unbefugten Reidentifizierung durch den Mosaik-Effekt (Verknüpfungs- und Inferenzangriffe) minimiert werden.

Dabei handelt es sich um relativ komplizierte Prozesse, besonders wenn man umfangreiche Informationsmassen in Fast-Echtzeit kombinieren, auswerten und pseudonymisieren möchte.
Das ist auch bei extrem großen Datenmengen möglich, ergänzt man die Geointelligenzlösung ArcGIS Tracker mit der Datenintegrations- und Analyseplattform Pentaho. Denn die Pentaho-Plattform ist streamingfähig und liest Informationen aus verschiedensten Quellen ein. Die Pseudonymisierung selbst passiert anschließend mit Anonos BigPrivacy.

Es erfolgt nun eine Anpassung der Metadaten und das Rückschreiben der pseudonymisierten Informationen auf ArcGIS, wo die Verknüpfung mit den entsprechenden Kartendaten stattfindet. In ArcGIS sind nun keinerlei personenbezogene Daten mehr vorhanden. Das bedeutet, dass nun niemand mehr Rückschlüsse auf einen bestimmten Menschen oder – wenn es sich um ein Fahrzeug handelt – auf ein bestimmtes Objekt ziehen kann.

Beispiel 1: Videoanalysen und Smart Spaces

Wie sieht das nun in der Praxis aus? Ein Beispiel, das fast jeden tangiert, ist der Einsatz von Videodaten für die Vermeidung von Staus auf der Autobahn. Kameras entlang der Fahrstrecke filmen das Verkehrsgeschehen. Die Daten fließen an einer zentralen Stelle zusammen, wo sie mit Informationen aus der Vergangenheit vergleichen und ausgewertet werden. Das alles muss in Realtime stattfinden, damit die Reaktionen zeitnah erfolgen können.

Die Video Analytics-Lösung unseres Partners Hitachi Vantara ermöglicht es, per Video smart und automatisiert zu überwachen. Dazu werden relevante Informationen aus einer großen Anzahl von Quellen kontinuierlich aufgenommen. Übertragen an eine zentrale Datenbank können die riesigen Datenmengen dann mit Pentaho Data Integration verarbeitet werden, um darauf verschiedenste Auswertungen ausführen zu können oder hochinteraktive Karten mit ArcGIS zu erstellen.

Die Lösung hält die DSGVO-Richtlinie ein, da alle Daten dynamisch pseudonymisiert werden, egal ob es Autokennzeichen sind, die verpixelt werden, Firmennamen auf Fahrzeugen oder menschliche Gesichter.

Beispiel 2: Ausbreitung von Corona stoppen

Eine derartige Lösung kann sogar Leben retten, zeigt das aktuelle Beispiel der Nutzung von Mobilfunkdaten in der Corona-Pandemie. Um zu sehen, ob sich Infizierte zu welchem Zeitpunkt wo aufgehalten haben, können personenbezogene Informationen ausgewertet und dynamisch pseudonymisiert werden.

Im Falle, dass eine Person mit Corona infiziert wurde, ist es dank der Pseudonymisierung (und gesetzt der Einwilligung der Person) möglich, ihre Bewegungsdaten zu entschlüsseln und ihre Kontakthistorie mit anderen Menschen rückverfolgen. Die frühe Identifizierung von Infektionsketten ist damit DSGVO-konform möglich.

Bewegungsdaten sind zu einer essentiellen Basis für zahlreiche Anwendungen geworden, die helfen, Risiken zu senken und sowohl die Sicherheit von Einzelpersonen als auch die ganzer Gesellschaften zu verbessern. Eine interaktive Karte wie die Corona-Karte hilft seit Monaten, Leben zu retten. Die Kombination von ArcGIS, Pentaho und Anonos BigPrivacy macht das datenschutzkonform möglich.

Diese Artikel könnten Sie auch interessieren:

Tags: , ,

Stefan Müller - Director Big Data Analytics
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Big Data Analytics aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.
Webprofile von Stefan: Twitter, LinkedIn, XING