Datenanonymisierung

Die Verschlüsselung von Daten - Datenanonymisierung - bewirkt, dass die anonymisierten Daten nicht auf ihre Ursprungsdaten zurückverfolgbar sind. Bei diesen Verfahren werden Daten persistent verfremdet.

Einsatzfelder für Datenanonymisierung

Datenanonymisierung findet vor allem in Bereichen statt, in denen sensible Daten (z. B. personenbezogene Daten nach DSGVO / GDPR, oder unternehmenskritische Daten aus den Bereichen Finanzen, Mitarbeiter, Kunden, Rezepturen, ...) z. B. über Zugriffsberechtigungen nicht ausreichend geschützt werden können.

Datenanonymisierung in Zeiten der DSGVO (englischsprachig)

Anonymisierung in zentralen Unternehmensanwendungen

Entwicklungs- und Testumgebungen

In modernen Unternehmensanwendungen (z. B. SAP-Systemen) wird dies üblicherweise durch ein ausgefeiltes Berechtigungswesen gehandhabt, so dass jeder Anwender nur Zugriff auf die für relevanten Daten erhält. Sollen jedoch interne oder externe Entwickler oder Berater diese Anwendungen erweitern und anpassen, benötigen sie umfassendere Berechtigungen. Hierzu werden nicht-produktive Entwicklungssysteme zur Verfügung gestellt, die klassisch entweder mit künstlich generierten Testdaten oder mit Echtdaten befüllt werden. Künstlich generierte Testdaten können jedoch nur in seltenen Fällen Geschäftsabläufe in allen Facetten so darstellen, wie sie in der Realität vorkommen. Des Weiteren ist auch die pure Menge an Daten und Datenvarianten nicht ohne Weiteres künstlich zu erzeugen, so dass Last- und Performancetests keine wirkliche Aussagekraft haben.

Aus diesem Grund sind Echtdaten häufig das Mittel der Wahl, was jedoch regelmäßig im Widerspruch steht zu Datenschutzverordnungen und Unternehmensrichtlinien - Vollzugriff der Entwickler und Berater auf alle sensiblen Echtdaten).

Die Lösung hierfür findet sich in der Anonymisierung der Daten zu Entwicklungs-/Testzwecken.

Anonymisierung für Statistik- und Forschungszwecke

Vor allem in der Forschung (z. B. Gesundheitswesen, Stadtplanung, ...) werden in Feldstudien große Mengen an sensiblen, personenbezogenen Daten (z. B. Krankheitsdaten, Bewegungsmuster, ...) verarbeitet. Hierbei geht es in erster Linie um das Erkennen und die Analyse von Mustern und statistischen Zusammenhängen, in denen letzten Endes einzelne Individuen identifizierbar sein müssen. Damit von diesen Individuen nicht auf konkrete Personen zurückgeschlossen werden kann, wird diese letzte Instanz der Zusammenhänge anonymisiert.

Anonymisierung für Vorhersagezwecke

In der Produktionsmengenplanung, genauso in Marketing-/Vertriebsplanungsanwendungen oder im Rahmen des Retention Management wird mit Hilfe historischer Daten versucht Vorhersagemodelle aufzubauen, die menschliches Verhalten prognostizieren. Hierzu werden klassische statistische Verfahren genutzt, menschliche Intuition und Erfahrungswerte, oder Methoden der künstlichen Intelligenz. In allen Optionen spielen ähnlich der o.g. Szenarien vielfach personenbezogene Daten eine Rolle, die aus rechtlicher Sicht dafür nicht genutzt werden dürfen. Diese Einschränkung wird mit Hilfe der Anonymisierung umgangen.

Weitere Einsatzfelder

Befüllung von Schulungssystemen, ...

Anforderungen an Datenanonymisierung

Anonymisierte Daten sollen üblicherweise ...

logisch sinnvoll sein (z. B. nach der Anonymisierung sollen real existierende Adressen vorhanden sein, korrekt berechnete IBANs, typische Vor-/Nachnamen der jeweiligen Region)
der Realität nahe kommen (z. B. ähnlich oder identisch verteilte Häufigkeiten an Geschlechtern, Daten ("Datümer") in z. B. Alterstrukturen ähnlich verteilt etc)
steuerbar sein (z. B. Personen mit Adressen in Bayern sollen auch hinterher in Bayern sein, oder solche mit Adressen in München sollen auch hinterher in München sein)
nicht zurückverfolgbar / "zurückberechenbar" sein
auch in komplexen Umfeldern konsistent sein ("Max Mustermann in München" zu "John Doe in Düsseldorf" in allen beteiligten Systemen, z. B. Portal, CRM, Logistik, Finanz, ...)

Methoden der Datenanonymisierung

Typische Methoden der Datenanonymisierung umfassen:

Löschen: Bestimmte Daten werden komplett gelöscht/mit NULL überschrieben
Konstante: Daten werden zufällig oder einer Regel folgend mit einer oder mehreren Kontanten überschrieben
Shuffle/Mischen: die Zieldaten bilden je Datenfeld eine (Zufalls-)Mischung der Originaldaten ab
Referenztabellen: regelbasiert oder zufällig werden Originaldaten mit Daten aus einem Referenzdatenpool ersetzt
Berechnung: regelbasiert werden Datenfelder neu berechnet, z. B. auf Basis vorher anonymisierter Ausgangsdaten - ein gäniges Beispiel ist die Berechnung von IBANs oder Prüfziffern bei Kreditkartennummern

Abgrenzung: Maskierung, Pseudonymisierung

Anonymisierung beschreibt die persistente Veränderung von Daten, ohne dass diese auf ihre Ausgangswerte zurückberechnet werden können
Pseudonymisierung bezeichnet die Veränderung von Daten, die mit gewissen Zusatzinformationen zurückberechnet werden können
Maskierung ist die Funktion, dass Daten nicht persistent, sondern in der Anzeige verändert werden, z. B. das klassische "aus-X-en", bei dem einige oder alle Ziffern und Buchstaben eines Wertes durch ein "X" ersetzt werden, also Darstellung des "Markus Mustermann, Tel. 0711 1234567" als "Mxxxxx Mxxxxxxxx, Tel. 0xxx 123xxxx"