Datenanonymisierung
Einsatzfelder für Datenanonymisierung
Datenanonymisierung findet vor allem in Bereichen statt, in denen sensible Daten (z. B. personenbezogene Daten nach DSGVO / GDPR, oder unternehmenskritische Daten aus den Bereichen Finanzen, Mitarbeiter, Kunden, Rezepturen, ...) z. B. über Zugriffsberechtigungen nicht ausreichend geschützt werden können.
Anonymisierung in zentralen Unternehmensanwendungen
Entwicklungs- und Testumgebungen
In modernen Unternehmensanwendungen (z. B. SAP-Systemen) wird dies üblicherweise durch ein ausgefeiltes Berechtigungswesen gehandhabt, so dass jeder Anwender nur Zugriff auf die für relevanten Daten erhält. Sollen jedoch interne oder externe Entwickler oder Berater diese Anwendungen erweitern und anpassen, benötigen sie umfassendere Berechtigungen. Hierzu werden nicht-produktive Entwicklungssysteme zur Verfügung gestellt, die klassisch entweder mit künstlich generierten Testdaten oder mit Echtdaten befüllt werden. Künstlich generierte Testdaten können jedoch nur in seltenen Fällen Geschäftsabläufe in allen Facetten so darstellen, wie sie in der Realität vorkommen. Des Weiteren ist auch die pure Menge an Daten und Datenvarianten nicht ohne Weiteres künstlich zu erzeugen, so dass Last- und Performancetests keine wirkliche Aussagekraft haben.
Aus diesem Grund sind Echtdaten häufig das Mittel der Wahl, was jedoch regelmäßig im Widerspruch steht zu Datenschutzverordnungen und Unternehmensrichtlinien - Vollzugriff der Entwickler und Berater auf alle sensiblen Echtdaten).
Die Lösung hierfür findet sich in der Anonymisierung der Daten zu Entwicklungs-/Testzwecken.
Anonymisierung für Statistik- und Forschungszwecke
Vor allem in der Forschung (z. B. Gesundheitswesen, Stadtplanung, ...) werden in Feldstudien große Mengen an sensiblen, personenbezogenen Daten (z. B. Krankheitsdaten, Bewegungsmuster, ...) verarbeitet. Hierbei geht es in erster Linie um das Erkennen und die Analyse von Mustern und statistischen Zusammenhängen, in denen letzten Endes einzelne Individuen identifizierbar sein müssen. Damit von diesen Individuen nicht auf konkrete Personen zurückgeschlossen werden kann, wird diese letzte Instanz der Zusammenhänge anonymisiert.
Anonymisierung für Vorhersagezwecke
In der Produktionsmengenplanung, genauso in Marketing-/Vertriebsplanungsanwendungen oder im Rahmen des Retention Management wird mit Hilfe historischer Daten versucht Vorhersagemodelle aufzubauen, die menschliches Verhalten prognostizieren. Hierzu werden klassische statistische Verfahren genutzt, menschliche Intuition und Erfahrungswerte, oder Methoden der künstlichen Intelligenz. In allen Optionen spielen ähnlich der o.g. Szenarien vielfach personenbezogene Daten eine Rolle, die aus rechtlicher Sicht dafür nicht genutzt werden dürfen. Diese Einschränkung wird mit Hilfe der Anonymisierung umgangen.
Weitere Einsatzfelder
Befüllung von Schulungssystemen, ...
Anforderungen an Datenanonymisierung
Anonymisierte Daten sollen üblicherweise ...
- logisch sinnvoll sein (z. B. nach der Anonymisierung sollen real existierende Adressen vorhanden sein, korrekt berechnete IBANs, typische Vor-/Nachnamen der jeweiligen Region)
- der Realität nahe kommen (z. B. ähnlich oder identisch verteilte Häufigkeiten an Geschlechtern, Daten ("Datümer") in z. B. Alterstrukturen ähnlich verteilt etc)
- steuerbar sein (z. B. Personen mit Adressen in Bayern sollen auch hinterher in Bayern sein, oder solche mit Adressen in München sollen auch hinterher in München sein)
- nicht zurückverfolgbar / "zurückberechenbar" sein
- auch in komplexen Umfeldern konsistent sein ("Max Mustermann in München" zu "John Doe in Düsseldorf" in allen beteiligten Systemen, z. B. Portal, CRM (Customer Relationship Management), Logistik, Finanz, ...)
Methoden der Datenanonymisierung
Typische Methoden der Datenanonymisierung umfassen:
- Löschen: Bestimmte Daten werden komplett gelöscht/mit NULL überschrieben
- Konstante: Daten werden zufällig oder einer Regel folgend mit einer oder mehreren Kontanten überschrieben
- Shuffle/Mischen: die Zieldaten bilden je Datenfeld eine (Zufalls-)Mischung der Originaldaten ab
- Referenztabellen: regelbasiert oder zufällig werden Originaldaten mit Daten aus einem Referenzdatenpool ersetzt
- Berechnung: regelbasiert werden Datenfelder neu berechnet, z. B. auf Basis vorher anonymisierter Ausgangsdaten - ein gäniges Beispiel ist die Berechnung von IBANs oder Prüfziffern bei Kreditkartennummern
Abgrenzung: Maskierung, Pseudonymisierung
- Anonymisierung beschreibt die persistente Veränderung von Daten, ohne dass diese auf ihre Ausgangswerte zurückberechnet werden können
- Pseudonymisierung bezeichnet die Veränderung von Daten, die mit gewissen Zusatzinformationen zurückberechnet werden können
- Maskierung ist die Funktion, dass Daten nicht persistent, sondern in der Anzeige verändert werden, z. B. das klassische "aus-X-en", bei dem einige oder alle Ziffern und Buchstaben eines Wertes durch ein "X" ersetzt werden, also Darstellung des "Markus Mustermann, Tel. 0711 1234567" als "Mxxxxx Mxxxxxxxx, Tel. 0xxx 123xxxx"