Der Europäische Datenschutzausschuss hat mit Datum vom 17. Dezember 2024 eine Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models publiziert.
Die irische Aufsichtsbehörde hatte den EDSA um eine Stellungnahme zu Fragen allgemeiner Bedeutung im Zusammenhang mit der Bearbeitung von Personendaten in der Entwicklungs- und Einführungsphase von KI-Modellen gebeten, insbesondere:
- wann und wie ein KI-Modell als „anonym“ betrachtet werden kann
- wie die für Verantwortlichen das berechtigte Interesse als Rechtsgrundlage in der Entwicklungs- und Einsatzphase nachweisen können und
- welche Folgen eine unrechtmässige Bearbeitung in der Entwicklungsphase auf den Betrieb des Modells hat.
Die etwas langfädige Opinion will oder kann diese Fragen nicht erschöpfend beantworten, aber sie soll den Aufsichtsbehörden einen Rahmen an die Hand geben. Sie lässt zudem Fragen im Zusammenhang mit besonders schützenswerten Personendaten, automatisierten Einzelentscheidungen, der Zweckkonformität nach Art. 6 Abs. 4 DSGVO, von Datenschutz-Folgenabschätzungen und des Grundsatzes von Privacy by Design ausser Acht.
Interessant und überzeugend ist die Kernaussage des EDSA, dass ein AI-System – auch ein LLM – nicht per se anonym ist, sondern dass im Einzelfall nach den bekannten Kriterien zu prüfen ist, ob Personendaten extrahiert bzw. beim Betrieb bekanntgegeben werden können.
Deutlich wird auch, dass die rechtskonforme Entwicklung und der Einsatz eines LLM anspruchsvoll sind. Dies gilt insbesondere aufgrund der Dokumentationspflichten bzw. des Accountability-Grundsatzes, aber auch wegen hoher Anforderungen an die Transparenz bei der Verwendung von Personendaten und der Verantwortung des Betreibers (Deployers) eines AI-Systems: Soweit ein System nicht anonym ist, muss er angemessen prüfen, dass das System bzw. Modell nicht durch eine unrechtmässige Bearbeitung entwickelt wurde. Dabei genüge es u.U. nicht, sich auf die nach dem AI Act erforderliche Konformitätserklärung des Providers zu verlassen.
In einem ersten Abschnitt klärt der EDSA sein Verständnis bestimmter Begriffe wie bspw. First-Party Data (direkt erhobene Daten) und Third-Party Data (von Dritten erhobene Daten). Auch das Verständnis von AI-Systemen (AIS) und AI-Modellen (AIM) wird angeschnitten, leider aber ohne diese Begriffe im Sinne des AI Act näher zu definieren (siehe dazu unsere FAQ). Er adressiert in der Opinion aber nur Modelle, die mit Personendaten trainiert werden.
Ein LLM kann Personendaten enthalten
Zum heiss diskutierten Punkt, ob ein AIM und insbesondere ein LLM Personendaten enthält (dazu siehe hier), sagt der EDSA Folgendes:
Zunächst sind bestimmte AIM darauf ausgelegt, Ausssagen über bestimmte Personen zu machen – sie sind sicher nicht anonym:
… some AI models are specifically designed to provide personal data regarding individuals whose personal data were used to train the model, or in some way to make such data available. In these cases, such AI models will inherently (and typically necessarily) include information relating to an identified or identifiable natural person… these types of AI models cannot be considered anonymous. This would be the case, for example, (i) of a generative model fine-tuned on the voice recordings of an individual to mimic their voice; or (ii) any model designed to reply with personal data from the training when prompted for information regarding a specific person.
Aber auch andere, nicht auf einen solchen Zweck ausgelegte AIM, sind nicht grundsätzlich anonym, weil eine Extraktion personenbezogener Trainingsdaten zumindest nicht auszuschliessen sei. Es kommt daher auf den Einzelfall an. Massgebend ist die Möglichkeit, den Informationsgehalt zu erschliessen:
… for a SA to agree with the controller that a given AI model may be considered anonymous, it should check at least whether it has received sufficient evidence that, with reasonable means: (i) personal data, related to the training data, cannot be extracted out of the model; and (ii) any output produced when querying the model does not relate to the data subjects whose personal data was used to train the model.
Dies verlangt vermutungsweise eine vertiefte Prüfung unter Berücksichtigung insbesondere der folgenden Faktoren:
- die Eigenschaften der Trainingsdaten, des AIM und des Trainingsverfahrens
- der Kontext der Veröffentlichung oder des Betriebs des AIM
- etwaig zugängliche Zusatzinformationen, die eine Identifizierung ermöglichen
- die Kosten und der Zeitaufwand für eine Beschaffung solcher Zusatzinformationen
- die jeweils verfügbare Technologie und technologische Entwicklungen
- wer Zugang zum AIM hat
- Massnahmen zur Absicherung der Anonymität
Dabei sind die Eigenheiten des AIM zu prüfen, zunächst Fragen des Designs:
- Die verwendeten Inputdaten
- die Aufbereitung dieser Daten inkl. eine dem Training ggf. vorgelagerte Pseudonymisierung oder Ausfilterung von Personendaten
- das Vorgehen bei der Entwicklung, insbesondere Privacy-Preserving Techniques wie bspw. Differential Privacy
- Massnahmen im Modell selbst, die dazu beitragen können, eine Extraktion von Personendaten zu reduzieren
Auf Ebene der Governance beim Entwickler ist sodann zu berücksichtigen, ob die getroffenen Massnahmen robust implementiert und geprüft wurden. Schliesslich ist auch zu prüfen, wie das AIM getestet wurde, und generell die Dokumentation beim Entwickler; zu ihrem Gegenstand finden sich weitere Hinweise in der Opinion.
Berechtigtes Interesse
Der EDSA erinnert zuerst an die allgemeinen Grundsätze und Anforderungen der DSGVO, sofern ein Personenbezug nicht ausgeschlossen ist, insbesondere auch die Frage der Transparenz bzw. Information und der Zweckbindung. Mit Bezug auf die Rechtsgrundlage des berechtigten Interesses (Art. 6 Abs. 1 lit. f DSGVO) erinnert der EDSA daran, dass sie a priori nur jene Bearbeitungen rechtfertigen kann, die zur Erreichung des Interesses erforderlich sind, was eine Verhältnismässigkeitsprüfung einschliesst (siehe dazu EuGH, Rs. C‑621/22).
Am Ende steht eine Abwägung der Interessen, und hier bleiben die Bezüge auf den Kontext eines LLMs vage. Der EDSA erwähnt aber Risiken bei einem grossflächigen Training (er denkt dabei an Scraping):
For example, large-scale and indiscriminate data collection by AI models in the development phase may create a sense of surveillance for data subjects, especially considering the difficulties to prevent public data from being scraped. This may lead individuals to self-censor, and present risks of undermining their freedom of expression […].
Beim Einsatz eines AIM bzw. dann eines AIS ist der Zweck zu beachten; potentell heikel sind bspw. Filter- oder Recommendersysteme, Systeme, die den Zugang zur Arbeit beeinträchtigen oder diskriminierend wirken können, und Systeme, die gar in böser Absicht eingesetzt werden.
Es ist aber auch zu berücksichtigen, dass ein AIS positiv wirken kann, etwa wenn es schädliche Inhalte entfernt oder den Zugang zu Informationen erleichtert.
Der EDSA nennt weitere Faktoren, die einfliessen sollen, bspw. die Art der Daten oder ihr Umfang und die Erwartungen der Betroffenen, bleibt aber recht vage. Interessant ist immerhin ein Punkt:
Die Erwartungen der Betroffenen können durch eine Datenschutzerklärung beeinflusst werden. Das hat die Deutsche Datenschutzkonferenz in der Orientierungshilfe zur Direktwerbung wohl etwas strenger gesehen (“die Erwartungen der betroffenen Person können dabei nicht durch die nach der DS-GVO vorgesehenen Pflichtinformationen erweitert werden”). Es genüge allerdings nicht unbedingt, in einer Datenschutzerklärung auf die Möglichkeit einer Verwendung von Personendaten für Trainingszwecke hinzuweisen. Bspw. sei Betroffenen nicht unbedingt bewusst, dass Personendaten verwendet werden, um die Antworten eines AIS an ihre Bedürfnisse anzupassen und massgeschneiderte Dienste anzubieten – der EDSA erwartet mit anderen Worten etwas mehr Kontext bei den Datenschutzinformationen.
Mitigierungsmassnahmen
Schliesslich nennt der EDSA – teils redundant – Massnahmen, die die Risiken für Betroffene reduzieren können:
- Technische Massnahmen, die idealerweise sogar eine Anonymität bewirken
- Massnahmen auf Ebene der Inputdaten und des Modelldesigns
- Pseudonymisierung
- Maskierung (Ersatz durch fiktive Daten, z.B. Fake-Namen)
- Massnahmen zum Schutz der Betroffenenrechte:
- zeitlicher Abstan zwischen Erhebung und Verwendung von Personendaten
- Opt-out-Recht
- Recht auf Löschung auf ausserhalb von Art. 17 DSGVO gewähren
- Massnahmen zum “Verlernen” von Personendaten
- Transparenz:
- Angabe zusätzlicher Informationen über Datenquellen und ‑auswahl
- Information bspw. auch über Medienkampagnen, visuelle Darstellungen, FAQ und Transparenzberichte
- bei Web Scraping:
- Ausschluss sensibler Daten
- Ausschluss von Daten von heiklen Websites
- automatisierte Berücksichtigung von Scraping-Widersprüchen
- Zeit- und quellbasierte Einschränkungen der Datenerhebung
- Opt-out-Recht durch entsprechende Listen
- im Betrieb:
- Schutz gegen Wiedergabe von Personendaten durch Filter
- Schutz gegen Wiederverwendung (z.B. durch Watermarking)
- Erleichterung von Betroffenenrechten (Löschung und Entfernen von Personendaten)
Wirkung fehlender Rechtsgrundlage in der Trainingsphase
In einem weiteren Abschnitt geht der EDSA auf die Frage ein, ob und wie sich das Fehlen einer Rechtsgrundlage – in der Trainingsphase auf den nachgelagerten Betrieb auswirkt. Dabei unterscheidet der EDSA Szenarien:
Szenario 1 – Verwendung durch den gleichen Verantwortlichen:
- Wenn ein Verantwortlicher Personendaten unrechtmässig für die Entwicklung eines AIM verwendet und die Daten im Modell anschliessend selbst verwendet, bspw. bei der Bereitstellung des Modells, sei im Einzelfall zu fragen, ob die Entwicklungs- und die Betriebsphase getrennte Zwecke verfolgen und daher separate Bearbeitungstätigkeiten darstellen.
- Im Fall einer getrennten Betrachtung ist bei der Prüfung des berechtigten Interesses in der Betriebsphase die Unrechtmässigkeit der ersten Bearbeitung zu “berücksichtigen” – ein per-se-Verbot statuiert der EDSA also nicht.
Szenario 2 – Weiterverarbeitung durch einen anderen Verantwortlichen:
- Hier sind zuerst die Rollen und Verantwortlichkeiten der Parteien klar zu definieren, und eine gemeinsame Verantwortlichkeit ist zu prüfen. Das ist vertraglich zu regeln.
- Ebenfalls im Einzelfall ist die Wirkung der unrechtmässigen Bearbeitung im Training zu prüfen. Der einsetzende zweite Verantwortliche muss angemessen prüfen (Accountability), dass das AIM nicht durch eine unrechtmässige Bearbeitung entwickelt wurde. Der EDSA auferlegt dem Kunden des Anbieters mit anderen Worten eine in der Praxis zweifellos anspruchsvolle Prüfungsaufgabe. Insbesondere genügt es u.U. nicht, sich nur auf die nach dem AI Act erforderliche Konformitätserklärung zu verlassen (!).
Szenario 3 – Unrechtmässige Entwicklung und anschliessende Anonymisierung und Bearbeitung durch denselben oder einen anderen Verantwortlichen:
- Sofern das Modell wirklich anonym ist, ist die DSGVO darauf nicht anwendbar.
- Die DSGVO gilt, falls anschliessend erneut Personendaten bearbeitet werden. Eine ursprüngliche Rechtswidrigkeit wirkt sich aber nicht auf diese neue Bearbeitung aus.