Mehrere europäische Datenschutzaufsichtsbehörden (“SAs”) hatten Untersuchungen gegen OpenAI als Verantwortlicher für die Bearbeitung von Personendaten im Zusammenhang mit ChatGPT eingeleitet. Weil OpenAI bis Februar 2024 keine Niederlassung in der EU hatte und der One-Stop-Shop-Mechanismus (OSS) daher nicht greifen konnte, hatte der EDSA im April 2023 eine Taskforce eingerichtet, um Zusammenarbeit und Informationsaustausch der beteiligten SAs sicherzustellen.
Die Untersuchungen sind noch vertraulich, aber der EDSA hat auf Basis öffentlicher Informationen einen kurzen Zwischenbericht veröffentlicht (Report of the work undertaken by the ChatGPT Taskforce, datiert vom 23. Mai 2024). Der Bericht steht im Zusammenhang mit dem Vorsatz des EDSA (gemäss der Strategie 2024 – 2027), das Zusammenspiel zwischen der DSGVO und insbesondere auch dem AI Act zu begleiten.
Eingangs betont der EDSA, dass der Datenschutz im Rahmen von LLMs nicht an technischen Schwierigkeiten scheitern darf:
Nonetheless, in line with the principle of accountability […], controllers processing personal data in the context of LLMs shall take all necessary steps to ensure full compliance with the requirements of the GDPR. In particular, technical impossibility cannot be invoked to justify non-compliance with these requirements, especially considering that the principle of data protection by design set out in Article 25(1) GDPR shall be taken into account at the time of the determination of the means for processing and at the time of the processing itself.
Mit Bezug auf die laufenden Untersuchungen verweist der EDSA auf den umfangreichen Fragenkatalog, den die SAs OpenAI vorgelegt hatten. Er ist im Anhang des Berichts wiedergegeben und enthält Fragen in den folgenden Bereichen – wenig überraschend die üblichen Schwerpunkte:
- Bearbeitungsgrundsätze und ihre Einhaltung
- DSFA und Risikomanagement
- Rechtmässigkeit der Verarbeitungen für das Training, Tests und Validierungen von ChatGPT
- Gewährleistung der Betroffenenrechte
- Übermittlung in Drittstaaten
- Bekanntgabe von Daten an Dritte
Interessanter sind vorläufige Erkenntnisse des EDSA. Der EDSA verschliesst nicht die Augen vor den Sachzwängen, denen OpenAI unterliegt, und will das Modell nicht gerade verbieten, aber er erwartet weitere Anstrengungen von OpenAI.
Rechtsgrundlage
Bei der Bearbeitung der Rechtmässigkeit sollten Bearbeitungen in Phasen aufgeteilt werden. Hier biete es sich an, zu unterscheiden zwischen
- der Beschaffung von Trainingsdaten
- der Vorbereitung von Daten (pre-processing)
- dem Training
- Prompts und Output und schliesslich
- dem weiteren Training durch Prompts
Die Datenbeschaffung aus dem Internet (Scraping) beruft sich OpenAI auf berechtigte Interessen (hier). Der EDSA gibt sich damit nicht zufrieden – eine Interessenabwägung muss detailliert sein und auch Sicherheitsmassnahmen berücksichtigen. Bei besonders schützenswerten Personendaten muss zudem eine Rechtsgrundlage nach Art. 9 DSGVO einschlägig sein. Dass Daten im Internet abgreifbar sind, stelle noch kein “offensichtliches Öffentlichmachen” i.S.v. Art. 9 Abs. 2 lit. e DSGVO dar. Dass OpenAI nicht pro Einzeldatum eine Analyse durchführen kann, anerkennt der EDSA; es liege aber an OpenAI, Sicherheitsmassnahmen zu treffen, bspw. besonders schützenswerte Personendaten auszufiltern.
Beim Input, beim Output und beim Training beruft sich OpenAI ebenfalls auch das berechtigte Interesse. Hier legt der EDSA das Gewicht auf Transparenz, wenn Inputs (Prompts) für das Training verwendet werden (ein Opt-Out-Recht bietet OpenAI an).
Fairness
Unter dem Titel der Fairness verlangt der EDSA vor allem – und das ist eine innovative Betrachtungsweise, die an die AGB-Kontrolle erinnert –, dass OpenAI keine Risiken auf die Betroffenen überwälzt. OpenAI könne deshalb nicht einfach in die AGB schreiben, dass die Nutzer selbst für den Input verantwortlich sind.
Man kann sich aber fragen, ob die Nutzer von ChatGPT nicht eigene Verantwortliche sind, denen dann schon das Gesetz eine entsprechende (Mit-)Verantwortung zuweist. OpenAI sei aber jedenfalls dann verantwortlich, wenn Inputs “Teil des Modells” werden, d.h. wohl zu Trainingszwecken verwendet werden.
OpenAI hat hier aber offenbar gewisse Massnahmen getroffen, die nicht näher ausgeführt werden.
Transparenz
Grundsätzlich trifft OpenAI eine Informationspflicht beim Scraping. Weil das nicht umsetzbar ist, könnte die Ausnahme von Art. 14 Abs. 5 DSGVO greifen (wenn die Information unmöglich oder unverhältnismässig aufwendig ist).
Richtigkeit
Hier geht der EDSA zu Recht davon aus, dass er Output auf einer Wahrscheinlichkeitsbewertung beruht und entsprechend nicht “richtig” ist oder sein will, und das, obwohl Betroffene Outputs wahrscheinlich für bare Münze nehmen. OpenAI müsse aber klar(er) über die Natur der Outputs und ihre Zuverlässigkeit informieren:
In line with the principle of transparency pursuant to Article 5(1)(a) GDPR, it is of importance that proper information on the probabilistic output creation mechanisms and on their limited level of reliability is provided by the controller, including explicit reference to the fact that the generated text, although syntactically correct, may be biased or made up. Although the measures taken in order to comply with the transparency principle are beneficial to avoid misinterpretation of the output of ChatGPT, they are not sufficient to comply with the data accuracy principle, as recalled above.
Dazu steht ein Absatz in der Datenschutzerklärung von OpenAI (“In manchen Fällen sind die Worte, die als nächstes erscheinen, nicht die faktisch genauesten. Aus diesem Grund sollten Sie sich nicht auf die faktische Richtigkeit des Outputs unserer Modelle verlassen”), aber dem EDSA genügt dies nicht.
Betroffenenrechte
Dass die Erfüllung der Betroffenenrechte (Auskunft, Berichtung, Löschung usw.) im Kontext von LLMs an Grenzen stösst, ist dem EDSA klar. Er weist hier lediglich darauf hin, dass OpenAI den Nutzern vorschlage, statt eine Berichtigung lieber eine Löschung zu verlangen, und dass der Grundsatz der Erleichterung der Betroffenrechte und von Privacy by Design eine stetige Verbesserung verlange.