Die Hamburgische Datenschutzbehörde mit der Abkürzung HmbBfDI hat am 15. Juli 2024 ein Diskussionspapier “Large Language Models und personenbezogene Daten” veröffentlicht (Medienmitteilung und PDF). Das Papier versteht sich als Diskussionsbeitrag, der den aktuellen Erkenntnisstand zur Frage enthält, ob Large Language Models (LLMs) Personendaten speichern.
Die grundlegenden Thesen lauten dabei wie folgt:
1. Die bloße Speicherung eines LLMs stellt keine Verarbeitung im Sinne des Art. 4 Nr. 2 DSGVO dar. Denn in LLMs werden keine personenbezogenen Daten gespeichert. Soweit in einem LLM-gestützten KI-System personenbezogene Daten verarbeitet werden, müssen die Verarbeitungsvorgänge den Anforderungen der DSGVO entsprechen. Dies gilt insbe- sondere für den Output eines solchen KI-Systems.
2. Mangels Speicherung personenbezogener Daten im LLM können die Betroffenenrechte der DSGVO nicht das Modell selbst zum Gegenstand haben. Ansprüche auf Auskunft, Löschung oder Berichtigung können sich jedoch zumindest auf Input und Output eines KI- Systems der verantwortlichen Anbieter:in oder Betreiber:in beziehen.
3. Das Training von LLMs mit personenbezogenen Daten muss datenschutzkonform erfolgen. Dabei sind auch die Betroffenenrechte zu beachten. Ein ggf. datenschutzwidriges Training wirkt sich aber nicht auf die Rechtmäßigkeit des Einsatzes eines solchen Modells in einem KI-System aus.
Der HmbBfDI stellt zuerst die Tokenisierung als Verarbeitung (im technischen Sinn) von Trainingsdaten dar, die dabei in Schnipsel zerlegt und zueinander in Beziehung gesetzt werden, dargestellt durch eine mathematische Funktion, die einerseits das “Wissen” des LLMs und andererseits Grundlage für den Output ist. Entsprechend enthält ein LLM keine Personendaten als solche:
Sind in den Trainingsdaten entsprechend personen- bezogene Daten enthalten, durchlaufen sie im Prozess des maschinellen Lernens eine Transformation, bei der sie in abstrakte mathematische Repräsentationen überführt werden. Dieser Abstraktionsprozess führt dazu, dass die konkreten Merkmale und Bezüge zu bestimmten Personen verloren gehen und stattdessen allgemeine Muster und Zusammenhänge erfasst werden, die sich aus der Gesamtheit der Trainingsdaten ergeben.
Das liesse sich auch wie folgt darstellen:
Dass ein LLM Tokens aber in Beziehung setzt und bestimmte Ergebnisse daher je nach Kontext wahrscheinlicher werden, entgeht dem HmbBfDI nicht; dabei handle es sich aber gewissermassen um eine Neuschöpfung und nicht eine Wiedergabe. Es gebe ferner zwar Privacy Attacks, die Trainingsdaten erkennbar machen, aber es sei “zweifelhaft”, dass deshalb von Personendaten gesprochen werden könne. Anders als bspw. IP-Adressen seien Tokens kein Identifier. Die Beziehung der Tokens untereinander ebenfalls nur eine Aussage über die sprachliche Funktion der einzelnen Tokens; Einzelinformationen liessen sich dem nicht entnehmen.
Bei Modellen mit einem Finetuning sei eher zu beobachten, dass sie u.U. Trainingsdaten wiedergeben. Der Output eines Personendatum sei aber kein “zwingender Nachweis”, dass Personendaten als solche gespeichert wurden, es könne auch Zufall sein. Zudem seine Privacy Attacks allenfalls ein unverhältnismässiger Aufwand und ein ggf. verbotenes Mittel, so dass es an der Bestimmbarkeit fehle.
Weil LLMs keine Personendaten speichern, wirke sich eine Datenschutzverletzung beim Training nicht auf die Rechtmässigkeit des Einsatzes des LLMs aus. Beim Einsatz eines LLMs und beim Training oder Finetuning müsse aber natürlich der Datenschutz gewahrt werden.
Die Wortmeldung des HmbBfDI ist kaum das letzte Wort. Die DSK hat jedenfalls die Möglichkeit offengelassen (Mai 2024), dass LLMs Personendaten enthalten, ebenso wie das BayLDA in einer Checkliste vom Januar 2024 oder der Baden-Württembergische LfDI 2023. Eine genauere Analyse findet sich dort allerdings jeweils nicht, nur der Hinweis, dass LLMs Personendaten enthalten können und eine Einzelfallprüfung erforderlich sei. Die Position des HmbBfDI ist hier viel entschlossener.
Insgesamt wirken die Ausführungen aber ergebnisgeleitet. Eine solche Abgeklärtheit sucht man bei Behörden sonst jedenfalls oft umsonst – Pate der Thesen war vielleicht auch die Furcht, dass LLMs andernfalls faktisch verboten sein könnten. Die Lösung dieses Problems muss aber allenfalls über entsprechende Ausnahmen der datenschutzrechtlichen Anforderungen gefunden werden, und offen ist auch der Ausgang der Untersuchungen der Taskforce des EDSA zu OpenAI:
EDSA: Zwischenbericht der Task Force zu den OpenAI-Untersuchungen
Es liessen sich durchaus auch gegenteilige Thesen vertreten. Wer Personendaten in verschlüsselter Form in gesicherter Umgebung speichert, kann sie auch nicht ohne weiteres abfragen, und Drittangriffe sind nicht unbedingt wahrscheinlicher als bei einem LLM; dennoch würde niemand behaupten, es seien keine Personendaten. Dazu muss natürlich eine Entschlüsselung möglich sein, und darin kann man den Unterschied zum LLM finden: Anders als bei der Entschlüsselung besteht keine wiederherstellbare 1:1‑Beziehung zwischen Inhalt und Output. Ein LLM enthält aber (wenn auch in komplexer Form) die Aussage, dass die Tokens “Adri”, “an L”, “obs” “iger” zueinander in einer engeren Beziehung stehen als z.B. “Adri” “a” “L” “obs” “ter”. Die entsprechenden Tokens lassen sich zwar nicht als solche extrahieren, schon gar nicht nebeneinander, aber über eine Abfrage lassen sie sich bzw. lässt sich das Ergebnis ihrer statistischen Beziehungen zueinander dennoch erschliessen. Fragt man ChatGPT, wer der EDÖB ist, lautet die Antwort “Der aktuelle EDÖB ist Adrian Lobsiger, der dieses Amt seit 2016 innehat”. Solche Aussagen werden zwar neu generiert und sind keine direkte Wiedergabe von Trainingsdaten, aber darauf kann es nicht ankomnen. Dass ChatGPT offensichtlich mit entsprechenden Information trainiert wurde und deshalb in der Lage ist, auf einen Prompt hin eine entsprechende Aussage zu erfinden, also die entsprechende Information wiederzugeben, ändert sich dadurch nicht (und ob die resultierende Aussage faktisch richtig ist, spielt keine Rolle). Es kann mit anderen Worten kaum darauf ankommen, ob ein Modell die Aussage, dass Adrian Lobsiger der EDÖB ist, in einfacher Textform speichert oder in einer sehr indirekten und komplexen Weise, aber outputfähig.