Muti­ge “Ham­bur­ger The­sen zum Per­so­nen­be­zug in Lar­ge Lan­guage Models”

Die Ham­bur­gi­sche Daten­schutz­be­hör­de mit der Abkür­zung HmbBfDI hat am 15. Juli 2024 ein Dis­kus­si­ons­pa­pier “Lar­ge Lan­guage Models und per­so­nen­be­zo­ge­ne Daten” ver­öf­fent­licht (Medi­en­mit­tei­lung und PDF). Das Papier ver­steht sich als Dis­kus­si­ons­bei­trag, der den aktu­el­len Erkennt­nis­stand zur Fra­ge ent­hält, ob Lar­ge Lan­guage Models (LLMs) Per­so­nen­da­ten speichern.

Die grund­le­gen­den The­sen lau­ten dabei wie folgt:

1. Die blo­ße Spei­che­rung eines LLMs stellt kei­ne Ver­ar­bei­tung im Sin­ne des Art. 4 Nr. 2 DSGVO dar. Denn in LLMs wer­den kei­ne per­so­nen­be­zo­ge­nen Daten gespei­chert. Soweit in einem LLM-gestütz­ten KI-System per­so­nen­be­zo­ge­ne Daten ver­ar­bei­tet wer­den, müs­sen die Ver­ar­bei­tungs­vor­gän­ge den Anfor­de­run­gen der DSGVO ent­spre­chen. Dies gilt ins­be- son­de­re für den Out­put eines sol­chen KI-Systems.

2. Man­gels Spei­che­rung per­so­nen­be­zo­ge­ner Daten im LLM kön­nen die Betrof­fe­nen­rech­te der DSGVO nicht das Modell selbst zum Gegen­stand haben. Ansprü­che auf Aus­kunft, Löschung oder Berich­ti­gung kön­nen sich jedoch zumin­dest auf Input und Out­put eines KI- Systems der ver­ant­wort­li­chen Anbieter:in oder Betreiber:in beziehen.

3. Das Trai­ning von LLMs mit per­so­nen­be­zo­ge­nen Daten muss daten­schutz­kon­form erfol­gen. Dabei sind auch die Betrof­fe­nen­rech­te zu beach­ten. Ein ggf. daten­schutz­wid­ri­ges Trai­ning wirkt sich aber nicht auf die Recht­mä­ßig­keit des Ein­sat­zes eines sol­chen Modells in einem KI-System aus.

Der HmbBfDI stellt zuerst die Toke­ni­sie­rung als Ver­ar­bei­tung (im tech­ni­schen Sinn) von Trai­nings­da­ten dar, die dabei in Schnip­sel zer­legt und zuein­an­der in Bezie­hung gesetzt wer­den, dar­ge­stellt durch eine mathe­ma­ti­sche Funk­ti­on, die einer­seits das “Wis­sen” des LLMs und ande­rer­seits Grund­la­ge für den Out­put ist. Ent­spre­chend ent­hält ein LLM kei­ne Per­so­nen­da­ten als sol­che:

Sind in den Trai­nings­da­ten ent­spre­chend per­so­nen- bezo­ge­ne Daten ent­hal­ten, durch­lau­fen sie im Pro­zess des maschi­nel­len Ler­nens eine Trans­for­ma­ti­on, bei der sie in abstrak­te mathe­ma­ti­sche Reprä­sen­ta­tio­nen über­führt wer­den. Die­ser Abstrak­ti­ons­pro­zess führt dazu, dass die kon­kre­ten Merk­ma­le und Bezü­ge zu bestimm­ten Per­so­nen ver­lo­ren gehen und statt­des­sen all­ge­mei­ne Muster und Zusam­men­hän­ge erfasst wer­den, die sich aus der Gesamt­heit der Trai­nings­da­ten ergeben.

Das lie­sse sich auch wie folgt darstellen:

Dass ein LLM Tokens aber in Bezie­hung setzt und bestimm­te Ergeb­nis­se daher je nach Kon­text wahr­schein­li­cher wer­den, ent­geht dem HmbBfDI nicht; dabei hand­le es sich aber gewis­ser­ma­ssen um eine Neu­schöp­fung und nicht eine Wie­der­ga­be. Es gebe fer­ner zwar Pri­va­cy Attacks, die Trai­nings­da­ten erkenn­bar machen, aber es sei “zwei­fel­haft”, dass des­halb von Per­so­nen­da­ten gespro­chen wer­den kön­ne. Anders als bspw. IP-Adres­sen sei­en Tokens kein Iden­ti­fier. Die Bezie­hung der Tokens unter­ein­an­der eben­falls nur eine Aus­sa­ge über die sprach­li­che Funk­ti­on der ein­zel­nen Tokens; Ein­zel­in­for­ma­tio­nen lie­ssen sich dem nicht entnehmen.

Bei Model­len mit einem Fine­tu­ning sei eher zu beob­ach­ten, dass sie u.U. Trai­nings­da­ten wie­der­ge­ben. Der Out­put eines Per­so­nen­da­tum sei aber kein “zwin­gen­der Nach­weis”, dass Per­so­nen­da­ten als sol­che gespei­chert wur­den, es kön­ne auch Zufall sein. Zudem sei­ne Pri­va­cy Attacks allen­falls ein unver­hält­nis­mä­ssi­ger Auf­wand und ein ggf. ver­bo­te­nes Mit­tel, so dass es an der Bestimm­bar­keit fehle.

Weil LLMs kei­ne Per­so­nen­da­ten spei­chern, wir­ke sich eine Daten­schutz­ver­let­zung beim Trai­ning nicht auf die Recht­mä­ssig­keit des Ein­sat­zes des LLMs aus. Beim Ein­satz eines LLMs und beim Trai­ning oder Fine­tu­ning müs­se aber natür­lich der Daten­schutz gewahrt werden.

Die Wort­mel­dung des HmbBfDI ist kaum das letz­te Wort. Die DSK hat jeden­falls die Mög­lich­keit offen­ge­las­sen (Mai 2024), dass LLMs Per­so­nen­da­ten ent­hal­ten, eben­so wie das BayL­DA in einer Check­li­ste vom Janu­ar 2024 oder der Baden-Würt­tem­ber­gi­sche LfDI 2023. Eine genaue­re Ana­ly­se fin­det sich dort aller­dings jeweils nicht, nur der Hin­weis, dass LLMs Per­so­nen­da­ten ent­hal­ten kön­nen und eine Ein­zel­fall­prü­fung erfor­der­lich sei. Die Posi­ti­on des HmbBfDI ist hier viel entschlossener.

Ins­ge­samt wir­ken die Aus­füh­run­gen aber ergeb­nis­ge­lei­tet. Eine sol­che Abge­klärt­heit sucht man bei Behör­den sonst jeden­falls oft umsonst – Pate der The­sen war viel­leicht auch die Furcht, dass LLMs andern­falls fak­tisch ver­bo­ten sein könn­ten. Die Lösung die­ses Pro­blems muss aber allen­falls über ent­spre­chen­de Aus­nah­men der daten­schutz­recht­li­chen Anfor­de­run­gen gefun­den wer­den, und offen ist auch der Aus­gang der Unter­su­chun­gen der Taskforce des EDSA zu OpenAI:

EDSA: Zwi­schen­be­richt der Task Force zu den OpenAI-Untersuchungen

Es lie­ssen sich durch­aus auch gegen­tei­li­ge The­sen ver­tre­ten. Wer Per­so­nen­da­ten in ver­schlüs­sel­ter Form in gesi­cher­ter Umge­bung spei­chert, kann sie auch nicht ohne wei­te­res abfra­gen, und Dritt­an­grif­fe sind nicht unbe­dingt wahr­schein­li­cher als bei einem LLM; den­noch wür­de nie­mand behaup­ten, es sei­en kei­ne Per­so­nen­da­ten. Dazu muss natür­lich eine Ent­schlüs­se­lung mög­lich sein, und dar­in kann man den Unter­schied zum LLM fin­den: Anders als bei der Ent­schlüs­se­lung besteht kei­ne wie­der­her­stell­ba­re 1:1‑Beziehung zwi­schen Inhalt und Out­put. Ein LLM ent­hält aber (wenn auch in kom­ple­xer Form) die Aus­sa­ge, dass die Tokens “Adri”, “an L”, “obs” “iger” zuein­an­der in einer enge­ren Bezie­hung ste­hen als z.B. “Adri” “a” “L” “obs” “ter”. Die ent­spre­chen­den Tokens las­sen sich zwar nicht als sol­che extra­hie­ren, schon gar nicht neben­ein­an­der, aber über eine Abfra­ge las­sen sie sich bzw. lässt sich das Ergeb­nis ihrer sta­ti­sti­schen Bezie­hun­gen zuein­an­der den­noch erschlie­ssen. Fragt man ChatGPT, wer der EDÖB ist, lau­tet die Ant­wort “Der aktu­el­le EDÖB ist Adri­an Lob­si­ger, der die­ses Amt seit 2016 inne­hat”. Sol­che Aus­sa­gen wer­den zwar neu gene­riert und sind kei­ne direk­te Wie­der­ga­be von Trai­nings­da­ten, aber dar­auf kann es nicht ankom­nen. Dass ChatGPT offen­sicht­lich mit ent­spre­chen­den Infor­ma­ti­on trai­niert wur­de und des­halb in der Lage ist, auf einen Prompt hin eine ent­spre­chen­de Aus­sa­ge zu erfin­den, also die ent­spre­chen­de Infor­ma­ti­on wie­der­zu­ge­ben, ändert sich dadurch nicht (und ob die resul­tie­ren­de Aus­sa­ge fak­tisch rich­tig ist, spielt kei­ne Rol­le). Es kann mit ande­ren Wor­ten kaum dar­auf ankom­men, ob ein Modell die Aus­sa­ge, dass Adri­an Lob­si­ger der EDÖB ist, in ein­fa­cher Text­form spei­chert oder in einer sehr indi­rek­ten und kom­ple­xen Wei­se, aber outputfähig.

Behörde

Gebiet

Themen

Ähnliche Beiträge

Newsletter