Der Euro­päi­sche Daten­schutz­aus­schuss hat mit Datum vom 17. Dezem­ber 2024 eine Opi­ni­on 28/2024 on cer­tain data pro­tec­tion aspects rela­ted to the pro­ce­s­sing of per­so­nal data in the con­text of AI models publiziert.

Die iri­sche Auf­sichts­be­hör­de hat­te den EDSA um eine Stel­lung­nah­me zu Fra­gen all­ge­mei­ner Bedeu­tung im Zusam­men­hang mit der Bear­bei­tung von Per­so­nen­da­ten in der Ent­wick­lungs- und Ein­füh­rungs­pha­se von KI-Model­len gebe­ten, insbesondere:

  • wann und wie ein KI-Modell als „anonym“ betrach­tet wer­den kann
  • wie die für Ver­ant­wort­li­chen das berech­tig­te Inter­es­se als Rechts­grund­la­ge in der Ent­wick­lungs- und Ein­satz­pha­se nach­wei­sen kön­nen und
  • wel­che Fol­gen eine unrecht­mä­ssi­ge Bear­bei­tung in der Ent­wick­lungs­pha­se auf den Betrieb des Modells hat.

Die etwas lang­fä­di­ge Opi­ni­on will oder kann die­se Fra­gen nicht erschöp­fend beant­wor­ten, aber sie soll den Auf­sichts­be­hör­den einen Rah­men an die Hand geben. Sie lässt zudem Fra­gen im Zusam­men­hang mit beson­ders schüt­zens­wer­ten Per­so­nen­da­ten, auto­ma­ti­sier­ten Ein­zel­ent­schei­dun­gen, der Zweck­kon­for­mi­tät nach Art. 6 Abs. 4 DSGVO, von Daten­schutz-Fol­gen­ab­schät­zun­gen und des Grund­sat­zes von Pri­va­cy by Design ausser Acht.

Inter­es­sant und über­zeu­gend ist die Kern­aus­sa­ge des EDSA, dass ein AI-System – auch ein LLM – nicht per se anonym ist, son­dern dass im Ein­zel­fall nach den bekann­ten Kri­te­ri­en zu prü­fen ist, ob Per­so­nen­da­ten extra­hiert bzw. beim Betrieb bekannt­ge­ge­ben wer­den können.

Deut­lich wird auch, dass die rechts­kon­for­me Ent­wick­lung und der Ein­satz eines LLM anspruchs­voll sind. Dies gilt ins­be­son­de­re auf­grund der Doku­men­ta­ti­ons­pflich­ten bzw. des Accoun­ta­bi­li­ty-Grund­sat­zes, aber auch wegen hoher Anfor­de­run­gen an die Trans­pa­renz bei der Ver­wen­dung von Per­so­nen­da­ten und der Ver­ant­wor­tung des Betrei­bers (Deployers) eines AI-Systems: Soweit ein System nicht anonym ist, muss er ange­mes­sen prü­fen, dass das System bzw. Modell nicht durch eine unrecht­mä­ssi­ge Bear­bei­tung ent­wickelt wur­de. Dabei genü­ge es u.U. nicht, sich auf die nach dem AI Act erfor­der­li­che Kon­for­mi­täts­er­klä­rung des Pro­vi­ders zu verlassen.

In einem ersten Abschnitt klärt der EDSA sein Ver­ständ­nis bestimm­ter Begrif­fe wie bspw. First-Par­ty Data (direkt erho­be­ne Daten) und Third-Par­ty Data (von Drit­ten erho­be­ne Daten). Auch das Ver­ständ­nis von AI-Syste­men (AIS) und AI-Model­len (AIM) wird ange­schnit­ten, lei­der aber ohne die­se Begrif­fe im Sin­ne des AI Act näher zu defi­nie­ren (sie­he dazu unse­re FAQ). Er adres­siert in der Opi­ni­on aber nur Model­le, die mit Per­so­nen­da­ten trai­niert werden.

Ein LLM kann Per­so­nen­da­ten enthalten

Zum heiss dis­ku­tier­ten Punkt, ob ein AIM und ins­be­son­de­re ein LLM Per­so­nen­da­ten ent­hält (dazu sie­he hier), sagt der EDSA Folgendes:

Zunächst sind bestimm­te AIM dar­auf aus­ge­legt, Aus­s­sa­gen über bestimm­te Per­so­nen zu machen – sie sind sicher nicht anonym:

some AI models are spe­ci­fi­cal­ly desi­gned to pro­vi­de per­so­nal data regar­ding indi­vi­du­als who­se per­so­nal data were used to train the model, or in some way to make such data available. In the­se cases, such AI models will inher­ent­ly (and typi­cal­ly neces­s­a­ri­ly) include infor­ma­ti­on rela­ting to an iden­ti­fi­ed or iden­ti­fia­ble natu­ral per­son… the­se types of AI models can­not be con­side­red anony­mous. This would be the case, for exam­p­le, (i) of a gene­ra­ti­ve model fine-tun­ed on the voice recor­dings of an indi­vi­du­al to mimic their voice; or (ii) any model desi­gned to rep­ly with per­so­nal data from the trai­ning when prompt­ed for infor­ma­ti­on regar­ding a spe­ci­fic person.

Aber auch ande­re, nicht auf einen sol­chen Zweck aus­ge­leg­te AIM, sind nicht grund­sätz­lich anonym, weil eine Extrak­ti­on per­so­nen­be­zo­ge­ner Trai­nings­da­ten zumin­dest nicht aus­zu­schlie­ssen sei. Es kommt daher auf den Ein­zel­fall an. Mass­ge­bend ist die Mög­lich­keit, den Infor­ma­ti­ons­ge­halt zu erschlie­ssen:

… for a SA to agree with the con­trol­ler that a given AI model may be con­side­red anony­mous, it should check at least whe­ther it has recei­ved suf­fi­ci­ent evi­dence that, with rea­sonable means: (i) per­so­nal data, rela­ted to the trai­ning data, can­not be extra­c­ted out of the model; and (ii) any out­put pro­du­ced when query­ing the model does not rela­te to the data sub­jects who­se per­so­nal data was used to train the model.

Dies ver­langt ver­mu­tungs­wei­se eine ver­tief­te Prü­fung unter Berück­sich­ti­gung ins­be­son­de­re der fol­gen­den Faktoren:

  • die Eigen­schaf­ten der Trai­nings­da­ten, des AIM und des Trainingsverfahrens
  • der Kon­text der Ver­öf­fent­li­chung oder des Betriebs des AIM
  • etwa­ig zugäng­li­che Zusatz­in­for­ma­tio­nen, die eine Iden­ti­fi­zie­rung ermöglichen
  • die Kosten und der Zeit­auf­wand für eine Beschaf­fung sol­cher Zusatzinformationen
  • die jeweils ver­füg­ba­re Tech­no­lo­gie und tech­no­lo­gi­sche Entwicklungen
  • wer Zugang zum AIM hat
  • Mass­nah­men zur Absi­che­rung der Anonymität

Dabei sind die Eigen­hei­ten des AIM zu prü­fen, zunächst Fra­gen des Designs:

  • Die ver­wen­de­ten Inputdaten
  • die Auf­be­rei­tung die­ser Daten inkl. eine dem Trai­ning ggf. vor­ge­la­ger­te Pseud­ony­mi­sie­rung oder Aus­fil­te­rung von Personendaten
  • das Vor­ge­hen bei der Ent­wick­lung, ins­be­son­de­re Pri­va­cy-Pre­ser­ving Tech­ni­ques wie bspw. Dif­fe­ren­ti­al Privacy
  • Mass­nah­men im Modell selbst, die dazu bei­tra­gen kön­nen, eine Extrak­ti­on von Per­so­nen­da­ten zu reduzieren

Auf Ebe­ne der Gover­nan­ce beim Ent­wick­ler ist sodann zu berück­sich­ti­gen, ob die getrof­fe­nen Mass­nah­men robust imple­men­tiert und geprüft wur­den. Schliess­lich ist auch zu prü­fen, wie das AIM gete­stet wur­de, und gene­rell die Doku­men­ta­ti­on beim Ent­wick­ler; zu ihrem Gegen­stand fin­den sich wei­te­re Hin­wei­se in der Opinion.

Berech­tig­tes Interesse

Der EDSA erin­nert zuerst an die all­ge­mei­nen Grund­sät­ze und Anfor­de­run­gen der DSGVO, sofern ein Per­so­nen­be­zug nicht aus­ge­schlos­sen ist, ins­be­son­de­re auch die Fra­ge der Trans­pa­renz bzw. Infor­ma­ti­on und der Zweck­bin­dung. Mit Bezug auf die Rechts­grund­la­ge des berech­tig­ten Inter­es­ses (Art. 6 Abs. 1 lit. f DSGVO) erin­nert der EDSA dar­an, dass sie a prio­ri nur jene Bear­bei­tun­gen recht­fer­ti­gen kann, die zur Errei­chung des Inter­es­ses erfor­der­lich sind, was eine Ver­hält­nis­mä­ssig­keits­prü­fung ein­schliesst (sie­he dazu EuGH, Rs. C‑621/22).

Am Ende steht eine Abwä­gung der Inter­es­sen, und hier blei­ben die Bezü­ge auf den Kon­text eines LLMs vage. Der EDSA erwähnt aber Risi­ken bei einem gross­flä­chi­gen Trai­ning (er denkt dabei an Scraping):

For exam­p­le, lar­ge-sca­le and indis­cri­mi­na­te data coll­ec­tion by AI models in the deve­lo­p­ment pha­se may crea­te a sen­se of sur­veil­lan­ce for data sub­jects, espe­ci­al­ly con­side­ring the dif­fi­cul­ties to pre­vent public data from being scraped. This may lead indi­vi­du­als to self-cen­sor, and pre­sent risks of under­mi­ning their free­dom of expression […].

Beim Ein­satz eines AIM bzw. dann eines AIS ist der Zweck zu beach­ten; poten­tell hei­kel sind bspw. Fil­ter- oder Recom­men­der­sy­ste­me, Syste­me, die den Zugang zur Arbeit beein­träch­ti­gen oder dis­kri­mi­nie­rend wir­ken kön­nen, und Syste­me, die gar in böser Absicht ein­ge­setzt werden.

Es ist aber auch zu berück­sich­ti­gen, dass ein AIS posi­tiv wir­ken kann, etwa wenn es schäd­li­che Inhal­te ent­fernt oder den Zugang zu Infor­ma­tio­nen erleichtert.

Der EDSA nennt wei­te­re Fak­to­ren, die ein­flie­ssen sol­len, bspw. die Art der Daten oder ihr Umfang und die Erwar­tun­gen der Betrof­fe­nen, bleibt aber recht vage. Inter­es­sant ist immer­hin ein Punkt:

Die Erwar­tun­gen der Betrof­fe­nen kön­nen durch eine Daten­schutz­er­klä­rung beein­flusst wer­den. Das hat die Deut­sche Daten­schutz­kon­fe­renz in der Ori­en­tie­rungs­hil­fe zur Direkt­wer­bung wohl etwas stren­ger gese­hen (“die Erwar­tun­gen der betrof­fe­nen Per­son kön­nen dabei nicht durch die nach der DS-GVO vor­ge­se­he­nen Pflicht­in­for­ma­tio­nen erwei­tert wer­den”). Es genü­ge aller­dings nicht unbe­dingt, in einer Daten­schutz­er­klä­rung auf die Mög­lich­keit einer Ver­wen­dung von Per­so­nen­da­ten für Trai­nings­zwecke hin­zu­wei­sen. Bspw. sei Betrof­fe­nen nicht unbe­dingt bewusst, dass Per­so­nen­da­ten ver­wen­det wer­den, um die Ant­wor­ten eines AIS an ihre Bedürf­nis­se anzu­pas­sen und mass­ge­schnei­der­te Dien­ste anzu­bie­ten – der EDSA erwar­tet mit ande­ren Wor­ten etwas mehr Kon­text bei den Datenschutzinformationen.

Miti­gie­rungs­mass­nah­men

Schliess­lich nennt der EDSA – teils red­un­dant – Mass­nah­men, die die Risi­ken für Betrof­fe­ne redu­zie­ren können:

  • Tech­ni­sche Mass­nah­men, die idea­ler­wei­se sogar eine Anony­mi­tät bewirken 
    • Mass­nah­men auf Ebe­ne der Input­da­ten und des Modelldesigns
    • Pseud­ony­mi­sie­rung
    • Mas­kie­rung (Ersatz durch fik­ti­ve Daten, z.B. Fake-Namen)
  • Mass­nah­men zum Schutz der Betroffenenrechte: 
    • zeit­li­cher Abstan zwi­schen Erhe­bung und Ver­wen­dung von Personendaten
    • Opt-out-Recht
    • Recht auf Löschung auf ausser­halb von Art. 17 DSGVO gewähren
    • Mass­nah­men zum “Ver­ler­nen” von Personendaten
  • Trans­pa­renz:
    • Anga­be zusätz­li­cher Infor­ma­tio­nen über Daten­quel­len und ‑aus­wahl
    • Infor­ma­ti­on bspw. auch über Medi­en­kam­pa­gnen, visu­el­le Dar­stel­lun­gen, FAQ und Transparenzberichte
  • bei Web Scraping: 
    • Aus­schluss sen­si­bler Daten
    • Aus­schluss von Daten von heik­len Websites
    • auto­ma­ti­sier­te Berück­sich­ti­gung von Scraping-Widersprüchen
    • Zeit- und quell­ba­sier­te Ein­schrän­kun­gen der Datenerhebung
    • Opt-out-Recht durch ent­spre­chen­de Listen
  • im Betrieb:
    • Schutz gegen Wie­der­ga­be von Per­so­nen­da­ten durch Filter
    • Schutz gegen Wie­der­ver­wen­dung (z.B. durch Watermarking)
    • Erleich­te­rung von Betrof­fe­nen­rech­ten (Löschung und Ent­fer­nen von Personendaten)

Wir­kung feh­len­der Rechts­grund­la­ge in der Trainingsphase

In einem wei­te­ren Abschnitt geht der EDSA auf die Fra­ge ein, ob und wie sich das Feh­len einer Rechts­grund­la­ge – in der Trai­nings­pha­se auf den nach­ge­la­ger­ten Betrieb aus­wirkt. Dabei unter­schei­det der EDSA Szenarien:

Sze­na­rio 1 – Ver­wen­dung durch den glei­chen Ver­ant­wort­li­chen:

  • Wenn ein Ver­ant­wort­li­cher Per­so­nen­da­ten unrecht­mä­ssig für die Ent­wick­lung eines AIM ver­wen­det und die Daten im Modell anschlie­ssend selbst ver­wen­det, bspw. bei der Bereit­stel­lung des Modells, sei im Ein­zel­fall zu fra­gen, ob die Ent­wick­lungs- und die Betriebs­pha­se getrenn­te Zwecke ver­fol­gen und daher sepa­ra­te Bear­bei­tungs­tä­tig­kei­ten darstellen.
  • Im Fall einer getrenn­ten Betrach­tung ist bei der Prü­fung des berech­tig­ten Inter­es­ses in der Betriebs­pha­se die Unrecht­mä­ssig­keit der ersten Bear­bei­tung zu “berück­sich­ti­gen” – ein per-se-Ver­bot sta­tu­iert der EDSA also nicht.

Sze­na­rio 2 – Wei­ter­ver­ar­bei­tung durch einen ande­ren Ver­ant­wort­li­chen:

  • Hier sind zuerst die Rol­len und Ver­ant­wort­lich­kei­ten der Par­tei­en klar zu defi­nie­ren, und eine gemein­sa­me Ver­ant­wort­lich­keit ist zu prü­fen. Das ist ver­trag­lich zu regeln.
  • Eben­falls im Ein­zel­fall ist die Wir­kung der unrecht­mä­ssi­gen Bear­bei­tung im Trai­ning zu prü­fen. Der ein­set­zen­de zwei­te Ver­ant­wort­li­che muss ange­mes­sen prü­fen (Accoun­ta­bi­li­ty), dass das AIM nicht durch eine unrecht­mä­ssi­ge Bear­bei­tung ent­wickelt wur­de. Der EDSA auf­er­legt dem Kun­den des Anbie­ters mit ande­ren Wor­ten eine in der Pra­xis zwei­fel­los anspruchs­vol­le Prü­fungs­auf­ga­be. Ins­be­son­de­re genügt es u.U. nicht, sich nur auf die nach dem AI Act erfor­der­li­che Kon­for­mi­täts­er­klä­rung zu ver­las­sen (!).

Sze­na­rio 3 – Unrecht­mä­ssi­ge Ent­wick­lung und anschlie­ssen­de Anony­mi­sie­rung und Bear­bei­tung durch den­sel­ben oder einen ande­ren Verantwortlichen: 

  • Sofern das Modell wirk­lich anonym ist, ist die DSGVO dar­auf nicht anwendbar.
  • Die DSGVO gilt, falls anschlie­ssend erneut Per­so­nen­da­ten bear­bei­tet wer­den. Eine ursprüng­li­che Rechts­wid­rig­keit wirkt sich aber nicht auf die­se neue Bear­bei­tung aus.