L’au­to­ri­té ham­bour­geoi­se de pro­tec­tion des don­nées, dont l’acro­ny­me est HmbBfDI, a publié le 15 juil­let 2024 un docu­ment de dis­cus­sion inti­tulé “Lar­ge Lan­guage Models and per­so­nal data” (Com­mu­ni­qué de pres­se et PDF). Le docu­ment se veut une con­tri­bu­ti­on à la dis­cus­sion qui con­ti­ent l’é­tat actuel des con­nais­sances sur la que­sti­on de savoir si les Lar­ge Lan­guage Models (LLMs) stock­ent des don­nées personnelles.

Les thè­ses fon­da­men­ta­les sont les suivantes :

1. le simp­le stocka­ge d’un LLM ne con­sti­tue pas un trai­te­ment au sens de l’ar­tic­le 4, point 2, du RGPD. En effet, aucu­ne don­née per­son­nel­le n’est stockée dans les LLM. Dans la mesu­re où des don­nées à carac­tère per­son­nel sont trai­tées dans un système d’IA basé sur le LLM, les opé­ra­ti­ons de trai­te­ment doi­vent être con­for­mes aux exi­gen­ces du RGPD. Cela s’ap­pli­que en par­ti­cu­lier à la sor­tie d’un tel système d’IA.

2. en l’ab­sence de stocka­ge de don­nées à carac­tère per­son­nel dans le LLM, les droits des per­son­nes con­cer­nées pré­vus par le RGPD ne peu­vent pas por­ter sur le modè­le lui-même. Droits à Accès, sup­pres­si­on ou rec­ti­fi­ca­ti­on peu­vent tou­te­fois se con­cen­trer au moins sur Entrée et sor­tie d’un système d’IA du four­nis­seur ou de l’ex­plo­itant responsable.

3. le For­ma­ti­on de LLM con­tenant des don­nées per­son­nel­les doit con­for­me à la pro­tec­tion des don­nées de la per­son­ne con­cer­née. Les droits des per­son­nes con­cer­nées doi­vent éga­le­ment être respec­tés. Un ent­raî­ne­ment éven­tu­el­le­ment con­trai­re à la pro­tec­tion des don­nées n’a cepen­dant pas d’in­ci­dence sur la légiti­mi­té de l’uti­li­sa­ti­on d’un tel modè­le dans un système d’IA.

Le HmbBfDI pré­sen­te d’a­bord les Toke­nisa­ti­on com­me trai­te­ment (au sens tech­ni­que) de don­nées d’en­traî­ne­ment, qui sont décom­po­sées en bri­bes et mises en rela­ti­on les unes avec les aut­res, repré­sen­tées par une fonc­tion mathé­ma­tique qui con­sti­tue d’u­ne part le “savoir” du LLM et d’aut­re part la base de la sor­tie. En con­sé­quence, un LLM ne con­ti­ent pas de don­nées per­son­nel­les en tant que tel:

Si les don­nées d’app­ren­tis­sa­ge con­ti­en­nent des don­nées per­son­nel­les, elles subis­sent une trans­for­ma­ti­on au cours du pro­ce­s­sus d’app­ren­tis­sa­ge auto­ma­tique, au cours de laquel­le elles sont trans­for­mées en repré­sen­ta­ti­ons mathé­ma­ti­ques abstrai­tes. Ce pro­ce­s­sus d’ab­strac­tion ent­raî­ne la per­te des carac­té­ri­sti­ques con­crè­tes et des réfé­ren­ces à des per­son­nes spé­ci­fi­ques, au pro­fit de modè­les géné­raux et de rela­ti­ons qui résul­tent de l’en­sem­ble des don­nées d’apprentissage.

Cela pour­rait éga­le­ment être repré­sen­té de la maniè­re suivante :

Le fait qu’un LLM met­te les jetons en rela­ti­on et que cer­ta­ins résul­tats soi­ent donc plus pro­ba­bles selon le con­tex­te n’é­ch­ap­pe pas au HmbBfDI ; il s’a­git tou­te­fois en quel­que sor­te d’u­ne nou­vel­le créa­ti­on et non d’u­ne repro­duc­tion. Il exi­ste cer­tes des atta­ques de la vie pri­vée qui ren­dent les don­nées d’en­traî­ne­ment recon­naissa­bles, mais il est “dou­teux” que l’on pui­s­se par­ler de don­nées per­son­nel­les. Con­trai­re­ment aux adres­ses IP par exemp­le, les tokens ne sont pas des iden­ti­fi­ants. La rela­ti­on ent­re les tokens ne don­ne éga­le­ment qu’u­ne indi­ca­ti­on sur la fonc­tion lin­gu­istique des dif­fér­ents tokens ; il n’est pas pos­si­ble d’en tirer des infor­ma­ti­ons individuelles.

Dans le cas de modè­les ayant fait l’ob­jet d’un rég­la­ge fin, on obser­ve plutôt qu’ils repro­dui­sent éven­tu­el­le­ment des don­nées d’en­traî­ne­ment. La sor­tie d’u­ne don­née per­son­nel­le n’est cepen­dant pas une “preuve obli­ga­toire” que des don­nées per­son­nel­les ont été enre­gi­strées en tant que tel­les, cela peut aus­si être un hasard. En out­re, les atta­ques sur la vie pri­vée peu­vent repré­sen­ter un effort dis­pro­por­ti­onné et un moy­en éven­tu­el­le­ment inter­dit, de sor­te qu’il n’est pas pos­si­ble de les déterminer.

Com­me les LLM n’en­re­gi­st­rent pas de don­nées per­son­nel­les, une vio­la­ti­on de la pro­tec­tion des don­nées lors de l’en­traî­ne­ment n’a pas d’in­ci­dence sur la léga­li­té de l’uti­li­sa­ti­on du LLM. Mais lors de l’uti­li­sa­ti­on d’un LLM et de l’en­traî­ne­ment ou du rég­la­ge final, la pro­tec­tion des don­nées doit bien enten­du être respectée.

L’in­ter­ven­ti­on du HmbBfDI n’est guè­re le der­nier mot. La DSK a en tout cas lais­sé la pos­si­bi­li­té (mai 2024) que les LLM con­ti­en­nent des don­nées per­son­nel­les, tout com­me le BayL­DA dans une Liste de con­trô­le de jan­vier 2024 ou le Baden-Würt­tem­ber­gi­sche LfDI 2023. Il n’y a tou­te­fois pas d’ana­ly­se plus pré­cise, mais seu­le­ment l’in­di­ca­ti­on que les LLM peu­vent con­te­nir des don­nées per­son­nel­les et qu’un examen au cas par cas est néces­saire. La posi­ti­on du HmbBfDI est ici beau­coup plus ferme.

Mais dans l’en­sem­ble, les expli­ca­ti­ons sem­blent être gui­dées par les résul­tats. Une tel­le séré­ni­té est sou­vent recher­chée en vain par les auto­ri­tés – les thè­ses ont peut-être été inspi­rées par la crain­te que les LLM ne soi­ent de fac­to inter­dits. La solu­ti­on à ce pro­blè­me doit tou­te­fois être trou­vée par le biais d’ex­cep­ti­ons aux exi­gen­ces de la pro­tec­tion des don­nées, et l’issue des recher­ches de la taskforce de l’ED­SA sur Ope­nAI reste ouverte :

EDSA : rap­port inter­mé­di­ai­re de la Task Force sur les enquêtes OpenAI

On pour­rait tout à fait défend­re des thè­ses con­trai­res. Celui qui stocke des don­nées per­son­nel­les sous for­me cryp­tée dans un envi­ron­ne­ment sécu­ri­sé ne peut pas non plus les con­sul­ter faci­le­ment, et les atta­ques de tiers ne sont pas for­cé­ment plus pro­ba­bles que dans le cas d’un LLM ; pour­tant, per­son­ne ne pré­ten­drait qu’il ne s’a­git pas de don­nées per­son­nel­les. Pour cela, le décryp­ta­ge doit bien sûr être pos­si­ble, et c’est là que l’on peut trou­ver la dif­fé­rence avec le LLM : Con­trai­re­ment au décryp­ta­ge, il n’e­xi­ste pas de rela­ti­on 1:1 récup­é­ra­ble ent­re le con­te­nu et l’out­put. Un LLM con­ti­ent cepen­dant (même si c’est sous une for­me com­ple­xe) l’af­fir­ma­ti­on que les tokens “Adri”, “an L”, “obs” “iger” ont ent­re eux une rela­ti­on plus étroi­te que, par exemp­le, “Adri” “a” “L” “obs” “ter”. Il n’est cer­tes pas pos­si­ble d’ex­trai­re les tokens cor­re­spond­ants en tant que tels, et enco­re moins les uns à côté des aut­res, mais une requête per­met de les retrou­ver ou de con­naît­re le résul­tat de leurs rela­ti­ons sta­ti­sti­ques. Si l’on deman­de à ChatGPT qui est le PFPDT, la répon­se est “Le PFPDT actuel est Adri­an Lob­si­ger, qui occupe cet­te fonc­tion depuis 2016”. De tel­les affir­ma­ti­ons sont cer­tes nou­vel­le­ment géné­rées et ne sont pas des direct Repro­dui­re des don­nées d’en­traî­ne­ment, mais ce n’est pas ce qui comp­te. Le fait que ChatGPT ait mani­fe­stem­ent été ent­raî­né avec les infor­ma­ti­ons cor­re­spond­an­tes et qu’il soit donc en mesu­re d’in­ven­ter une décla­ra­ti­on cor­re­spond­an­te en répon­se à un prompt, c’est-à-dire de repro­dui­re les infor­ma­ti­ons cor­re­spond­an­tes, ne chan­ge rien (et le fait que la décla­ra­ti­on qui en résul­te soit effec­ti­ve­ment cor­rec­te ne joue aucun rôle). En d’aut­res ter­mes, il ne peut guè­re être important qu’un modè­le stocke l’é­non­cé selon lequel Adri­an Lob­si­ger est le PFPDT sous for­me de tex­te simp­le ou d’u­ne maniè­re très indi­rec­te et com­ple­xe, mais capa­ble d’output.