Ven­te à emporter (AI)
  • EDSA : un système IA, y com­pris LLM, n’est pas anony­me en soi ; l’an­ony­mat doit être éva­lué au cas par cas en fonc­tion de fac­teurs tech­ni­ques, de con­cep­ti­on et de gouvernance.
  • Les explo­itants et les respons­ables en aval ont des obli­ga­ti­ons éle­vées en matiè­re de véri­fi­ca­ti­on et de docu­men­ta­ti­on ; ils doi­vent démon­trer que les modè­les n’ont pas été déve­lo­p­pés par un trai­te­ment illicite.

Le Comi­té euro­pé­en de la pro­tec­tion des don­nées a adop­té, en date du 17 décembre 2024, une Avis 28/2024 sur cer­ta­ins aspects de la pro­tec­tion des don­nées liés au trai­te­ment des don­nées à carac­tère per­son­nel dans le cad­re des modè­les IA publiée.

L’au­to­ri­té de con­trô­le irlan­dai­se avait deman­dé au CEPD de rend­re un avis sur des que­sti­ons de por­tée géné­ra­le con­cer­nant le trai­te­ment des don­nées per­son­nel­les au cours des pha­ses de déve­lo­p­pe­ment et de mise en œuvre des modè­les d’IA, en particulier

  • quand et com­ment un modè­le d’IA peut être con­sidé­ré com­me “anony­me”.
  • com­ment les respons­ables de trai­te­ment peu­vent démon­trer l’in­té­rêt légiti­me com­me base juri­di­que dans la pha­se de déve­lo­p­pe­ment et de déploie­ment ; et
  • quel­les sont les con­sé­quen­ces d’un trai­te­ment illi­ci­te lors de la pha­se de déve­lo­p­pe­ment sur l’ex­plo­ita­ti­on du modèle.

L’a­vis, quel­que peu long, ne veut ni ne peut répond­re à ces que­sti­ons de maniè­re exhaus­ti­ve, mais il vise à four­nir un cad­re aux auto­ri­tés de con­trô­le. Elle ne trai­te pas non plus des que­sti­ons liées aux don­nées per­son­nel­les sen­si­bles, aux décis­i­ons indi­vi­du­el­les auto­ma­ti­sées, à la con­for­mi­té aux fina­li­tés selon l’ar­tic­le 6, para­gra­phe 4, du RGPD, aux ana­ly­ses d’im­pact sur la pro­tec­tion des don­nées et au prin­ci­pe de pri­va­cy by design.

Le mes­sa­ge clé de l’ED­SA est inté­res­sant et con­vain­cant, à savoir que un système AI – même un LLM – n’est pas per se est anony­meIl ne s’a­git pas d’u­ne obli­ga­ti­on léga­le, mais de véri­fier au cas par cas, selon les critères con­nus, si des don­nées per­son­nel­les peu­vent être extrai­tes ou com­mu­ni­quées lors de l’exploitation.

Il appa­raît éga­le­ment clai­re­ment que le déve­lo­p­pe­ment et l’uti­li­sa­ti­on d’un LLM en con­for­mi­té avec le droit sont exi­geants. Cela vaut en par­ti­cu­lier en rai­son des obli­ga­ti­ons de docu­men­ta­ti­on ou du prin­ci­pe de responsa­bi­li­té, mais aus­si en rai­son des exi­gen­ces éle­vées en matiè­re de trans­pa­rence lors de l’uti­li­sa­ti­on des don­nées per­son­nel­les et de la Responsa­bi­li­té de l’ex­plo­itant (déployeur) d’un système IADans la mesu­re où un système n’est pas anony­me, il doit véri­fier de maniè­re appro­priée que le système ou le modè­le n’a pas été déve­lo­p­pé par un trai­te­ment illi­ci­te. Il ne suf­fit pas de se fier à la décla­ra­ti­on de con­for­mi­té du four­nis­seur d’ac­cès requi­se par l’AI Act.

Dans une pre­miè­re sec­tion, l’ED­SA cla­ri­fie son Com­pré­hen­si­on de cer­ta­ins ter­mes tel­les que les First-Par­ty Data (don­nées coll­ec­tées direc­te­ment) et les Third-Par­ty Data (don­nées coll­ec­tées par des tiers). La com­pré­hen­si­on des systè­mes d’in­tel­li­gence arti­fi­ci­el­le (AIS) et des modè­les d’in­tel­li­gence arti­fi­ci­el­le (AIM) est éga­le­ment abor­dée, mais mal­heu­reu­se­ment sans défi­nir ces ter­mes plus pré­cis­é­ment au sens de l’AI Act (voir à ce sujet not­re FAQ). Dans l’O­pi­ni­on, il ne s’adres­se tou­te­fois qu’aux modè­les qui sont ent­raî­nés avec des don­nées personnelles.

Un LLM peut con­te­nir des don­nées personnelles

Sur le point âpre­ment dis­cu­té de savoir si un AIM, et en par­ti­cu­lier un LLM, con­ti­ent des don­nées per­son­nel­les (à ce sujet voir ici), l’ED­SA dit ceci :

Tout d’a­bord, cer­ta­ins AIM sont con­çus pour fai­re des décla­ra­ti­ons sur des per­son­nes spé­ci­fi­ques – ils ne sont cer­tai­ne­ment pas anonymes :

cer­ta­ins modè­les d’IA sont spé­cia­le­ment con­çus pour four­nir des don­nées per­son­nel­les con­cer­nant les indi­vi­dus dont les don­nées per­son­nel­les ont été uti­li­sées pour for­mer le modè­le ou, d’u­ne maniè­re ou d’u­ne aut­re, pour rend­re de tel­les don­nées dis­po­ni­bles. Dans ces cas, ces modè­les d’IA inclu­ront de maniè­re inhé­ren­te (et typi­quement néces­saire) des infor­ma­ti­ons rela­ti­ves à une per­son­ne phy­si­que iden­ti­fi­ée ou iden­ti­fia­ble… ces types de modè­les IA ne peu­vent pas être con­sidé­rés com­me anony­mes. Ce serait le cas, par exemp­le, (i) d’un modè­le géné­ra­tif fine­ment réglé sur les enre­gi­stre­ments vocaux d’un indi­vi­du pour mimer sa voix ; ou (ii) de tout modè­le con­çu pour répond­re avec des don­nées per­son­nel­les issues de la for­ma­ti­on lorsqu’on lui deman­de des infor­ma­ti­ons sur une per­son­ne spécifique.

Mais d’aut­res AIM, qui ne sont pas con­çus dans ce but, ne sont pas non plus fon­da­men­ta­le­ment anony­mes, car l’ex­tra­c­tion de don­nées d’en­traî­ne­ment per­son­nel­les n’est pour le moins pas à exclu­re. Cela dépend donc de la Cas indi­vi­du­el à l’é­gard de l’entre­pri­se. Ce qui est déter­mi­nant, c’est la pos­si­bi­li­té de de mett­re en valeur le con­te­nu infor­ma­tif:

… pour qu’u­ne SA pui­s­se con­ve­nir avec le con­trô­leur qu’un modè­le d’IA don­né peut être con­sidé­ré com­me anony­me, elle doit au moins véri­fier qu’el­le a reçu des preu­ves suf­fi­san­tes que, par des moy­ens rai­sonn­ables : (i) des don­nées à carac­tère per­son­nel, rela­ti­ves aux don­nées de for­ma­ti­on, ne peut pas être extrai­te du modè­leet (ii) tou­te sor­tie pro­duite lors de la requête le modè­le ne con­cer­ne pas les sujets de don­nées dont les don­nées per­son­nel­les ont été uti­li­sées pour ent­raî­ner le modèle.

Cela néces­si­te pro­ba­blem­ent une examen appro­fon­di en tenant comp­te notam­ment des fac­teurs suivants :

  • les carac­té­ri­sti­ques des don­nées de for­ma­ti­on, de l’A­IM et de la métho­de de formation
  • le con­tex­te de publi­ca­ti­on ou d’ex­plo­ita­ti­on de l’AIM
  • tou­te infor­ma­ti­on sup­p­lé­men­tai­re acce­s­si­ble per­met­tant l’identification
  • le coût et le temps néces­saires à l’ob­ten­ti­on de ces infor­ma­ti­ons supplémentaires
  • la tech­no­lo­gie dis­po­ni­ble et les déve­lo­p­pe­ments technologiques
  • qui a accès à l’AIM
  • Mesu­res pour garan­tir l’anonymat

Il con­vi­ent d’ex­ami­ner les spé­ci­fi­ci­tés de l’A­IM, tout d’a­bord Que­sti­ons de design:

  • Les don­nées d’en­trée utilisées
  • la pré­pa­ra­ti­on de ces don­nées, y com­pris une pseud­ony­mi­sa­ti­on ou un fil­tra­ge des don­nées per­son­nel­les en amont de l’en­traî­ne­ment, le cas échéant
  • la pro­cé­du­re de déve­lo­p­pe­ment, en par­ti­cu­lier les tech­ni­ques de pro­tec­tion de la vie pri­vée tel­les que la pro­tec­tion dif­fé­ren­ti­el­le de la vie pri­vée (Dif­fe­ren­ti­al Privacy)
  • Mesu­res dans le modè­le lui-même pou­vant con­tri­buer à rédui­re l’ex­tra­c­tion de don­nées personnelles

Au niveau de la Gou­ver­nan­ce chez le déve­lo­p­peur il faut ensuite tenir comp­te du fait que les mesu­res pri­ses ont été mises en œuvre et con­trôlées de maniè­re robu­ste. Enfin, il con­vi­ent éga­le­ment d’ex­ami­ner com­ment l’A­IM testé et, plus géné­ra­le­ment, la Docu­men­ta­ti­on chez le déve­lo­p­peur ; pour ce qui est de leur objet, on trou­ve­ra d’aut­res indi­ca­ti­ons dans l’Opinion.

Inté­rêt légitime

L’AESP rap­pel­le tout d’a­bord les prin­cipes géné­raux et les exi­gen­ces du RGPD, dans la mesu­re où une réfé­rence aux per­son­nes n’est pas exclue, notam­ment aus­si la que­sti­on de la trans­pa­rence ou de l’in­for­ma­ti­on et de la limi­ta­ti­on des fina­li­tés. En ce qui con­cer­ne la base juri­di­que de l’in­té­rêt légiti­me (artic­le 6, para­gra­phe 1, point f), du RGPD), l’AESD rap­pel­le qu’el­le doit a prio­ri ne peut justi­fier que les trai­te­ments néces­saires à la réa­li­sa­ti­on de l’in­té­rêt, ce qui impli­que une Con­trô­le de pro­por­ti­on­na­li­té (voir à ce sujet CJCE, affai­re C‑621/22).

Au final, il y a une mise en balan­ce des inté­rêts, et ici les réfé­ren­ces au con­tex­te d’un LLM restent vagues. L’EDSA men­ti­on­ne tou­te­fois des ris­ques lors d’un ent­raî­ne­ment à gran­de échel­le (il pen­se alors au scraping) :

Par exemp­le, la coll­ec­te de don­nées à gran­de échel­le et sans dis­cri­mi­na­ti­on par des modè­les d’IA au cours de la pha­se de déve­lo­p­pe­ment peut cré­er une sens de la sur­veil­lan­ce pour les sujets de don­nées, en par­ti­cu­lier comp­te tenu des dif­fi­cul­tés à empêcher les don­nées publi­ques d’êt­re scan­nées. Cela peut con­dui­re les indi­vi­dus à s’au­to­cen­surer, et pré­sen­te des ris­ques d’att­ein­te à leur liber­té d’expression […].

Sur le site Uti­li­sa­ti­on d’un AIM ou d’un AIS, il faut tenir comp­te de l’ob­jec­tif ; les systè­mes de fil­tra­ge ou de recom­man­da­ti­on, les systè­mes qui peu­vent ent­ra­ver l’ac­cès au tra­vail ou avoir un effet dis­cri­mi­na­toire et les systè­mes qui sont même uti­li­sés de maniè­re mal­veil­lan­te sont par exemp­le poten­ti­el­le­ment délicats.

Mais il faut aus­si tenir comp­te du fait qu’un Agir posi­ti­ve­ment sur l’AIS peut, par exemp­le, sup­p­ri­mer des con­te­nus nui­si­bles ou faci­li­ter l’ac­cès à l’information.

L’EDSA men­ti­on­ne d’aut­res fac­teurs qui doi­vent être pris en comp­te, par exemp­le le type de don­nées ou leur volu­me et les atten­tes des per­son­nes con­cer­nées, mais reste assez vague. Un point est tou­te­fois intéressant :

Le site Atten­tes des per­son­nes con­cer­nées peu­vent influen­cé par une décla­ra­ti­on de con­fi­den­tia­li­té de la pro­tec­tion des don­nées. C’est ce qu’a décla­ré la Con­fé­rence alle­man­de sur la pro­tec­tion des don­nées dans la Ori­en­ta­ti­on sur le publi­post­age (“les atten­tes de la per­son­ne con­cer­née ne peu­vent pas être élar­gies par les infor­ma­ti­ons obli­ga­toires pré­vues par le RGPD”). Tou­te­fois, il ne suf­fit pas néces­saire­ment de men­ti­on­ner dans une décla­ra­ti­on de pro­tec­tion des don­nées la pos­si­bi­li­té d’uti­li­ser des don­nées per­son­nel­les à des fins de for­ma­ti­on. Par exemp­le, les per­son­nes con­cer­nées ne sont pas néces­saire­ment con­sci­en­tes que les don­nées per­son­nel­les sont uti­li­sées pour adap­ter les répon­ses d’un AIS à leurs beso­ins et pour offrir des ser­vices sur mesu­re – en d’aut­res ter­mes, l’AE­SA attend un peu plus de con­tex­te dans les infor­ma­ti­ons rela­ti­ves à la pro­tec­tion des données.

Mesu­res d’atténuation

Enfin, l’ED­SA cite – par­fois de maniè­re redond­an­te – des mesu­res sus­cep­ti­bles de rédui­re les ris­ques pour les per­son­nes concernées :

  • Mesu­res tech­ni­ques qui, dans l’i­dé­al, per­met­tent même d’ob­te­nir l’anonymat 
    • Mesu­res au niveau des don­nées d’en­trée et de la con­cep­ti­on du modèle
    • Pseud­ony­mi­sa­ti­on
    • Mas­quage (rem­pla­ce­ment par des don­nées fic­ti­ves, par exemp­le des faux noms)
  • Mesu­res de pro­tec­tion des droits des per­son­nes concernées : 
    • l’in­ter­val­le de temps ent­re la coll­ec­te et l’uti­li­sa­ti­on des don­nées personnelles
    • Droit d’opt-out
    • Accor­der le droit à l’effa­ce­ment en dehors de l’art. 17 RGPD
    • Mesu­res pour “dés­app­rend­re” les don­nées personnelles
  • Trans­pa­rence :
    • four­nir des infor­ma­ti­ons sup­p­lé­men­tai­res sur les sources et la sélec­tion des données
    • Infor­ma­ti­on par le biais de cam­pa­gnes média­ti­ques, de pré­sen­ta­ti­ons visu­el­les, de FAQ et de rap­ports de trans­pa­rence, par exemple.
  • dans le cad­re du web scraping : 
    • Exclu­si­on des don­nées sensibles
    • Exclu­si­on de don­nées de sites web sensibles
    • pri­se en comp­te auto­ma­ti­sée des con­tra­dic­tions de scraping
    • Limi­ta­ti­ons de la coll­ec­te de don­nées en fonc­tion du temps et de la source
    • Droit d’opt-out par le biais de listes correspondantes
  • dans l’entre­pri­se :
    • Pro­tec­tion cont­re la repro­duc­tion de don­nées per­son­nel­les par des filtres
    • pro­tec­tion cont­re la réuti­li­sa­ti­on (par ex. par watermarking)
    • Faci­li­ter les droits des per­son­nes con­cer­nées (effa­ce­ment et sup­pres­si­on des don­nées personnelles)

Effet de l’ab­sence de base juri­di­que pen­dant la pha­se d’entraînement

Dans une aut­re sec­tion, l’ED­SA abor­de la que­sti­on de savoir si et com­ment l’ab­sence de base juri­di­que – pen­dant la pha­se de for­ma­ti­on – affec­te les opé­ra­ti­ons en aval. A cet égard, l’ED­SA distin­gue des scénarios :

Scé­na­rio 1 – Uti­li­sa­ti­on par le même responsable:

  • Si un responsable uti­li­se illé­ga­le­ment des don­nées per­son­nel­les pour le déve­lo­p­pe­ment d’un AIM et qu’il uti­li­se ensuite lui-même les don­nées du modè­le, par exemp­le lors de la mise à dis­po­si­ti­on du modè­le, il con­vi­ent d’ex­ami­ner au cas par cas la que­sti­on de la pro­tec­tion des don­nées. de se deman­der si les pha­ses de déve­lo­p­pe­ment et d’ex­plo­ita­ti­on ont des objec­tifs distincts. et con­sti­tu­ent donc des acti­vi­tés de trai­te­ment distinctes.
  • En cas d’ex­amen sépa­ré, l’il­lé­ga­li­té du pre­mier trai­te­ment doit être “pri­se en comp­te” lors de l’ex­amen de l’in­té­rêt légiti­me dans la pha­se d’ex­plo­ita­ti­on – l’ED­SA ne sta­tue donc pas d’in­ter­dic­tion per se.

Scé­na­rio 2 – Trai­te­ment ulté­ri­eur par un aut­re responsable du trai­te­ment:

  • Dans ce cas, il con­vi­ent tout d’a­bord de défi­nir clai­re­ment les rôles et les responsa­bi­li­tés des par­ties, et d’en­vi­sa­ger une responsa­bi­li­té com­mu­ne. Cela doit être réglé par contrat.
  • De même, il con­vi­ent d’ex­ami­ner au cas par cas l’ef­fet du trai­te­ment illi­ci­te lors de l’en­traî­ne­ment. Le deu­xiè­me responsable qui inter­vi­ent doit véri­fier de maniè­re appro­priée (Accoun­ta­bi­li­ty) que l’A­IM n’est pas déve­lo­p­pé par un trai­te­ment illi­ci­te a été fait. En d’aut­res ter­mes, l’ED­SA impo­se au cli­ent du four­nis­seur une tâche de véri­fi­ca­ti­on sans aucun dou­te exi­ge­an­te dans la pra­tique. En par­ti­cu­lier, il peut ne pas être suf­fi­sant de se fier uni­quement à la décla­ra­ti­on de con­for­mi­té requi­se par l’AI Act (!).

Scé­na­rio 3 – Déve­lo­p­pe­ment illi­ci­te sui­vi de l’an­ony­mi­sa­ti­on et du trai­te­ment par le même responsable ou un autre : 

  • Dans la mesu­re où le modè­le est réel­le­ment anony­me, le RGPD ne s’y appli­que pas.
  • Le RGPD s’ap­pli­que si, par la suite, des don­nées per­son­nel­les sont à nou­veau trai­tées. Une illé­ga­li­té initia­le n’a cepen­dant pas d’ef­fet sur ce nou­veau traitement.