Ven­te à emporter (AI)
  • Le rap­port iden­ti­fie les ris­ques liés à la pro­tec­tion des don­nées dans les LLM tout au long de leur cycle de vie : for­ma­ti­on, appli­ca­ti­on, feed­back et systè­mes agentiques.
  • Prin­ci­paux pro­blè­mes : don­nées d’en­traî­ne­ment non con­trôlées, mémo­ri­sa­ti­on de con­te­nus per­son­nels, fui­tes et man­que de trans­pa­rence dans les pro­ce­s­sus de décision.
  • Mesu­res recom­man­dées : Mini­mi­sa­ti­on des don­nées, respect de la vie pri­vée dès la con­cep­ti­on, anony­mi­sa­ti­on véri­fi­ée et méca­nis­mes tech­ni­ques de pro­tec­tion (par ex. con­fi­den­tia­li­té dif­fé­ren­ti­el­le, filtres).
  • Recom­man­da­ti­ons en matiè­re de gou­ver­nan­ce : Rôles d’ac­cès, con­trô­les de sor­tie, trai­te­ment sépa­ré des feed­backs, examens régu­liers des ris­ques et docu­men­ta­ti­on transparente.

En mars 2025, dans le cad­re du “Pro­gram­me “Sup­port Pool of Experts un rap­port d’u­ne cen­taine de pages sur les ris­ques en matiè­re de pro­tec­tion des don­nées lors de l’uti­li­sa­ti­on de grands modè­les lin­gu­isti­ques (LLM) et sur les mesu­res de sécu­ri­té a été publié (“AI Pri­va­cy Risks & Miti­ga­ti­ons – Grands modè­les lin­gu­isti­ques (LLMs)”). Il vise à sou­te­nir les auto­ri­tés de con­trô­le dans les cas com­ple­xes, dans le but de con­tri­buer à l’ap­pli­ca­ti­on du RGPD sans être contraignant.

Le rap­port ana­ly­se, après une ana­ly­se détail­lée Intro­duc­tion aux aspects tech­ni­ques et à Agen­tic AI les défis en matiè­re de pro­tec­tion des don­nées liés au déve­lo­p­pe­ment, à l’ex­plo­ita­ti­on et à l’in­té­gra­ti­on des LLM dans les systè­mes d’IA.

Ris­ques

Pour l’ana­ly­se des ris­ques, il s’o­ri­en­te vers le cycle de vie d’un système LLM :

1. les ris­ques pen­dant la pha­se d’entraînement

  • Sources de don­nées non con­trôlées : Les LLM sont sou­vent ent­raî­nés avec de grands ensem­bles de don­nées, qui peu­vent notam­ment pro­ve­nir du web scra­ping. Ils peu­vent con­te­nir invo­lon­tai­re­ment des infor­ma­ti­ons per­son­nel­les ou sensibles.
  • Mémo­ri­sa­ti­on du con­te­nu : Le modè­le peut “mémo­ri­ser” des con­te­nus liés à la per­son­ne et les repro­dui­re ultérieurement.
  • Anony­mat insuf­fi­sant : Même si les don­nées sont pré­trai­tées, l’an­ony­mi­sa­ti­on n’est pas tou­jours suffisante.
  • Insé­cu­ri­té juri­di­que : Le sta­tut juri­di­que des don­nées de for­ma­ti­on (par exemp­le le con­sen­te­ment, la fina­li­té) peut ne pas être clair.

2. les ris­ques liés à l’uti­li­sa­ti­on du modèle

  • Fuite : Les out­puts peu­vent, selon le cas, fai­re réfé­rence direc­te­ment ou indi­rec­te­ment à des per­son­nes réel­les ou à des con­te­nus de formation.
  • Recons­truc­ti­bi­li­té : Cer­tai­nes entrées peu­vent ame­ner le modè­le à repro­dui­re par­ti­el­le­ment des modè­les de for­ma­ti­on ou des tex­tes sources.
  • Les RAG : Si des sources de don­nées (par ex. un RAG) sont uti­li­sées pour les invi­tes et la répon­se, des con­te­nus sen­si­bles peu­vent être divulgués.

3. les ris­ques liés aux feedbacks :

  • Flux de don­nées peu clairs : Les réac­tions des uti­li­sa­teurs (par exemp­le les cor­rec­tions et les éva­lua­tions) peu­vent être enre­gi­strées et trai­tées à nou­veau, ent­re aut­res sans consentement/de maniè­re illicite.
  • Créa­ti­on de pro­fils : Les inter­ac­tions con­ti­nues avec un système peu­vent enre­gi­strer des modè­les de com­porte­ment liés à l’utilisateur.
  • Absence d’af­fec­ta­ti­on : Les don­nées de con­fir­ma­ti­on ne sont sou­vent pas trai­tées sépa­ré­ment et sont mélan­gées à d’aut­res enregistrements.

4. ris­ques sys­té­mi­ques dans les archi­tec­tures d’agents :

  • l’au­to­no­mie : Les LLM dans les systè­mes agen­ti­ques peu­vent éven­tu­el­le­ment prend­re de maniè­re auto­no­me des décis­i­ons ayant un impact poten­tiel sur les per­son­nes concernées.
  • Man­que de trans­pa­rence : Le pro­ce­s­sus de pri­se de décis­i­on est tech­ni­quement com­ple­xe et peut ne pas être com­pré­hen­si­ble pour des per­son­nes extérieures.
  • Poten­tia­li­sa­ti­on des ris­ques : Plus les outils et les sources de don­nées exter­nes sont inté­g­rés, plus il est dif­fi­ci­le de con­trô­ler les flux de données.

Mesu­res

Par­mi les mesu­res de réduc­tion des ris­ques, le docu­ment cite par ex :

1. design et conception :

  • Mini­mi­sa­ti­on des don­nées : renon­cer aux sources de don­nées per­son­nel­les inu­tiles dans le cad­re de la for­ma­ti­on, en par­ti­cu­lier ne pas uti­li­ser de don­nées brutes pro­venant de sources ouver­tes non validées
  • Pri­va­cy by Design : Inté­grer les prin­cipes de pro­tec­tion des don­nées dans l’ar­chi­tec­tu­re et la con­cep­ti­on du système, par exemp­le par une sépa­ra­ti­on modu­lai­re des don­nées ou des fenêtres con­tex­tu­el­les restreintes.
  • Mesu­res tech­ni­ques de pro­tec­tion : Instal­la­ti­on de Dif­fe­ren­ti­al Pri­va­cy ou similaire.

2. pré­pa­ra­ti­on de la for­ma­ti­on et des données :

  • Sélec­tion des don­nées : Uti­li­sa­ti­on de don­nées d’en­traî­ne­ment véri­fi­ées, si pos­si­ble anony­mi­sées ou pseud­ony­mi­sées ; de pré­fé­rence des sources syn­thé­ti­ques ou agrégées.
  • Filt­re : uti­li­sa­ti­on de méca­nis­mes de recon­nais­sance et d’ex­clu­si­on auto­ma­ti­sés pour les con­te­nus sen­si­bles (par exemp­le, iden­ti­fi­ants per­son­nels, don­nées rela­ti­ves à la san­té, infor­ma­ti­ons financières).
  • l’an­ony­mat : Vali­da­ti­on si les don­nées de for­ma­ti­on répon­dent aux critères d’ir­ré­ver­si­bi­li­té au sens de la Opi­ni­on 28/2024 correspondent.

3. fonc­tion­ne­ment et application :

  • Con­cepts d’ac­cès et de rôles : Mise en œuvre de rest­ric­tions d’ac­cès dif­fé­ren­ciées pour les admi­ni­stra­teurs, les déve­lo­p­peurs et les uti­li­sa­teurs finaux.
  • Con­trô­le de la sor­tie : uti­li­sa­ti­on de fil­tres de sor­tie, de pare-feux d’in­vi­te et de listes noi­res basées sur la toxi­ci­té pour empêcher la sor­tie de con­te­nus nui­si­bles ou identifiants
  • Pro­tec­tion au niveau du jeton : Uti­li­sa­ti­on du fil­tra­ge sém­an­tique par jeton pour détec­ter et mas­quer les con­te­nus sen­si­bles avant leur liv­rai­son à l’utilisateur.
  • Pro­tec­tion RAG : Dans le cas de la géné­ra­ti­on aug­men­tée de recher­che (RAG) : Rest­ric­tions d’ac­cès, jour­na­li­sa­ti­on des requêtes, vali­da­ti­on des don­nées utilisées.

4. le feed­back et l’amélioration :

  • Sépa­ra­ti­on : Sépa­ra­ti­on tech­ni­que ent­re l’uti­li­sa­ti­on opé­ra­ti­on­nel­le et les don­nées de formation.
  • Gesti­on du con­sen­te­ment : Con­cep­ti­on trans­pa­ren­te du feed­back, iden­ti­fi­ca­ti­on des feed­backs volon­tai­res, con­sen­te­ments documentés.
  • Pro­ce­s­sus de sup­pres­si­on : Mise en œuvre d’un stocka­ge réver­si­ble des com­men­tai­res avec opti­on de révo­ca­ti­on et de suppression.

5. sui­vi, ana­ly­se des ris­ques rési­du­els et gouvernance :

  • Examen des ris­ques : Con­trô­les tech­ni­ques et orga­ni­sa­ti­on­nels régu­liers, notam­ment en cas de mise à jour du système, de modi­fi­ca­ti­on de l’ar­chi­tec­tu­re ou de rem­pla­ce­ment du modèle.
  • Clas­si­fi­ca­ti­on des ris­ques rési­du­els : Éva­lua­ti­on sys­té­ma­tique des ris­ques rési­du­els accep­tés, fon­dée sur des pro­ba­bi­li­tés de gra­vi­té et de sur­ven­an­ce compréhensibles.
  • Docu­men­ta­ti­on et trans­pa­rence : Tenue d’un regist­re des ris­ques, jour­na­li­sa­ti­on des décis­i­ons rela­ti­ves à la pro­tec­tion des don­nées, divul­ga­ti­on aux auto­ri­tés de contrôle.