Plu­sieurs auto­ri­tés euro­pé­en­nes de con­trô­le de la pro­tec­tion des don­nées (“ACD”) avai­ent ouvert des enquêtes cont­re Ope­nAI en tant que responsable du trai­te­ment des don­nées per­son­nel­les dans le cad­re de ChatGPT. Étant don­né qu’O­pe­nAI n’é­tait pas éta­b­li dans l’UE jus­qu’en février 2024 et que le méca­nis­me de guichet uni­que (OSS) ne pou­vait donc pas s’ap­pli­quer, l’ED­SA avait mis en place une task force en avril 2023 afin d’assurer la coopé­ra­ti­on et l’é­ch­an­ge d’in­for­ma­ti­ons ent­re les SA concernées.

Les enquêtes sont enco­re con­fi­den­ti­el­les, mais l’ED­SA a publié un bref rap­port inter­mé­di­ai­re sur la base d’in­for­ma­ti­ons publi­ques (Rap­port du tra­vail effec­tué par le grou­pe de tra­vail ChatGPTdaté du 23 mai 2024). Le rap­port s’in­scrit dans le cad­re de l’in­ten­ti­on de l’ED­SA (con­for­mé­ment à la Stra­té­gie 2024 – 2027), d’ac­com­pa­gner l’in­ter­ac­tion ent­re le RGPD et notam­ment aus­si l’AI Act.

D’en­trée de jeu, l’ED­SA souli­gne que le La pro­tec­tion des don­nées dans le cad­re des LLM ne doit pas se heur­ter à des dif­fi­cul­tés tech­ni­ques est autorisé :

Néan­mo­ins, con­for­mé­ment au prin­ci­pe de responsa­bi­li­té […], les con­trô­leurs qui trai­tent des don­nées à carac­tère per­son­nel dans le cad­re de LLM doi­vent prend­re tou­tes les mesu­res néces­saires pour assurer une con­for­mi­té tota­le avec les exi­gen­ces du GDPR. En par­ti­cu­lier, l’im­pos­si­bi­li­té tech­ni­que ne peut être invo­quée pour justi­fier la non-con­for­mi­té à ces exi­gen­ces, d’autant plus que le prin­ci­pe de pro­tec­tion des don­nées dès la con­cep­ti­on énon­cé à l’ar­tic­le 25, para­gra­phe 1, du RGPD doit être pris en comp­te au moment de la déter­mi­na­ti­on des moy­ens de trai­te­ment et au moment du trai­te­ment lui-même.

En ce qui con­cer­ne les enquêtes en cours, l’ED­SA fait réfé­rence au un vaste cata­lo­gue de que­sti­onsque les SAs ont sou­mis à Ope­nAI. Il est repro­duit en anne­xe du rap­port et con­ti­ent des que­sti­ons dans les domain­es sui­vants – sans sur­pri­se, les points forts habituels :

  • Prin­cipes de trai­te­ment et respect de ces principes
  • DSFA et gesti­on des risques
  • Légiti­mi­té des trai­te­ments pour la for­ma­ti­on, les tests et les vali­da­ti­ons de ChatGPT
  • Garan­tie des droits des per­son­nes concernées
  • Trans­fert vers des pays tiers
  • Com­mu­ni­ca­ti­on de don­nées à des tiers

Plus inté­res­sants sont con­clu­si­ons pro­vi­so­i­res de l’ED­SA. L’EDSA ne fer­me pas les yeux sur les con­train­tes aux­quel­les Ope­nAI est sou­mi­se et ne sou­hai­te pas pré­cis­é­ment interd­ire le modè­le, mais elle attend d’O­pe­nAI des efforts supplémentaires.

Base juri­di­que

Lors du trai­te­ment de la léga­li­té, les trai­te­ments en Pha­ses être répar­tis. Il con­vi­ent ici de distin­guer entre

  • l’ob­ten­ti­on de don­nées de formation
  • la pré­pa­ra­ti­on des don­nées (pre-pro­ce­s­sing)
  • la for­ma­ti­on
  • Prompts et out­put et enfin
  • la pour­suite de l’en­traî­ne­ment par des prompteurs

Le site Acqui­si­ti­on de don­nées à par­tir d’In­ter­net (scra­ping), Ope­nAI invo­que des inté­rêts légiti­mes (ici). Le CEPD ne se con­tente pas de cela – une pesée des inté­rêts doit être détail­lée et tenir comp­te éga­le­ment des mesu­res de sécu­ri­té. Pour les don­nées per­son­nel­les sen­si­bles, il faut en out­re une base juri­di­que selon l’ar­tic­le 9 du RGPD est per­ti­nen­te. Le fait que les don­nées pui­s­sent être con­sul­tées sur Inter­net ne con­sti­tue pas enco­re une “divul­ga­ti­on publi­que mani­fe­ste” au sens de l’ar­tic­le 9, para­gra­phe 2, point e), du RGPD. L’AESP recon­naît qu’O­pe­nAI ne peut pas pro­cé­der à une ana­ly­se pour chaque don­née indi­vi­du­el­le ; il appar­tient tou­te­fois à Ope­nAI de prend­re des mesu­res de sécu­ri­té, par exemp­le de fil­trer les don­nées per­son­nel­les sensibles.

Sur le site Input, out­put et for­ma­ti­on Ope­nAI invo­que éga­le­ment l’in­té­rêt légiti­me. Dans ce cas, l’ED­SA met l’ac­cent sur la trans­pa­rence, lorsque les don­nées d’en­trée (prompts) sont uti­li­sées pour l’en­traî­ne­ment (un Ope­nAI pro­po­se un droit d’opt-out).

Équi­té

Au tit­re de l’é­qui­té, l’ED­SA exi­ge avant tout – et c’est une façon inno­van­te de voir les cho­ses, qui rap­pel­le le con­trô­le des con­di­ti­ons géné­ra­les – qu’O­pe­nAI ne trans­fè­re pas les ris­ques sur les per­son­nes con­cer­nées. Ope­nAI ne peut donc pas sim­ple­ment écr­i­re dans ses con­di­ti­ons géné­ra­les que les uti­li­sa­teurs sont eux-mêmes respons­ables de l’input.

On peut tou­te­fois se deman­der si les uti­li­sa­teurs de ChatGPT ne sont pas leurs pro­pres respons­ables, aux­quels la loi attri­bue déjà une (co)responsabilité cor­re­spond­an­te. Ope­nAI serait en tout cas responsable si les inputs “font par­tie du modè­le”, c’est-à-dire s’ils sont uti­li­sés à des fins d’entraînement.

Ope­nAI sem­ble tou­te­fois avoir pris cer­tai­nes mesu­res à cet égard, qui ne sont pas détaillées.

Trans­pa­rence

En prin­ci­pe, Ope­nAI a un devoir d’in­for­ma­ti­on en cas de scra­ping. Com­me cela n’est pas réa­li­sable, l’ex­cep­ti­on de l’ar­tic­le 14, para­gra­phe 5 du RGPD pour­rait s’ap­pli­quer (si l’in­for­ma­ti­on est impos­si­ble ou impli­que des efforts disproportionnés).

Exac­ti­tu­de

Dans ce cas, l’ED­SA part à juste tit­re du prin­ci­pe que l’out­put est basé sur une éva­lua­ti­on de la pro­ba­bi­li­té et qu’il n’est donc pas ou ne veut pas être “cor­rect”, et ce bien que les per­son­nes con­cer­nées pren­nent pro­ba­blem­ent les out­puts pour argent comp­tant. Or, Ope­nAI doit four­nir des infor­ma­ti­ons clai­res sur la natu­re des résul­tats et leur fiabilité :

Con­for­mé­ment au prin­ci­pe de trans­pa­rence énon­cé à l’ar­tic­le 5(1)(a) du RGPD, il est important que des infor­ma­ti­ons adé­qua­tes sont four­nies sur les méca­nis­mes pro­ba­bi­li­stes de créa­ti­on de sor­tie et sur leur niveau limi­té de fia­bi­li­té par le con­trô­leur, y com­pris une réfé­rence expli­ci­te au fait que le tex­te géné­ré, bien que syn­tac­ti­quement cor­rect, peu­vent être biai­sées ou fab­ri­quées. Bien que les mesu­res pri­ses pour se con­for­mer au prin­ci­pe de trans­pa­rence soi­ent uti­les pour évi­ter une inter­pré­ta­ti­on erro­n­ée des résul­tats de ChatGPT, elles ne sont pas suf­fi­san­tes pour se con­for­mer au prin­ci­pe d’e­xac­ti­tu­de des don­nées, com­me cela a été rap­pelé plus haut.

Il exi­ste un para­gra­phe à ce sujet dans la Décla­ra­ti­on de con­fi­den­tia­li­té d’O­pe­nAI (“Dans cer­ta­ins cas, les mots qui appa­rais­sent ensuite ne sont pas les plus exacts sur le plan fac­tuel. Pour cet­te rai­son, vous ne devriez pas vous fier à l’e­xac­ti­tu­de fac­tu­el­le de la sor­tie de nos modè­les”), mais cela ne suf­fit pas à l’EDSA.

Droits des per­son­nes concernées

Le CEPD est con­sci­ent du fait que le respect des droits des per­son­nes con­cer­nées (accès, rec­ti­fi­ca­ti­on, effa­ce­ment, etc.) se heur­te à des limi­tes dans le con­tex­te des LLM. Il se con­tente ici de signal­er qu’O­pe­nAI pro­po­se aux uti­li­sa­teurs de deman­der une sup­pres­si­on plutôt qu’u­ne rec­ti­fi­ca­ti­on et que le prin­ci­pe de la faci­li­ta­ti­on des droits des per­son­nes con­cer­nées et de la pri­va­cy by design exi­ge une amé­lio­ra­ti­on constante.