Plusieurs autorités européennes de contrôle de la protection des données (“ACD”) avaient ouvert des enquêtes contre OpenAI en tant que responsable du traitement des données personnelles dans le cadre de ChatGPT. Étant donné qu’OpenAI n’était pas établi dans l’UE jusqu’en février 2024 et que le mécanisme de guichet unique (OSS) ne pouvait donc pas s’appliquer, l’EDSA avait mis en place une task force en avril 2023 afin d’assurer la coopération et l’échange d’informations entre les SA concernées.
Les enquêtes sont encore confidentielles, mais l’EDSA a publié un bref rapport intermédiaire sur la base d’informations publiques (Rapport du travail effectué par le groupe de travail ChatGPTdaté du 23 mai 2024). Le rapport s’inscrit dans le cadre de l’intention de l’EDSA (conformément à la Stratégie 2024 – 2027), d’accompagner l’interaction entre le RGPD et notamment aussi l’AI Act.
D’entrée de jeu, l’EDSA souligne que le La protection des données dans le cadre des LLM ne doit pas se heurter à des difficultés techniques est autorisé :
Néanmoins, conformément au principe de responsabilité […], les contrôleurs qui traitent des données à caractère personnel dans le cadre de LLM doivent prendre toutes les mesures nécessaires pour assurer une conformité totale avec les exigences du GDPR. En particulier, l’impossibilité technique ne peut être invoquée pour justifier la non-conformité à ces exigences, d’autant plus que le principe de protection des données dès la conception énoncé à l’article 25, paragraphe 1, du RGPD doit être pris en compte au moment de la détermination des moyens de traitement et au moment du traitement lui-même.
En ce qui concerne les enquêtes en cours, l’EDSA fait référence au un vaste catalogue de questionsque les SAs ont soumis à OpenAI. Il est reproduit en annexe du rapport et contient des questions dans les domaines suivants – sans surprise, les points forts habituels :
- Principes de traitement et respect de ces principes
- DSFA et gestion des risques
- Légitimité des traitements pour la formation, les tests et les validations de ChatGPT
- Garantie des droits des personnes concernées
- Transfert vers des pays tiers
- Communication de données à des tiers
Plus intéressants sont conclusions provisoires de l’EDSA. L’EDSA ne ferme pas les yeux sur les contraintes auxquelles OpenAI est soumise et ne souhaite pas précisément interdire le modèle, mais elle attend d’OpenAI des efforts supplémentaires.
Base juridique
Lors du traitement de la légalité, les traitements en Phases être répartis. Il convient ici de distinguer entre
- l’obtention de données de formation
- la préparation des données (pre-processing)
- la formation
- Prompts et output et enfin
- la poursuite de l’entraînement par des prompteurs
Le site Acquisition de données à partir d’Internet (scraping), OpenAI invoque des intérêts légitimes (ici). Le CEPD ne se contente pas de cela – une pesée des intérêts doit être détaillée et tenir compte également des mesures de sécurité. Pour les données personnelles sensibles, il faut en outre une base juridique selon l’article 9 du RGPD est pertinente. Le fait que les données puissent être consultées sur Internet ne constitue pas encore une “divulgation publique manifeste” au sens de l’article 9, paragraphe 2, point e), du RGPD. L’AESP reconnaît qu’OpenAI ne peut pas procéder à une analyse pour chaque donnée individuelle ; il appartient toutefois à OpenAI de prendre des mesures de sécurité, par exemple de filtrer les données personnelles sensibles.
Sur le site Input, output et formation OpenAI invoque également l’intérêt légitime. Dans ce cas, l’EDSA met l’accent sur la transparence, lorsque les données d’entrée (prompts) sont utilisées pour l’entraînement (un OpenAI propose un droit d’opt-out).
Équité
Au titre de l’équité, l’EDSA exige avant tout – et c’est une façon innovante de voir les choses, qui rappelle le contrôle des conditions générales – qu’OpenAI ne transfère pas les risques sur les personnes concernées. OpenAI ne peut donc pas simplement écrire dans ses conditions générales que les utilisateurs sont eux-mêmes responsables de l’input.
On peut toutefois se demander si les utilisateurs de ChatGPT ne sont pas leurs propres responsables, auxquels la loi attribue déjà une (co)responsabilité correspondante. OpenAI serait en tout cas responsable si les inputs “font partie du modèle”, c’est-à-dire s’ils sont utilisés à des fins d’entraînement.
OpenAI semble toutefois avoir pris certaines mesures à cet égard, qui ne sont pas détaillées.
Transparence
En principe, OpenAI a un devoir d’information en cas de scraping. Comme cela n’est pas réalisable, l’exception de l’article 14, paragraphe 5 du RGPD pourrait s’appliquer (si l’information est impossible ou implique des efforts disproportionnés).
Exactitude
Dans ce cas, l’EDSA part à juste titre du principe que l’output est basé sur une évaluation de la probabilité et qu’il n’est donc pas ou ne veut pas être “correct”, et ce bien que les personnes concernées prennent probablement les outputs pour argent comptant. Or, OpenAI doit fournir des informations claires sur la nature des résultats et leur fiabilité :
Conformément au principe de transparence énoncé à l’article 5(1)(a) du RGPD, il est important que des informations adéquates sont fournies sur les mécanismes probabilistes de création de sortie et sur leur niveau limité de fiabilité par le contrôleur, y compris une référence explicite au fait que le texte généré, bien que syntactiquement correct, peuvent être biaisées ou fabriquées. Bien que les mesures prises pour se conformer au principe de transparence soient utiles pour éviter une interprétation erronée des résultats de ChatGPT, elles ne sont pas suffisantes pour se conformer au principe d’exactitude des données, comme cela a été rappelé plus haut.
Il existe un paragraphe à ce sujet dans la Déclaration de confidentialité d’OpenAI (“Dans certains cas, les mots qui apparaissent ensuite ne sont pas les plus exacts sur le plan factuel. Pour cette raison, vous ne devriez pas vous fier à l’exactitude factuelle de la sortie de nos modèles”), mais cela ne suffit pas à l’EDSA.
Droits des personnes concernées
Le CEPD est conscient du fait que le respect des droits des personnes concernées (accès, rectification, effacement, etc.) se heurte à des limites dans le contexte des LLM. Il se contente ici de signaler qu’OpenAI propose aux utilisateurs de demander une suppression plutôt qu’une rectification et que le principe de la facilitation des droits des personnes concernées et de la privacy by design exige une amélioration constante.