L’autorité hambourgeoise de protection des données, dont l’acronyme est HmbBfDI, a publié le 15 juillet 2024 un document de discussion intitulé “Large Language Models and personal data” (Communiqué de presse et PDF). Le document se veut une contribution à la discussion qui contient l’état actuel des connaissances sur la question de savoir si les Large Language Models (LLMs) stockent des données personnelles.
Les thèses fondamentales sont les suivantes :
1. le simple stockage d’un LLM ne constitue pas un traitement au sens de l’article 4, point 2, du RGPD. En effet, aucune donnée personnelle n’est stockée dans les LLM. Dans la mesure où des données à caractère personnel sont traitées dans un système d’IA basé sur le LLM, les opérations de traitement doivent être conformes aux exigences du RGPD. Cela s’applique en particulier à la sortie d’un tel système d’IA.
2. en l’absence de stockage de données à caractère personnel dans le LLM, les droits des personnes concernées prévus par le RGPD ne peuvent pas porter sur le modèle lui-même. Droits à Accès, suppression ou rectification peuvent toutefois se concentrer au moins sur Entrée et sortie d’un système d’IA du fournisseur ou de l’exploitant responsable.
3. le Formation de LLM contenant des données personnelles doit conforme à la protection des données de la personne concernée. Les droits des personnes concernées doivent également être respectés. Un entraînement éventuellement contraire à la protection des données n’a cependant pas d’incidence sur la légitimité de l’utilisation d’un tel modèle dans un système d’IA.
Le HmbBfDI présente d’abord les Tokenisation comme traitement (au sens technique) de données d’entraînement, qui sont décomposées en bribes et mises en relation les unes avec les autres, représentées par une fonction mathématique qui constitue d’une part le “savoir” du LLM et d’autre part la base de la sortie. En conséquence, un LLM ne contient pas de données personnelles en tant que tel:
Si les données d’apprentissage contiennent des données personnelles, elles subissent une transformation au cours du processus d’apprentissage automatique, au cours de laquelle elles sont transformées en représentations mathématiques abstraites. Ce processus d’abstraction entraîne la perte des caractéristiques concrètes et des références à des personnes spécifiques, au profit de modèles généraux et de relations qui résultent de l’ensemble des données d’apprentissage.
Cela pourrait également être représenté de la manière suivante :
Le fait qu’un LLM mette les jetons en relation et que certains résultats soient donc plus probables selon le contexte n’échappe pas au HmbBfDI ; il s’agit toutefois en quelque sorte d’une nouvelle création et non d’une reproduction. Il existe certes des attaques de la vie privée qui rendent les données d’entraînement reconnaissables, mais il est “douteux” que l’on puisse parler de données personnelles. Contrairement aux adresses IP par exemple, les tokens ne sont pas des identifiants. La relation entre les tokens ne donne également qu’une indication sur la fonction linguistique des différents tokens ; il n’est pas possible d’en tirer des informations individuelles.
Dans le cas de modèles ayant fait l’objet d’un réglage fin, on observe plutôt qu’ils reproduisent éventuellement des données d’entraînement. La sortie d’une donnée personnelle n’est cependant pas une “preuve obligatoire” que des données personnelles ont été enregistrées en tant que telles, cela peut aussi être un hasard. En outre, les attaques sur la vie privée peuvent représenter un effort disproportionné et un moyen éventuellement interdit, de sorte qu’il n’est pas possible de les déterminer.
Comme les LLM n’enregistrent pas de données personnelles, une violation de la protection des données lors de l’entraînement n’a pas d’incidence sur la légalité de l’utilisation du LLM. Mais lors de l’utilisation d’un LLM et de l’entraînement ou du réglage final, la protection des données doit bien entendu être respectée.
L’intervention du HmbBfDI n’est guère le dernier mot. La DSK a en tout cas laissé la possibilité (mai 2024) que les LLM contiennent des données personnelles, tout comme le BayLDA dans une Liste de contrôle de janvier 2024 ou le Baden-Württembergische LfDI 2023. Il n’y a toutefois pas d’analyse plus précise, mais seulement l’indication que les LLM peuvent contenir des données personnelles et qu’un examen au cas par cas est nécessaire. La position du HmbBfDI est ici beaucoup plus ferme.
Mais dans l’ensemble, les explications semblent être guidées par les résultats. Une telle sérénité est souvent recherchée en vain par les autorités – les thèses ont peut-être été inspirées par la crainte que les LLM ne soient de facto interdits. La solution à ce problème doit toutefois être trouvée par le biais d’exceptions aux exigences de la protection des données, et l’issue des recherches de la taskforce de l’EDSA sur OpenAI reste ouverte :
EDSA : rapport intermédiaire de la Task Force sur les enquêtes OpenAI
On pourrait tout à fait défendre des thèses contraires. Celui qui stocke des données personnelles sous forme cryptée dans un environnement sécurisé ne peut pas non plus les consulter facilement, et les attaques de tiers ne sont pas forcément plus probables que dans le cas d’un LLM ; pourtant, personne ne prétendrait qu’il ne s’agit pas de données personnelles. Pour cela, le décryptage doit bien sûr être possible, et c’est là que l’on peut trouver la différence avec le LLM : Contrairement au décryptage, il n’existe pas de relation 1:1 récupérable entre le contenu et l’output. Un LLM contient cependant (même si c’est sous une forme complexe) l’affirmation que les tokens “Adri”, “an L”, “obs” “iger” ont entre eux une relation plus étroite que, par exemple, “Adri” “a” “L” “obs” “ter”. Il n’est certes pas possible d’extraire les tokens correspondants en tant que tels, et encore moins les uns à côté des autres, mais une requête permet de les retrouver ou de connaître le résultat de leurs relations statistiques. Si l’on demande à ChatGPT qui est le PFPDT, la réponse est “Le PFPDT actuel est Adrian Lobsiger, qui occupe cette fonction depuis 2016”. De telles affirmations sont certes nouvellement générées et ne sont pas des direct Reproduire des données d’entraînement, mais ce n’est pas ce qui compte. Le fait que ChatGPT ait manifestement été entraîné avec les informations correspondantes et qu’il soit donc en mesure d’inventer une déclaration correspondante en réponse à un prompt, c’est-à-dire de reproduire les informations correspondantes, ne change rien (et le fait que la déclaration qui en résulte soit effectivement correcte ne joue aucun rôle). En d’autres termes, il ne peut guère être important qu’un modèle stocke l’énoncé selon lequel Adrian Lobsiger est le PFPDT sous forme de texte simple ou d’une manière très indirecte et complexe, mais capable d’output.