Le tribunal régional (LG) de Munich a, dans un jugement du 11 novembre 2025 (Affaire 42 O 14139/24) a décidé que les textes d’entraînement (“Mémorisation„) en tant que reproduction au sens de l’article 16 de la loi allemande sur le droit d’auteur (UrhG). Il suffit que les textes de formation soient disponibles dans le modèle de manière reproductible :
La requérante prétend que le chatbot génère Reproductions des données de formation dans une large mesure. Cette soi-disant Mémorisation de contenus au sein de modèles conduit à la création de Régurgitationc’est-à-dire à la production d’un output qui reproduit explicitement certains inputs de formation […]. […]
201 a. La chambre de recours est convaincue que les textes litigieux sont […]. inclus dans le modèle.
202 aa. La recherche en technologie de l’information a montré que les données d’entraînement peuvent être contenues dans des modèles et peuvent être extraites en tant que sorties, ce que l’on appelle la mémorisation […]. Il y a mémorisation lorsque, lors de l’entraînement, les paramètres non spécifiques ne se contentent pas d’extraire des informations de l’ensemble des données d’entraînement, mais que l’on retrouve dans les paramètres spécifiés après l’entraînement une reprise complète des données de l’entraînement.
203 On suppose que la cause de la mémorisation, qui se produit surtout dans les grands modèles, est notamment l’apparition multiple d’une date d’entraînement dans l’ensemble d’entraînement […].
204 La mémorisation des données d’entraînement peut être démontrée par différentes méthodes. Si les données d’entraînement sont connues, il est possible de comparer les données d’entraînement avec les sorties en utilisant des invites simples et une longueur de texte suffisante pour déterminer la mémorisation. Sinon, on examine, par exemple à l’aide des paramètres d’entropie et de perplexité, avec quel degré de certitude un modèle reproduit un output – dans le cas de contenus entraînés et mémorisés, le degré de certitude est élevé […]. Contrairement à l’explication de la défenderesse, les invites simples ne sont pas ici une condition pour la génération des données d’entraînement en tant que sorties, mais servent uniquement à prouver la mémorisation. […]
205. La La mémorisation peut déjà être constatée en comparant les paroles des chansons avec les résultats.. L’utilisation des paroles des chansons litigieuses comme données d’entraînement n’est pas contestée. Il ressort de l’annexe K 2 que les paroles des chansons litigieuses ont été reproduites de manière clairement reconnaissable dans les productions présentées, grâce aux invites très simples “Quelles sont les paroles de [titre de la chanson]”, “Qui a écrit les paroles”, “Quel est le refrain de [titre de la chanson]”, “Veuillez également me donner le premier couplet” et “Veuillez également me donner le deuxième couplet”.
Le fait que des textes aient été introduits en tant que données d’entraînement et qu’ils soient reproduits lors de consultations constitue une preuve à première vue que les textes sont stockés dans le modèle sous forme reproduite. En outre, une reproduction ne suppose pas qu’une œuvre soit reproduite à l’identique. La fixation d’une œuvre sous une forme modifiée est également suffisante. Les détails techniques ne jouent pas non plus de rôle :
Pour la reproduction soumise au droit d’auteur, on peut ne pas savoir comment la mémorisation fonctionne en détail. Il importe peu que l’on parle d’une mémorisation ou d’une copie des données d’entraînement ou, comme le formulent les défendeurs, que le modèle reflète dans ses paramètres ce qu’il a appris sur la base de l’ensemble des données d’entraînement, à savoir les relations et les modèles de tous les mots ou tokens qui représentent la diversité du langage humain et de ses contextes. En effet, il est décisif que les paroles de chansons qui ont servi de données d’entraînement soient contenues de manière reproductible dans le modèle et donc incarnées.
La loi sur la protection des données n’était pas applicable. Exception TDM (§ 44b UrhG) :
Les modèles linguistiques tels que les modèles litigieux relèvent en principe du champ d’application des limites de l’exploration de texte et de données. Ces dispositions couvrent les reproductions nécessaires lors de la constitution du corpus de données au cours de la phase 1 (voir ci-dessus), mais pas de reproductions plus poussées dans le modèle en phase 2. Si, comme dans le cas présent, l’entraînement de la phase 2 ne se contente pas d’extraire des informations des données d’entraînement, mais reproduit des œuvres, il ne s’agit pas d’exploration de texte et de données. Même si les dispositions relatives aux exceptions s’appliquent en principe à l’entraînement de modèles, la reproduction dans le modèle n’est pas une reproduction couverte par les dispositions relatives aux exceptions, car elle ne sert pas uniquement à préparer l’exploration de textes et de données.
Le jugement a été rendu par Mathias Lejeune commente.