Le tri­bu­nal régio­nal (LG) de Munich a, dans un juge­ment du 11 novembre 2025 (Affai­re 42 O 14139/24) a déci­dé que les tex­tes d’en­traî­ne­ment (“Mémo­ri­sa­ti­on„) en tant que repro­duc­tion au sens de l’ar­tic­le 16 de la loi alle­man­de sur le droit d’au­teur (UrhG). Il suf­fit que les tex­tes de for­ma­ti­on soi­ent dis­po­ni­bles dans le modè­le de maniè­re reproductible :

La requé­ran­te pré­tend que le chat­bot génè­re Repro­duc­tions des don­nées de for­ma­ti­on dans une lar­ge mesu­re. Cet­te soi-disant Mémo­ri­sa­ti­on de con­te­nus au sein de modè­les con­duit à la créa­ti­on de Régur­gi­ta­ti­onc’est-à-dire à la pro­duc­tion d’un out­put qui repro­duit expli­ci­te­ment cer­ta­ins inputs de formation […]. […] 

201 a. La chambre de recours est con­vain­cue que les tex­tes liti­gieux sont […]. inclus dans le modè­le.

202 aa. La recher­che en tech­no­lo­gie de l’in­for­ma­ti­on a mon­tré que les don­nées d’en­traî­ne­ment peu­vent être con­te­nues dans des modè­les et peu­vent être extrai­tes en tant que sor­ties, ce que l’on appel­le la mémo­ri­sa­ti­on […]. Il y a mémo­ri­sa­ti­on lorsque, lors de l’en­traî­ne­ment, les paramè­tres non spé­ci­fi­ques ne se con­ten­tent pas d’ex­trai­re des infor­ma­ti­ons de l’en­sem­ble des don­nées d’en­traî­ne­ment, mais que l’on retrouve dans les paramè­tres spé­ci­fi­és après l’en­traî­ne­ment une repri­se com­plè­te des don­nées de l’en­traî­ne­ment.

203 On sup­po­se que la cau­se de la mémo­ri­sa­ti­on, qui se pro­duit sur­tout dans les grands modè­les, est notam­ment l’ap­pa­ri­ti­on mul­ti­ple d’u­ne date d’en­traî­ne­ment dans l’en­sem­ble d’entraînement […].

204 La mémo­ri­sa­ti­on des don­nées d’en­traî­ne­ment peut être démon­trée par dif­fé­ren­tes métho­des. Si les don­nées d’en­traî­ne­ment sont con­nues, il est pos­si­ble de compa­rer les don­nées d’en­traî­ne­ment avec les sor­ties en uti­li­sant des invi­tes simp­les et une longueur de tex­te suf­fi­san­te pour déter­mi­ner la mémo­ri­sa­ti­on. Sinon, on exami­ne, par exemp­le à l’ai­de des paramè­tres d’en­tro­pie et de per­ple­xi­té, avec quel degré de cer­ti­tu­de un modè­le repro­duit un out­put – dans le cas de con­te­nus ent­raî­nés et mémo­ri­sés, le degré de cer­ti­tu­de est éle­vé […]. Con­trai­re­ment à l’ex­pli­ca­ti­on de la défen­der­es­se, les invi­tes simp­les ne sont pas ici une con­di­ti­on pour la géné­ra­ti­on des don­nées d’en­traî­ne­ment en tant que sor­ties, mais ser­vent uni­quement à prou­ver la mémorisation. […] 

205. La La mémo­ri­sa­ti­on peut déjà être con­sta­tée en com­parant les paro­les des chan­sons avec les résul­tats.. L’uti­li­sa­ti­on des paro­les des chan­sons liti­gieu­ses com­me don­nées d’en­traî­ne­ment n’est pas con­te­stée. Il res­sort de l’an­ne­xe K 2 que les paro­les des chan­sons liti­gieu­ses ont été repro­dui­tes de maniè­re clai­re­ment recon­naissa­ble dans les pro­duc­tions pré­sen­tées, grâ­ce aux invi­tes très simp­les “Quel­les sont les paro­les de [tit­re de la chan­son]”, “Qui a écrit les paro­les”, “Quel est le refrain de [tit­re de la chan­son]”, “Veuil­lez éga­le­ment me don­ner le pre­mier cou­plet” et “Veuil­lez éga­le­ment me don­ner le deu­xiè­me couplet”.

Le fait que des tex­tes aient été intro­duits en tant que don­nées d’en­traî­ne­ment et qu’ils soi­ent repro­duits lors de con­sul­ta­ti­ons con­sti­tue une preuve à pre­miè­re vue que les tex­tes sont stockés dans le modè­le sous for­me repro­duite. En out­re, une repro­duc­tion ne sup­po­se pas qu’u­ne œuvre soit repro­duite à l’i­den­tique. La fix­a­ti­on d’u­ne œuvre sous une for­me modi­fi­ée est éga­le­ment suf­fi­san­te. Les détails tech­ni­ques ne jouent pas non plus de rôle :

Pour la repro­duc­tion sou­mi­se au droit d’au­teur, on peut ne pas savoir com­ment la mémo­ri­sa­ti­on fonc­tion­ne en détail. Il impor­te peu que l’on par­le d’u­ne mémo­ri­sa­ti­on ou d’u­ne copie des don­nées d’en­traî­ne­ment ou, com­me le for­mu­lent les défen­deurs, que le modè­le reflè­te dans ses paramè­tres ce qu’il a app­ris sur la base de l’en­sem­ble des don­nées d’en­traî­ne­ment, à savoir les rela­ti­ons et les modè­les de tous les mots ou tokens qui repré­sen­tent la diver­si­té du lan­ga­ge humain et de ses con­tex­tes. En effet, il est décisif que les paro­les de chan­sons qui ont ser­vi de don­nées d’en­traî­ne­ment soi­ent con­te­nues de maniè­re repro­duc­ti­ble dans le modè­le et donc incarnées.

La loi sur la pro­tec­tion des don­nées n’é­tait pas appli­ca­ble. Excep­ti­on TDM (§ 44b UrhG) :

Les modè­les lin­gu­isti­ques tels que les modè­les liti­gieux relè­vent en prin­ci­pe du champ d’ap­pli­ca­ti­on des limi­tes de l’ex­plo­ra­ti­on de tex­te et de don­nées. Ces dis­po­si­ti­ons cou­vrent les repro­duc­tions néces­saires lors de la con­sti­tu­ti­on du cor­pus de don­nées au cours de la pha­se 1 (voir ci-des­sus), mais pas de repro­duc­tions plus pous­sées dans le modè­le en pha­se 2. Si, com­me dans le cas pré­sent, l’en­traî­ne­ment de la pha­se 2 ne se con­tente pas d’ex­trai­re des infor­ma­ti­ons des don­nées d’en­traî­ne­ment, mais repro­duit des œuvres, il ne s’a­git pas d’ex­plo­ra­ti­on de tex­te et de don­nées. Même si les dis­po­si­ti­ons rela­ti­ves aux excep­ti­ons s’ap­pli­quent en prin­ci­pe à l’en­traî­ne­ment de modè­les, la repro­duc­tion dans le modè­le n’est pas une repro­duc­tion cou­ver­te par les dis­po­si­ti­ons rela­ti­ves aux excep­ti­ons, car elle ne sert pas uni­quement à prépa­rer l’ex­plo­ra­ti­on de tex­tes et de données.

Le juge­ment a été ren­du par Mathi­as Lejeu­ne com­mente.