Das Land­ge­richt (LG) Mün­chen hat in einem Urteil vom 11. Novem­ber 2025 (Az. 42 O 14139/24) ent­schie­den, dass repro­du­zier­bar in einem Modell (hier: ChatGPT 4 und 4o von Ope­nAI) vor­han­de­ne Trai­nings­tex­te (“Memo­ri­sie­rung”) als Ver­viel­fäl­ti­gung i.S.v. § 16 des deut­schen Urhe­ber­rechts­ge­set­zes (UrhG) anzu­se­hen sind. Es genügt, dass die Trai­nings­tex­te im Modell repro­du­zier­bar vor­han­den sind:

Die Klä­ge­rin behaup­tet, der Chat­bot erzeu­ge Repro­duk­tio­nen der Trai­nings­da­ten in erheb­li­chem Umfang. Die­se soge­nann­te Memo­ri­sie­rung von Inhal­ten inner­halb von Model­len füh­re zur Regur­gi­ta­ti­on, also zur Pro­duk­ti­on von Out­put, der bestimm­te Trai­nings­in­puts expli­zit reproduziere […] […] 

201 a. Die streit­ge­gen­ständ­li­chen Tex­te sind nach Über­zeu­gung der erken­nen­den Kam­mer […] im Modell ent­hal­ten.

202 aa. Aus der infor­ma­ti­ons­tech­ni­schen For­schung ist bekannt, dass Trai­nings­da­ten in Model­len ent­hal­ten sein kön­nen und sich als Out­puts extra­hie­ren las­sen, was als Memo­ri­sie­rung bezeich­net wird […]. Eine sol­che Memo­ri­sie­rung liegt vor, wenn die unspe­zi­fi­schen Para­me­ter beim Trai­ning dem Trai­nings­da­ten­satz nicht nur Infor­ma­tio­nen ent­neh­men, son­dern sich in den nach dem Trai­ning spe­zi­fi­zier­ten Para­me­tern eine voll­stän­di­ge Über­nah­me der Trai­nings­da­ten fin­det.

203 Als Ursa­che für die Memo­ri­sie­rung, die vor allem bei gro­ßen Model­len auf­tritt, wird ins­be­son­de­re das mehr­fa­che Auf­tre­ten eines Trai­nings­da­tums im Trai­nings­satz vermutet […].

204 Die Memo­ri­sie­rung von Trai­nings­da­ten kann mit­tels ver­schie­de­ner Metho­den nach­ge­wie­sen wer­den. Sind die Trai­nings­da­ten bekannt, ist ein Abgleich der Trai­nings­da­ten mit Out­puts bei Ver­wen­dung ein­fa­cher Prompts und hin­rei­chen­der Text­län­ge zur Fest­stel­lung der Memo­ri­sie­rung mög­lich. Andern­falls wird etwa anhand der Para­me­ter Entro­pie und Per­ple­xi­tät unter­sucht, mit wel­cher Gewiss­heit ein Modell einen Out­put wie­der­gibt – bei trai­nier­ten und memo­ri­sier­ten Inhal­ten ist die Gewiss­heit hoch […]. Ent­ge­gen der Aus­füh­rung der Beklag­ten sind ein­fach gehal­te­ne Prompts hier nicht Bedin­gung für die Gene­rie­rung der Trai­nings­da­ten als Out­puts, son­dern die­nen ledig­lich dem Nach­weis der Memorisierung. […] 

205. Die Memo­ri­sie­rung kann vor­lie­gend bereits durch einen Abgleich der Lied­tex­te mit den Out­puts fest­ge­stellt wer­den. Die Ver­wen­dung der streit­ge­gen­ständ­li­chen Lied­tex­te als Trai­nings­da­ten ist unstrei­tig. Aus­weis­lich der Anla­ge K 2 sind die streit­ge­gen­ständ­li­chen Lied­tex­te durch die sehr ein­fach gehal­te­nen Prompts “Wie lau­tet der Text von [Lied­ti­tel]”, “Von wem stammt der Text”, “Wie lau­tet der Refrain von [Lied­ti­tel]”, “Bit­te nen­ne mir auch die 1. Stro­phe”, und “Bit­te nen­ne mir auch die 2. Stro­phe” deut­lich wie­der­erkenn­bar in den vor­ge­leg­ten Out­puts wie­der­ge­ge­ben worden.

Dass Tex­te als Trai­nings­da­ten ein­ge­speist wor­den sind und bei Abfra­gen wie­der­ge­ge­ben wer­den, begrün­det den Anscheins­be­weis, dass die Tex­te im Modell ver­viel­fäl­tigt gespei­chert sind. Fer­ner setzt eine Ver­viel­fäl­ti­gung nicht vor­aus, dass ein Werk iden­tisch repro­du­ziet wird. Auch eine Fest­le­gung eines Werks in ver­än­der­ter Form genügt. Auch die tech­ni­schen Details spie­len kei­ne Rolle:

Für die urhe­ber­recht­li­che Ver­viel­fäl­ti­gung kann offen­blei­ben, wie die Memo­ri­sie­rung im Ein­zel­nen funk­tio­niert. Es ist uner­heb­lich, ob von einem Spei­chern oder Kopie­ren der Trai­nings­da­ten gespro­chen wird, oder, wie die Beklag­ten es for­mu­lie­ren, das Modell in sei­nen Para­me­tern reflek­tiert, was es basie­rend auf dem gesam­ten Trai­nings­da­ten­satz erlernt habe, näm­lich Bezie­hun­gen und Muster aller Wör­ter bezie­hungs­wei­se Token, die die Viel­falt der mensch­li­chen Spra­che und ihrer Kon­tex­te abbil­de­ten. Denn ent­schei­dend ist, dass die Lied­tex­te, die als Trai­nings­da­ten dien­ten, im Modell repro­du­zier­bar ent­hal­ten und somit ver­kör­pert sind.

Nicht anwend­bar war sodann die TDM-Aus­nah­me (§ 44b UrhG):

Sprach­mo­del­le wie die streit­ge­gen­ständ­li­chen Model­le unter­fal­len grund­sätz­lich dem Anwen­dungs­be­reich der Text und Data Mining Schran­ken. Die Vor­schrif­ten decken erfor­der­li­che Ver­viel­fäl­ti­gun­gen beim Zusam­men­stel­len des Daten­kor­pus in Pha­se 1 (s.o.), nicht aber wei­ter­ge­hen­de Ver­viel­fäl­ti­gun­gen im Modell in Pha­se 2. Wer­den wie vor­lie­gend beim Trai­ning in Pha­se 2 nicht nur Infor­ma­tio­nen aus Trai­nings­da­ten extra­hiert, son­dern Wer­ke ver­viel­fäl­tigt, stellt dies kein Text und Data Mining dar. Auch wenn die Schran­ken­be­stim­mun­gen grund­sätz­lich auf das Trai­ning von Model­len Anwen­dung fin­den, sind Ver­viel­fäl­ti­gung im Modell kei­ne Ver­viel­fäl­ti­gun­gen, die von der Schran­ken­be­stim­mung erfasst sind, da sie nicht nur zur Vor­be­rei­tung des Text und Data Mining dienen.

Das Urteil wur­de von Mathi­as Lejeu­ne kom­men­tiert.