Das Landgericht (LG) München hat in einem Urteil vom 11. November 2025 (Az. 42 O 14139/24) entschieden, dass reproduzierbar in einem Modell (hier: ChatGPT 4 und 4o von OpenAI) vorhandene Trainingstexte (“Memorisierung”) als Vervielfältigung i.S.v. § 16 des deutschen Urheberrechtsgesetzes (UrhG) anzusehen sind. Es genügt, dass die Trainingstexte im Modell reproduzierbar vorhanden sind:
Die Klägerin behauptet, der Chatbot erzeuge Reproduktionen der Trainingsdaten in erheblichem Umfang. Diese sogenannte Memorisierung von Inhalten innerhalb von Modellen führe zur Regurgitation, also zur Produktion von Output, der bestimmte Trainingsinputs explizit reproduziere […] […]
201 a. Die streitgegenständlichen Texte sind nach Überzeugung der erkennenden Kammer […] im Modell enthalten.
202 aa. Aus der informationstechnischen Forschung ist bekannt, dass Trainingsdaten in Modellen enthalten sein können und sich als Outputs extrahieren lassen, was als Memorisierung bezeichnet wird […]. Eine solche Memorisierung liegt vor, wenn die unspezifischen Parameter beim Training dem Trainingsdatensatz nicht nur Informationen entnehmen, sondern sich in den nach dem Training spezifizierten Parametern eine vollständige Übernahme der Trainingsdaten findet.
203 Als Ursache für die Memorisierung, die vor allem bei großen Modellen auftritt, wird insbesondere das mehrfache Auftreten eines Trainingsdatums im Trainingssatz vermutet […].
204 Die Memorisierung von Trainingsdaten kann mittels verschiedener Methoden nachgewiesen werden. Sind die Trainingsdaten bekannt, ist ein Abgleich der Trainingsdaten mit Outputs bei Verwendung einfacher Prompts und hinreichender Textlänge zur Feststellung der Memorisierung möglich. Andernfalls wird etwa anhand der Parameter Entropie und Perplexität untersucht, mit welcher Gewissheit ein Modell einen Output wiedergibt – bei trainierten und memorisierten Inhalten ist die Gewissheit hoch […]. Entgegen der Ausführung der Beklagten sind einfach gehaltene Prompts hier nicht Bedingung für die Generierung der Trainingsdaten als Outputs, sondern dienen lediglich dem Nachweis der Memorisierung. […]
205. Die Memorisierung kann vorliegend bereits durch einen Abgleich der Liedtexte mit den Outputs festgestellt werden. Die Verwendung der streitgegenständlichen Liedtexte als Trainingsdaten ist unstreitig. Ausweislich der Anlage K 2 sind die streitgegenständlichen Liedtexte durch die sehr einfach gehaltenen Prompts “Wie lautet der Text von [Liedtitel]”, “Von wem stammt der Text”, “Wie lautet der Refrain von [Liedtitel]”, “Bitte nenne mir auch die 1. Strophe”, und “Bitte nenne mir auch die 2. Strophe” deutlich wiedererkennbar in den vorgelegten Outputs wiedergegeben worden.
Dass Texte als Trainingsdaten eingespeist worden sind und bei Abfragen wiedergegeben werden, begründet den Anscheinsbeweis, dass die Texte im Modell vervielfältigt gespeichert sind. Ferner setzt eine Vervielfältigung nicht voraus, dass ein Werk identisch reproduziet wird. Auch eine Festlegung eines Werks in veränderter Form genügt. Auch die technischen Details spielen keine Rolle:
Für die urheberrechtliche Vervielfältigung kann offenbleiben, wie die Memorisierung im Einzelnen funktioniert. Es ist unerheblich, ob von einem Speichern oder Kopieren der Trainingsdaten gesprochen wird, oder, wie die Beklagten es formulieren, das Modell in seinen Parametern reflektiert, was es basierend auf dem gesamten Trainingsdatensatz erlernt habe, nämlich Beziehungen und Muster aller Wörter beziehungsweise Token, die die Vielfalt der menschlichen Sprache und ihrer Kontexte abbildeten. Denn entscheidend ist, dass die Liedtexte, die als Trainingsdaten dienten, im Modell reproduzierbar enthalten und somit verkörpert sind.
Nicht anwendbar war sodann die TDM-Ausnahme (§ 44b UrhG):
Sprachmodelle wie die streitgegenständlichen Modelle unterfallen grundsätzlich dem Anwendungsbereich der Text und Data Mining Schranken. Die Vorschriften decken erforderliche Vervielfältigungen beim Zusammenstellen des Datenkorpus in Phase 1 (s.o.), nicht aber weitergehende Vervielfältigungen im Modell in Phase 2. Werden wie vorliegend beim Training in Phase 2 nicht nur Informationen aus Trainingsdaten extrahiert, sondern Werke vervielfältigt, stellt dies kein Text und Data Mining dar. Auch wenn die Schrankenbestimmungen grundsätzlich auf das Training von Modellen Anwendung finden, sind Vervielfältigung im Modell keine Vervielfältigungen, die von der Schrankenbestimmung erfasst sind, da sie nicht nur zur Vorbereitung des Text und Data Mining dienen.
Das Urteil wurde von Mathias Lejeune kommentiert.