Das Landgericht (LG) Hamburg hat entschieden (Urteil vom 27.09.2024, Az. 310 O 227/23), dass das Herunterladen einer urheberrechtlich geschützten Fotografie durch den Anbieter eines Datensets für das Training künstlicher Intelligenz vorliegend unter die Text-and-Data-Mining-Schrankenregelung (“TDM”) für wissenschaftliche Zwecke nach § 60d des deutschen Urheberrechtsgesetzes (UrhG) fällt. Nicht Gegenstand des Urteils war das Training einer AI selbst.
Beklagte ist das gemeinnützige Forschungsnetzwerk Laion (für “Large-Scale Artificial Intelligence Open Network”). Es stellt ein Datenset u.a. für das Training von AI-Modellen öffentlich und kostenlos zur Verfügung. Das Set enthält fast 6 Mia. Links zu öffentlich abrufbaren Bildern mit einer Beschreibung des Bildinhalts. Dafür hatte der Beklagte die in einem vorbestehenden Datensatz verlinkten Bilder heruntergeladen, durch eine Software geprüft, ob die jeweilige Beschreibung zutreffend war, und die Bilder vor der Veröffentlichung des Datensets mit Meta-Daten angereichert. Betroffen war auch ein von einer Bildagentur im Internet bereitgestelltes, mit einem Wasserzeichen der Agentur versehenes Bild. Auf der Website der Agentur befand sich dabei ein Widerspruch gegen Scraping.
Das LG beurteilte die urheberrechtliche Zulässigkeit vor diesem Hintergrund wie folgt:
Keine nur flüchtigte oder begleitende Vervielfältigung
Nicht einschlägig war § 44a UrhG, der eine Vervielfältigung freistellt, die flüchtig oder begleitend ist, einen integralen und wesentlichen Teil eines technischen Verfahrens darstellt, nur zur Übertragung in einem Netz oder der rechtmässige Nutzung eines Werkes dient und keine eigenständige wirtschaftliche Bedeutung hat:
- Die Vervielfältigung war nicht flüchtig, weil sie nicht nutzerunabhängig erfolgt, sondern nur aufgrund einer entsprechenden Programmierung durch den Anbieter; zudem hatte der Beklagte nichts zur Speicherdauer gesagt;
- sie war auch nicht begleitend, weil Bilder gezielt für eine Analyse heruntergeladen wurden, also in einem der Analyse vorgelagerten, bewussten und aktiven Beschaffung.
Nach schweizerischem Urheberrecht dürfte die Situation gleich zu beurteilen sein. Art. 24a URG stellt eine vorübergehende Vervielfältigung nach den gleichen Voraussetzungen wie § 44a UrhG frei. Die Vervielfältigung urheberrechtlich geschützter Werke in einem Datenset im Hinblick auf das Training eines AI-Modells wäre davon kaum erfasst (siehe unsere FAQ zum AI Act, Frage 59).
Anwendung der TDM-Wissenschaftsschranke
Das deutsche UrhG regelt die Freistellung einer Vervielfältigung für das “Text and Data Mining” (TDM) in zwei Bestimmungen:
- § 60d UrhG erlaubt TDM u.a. Einrichtungen, die nicht-kommerzielle wissenschaftliche Forschung betreiben.
- § 44b UrhG enthält eine allgemeine Schrankenbestimmung für TDM auch ausserhalb der nicht-kommerziellen Forschung, aber unter dem Vorbehalt eines Nutzungsvorbehalts bei öffentlich zugänglichen Werken (und mit einer Löschpflicht, die bei § 60d UrhG nicht greift).
Anders als § 44b UrhG sei § 60d UrhG einschlägig. Die Vervielfältigung erfolgte im Rahmen eines TDM. TDM ist die automatisierte Analyse von digitalen Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen. Das treffe zu: Die Vervielfältigung diente dazu, “Korrelationen” zu finden, nämlich jene zwischen Bildinhalt und Bildbeschreibung.
Vorliegend diente das TDM von Laion Zwecken der wissenschaftlichen Forschung:
Der Begriff der wissenschaftlichen Forschung ist, indem er bereits das methodisch-systematische “Streben” nach neuen Erkenntnissen ausreichen lässt, nicht so eng zu verstehen, dass er nur die unmittelbar mit der Gewinnung von Erkenntnisgewinn verbundenen Arbeitsschritte erfassen würde; vielmehr genügt es, dass der in Rede stehende Arbeitsschritt auf einen (späteren) Erkenntnisgewinn gerichtet ist […]. Insbesondere setzt der Begriff der wissenschaftlichen Forschung auch keinen späteren Forschungserfolg voraus.
Das könne auch das Training einer AI abdecken:
Zwar mag die Erstellung des Datensatzes als solche noch nicht mit einem Erkenntnisgewinn verbunden sein; sie ist aber grundlegender Arbeitsschritt mit dem Ziel, den Datensatz zum Zwecke späteren Erkenntnisgewinns einzusetzen. Dass eine solche Zielsetzung auch im vorliegenden Fall bestand, kann bejaht werden. Dafür genügt es, dass der Datensatz – unstreitig – kostenfrei veröffentlicht und damit gerade (auch) auf dem Gebiet künstlicher neuronaler Netze Forschenden zur Verfügung gestellt wurde.
Nicht relevant war daher, ob die Entwicklung eigener KI-Modelle eigene Forschung des Beklagten darstellte:
Ob der Datensatz […] auch von kommerziellen Unternehmen zum Training bzw. zur Weiterentwicklung ihrer KI-Systeme genutzt wird, ist schon deshalb unerheblich, weil auch die Forschung kommerzieller Unternehmen noch Forschung – wenn auch nicht als solche nach §§ 60c f. UrhG privilegiert – ist.
Die Privilegierung von § 60d UrhG gilt indessen nur für die nicht-kommerzielle Forschung. Dies war vorliegend erfüllt, weil der Beklagte die Datenbank kostenlos öffentlich zur Verfügung stellte.
Das schweizerische URG enthält stellt TDM nur im Rahmen der Wissenschaft frei, mit Art. 24d URG:
1 Zum Zweck der wissenschaftlichen Forschung ist es zulässig, ein Werk zu vervielfältigen, wenn die Vervielfältigung durch die Anwendung eines technischen Verfahrens bedingt ist und zu den zu vervielfältigenden Werken ein rechtmässiger Zugang besteht.
2 Die im Rahmen dieses Artikels angefertigten Vervielfältigungen dürfen nach Abschluss der wissenschaftlichen Forschung zu Archivierungs- und Sicherungszwecken aufbewahrt werden.
3 Dieser Artikel gilt nicht für die Vervielfältigung von Computerprogrammen.
Es ist durchaus naheliegend, die Situation gleich wie hier das LG Hamburg zu beurteilen. Der Forschungsbegriff ist nicht enger, sondern umfasst im Gegenteil auch die kommerzielle Forschung (die nach deutschem UrhG nur nach § 44b UrhG freigestellt ist). Dass jedes Training einer AI davon abgedeckt ist, lässt sich zwar kaum behaupten (nicht jedes Training dürfte auf Erkenntnisgewinn angelegt sein), aber in den besonderen Umständen des vorliegenden Falls dürfte Art. 24d URG ebenfalls greifen.
Eher keine Anwendung der allgemeinen TDM-Schranke
Eher nicht einschlägig sei demgegenüber die allgemeine TDM-Schranke von § 44b UrhG. Die allgemeinen Voraussetzungen seien zwar erfüllt (obiter dicta):
Ob die TDM-Schranke nur die Erschliessung “in den Daten verborgener Informationen” und nicht auch die Nutzung “des Inhalts der geistigen Schöpfung” erfasst, was “vereinzelt vertreten” werde, bezweifelt das LG (obiter, nachdem schon § 60d UrhG greift):
- Begründet wird diese Unterscheidung in der Literatur damit, dass das Training einer AI letztlich dazu diene, mit der KI neue Bildinhalte zu generieren, weshalb § 44b UrhG entsprechend teleologisch zu reduzieren sei. Diese Absicht und der Trainingserfolg stehen beim Training aber noch nicht fest, wie das LG festhält.
- Zudem ergebe sich aus Art. 53 Abs. 1 lit. c des AI Act, dass die europarechtliche TDM-Schranke das Training zumindest erfassen kann (die Anbieter von GPAIM müssen u.a. über eine “Strategie zur Einhaltung des Urheberrechts der Union” verfügen, die auch die Anwendung eines “gemäß Artikel 4 Absatz 3 der Richtlinie (EU) 2019/790 geltend gemachten Rechtsvorbehalts” abdecken muss, also die TDM-Schranke), und §44b UrhG setzt diese Bestimmung um.
Zu beachten war dabei auch die Infosoc-RL, die RL zur Harmonisierung bestimmter Aspekte des Urheberrechts in der Informationsgesellschaft:
- Ihr Art. 5 Abs. 5 erlaubt die Anwendung der TDM-Schranke nur in Sonderfällen, bei denen die normale Verwertung des Werks nicht beeinträchtigt wird und die Interessen des Rechtsinhabers nicht ungebührlich verletzt werden.
- Auch dies sei vorliegend der Fall – insbesondere genüge die Möglichkeit der Konkurrenz durch AI-generierte Inhalte nicht, schon weil bloss zukünftige, noch nicht absehbarer Entwicklungen keine rechtssichere Abgrenzung zulässiger von unzulässigen Nutzungen erlauben würde.
Die heruntergeladenen Werke waren schliesslich auch rechtmässig zugänglich, wie es §44b UrhG verlangt. Heruntergeladen wurde nicht das nur gegen Lizenz angebotene Originalbild, sondern ein mit einem Wasserzeichen versehene zu Werbezwecken eingestelltes Vorschaubild.
Die Anwendung von § 44b UrhG dürfte aber an einem wirksamen Nutzungsvorbehalt scheitern (auch hier obiter):
- Der Nutzungsvorbehalt war von der Bildagentur erklärt worden, die dazu als Nutzungsberechtigte befugt war, und der Kläger als Rechteinhaber sollte sich darauf berufen können.
- Der Vorbehalt war klar genug formuliert. Dass er sämtliche veröffentlichten Werke betraf, steht dem nicht entgegen.
- Er war ferner wohl auch maschinenlesbar. “Maschinenlesbar” sei als “maschinenverständlich” auszulegen. Dazu dürfte nach Auffassung des LG auch ein in natürlicher Sprache verfasster Vorbehalt genügen, weil solche Vorbehalte mindestens mit einer entsprechenden KI maschinenlesbar seien (das LG verweist hier abermals auf Art. 53 Abs. 1 lit. c AIA, wonach die Strategie sdes Anbieters eines GPAIM zur Einhaltung des Urheberrechts auch die “Ermittlung und Einhaltung eines […] Rechtsvorbehalts auch durch modernste Technologien” umfasst”. Das LG verweist aber darauf, dass es sich hier wohl gegen eine Mehrheitsauffassung stelle. Letztlich könne die Frage allerdings offenbleiben.