News

21.10.2024

Landgericht Hamburg urteilt über die Nutzung von Trainingsdatenbanken für Generative KI-Systeme

In einem vorherigen Beitrag haben wir uns bereits mit der Verwendung von Inhalten für das Training Generativer KI-Systeme befasst. Das Landgericht Hamburg hat sich mit Urteil vom 27. September 2024 (Az. 310 O 227/23) als eines der ersten Gerichte nun mit der dem Verwenden von Inhalten für das Training vorgelagerten Frage beschäftigt, ob das dafür notwendige Sammeln der Daten urheberrechtlich zulässig ist.

Im Fokus der Entscheidung steht das Sammeln von Trainingsdaten in sogenannten URL-Sammlungen und ob die Erstellung eines solchen Datensatzes wissenschaftliche Forschung im Sinne des § 60d UrhG darstellen kann, wenn später auch kommerzielle Unternehmen diesen Datensatz nutzen können.

Sachverhalt

Der Verein LAION e.V. wurde von einem Fotografen verklagt, der nicht damit einverstanden war, dass ein von ihm gefertigtes und im Internet erwerbbares Bild Teil einer Traningsdatenbank geworden war.

Das Bild wurde durch den Urheber auf der Webseite eines Stockfoto-Anbieters öffentlich zugänglich gemacht, der über einfache Nutzungsrechte verfügte. Der Verein lud das Bild zur Erstellung eines KI-Trainingsdatensets von dieser Webseite herunter, obwohl in den Nutzungsbedingungen ein eindeutiger Widerspruch gegen das automatisierte Herunterladen von Inhalten festgelegt war. Das Bild des Fotografen wurde nicht Teil der Sammlung der Trainingsdatenbank, enthalten war aber ein Verweis auf dessen Abrufort im Internet. Dazu hatte der Verein das Bild zunächst heruntergeladen, nach Softwareanalyse mit einer textlichen Bildbeschreibung versehen und die URL des Ursprungsbildes zusammen mit der Bildbeschreibung als gemeinsames Datenpaar in einer über 5 Milliarden Bild-Text-Paar großen Sammlung veröffentlicht.

Der Fotograf begehrte die Unterlassung dieser Vervielfältigung seiner Fotografie zur Erstellung von KI-Trainingsdatensätzen.

Entscheidung

Das Landgericht Hamburg wies die Klage ab. Das Landgericht erklärte zunächst bei der Gelegenheit (sog. obiter dictum), dass es sich ihrer Auffassung nach um einen ausreichenden Widerspruch im Sinne des § 44b Abs. 3 S. 2 UrhG handeln würde, der auf der Webseite gegen das automatisierte Herunterladen festgeschrieben war. Das Landgericht stellte klar, dass auch Nutzungsbedingungen maschinenlesbar sind, die in natürlicher Sprache verfasst worden sind. Spitzfindig verweist das Gericht auf Art. 53 Abs. 1 Buchst. c der neuen KI-Verordnung, der zur Einhaltung des Urheberrechts modernste Technologien verlangt. Die Erkennung von Nutzungsvorbehalten in natürlicher Sprache beim Webscraping durch automatisierte Software ist nach Ansicht des Gerichts mit modernsten Technologien ohne weiteres möglich. Ein derartiger Widerspruch führe daher dazu, dass das Text- und Data Mining nicht zulässig sei.

Das Text und Data Mining sei jedoch zum Zwecke wissenschaftlicher Forschung nach § 60d UrhG zulässig. Das Gericht verlangte zum Vorliegen der wesentlichen Voraussetzung der wissenschaftlichen Forschung lediglich „das methodisch-systematische Streben nach neuen Erkenntnissen“, wobei auch der spätere Erkenntnisgewinn in einem separaten Arbeitsschritt ausreichend sei. Nach Ansicht des Gerichts sei das Erstellen eines Datensatzes die Grundlage für das spätere Trainieren von KI-Systemen zur wissenschaftlichen Forschung.

LAION habe diese Voraussetzungen dadurch erfüllt, dass sie die erstellten Datensätze frei im Internet für alle, insbesondere zu Forschungszwecken, zur Verfügung gestellt habe. Das auch kommerzielle Unternehmen die Datensätze nutzen könnten sei nicht relevant.

Fazit

Die Entscheidung des Landgericht Hamburg hat festgestellt, dass das Sammeln von Datensätzen durch Vereine und andere nicht-kommerzielle Institutionen für Trainingsdaten unter § 60d UrhG fallen kann. Damit ist nicht jedes Sammeln von Daten zur Erstellung von Datensätzen für das Training von KI-Systemen legalisiert. Durch die Entscheidung werden Institutionen geschützt, die nicht kommerziell im Sinne des § 60d UrhG organisiert sind und ihre Datensätze für wissenschaftliche Forschung frei im Internet zur Verfügung stellen.

Ausblick

Mit der Entscheidung hat das Gericht eine Teilung des § 60d Abs. 1 UrhG vorgenommen. Denn das Text und Data Mining muss nunmehr nicht mehr selbst wissenschaftliche Forschungszwecke verfolgen. Ausreichend ist es, wenn der Output dieses Vorgehens der wissenschaftlichen Forschung geöffnet wird und die Datenbank auf die Nutzung für die wissenschaftliche Forschung ausgerichtet ist. Ohne die Erweiterung dieser Vorschrift durch das Landgericht Hamburg müssten die nichtkommerziellen Institutionen selbst wissenschaftlich tätig werden.

Es bleibt darüber hinaus abzuwarten, wie das Sammeln von Datensätzen für Trainingsdaten, insbesondere unter Einflussnahme kommerzieller Partnerunternehmen in der Zukunft unter § 60d UrhG fallen kann oder ob das Sammeln nach § 60d Abs. 2 S. 3 UrhG unzulässig ist, wenn für das Sammeln der Daten mit einem privaten Unternehmen mit bestimmendem Einfluss oder bevorzugtem Zugang zu den Ergebnissen der wissenschaftlichen Forschung zusammengearbeitet wird. Mit der Trennung der Forschung vom Vorgang des Text und Data Mining hat die Entscheidung auch privaten Unternehmen die Nutzung von Trainingsdatenbanken für die eigene wissenschaftliche Forschung erleichtert und die vorliegend ebenfalls relevante Beteiligung eines KI-Unternehmens beiseitegeschoben.

Spannend ist auch, ob sich andere Gerichte der Auffassung des Landgerichts anschließen werden, dass Nutzungsvorbehalte in natürlicher Sprache in Nutzungsbedingungen ausreichend sind. Zu den Voraussetzungen eines Nutzungsvorbehalts wurde in der Vergangenheit unter anderem vertreten, dass diese in einer robots.txt oder dem TDM Reservation Protocol aufgenommen werden müssten.