Tipps

01.08.2024

Urheberrecht und Generative KI — Teil I: Trainingsdaten

Die steigende Verbreitung generativer KI führt zu immer mehr Fragen im Zusammenhang mit dem konkreten Umgang mit derartigen KI-Modellen. Können urheberrechtlich geschützte Werke als Trainingsdaten verwendet werden? Können KI-Modelle nach dem Training Urheberrechte verletzen und wer wird überhaupt Urheber von KI-generierten Inhalten?

In diesen Beitrag möchten wir die urheberrechtlichen Anforderungen im Umgang mit Trainingsdaten für generative KI darstellen und beantworten die Fragen, was bei der Erhebung zu beachten, inwieweit das Training mit Daten zu bewerten und wie mit dem vom KI-Modell anhand der Trainingsdaten Erlerntem umzugehen ist.

Was ist bei Erhebung von Trainingsdaten zu beachten?

Bevor KI-Anbieter ihre Modelle trainieren können, benötigen sie große Mengen an Daten. Sie greifen dabei vor allem auf frei verfügbare Datensätze zurück, wie zum Beispiel auf die 5,85 Milliarden Text-zu-Bild-Datensätze der gemeinnützigen Organisation LAION. Zudem beschaffen sie sich Daten durch Kauf oder Scraping von frei zugänglichen Inhalten im Internet selbst.

Von der Generierung dieser Vielzahl an Datensätzen sind zu großen Teilen auch urheberrechtlich geschützte Werke betroffen. Urheber können versuchen sich vor dem ungefragten Scraping zu schützen, indem sie entsprechende Nutzungsvorbehalte und Hinweise im Zusammenhang mit ihren frei zugänglichen Werken vorsehen. Solche Nutzungsvorbehalte können im Impressum, in den AGB, in der Datei robots.txt oder im TDM Reservation Protocol aufgenommen und veröffentlicht werden. Die KI-Anbieter sind dazu angehalten, die entsprechenden Regeln für Text- und Datamining zu beachten und die von derartigen Nutzungsvorbehalten betroffenen Daten nach Abschluss des Minings wieder umgehend zu löschen. Die weitergehende Speicherung – auch die Speicherung von aus frei verfügbaren Datensätzen gewonnenen Inhalten – kann durch das Kopieren der Inhalte an einen anderen Ort beispielsweise eine ohne Einwilligung des Urhebers verbotene urheberrechtliche Vervielfältigungshandlung und Verbreitung darstellen. Es ist deshalb stets auf das Vorliegen von Urheberrechten zu achten.

Werden Datensätze entgegen diesen Vorschriften erhoben und gespeichert, können die Urheber Auskunft, Unterlassen und Schadenersatz für die widerrechtliche Nutzung fordern.

Außerdem dürfen personenbezogene Daten nicht einfach als Trainingsdaten verwendet werden, ohne die Vorschriften der Datenschutzgrundverordnung (DSGVO) einzuhalten. Daher ist es ratsam, auf anonyme Datensätze zu setzen, da diese nicht unter das Datenschutzrecht fallen.

Was ist beim Training eines KI-Modells zu beachten?

Beim Training von KI-Modellen werden urheberrechtlich geschützte Werke analysiert. Dabei handelt es sich nicht um eine das Urheberrecht des Urhebers verletzende Verwertungshandlung. Vielmehr ist das Zerlegen eines Werkes in Einzelteile durch ein KI-Modell genauso zu bewerten wie eine eingehende Betrachtung durch einen Menschen. Das Herausziehen von Informationen aus einem Werk zählt nicht zu den geschützten Verwertungsrechten des Urhebers. Geschützt ist das Werk in seiner konkreten Gestaltung als syntaktische Information. Das Urheberrecht soll aber gleichzeitig nicht die Weiterentwicklung von Kultur und Kunst verhindern, sodass die Speicherung von Parametern (dazu im Folgenden) grundsätzlich keine Verwertung darstellt.

Wie ist das von einem KI-Modell Erlernte zu bewerten?

KI-Modelle verwenden oft Trainingsdaten in der Größenordnung von ein- bis zweistelligen Milliarden von Datensätzen. Nach dem Training eines KI-Modells wird häufig angenommen, dass das Modell die trainierten Werke nach dem Training enthalte. Das KI-Modell selbst verstoße demnach gegen Urheberrecht. Urheberrechtlich relevant ist das Erlernte aber nur, wenn es das Vervielfältigungsrecht des Urhebers berührt. Durch das Vervielfältigungsrecht kann der Urhebers bestimmen, ob und wie sein Werk kopiert oder wieder erstellt wird. Eine Vervielfältigung liegt nur vor, wenn Inhalte für Menschen wahrnehmbar sind. Das von einem KI-Modell erlernte wird aber erst mit dem Generierung wahrnehmbar.

Es ist wichtig zu verstehen, dass die urheberrechtlich geschützten Inhalte nicht systematisch und auch nicht komprimiert in einem KI-Modell gespeichert sind. Die Annahme, die Inhalte würden in den KI-Modellen wie bei Dateiformaten wie MP3, ACC oder JPEG in ihrem originären Bestand und lediglich komprimiert vorliegen, ist deshalb nicht zutreffend. Die urheberrechtlich geschützten Inhalte sind in der Regel nicht direkt im KI-Modell vorhanden. Methoden wie Generative Adversarial Networks (GAN) und Diffusionsmodelle speichern Inhalte oder Abbildungen vielmehr durch Parameter, sodass von Trainingsdaten lediglich Eigenschaften Eingang in das Modell finden. Denn im Trainingsprozess werden die Modellparameter (Gewichte und Schwellenwerte) angepasst, um die Genauigkeit der Ausgaben des KI-Modells zu maximieren. Gespeichert werden deshalb keine Trainingsdaten, sondern daraus gelernte Parameter. Daher stellt die bloße Existenz eines KI-Modells normalerweise keine Vervielfältigung dar.

In seltenen Fällen können KI-Modelle jedoch urheberrechtlich geschützte Werke in den Trainingsinhalten enthalten, insbesondere bei sehr bekannten Werken. Beispiele sind Gedichte wie “Dunkel war’s, der Mond schien helle” oder “Der Zauberlehrling”, die von Modellen wie ChatGPT fast vollständig wiedergegeben werden können. Obwohl die Trainingsinhalte nicht wie komprimierte Dateien, also die Werke nicht in Form eines einzigen vollständigen und zusammengehörigen Datensatzes gespeichert sind, kann durch die Kombination von Parametern und passenden Eingabebefehlen (Prompts) eine Vervielfältigung entstehen. In dem Zusammenhang wird weitreichend diskutiert, ob zumindest die Erstellung der Parameter selbst oder wenigstens die Auswahl der Prompts und die darauffolgende Generierung des Inhalts eine urheberrechtlich geschützte Vervielfältigungshandlung darstellen kann.

Letztlich kann festgestellt werden, dass Parameter innerhalb eines KI-Modells eine Vervielfältigung ermöglichen können. Daher sollten KI-Entwickler alle urheberrechtlich relevanten Trainingsdaten dokumentieren. Diese Dokumentationspflicht wird auch durch die KI-Verordnung in Artikel 53 Absatz 1 Buchstabe d vorgeschrieben und wird ab Sommer 2025 bei sogenannten KI-Modellen für Allgemeine Zwecke verpflichtend zu beachten sein.

Fazit

Die urheberrechtlichen Fragen im Zusammenhang mit Trainingsdaten von generativer KI lassen sich mit dem derzeitigen Urheberrecht bewerkstelligen. Sie stellen vor allem Entwickler von KI-Modellen vor die Herausforderung die Verwendung von Trainingsdaten umfassend zu dokumentieren. Bereits schon jetzt lohnt es sich die Vorgaben der KI-Verordnung betreffend urheberrechtlicher Listen zu beachten.

Neues KI-Gesetz zum 1. August 2024

Mit unserem Artikel möchten wir auch auf das offizielle Inkrafttreten der KI-Verordnung am 1. August 2024 aufmerksam machen. Das neue unmittelbar in der EU geltende Gesetz trägt nach der Veröffentlichung im Amtsblatt der Europäischen Union am 12. Juli 2024 die amtliche Bezeichnung “Verordnung (EU) 2024/1689” und kann hier abgerufen werden. Nach einer Übergangsfrist von zwei Jahren werden die meisten Regelungen im August 2026 greifen. Pflichten für generative KI werden allerdings schon nach einem Jahr anwendbar sein.

Mehr Informationen finden Sie auf unserer Landingpage zur KI-Verordnung.