Generative KI: Wo können die Grenzen der KI-Nutzung im Bereich des Urheberrechts liegen?

Das Training (im geschäftlichen Verkehr)


I. Einleitung

In den letzten hundert Jahren haben sich die Menschen an verschiedene Technologien gewöhnt. Diese Erfindungen haben unser Leben in dieser Zeit nachhaltig verändert. Jetzt stehen wir vor einer ähnlichen Situation mit dem Aufkommen einer KI. Es gibt zahlreiche Anwendungen für unterschiedliche Bereiche. Ein Beispiel ist ChatGPT: seit der Einführung Ende 2022 hat er bereits einen wichtigen Platz in vielen Lebensbereichen eingenommen. Unternehmen, Organisationen, Universitäten etc. und Privatpersonen haben begonnen, es als schnellere und präzisere Alternative zu Google zu nutzen. Es spart Zeit, indem es direkt auf eine Frage antwortet, so dass man nicht mehr durch Websites browsen muss. Inzwischen versuchen die Universitäten, akzeptable Regeln für den Einsatz von KI in Forschung und Studium aufzustellen. Wissenschaftler aus der ganzen Welt nutzen es, um Daten zu verarbeiten oder Ideen zu entwickeln.

Diese Technologie wirft jedoch eine Reihe von Fragen auf, mit denen sich die Menschen noch nicht beschäftigt haben. In den letzten Jahren wurden einige Fragen bereits von Gerichten in der ganzen Welt geklärt,

vgl. Thaler v. Perlmutter (2023) für die US-Entscheidung, Thaler v. UKIPO (2023) für den britischen Fall, Thaler v. Commissioner of Patents (2022),

aber auf viele weitere Fragen müssen noch Antworten gefunden werden. So gibt es zum Beispiel ein ganzes Bündel von Fragen zu den Grenzen einer KI-Nutzung. Dieses Thema ist hochkomplex und im Moment sehr bedeutsam. In diesem Artikel wir versuchen, einige dieser Fragen zumindest hypothetisch zu umreißen. Diese Problematik ergibt sich aus der Frage, was nach den bestehenden Gesetzen eine Verletzung des Urheberrechts darstellt und was nicht. Obwohl es scheint, dass dieses Problem durch Gesetze und Rechtsprechung vollständig abgedeckt ist, hat das Aufkommen der KI die Situation wieder etwas unsicher gemacht.

Bisher gibt es Versuche, die KI entsprechend zu regeln. Dafür stehen insbesondere folgende Rechtsakte: Das KI-Gesetz der EU und Chinas Gesetz über KI. Die Vereinigten Staaten haben gleichzeitig Gespräche über KI-Regulierungen aufgenommen, aber es gibt keine spezifischen KI-Gesetze. In allen anderen Ländern ist der KI-Rechtsrahmen ebenfalls gerade dabei, zu werden.

II. Konfliktparteien

Im Allgemeinen gibt es einen Konflikt zwischen drei Parteien. Das sind: die Urheber, die ihre Werke schützen wollen (und auch müssen), die KI-Entwickler, die ihre Modelle trainieren, und die Nutzer, die diese Werkzeuge einsetzen.
In dieser Gemengelage versuchen Gesetzgeber, eine Balance zwischen all diesen Parteien zu finden bzw. Grenzen zu definieren.

Aus rechtlicher Sicht kann der gesamte Prozess der Entwicklung und Nutzung von KI in drei Hauptteile gegliedert werden. Es gibt einen Code, der geschrieben und in eine Software eingebettet wurde. Dieser Code könnte ggf. rechtlich geschützt werden. Diesem Thema kann jedoch ein eigener Artikel gewidmet werden, ebenso wie der Frage des datenschutzrechtlichen Schutzes.

Ein weiterer wichtiger Teil ist der Trainingsprozess.

Schlußendlich der letzte Teil ist die Nutzung einer KI und ihr Output.

Die beiden letztgenannten Problemfelder enthalten ihrerseits eine Reihe verschiedener Fragen. Die Antworten auf diese Fragen können helfen, die Grenzen der Urheberrechtsverletzung im Bereich der KI zu umreißen. In diesem Artikel werden wir versuchen, einige dieser Fragen in Bezug auf eine Trainingsphase zu klären.

Die nachfolgende Übersicht berücksichtigt diesen Ansatz:

III. § 44b UrhG – Text und Data Mining in Bezug auf KI

Der Trainingsprozess umfasst mehrere Aspekte.

Das erste ist das Trainingsmaterial, insbesondere die Frage des Zugangs der zu schützenden Daten. Die meisten KI-Modelle werden anhand von Informationen aus dem Internet trainiert. Dabei handelt es sich jedoch in der Regel nicht um Daten im Bild- oder Textformat, sondern nur um Rohdaten einer Webseite, extrahierte Metadaten und Textextraktionen. Diese Dateien enthalten keine eigentlichen .jpg oder .png Dateien oder andere Bilddateien im digitalen Format. Das bedeutet, dass es sich nur um Informationen über die Daten auf einer Website handelt, aber nicht um die Daten selbst. Das Problem ist jedoch, dass Metadaten immer noch urheberrechtlich geschützt sein können. Der Zugriff auf sie und ihre Verwendung könnte also eine Rechtsverletzung darstellen. Dies stellt ein Problem für KI-Entwickler dar, da sie alle Daten überprüfen müssen, bevor sie sie für das Training von Modellen verwenden.

Ein weiteres Beispiel ist die Website von OpenAI, die sagt, dass das Unternehmen keine Informationen hinter Bezahlschranken sucht

“… wir suchen nicht nach Informationen, von denen wir wissen, dass sie hinter Paywalls oder aus dem „Dark Web“ liegen. Abgerufen von: How ChatGPT and our foundation models are developed | OpenAI Help Center am 20.02.2025.

Allerdings gibt ChatGPT oft Antworten von Artikeln unter Bezahlschranken

Auch in den USA ist derzeit ein Verfahren anhängig, bei dem es um ein KI-Tool geht, das auf urheberrechtlich geschützte Inhalte von Online-Magazinen zugreift: Dow Jones & Company, Inc. v. Perplexity AI, Inc. (1:24-cv-07984) Bezirksgericht, S.D. New York

Daher kann der Chat wahrscheinlich zumindest darauf zugreifen. Es ist kein Verstoß, wenn ein Entwickler eine Lizenz zur Nutzung der Daten für die Ausbildung erworben hat. Es stellt sich jedoch die Frage, wann diese Artikel hinter eine Bezahlschranke als Antworten für die Nutzer präsentiert werden. Die Eigentümer der Website haben eine Lizenz nur für die KI-Firma erteilt und nicht für Dritte – in diesem Fall für die Nutzer.

Hier stellt sich die Frage Haftung. Ist das der Entwickler für die Verbreitung von urheberrechtlich geschütztem Material an ein neues Publikum (verantwortlich/haftbar?)?
Um einen solchen Fall zu verhindern, kann jedoch eine spezielle Lizenz für KI-Entwickler eingeführt werden. In den Bedingungen einer solchen Lizenz sollte eindeutig festgelegt werden, dass Inhalte unter einer Bezahlschranke an Dritte weitergegeben werden können. Außerdem müssen die Urheberrechtsinhaber ihr (vorheriges) Einverständnis geben, dass ihre Werke auf diese Weise genutzt werden können.

IV. § 60 UrhG als Ausnahme oder Fair Use?

Anders verhält es sich jedoch, wenn ein Entwickler keine Lizenz für KI-Training erhalten hat. Dies wird wohl als Urheberrechtsverletzung bei einer kommerziellen Nutzung gewertet. Die Entwicklung in den USA zeigt das Dilemma: die Verwendung von Daten für nicht-generatives KI-Training kann nach einem aktuellen Urteil aus den USA nicht mit der Fair-Use-Doktrin gerechtfertigt werden

vgl. Thomson Reuters Enterprise Centre GmbH v. ROSS Intelligence Inc. (1:20-cv-00613) District Court, D. Delaware (2025)

Diese Entscheidung schafft noch mehr Raum für Urheberrechtsklagen während des KI-Trainings und zwingt sowohl Nutzer als auch Entwickler zu noch mehr Vorsicht. Die Frage nach der generativen KI und ihrem Training bleibt jedoch bestehen. Und diese Frage erfordert ein gewisses Verständnis dafür, wie dieser Prozess funktioniert. Es wird die Meinung vertreten, dass KI-Tools von Natur aus keine der Daten, auf denen sie trainiert werden, kopieren oder speichern,

vgl. Murray, M. D. (2023). Generative AI Art: Copyright Infringement and Fair Use SMU Science and Technology Law Review, Volume 26(2), p. 283.

Sie lernen lediglich, ein erwartetes Ergebnis zu erkennen. In diesem Fall liegt möglicherweise keine Verletzung durch die Verbreitung vor. Aber der Zugriff auf die Daten könnte trotzdem verboten sein. Dies könnte jedoch unter die Ausnahmeregelung für den Bildungsbereich oder die Fair-Use zu Gunsten der Bildung für das KI-Training fallen. Damit dieser Prozess jedoch als Bildung angesehen werden kann, muss die Menge der verwendeten Inhalte im Verhältnis zu den Daten als Ganzes nicht erheblich sein. Und der Zweck sollte nicht kommerziell sein.
Da die meisten KI-Tools ziemlich große Datenmengen benötigen und diese Tools in der Regel kommerziell genutzt werden, ist es besser, ist besondere Vorsicht geboten. Kleine Datenmengen können immer noch eine Ausnahme für die Bildung darstellen. Hier muss die zu erwartende Rechtsprechung sorgfältig beobachten und beachtet werden. Um keine Rechte zu verletzen, müssen KI-Entwickler stets eine ordnungsgemäße Lizenz erwerben und möglicherweise eine Klausel über die mögliche Weitergabe von Inhalten an Nutzer einschließen.

V. § 97 UrhG Unterlassungsansprüche?

Eine weitere problematische Situation könnte sich beim Trainingsprozess ergeben. Wenn ein Urheber die Verwendung seiner Werke für ein KI-Training verbietet, aber später feststellt, dass die fraglichen Werke zu diesem Zweck verwendet wurden. Hier ist von einer Rechtverletzung auszugehen

Die genauen Verfahren und die Maßnahmen, die für ein solches Verbot zu ergreifen sind, sind derzeit ebenfalls nicht definiert, da sie von einem Tool ausgelesen werden sollten, das Daten aus dem Internet sammelt. Als LAION-5B im Falle der OpenAl zum Beispiel. Einige Autoren haben jedoch bereits explizit erklärt, dass sie ihre Werke nicht für das KI-Training verwenden lassen

Ein weiteres Problem ist, ob diese rechtsverletzenden Daten aus dem „Gedächtnis“ der KI gelöscht werden können. Kann ein Werkzeug etwas „verlernen“, um einer Unterlassungsaufforderung nachzukommen? Und was passiert mit der Qualität einer Ausgabe, wenn ein Teil der Trainingsdaten gelöscht wurde? Das sind die Fragen, auf die wir noch keine klaren Antworten haben. Um Klagen zu vermeiden, ist es jedoch notwendig, dass ein Entwicklerunternehmen alle Trainingsdaten sorgfältig prüft. Das nach Auffassung, dass die Erstellung von Datensätzen zum Training von KI nicht automatisch erfolgen sollte. Es muss eine menschliche Bewertung des Prozesses geben.

VI. § 4 UrhG – Schutz von Datenbanken

Das wiederum wirft die Frage auf, ob solche Datensätze offengelegt und geschützt werden sollen. Derzeit geben die KI-Entwickler die Daten, mit denen sie die Werkzeuge trainieren, nicht öffentlich bekannt. Allerdings könnte es in Zukunft notwendig sein, die Offenlegung solcher Informationen aus Gründen der Transparenz obligatorisch zu machen. So wissen Autoren und Nutzer, was genau in einem bestimmten KI-Modell verwendet wurde. Wenn diese Datensätze öffentlich gemacht werden, sind diese schützbar? Ein solcher Schutz kann nach EU-Recht gewährt werden. Denn Datenbanken, die ein gewisses Maß an Originalität aufweisen, sind gesetzlich geschützt. In diesem Fall würde auch der Zugriff auf einen geschützten KI-Datensatz eine Rechtsverletzung darstellen. Und das würde es den Entwicklern ermöglichen, ihre Werkzeuge transparent und sicher zugleich zu machen.

Was passiert, wenn z.B. zwei Datensätze sehr ähnlich oder sogar identisch sind? Im letzteren Fall liegen die Recht bei demjenigen, der zuerst eine Datenbank erstellt hat. Es könnte jedoch die Möglichkeit bestehen, eine Lizenz für einen urheberrechtlich geschützten Datensatz zu erteilen. Wenn zwei Datenbanken zwar ähnlich, aber nicht identisch sind, muss jedoch bestimmt werden, wie unterschiedlich die Datenbanken sein müssen, um eine Rechtsverletzung zu vermeiden. Diese schwierige Frage taucht in allen Bereichen des geistigen Eigentums auf. Für Kunstwerke oder Textarbeiten haben wir keine klare Antwort darauf. Die Festlegung einer Schwelle für KI-Datenbanken könnte also noch schwieriger sein. Die Lösung dieses Problems wird sich jedoch erst mit der Rechtspraxis in diesem Bereich herauskristallisieren.

VII. Schlussfolgerung

Zusammenfassend lässt sich sagen, dass in allen Phasen des KI-Trainings die Gefahr von Rechtsverletzungen, insbesondere von Urheberrechtsverletzungen, besteht. Um Auseinandersetzungen zu vermeiden, sollten die Entwickler dieses Thema sehr sorgfältig angehen. Auf alle Trainingsdaten muss rechtmäßig zugegriffen und diese verwendet werden. Es muss sichergestellt werden, dass die Urheberrechtsinhaber die Verwendung ihrer Daten für diesen speziellen Zweck nicht untersagt haben. Außerdem sollte ein Urheberrechtsinhaber wissen und seine Zustimmung geben, wenn diese Informationen an Nutzer oder andere Dritte weitergegeben werden dürfen. Dies sind vorläufige Lösungen für Fragen, die sich in Zukunft mit Sicherheit stellen werden. Und wir werden die Gerichtsentscheidungen abwarten müssen, um zu sehen, wie sich die Praxis im Bereich der KI entwickelt.

Autoren: Rechtsanwalt Torsten Bremer und Kunsthistorikerin und Urheberrechtlerin Arina Sazhina

Wir helfen Ihnen, Strategien zu entwickeln, um mit KI zu arbeiten und sie in den Alltag und die Arbeit zu implementieren. Unnötige Risiken können frühzeitig identifiziert und verhindert werden.
Verlieren Sie keine Zeit und vereinbaren Sie gleich einen Termin mit uns!

Nutzen Sie für Anfragen unser Kontaktformular