Zum Inhalt springen
Künstliche Intelligenz

KI-Training Urheberrecht: Neue Urteile zwingen Anbieter zum Umdenken

KI-Training Urheberrecht, Scraping-Haftung – Gerichtsurteil zu KI-Training Urheberrecht auf Schreibtisch neben Laptop mit Code
Zwei Grundsatzurteile aus Hamburg und München definieren neu, was beim KI-Training erlaubt ist. (Symbolbild)

Zwei deutsche Gerichte haben in kurzer Abfolge Grundsatzfragen entschieden, die die KI-Industrie lieber offengelassen hätte: Was darf in ein Modell hinein – und wer haftet, wenn geschützte Inhalte wieder herauskommen? Die Antworten sind unbequem. Und sie kommen zur Unzeit.

Das Recht holt die Industrie ein

Lange galt unausgesprochene Einigkeit: Man scrapt, was erreichbar ist. Man trainiert, was man hat. Und über die juristischen Konsequenzen diskutiert man, wenn es so weit ist. Es ist so weit. Das Landgericht Hamburg entschied am 27. September 2024 (Az. 310 O 227/23) über die Nutzung von Fotografien in einem KI-Trainingsdatensatz. Das Hanseatische Oberlandesgericht bestätigte diese Entscheidung Ende 2025 in der Berufung. Kurz darauf, am 11. November 2025, fällte das Landgericht München I (Az. 42 O 14139/24) ein Urteil, das die Branche noch stärker aufschrecken dürfte: GEMA gegen OpenAI, Gegenstand urheberrechtlich geschützte Liedtexte im Training eines großen Sprachmodells.

Zwei Instanzen, zwei Gerichte, eine klare Richtung. Das KI-Training Urheberrecht-Verhältnis ist kein akademisches Problem mehr – es ist Haftungsrealität.

Was das LG Hamburg tatsächlich entschieden hat

Das Hamburger Urteil ist differenzierter, als Schlagzeilen es darstellen. Im Kern geht es darum, unter welchen Bedingungen die sogenannte Text-und-Data-Mining-Schranke nach § 44b UrhG greift. Das Gericht bestätigte: Das Herunterladen von Bildern zum Zweck der Analyse ist grundsätzlich zulässig, wenn der Zugang rechtmäßig ist, keine maschinenlesbaren Opt-Out-Signale vorliegen und die Vervielfältigungen nach Abschluss des Prozesses gelöscht werden.

Für Forschungsorganisationen öffnet § 60d UrhG zusätzlich einen Korridor: nicht-kommerzielles wissenschaftliches Training auf dieser Basis ist erlaubt, wenn der entstandene Datensatz Forschenden kostenfrei zugänglich gemacht wird. Die Klage gegen die beklagte Forschungseinrichtung scheiterte genau deshalb. Das OLG Hamburg bestätigte diese Linie und präzisierte gleichzeitig die Anforderungen an maschinenlesbare Opt-Out-Erklärungen nach § 44b Abs. 3 UrhG.

Wichtig: Diese Schranke ist nicht der Freifahrtschein, den viele Anbieter offenbar erwartet haben. Rechtmäßiger Zugang, Löschpflicht, Opt-Out-Beachtung – wer auch nur eine dieser Bedingungen ignoriert, steht außerhalb der Schranke. Wer dann noch ein kommerzielles Produkt betreibt, kann sich auch nicht auf § 60d UrhG berufen. Die Trennlinie zwischen Forschung und Produkt ist damit juristisch scharf gezogen.

Das Münchner Urteil: Der eigentliche Systembruch

Das LG München I geht deutlich weiter. Die Grundsatzfrage: Ist das dauerhafte Einbetten urheberrechtlich geschützter Liedtexte in ein generatives Sprachmodell eine Urheberrechtsverletzung? Antwort des Gerichts: Ja – doppelt sogar.

Erstens stuft das Gericht das Memorisieren von Liedtexten im Modell als urheberrechtlich relevante Vervielfältigung nach § 16 UrhG ein. Zweitens gilt die Wiedergabe identischer oder klar erkennbarer Textpassagen durch das Modell als unzulässige Vervielfältigung und öffentliche Zugänglichmachung nach § 19a UrhG. Die TDM-Schranke, so das Gericht ausdrücklich, deckt genau das nicht ab: Sie erlaubt vorbereitende Vervielfältigungen zur Analyse, nicht die dauerhafte Integration geschützter Werke in ein generatives Modell.

Noch klarer: Eine konkludente Einwilligung durch bloße Online-Veröffentlichung verneint das Gericht explizit. Wer seine Liedtexte auf einer Website veröffentlicht, hat damit nicht in die Nutzung als KI-Trainingsdaten eingewilligt. Dieser Punkt ist für das KI-Training Urheberrecht-Verhältnis zentral – und räumt mit einer verbreiteten Schutzbehauptung der Branche auf. Grant Thornton bezeichnet das Urteil als „Meilenstein“ und erste Entscheidung dieser Art in Europa.

Die Haftung trifft den Anbieter. Nicht den Endnutzer, der die Anfrage stellt. Den Betreiber des Modells. Unterlassungs-, Auskunfts- und Schadensersatzansprüche stehen der GEMA zu. Das ist keine theoretische Konstruktion – das ist vollstreckbare Realität.

Scraping-Haftung: Wer zahlt, wenn das Modell singt?

Ich halte die Frage der Scraping-Haftung für das unterschätzte Kernproblem dieser Urteile. Nicht weil sie neu wäre – Urheberrechtsverletzungen durch Scraping sind seit Jahren diskutiert –, sondern weil die Reichweite erstmals so klar benannt wird. Ein Modell, das einen Liedtext memorisiert hat und ihn auf Anfrage reproduziert, ist nach Ansicht des LG München I kein neutrales Werkzeug mehr. Es ist ein Verbreitungskanal für urheberrechtlich geschütztes Material.

Das verändert die Risikostruktur fundamental. Bislang konnten Anbieter argumentieren, dass der Output probabilistisch erzeugt, nicht kopiert wird. Das Gericht interessiert das nicht: Wenn das Ergebnis identisch oder klar erkennbar ist, zählt das als Verletzung. Zitatrecht, Pastiche, Privatkopie – alle klassischen Schranken verwirft das LG München I im Kontext generativer KI. Die Datenschutzkanzlei activeMind.legal kommentiert, KI-Systeme seien „keine Black Boxes außerhalb des urheberrechtlichen Regelungsregimes“ – eine Einschätzung, der ich ohne Einschränkung zustimme.

Was folgt daraus für die Scraping-Haftung? Anbieter, die weiterhin großflächig ohne Lizenz scrapen und dabei urheberrechtlich geschützte Inhalte in ihre Modelle aufnehmen, tragen das volle Haftungsrisiko. Und dieses Risiko wächst mit jeder Verbreitung des Modells, mit jedem Nutzer, der möglicherweise geschützte Inhalte aus dem System extrahiert.

Terminal mit Scraping-Script und Opt-Out-Warnungen auf Monitor
Maschinenlesbare Opt-Out-Signale müssen in Crawler-Konfigurationen aktiv ausgewertet werden. (Symbolbild)

Die TDM-Schranke: Rettungsanker mit Löchern

§ 44b UrhG bleibt das wichtigste Instrument für legales KI-Training in Deutschland. Aber er ist kein Freifahrtschein. Drei Bedingungen müssen kumulativ erfüllt sein: rechtmäßiger Zugang zu den Inhalten, Beachtung maschinenlesbarer Opt-Out-Signale und Löschung der Vervielfältigungen nach Abschluss des Data-Mining-Prozesses.

Die praktische Konsequenz: Wer einen Crawler einsetzt, der robots.txt-ähnliche Opt-Out-Mechanismen ignoriert, handelt außerhalb der Schranke. Das LG Hamburg betont ausdrücklich, dass maschinenlesbare Nutzungsvorbehalte zu respektieren sind – auch dann, wenn die Maschinenlesbarkeit „im weiteren Sinne“ erfüllt ist. Rechteinhaber, die entsprechende Signale setzen, können sich auf diesen Schutz berufen.

Für Anbieter bedeutet das eine technische Pflicht: Crawler-Konfigurationen müssen Opt-Out-Register kennen und auswerten. Datenpipelines brauchen Regeln, die solche Signale erkennen und respektieren. Wer das nicht einbaut, baut auf einem rechtlich fragilen Fundament. Die Datenschutz-Implikationen kommen dabei noch hinzu: Enthalten Trainingsdaten personenbezogene Informationen, greift die DSGVO parallel. Eine belastbare Rechtsgrundlage, Zweckbindung und Löschkonzepte sind dann keine optionalen Extras.

Strategieanpassung: Was Anbieter jetzt konkret tun

Die Urteile erzwingen Anpassungen auf mehreren Ebenen gleichzeitig. Erstens: der Shift von unlizenziertem Scraping zu lizenzierten Datenquellen. Nach LG München I ist klar, dass kommerzielle Anbieter geschützte Inhalte nicht ohne Lizenz dauerhaft in Modelle einbetten dürfen. Das zwingt zu Verhandlungen mit Verwertungsgesellschaften, Verlagen und Rechteinhabern. Wer das ignoriert, spekuliert auf Nichtentdeckung – eine riskante Strategie, wenn GEMA und ähnliche Organisationen aktiv Musterklagen führen.

Zweitens: Outputfilter. Da das Gericht sowohl Training als auch Output als urheberrechtlich relevante Akte einstuft, investieren Anbieter zunehmend in Systeme, die werkähnliche Textpassagen erkennen und blockieren. Techniken zur Reduktion von Memorisation – Regularisierung, gezielte „Vergess“-Methoden im Training – werden aktiv erforscht, sind aber noch kein Standard.

Drittens: die juristische Trennung von Forschung und Produkt. Wer sich auf § 60d UrhG berufen will, muss echte wissenschaftliche Forschung betreiben, den Datensatz frei und kostenfrei teilen und klar vom kommerziellen Produkt trennen. Diese Trennung ist nicht nur buchhalterisch gemeint – sie muss organisatorisch und technisch sauber vollzogen sein, sonst greift die Schranke nicht.

Viertens bauen größere Anbieter dedizierte Content-Governance-Strukturen auf. Teams, die Rechteklärung, Datenlogs, Löschkonzepte und Dokumentation für Prüfungen verantworten. Kanzlei Kramarz & Partner beschreibt das LG-Hamburg-Urteil als wegweisenden Entscheid für genau diese Compliance-Fragen. Ich würde einen Schritt weitergehen: Wer heute noch keine Content-Governance für Trainingsdaten hat, betreibt sein Modell auf Sicht.

Internationale Perspektive: Wie andere Rechtsordnungen mit KI-Training umgehen

Die deutschen Urteile stehen nicht im luftleeren Raum. In den USA laufen parallel mehrere Sammelklagen gegen große KI-Anbieter – darunter Verfahren von Autoren, Verlagen und Bildagenturen, die ähnliche Argumente vorbringen wie GEMA in München. Das US-amerikanische Urheberrecht kennt zwar keine TDM-Schranke wie das europäische Recht, dafür aber die Fair-Use-Doktrin. Ob KI-Training unter Fair Use fällt, ist noch nicht höchstrichterlich entschieden. Erste Instanzurteile deuten darauf hin, dass kommerzielle Nutzung ohne Transformation schwer als Fair Use zu rechtfertigen ist.

In Japan hat der Gesetzgeber dagegen einen anderen Weg gewählt: Eine explizite Schrankenregelung erlaubt KI-Training auch für kommerzielle Zwecke grundsätzlich. Diese Entscheidung ist umstritten und steht zunehmend unter politischem Druck, insbesondere von der Manga- und Anime-Industrie, die Missbrauch beklagt. Die japanische Lösung zeigt, dass Gesetzgeber aktiv eingreifen können – und dass solche Eingriffe Konsequenzen für die globale Standortfrage im KI-Bereich haben.

Im EU-Binnenmarkt harmonisiert die DSM-Richtlinie die TDM-Schranken zwar im Grundsatz, lässt aber erheblichen nationalen Interpretationsspielraum. Was das LG München I zur Memorisation entschieden hat, könnte ein französisches oder niederländisches Gericht im Einzelfall anders bewerten. Für international operierende KI-Anbieter bedeutet das: Die rechtliche Risikolandschaft ist fragmentiert, und eine Compliance-Strategie, die in Deutschland funktioniert, muss nicht in allen EU-Mitgliedstaaten tragen.

Praktische Szenarien: Wer ist konkret betroffen?

Die abstrakten Rechtsfragen werden greifbarer, wenn man sie auf konkrete Akteure herunterbricht. Drei Szenarien illustrieren die Bandbreite.

Szenario 1: Das Startup mit eigenem Fachmodell. Ein deutsches Softwareunternehmen trainiert ein spezialisiertes Sprachmodell für juristische Texte. Datenquelle: öffentlich zugängliche Gerichtsurteile und Kommentarliteratur, teils von kommerziellen Verlagen. Wenn diese Verlage maschinenlesbare Opt-Out-Signale gesetzt haben und das Unternehmen diese ignoriert, steht es außerhalb der TDM-Schranke. Fehlende Löschprotokolle für Trainingskopien verschärfen das Risiko. Das Unternehmen sollte Datenpipelines prüfen, Opt-Out-Signale systematisch auswerten und Verlagslizenzen für die genutzten Inhalte einholen – oder auf lizenzfreie Alternativen wechseln.

Szenario 2: Der Musikstreaming-Dienst mit KI-Funktionen. Eine Plattform integriert ein generatives Modell, das Songvorschläge auf Basis von Nutzerpräferenzen erstellt und dabei gelegentlich Liedtextfragmente anzeigt. Nach dem Münchner Urteil ist genau diese Ausgabe urheberrechtlich relevant – unabhängig davon, ob die Plattform die Texte bewusst eingespielt hat oder ob das Modell sie aus dem Web-Training „kennt“. Verwertungsgesellschaften könnten hier direkt ansetzen. Outputfilter, die erkennbare Liedtextpassagen blockieren, sind in diesem Szenario keine optionale Sicherheitsmaßnahme, sondern rechtliche Notwendigkeit.

Szenario 3: Die Forschungseinrichtung mit Spin-off. Eine Universität trainiert ein Bildverarbeitungsmodell im Rahmen eines Drittmittelprojekts – zulässig nach § 60d UrhG, sofern die Bedingungen erfüllt sind. Problematisch wird es, wenn dasselbe Modell später in ein universitäres Spin-off überführt wird, das kommerzielle Produkte entwickelt. Die Schranke greift dann nicht mehr. Wer Forschungsmodelle in Produkte überführt, muss spätestens in diesem Moment eine vollständige urheberrechtliche Neubewertung der Trainingsdaten vornehmen.

Einschränkung: Was noch offen bleibt

Das LG München I ist eine erstinstanzliche Entscheidung. Berufung ist möglich, OLG und BGH könnten Positionen verschieben. Auch ein EuGH-Verfahren zu den EU-Richtliniengrundlagen (InfoSoc-RL, DSM-RL) ist denkbar und würde nationale Auslegungen überlagern. Wer die Urteile als endgültig settles betrachtet, macht einen Fehler – aber wer sie ignoriert, macht einen noch größeren.

Ebenfalls offen: die DSGVO-Dimension beim LLM-Training. Wie genau Betroffenenrechte auf im Modell „verteilte“ Repräsentationen personenbezogener Daten angewendet werden, ist noch nicht höchstrichterlich geklärt. Aufsichtsbehörden beobachten das Thema, einheitliche Rechtsprechung existiert noch nicht. Die Datenschutz-Implikationen wachsen mit jedem Modell, das auf Web-Scraping basiert – aber die spezifischen Antworten fehlen noch. Unternehmen, die hier pauschal auf „berechtigtes Interesse“ als DSGVO-Rechtsgrundlage setzen, stehen auf unsicherem Terrain.

Der AI Act regelt primär Sicherheits- und Transparenzpflichten für KI-Systeme. Das Urheberrecht bleibt weitgehend nationales Recht, interpretiert an EU-Richtlinien. Die GPAI-Regelungen des AI Act verlangen Transparenz über Trainingsdaten – eine Pflicht, die mit den Urheberrechtsurteilen unmittelbar zusammenspielt. Wer nicht dokumentieren kann, was im Training steckt, wird beides nicht erfüllen können: Urheberrechts-Compliance und AI-Act-Transparenz.

Was Rechteinhaber jetzt tun können

Für Rechteinhaber ist die Lage klarer als je zuvor. Maschinenlesbare Opt-Out-Erklärungen nach § 44b Abs. 3 UrhG sind das unmittelbare Werkzeug. Wer seine Inhalte für KI-Training sperren will, muss dieses Signal technisch umsetzen – auf der eigenen Website, in Metadaten, über standardisierte Mechanismen. Ohne dieses Signal ist rechtmäßig zugängliches Material grundsätzlich für TDM nutzbar.

Darüber hinaus zeigt das GEMA-Verfahren, dass kollektive Rechtsverfolgung durch Verwertungsgesellschaften ein wirksames Instrument ist. Einzelne Urheber hätten das Verfahren gegen OpenAI kaum stemmen können – als gebündelte Klage hat es ein erstes Grundsatzurteil produziert. Weitere Musterverfahren sind angekündigt und dürften folgen.

Was bleibt, ist eine Industrie, die sich bisher in einer Grauzone eingerichtet hatte und nun feststellt, dass diese Zone kleiner wird. Werden die nächsten Instanzen das Münchner Urteil bestätigen – und wird der EuGH die Auslegung der TDM-Schranke europaweit harmonisieren? Und vor allem: Wie viele Modelle, die heute in Produktion sind, würden einen ernsthaften Rechte-Audit nicht überstehen?

Was halten Sie von dem Thema? Hier können Sie mit anderen Leserinnen und Lesern ins Gespräch gehen.