Zum Inhalt springen
Künstliche Intelligenz

Auskunftsrecht über Trainingsdaten: Was die EU-KI-Verordnung Bürgern jetzt gibt

Trainingsdaten, EU-KI-Verordnung – Person prüft EU-KI-Verordnung Dokument zu Trainingsdaten Auskunftsrecht
Ab August 2025 müssen Anbieter von KI-Modellen Auskunft über ihre Trainingsdaten geben. (Symbolbild)

Seit dem 2. August 2025 gelten in der EU neue Transparenzpflichten für KI-Modelle mit allgemeinem Verwendungszweck. Erstmals müssen Anbieter großer Sprachmodelle Auskunft über die Herkunft ihrer Trainingsdaten geben – auf Anfrage von Nutzern, Unternehmen und Behörden. Was das konkret bedeutet, wo die Grenzen liegen und warum dieser Schritt längst überfällig war.

Der Stichtag, der kaum Schlagzeilen machte

Der 2. August 2025 war regulatorisch ein Wendepunkt. Kaum beachtet von der breiten Öffentlichkeit, traten an diesem Tag die Transparenzpflichten der EU-KI-Verordnung für sogenannte GPAI-Modelle – KI-Modelle mit allgemeinem Verwendungszweck – in Kraft. Darunter fallen genau jene großen Sprachmodelle, die Millionen Menschen täglich nutzen. Ab diesem Datum müssen Anbieter dokumentieren und auf Anfrage offenlegen, woher ihre Trainingsdaten stammen. Die Rede ist von Zusammenfassungen der genutzten Datenquellen, von Kategorien, von Herkunftsangaben.

Kurz: Die Black Box, in der KI-Modelle bislang still und unkommentiert mit fremden Inhalten trainiert wurden, hat eine gesetzlich erzwungene Öffnung bekommen. Noch keine vollständige – aber eine, die sich messen lassen muss.

Wer sich fragt, warum das relevant ist: Weil genau diese Trainingsdaten bestimmen, was ein Modell kann, welche Vorurteile es reproduziert, wessen Texte, Bilder, Werke ohne Vergütung eingeflossen sind. Ohne Transparenz über diese Grundlage ist jede Debatte über KI-Bias, Urheberrecht oder Datenschutzverletzungen akademisch. Jetzt ist sie zumindest justiziabel.

Was das neue Auskunftsrecht tatsächlich umfasst – und was nicht

Hier ist Präzision wichtig, denn die Berichterstattung war teils missverständlich. Ja, ZDF heute berichtet von einem „generellen Auskunftsrecht“ für Nutzer, Unternehmen und Behörden über die Herkunft von Trainingsdaten. Das stimmt – aber es ist kein Recht auf vollständige Rohdateneinsicht.

Was Sie konkret erwarten können: Anbieter müssen Zusammenfassungen der verwendeten Trainingsdaten liefern, Kategorien der Quellen nennen – etwa öffentliche Webseiten, lizenzierte Datenbanken, eigene Kundendaten – und die wesentliche Datenherkunft dokumentieren. Was Sie nicht bekommen werden: eine vollständige Liste aller Webseiten, aller Bücher, aller Texte, die ins Training eingeflossen sind. Das ist zum einen technisch kaum leistbar, zum anderen durch Geschäftsgeheimnisschutz begrenzt.

Wichtig ist auch: Diese Pflichten gelten explizit für GPAI-Modelle. Für Hochrisiko-KI – etwa in Kreditvergabe, medizinischer Diagnostik oder Strafverfolgung – gelten ab dem 2. August 2026 noch striktere Vorgaben zu Datenqualität, Daten-Governance und Nutzerinformation. Dieser zweite Stichtag ist bereits gesetzt; wer ihn ignoriert, macht sich angreifbar.

DSGVO und AI Act: kein Widerspruch, sondern Verstärkung

Eine verbreitete Fehlannahme lautet: Der AI Act verdrängt die DSGVO im KI-Kontext. Das Gegenteil ist richtig. Die KI-Verordnung stellt in Artikel 2 Absatz 7 und Erwägungsgrund 10 ausdrücklich klar, dass sie die DSGVO nicht berührt. Das Datenschutzrecht gilt weiterhin, und zwar vollständig.

Das bedeutet praktisch: Das Auskunftsrecht nach Artikel 15 DSGVO existiert schon seit dem 25. Mai 2018 – und es gilt auch für KI-Systeme, wenn personenbezogene Daten verarbeitet wurden. Wer also in einem Trainingsdatensatz vorkommt, hat schon heute das Recht zu erfahren, welche Daten, zu welchen Zwecken und auf welcher Rechtsgrundlage verwendet wurden. Wie die Europäische Kommission im Regulierungsrahmen für KI festhält, sind diese Rechte nicht neu erfunden, sondern durch den AI Act konkretisiert und um systemische Transparenzpflichten ergänzt worden.

Der AI Act schließt die Lücken, die die DSGVO offen lässt: Sie greift nur bei personenbezogenen Daten. Viele Trainingsdaten sind formal nicht personenbezogen – dennoch können sie urheberrechtlich geschützte Werke, öffentliche Interessen oder strukturelle Bias-Probleme enthalten. Für diese Dimension schafft der AI Act eine eigenständige Transparenzebene.

Auskunftsanfragen in der Praxis: Wo stellen, was erwarten?

Wenn Sie als Privatperson oder Unternehmen Auskunft über Trainingsdaten einer bestimmten KI-Anwendung verlangen wollen, ist der erste Ansprechpartner immer der Anbieter selbst – also das Unternehmen, das das Modell betreibt oder bereitstellt. Das kann ein Chatbot-Anbieter sein, ein KI-gestütztes Scoring-System, eine Recruiting-Plattform oder ein automatisierter Kundenservice.

Die praktische Erfahrung wird – zumindest in der Anfangszeit – ernüchternd sein. Viele Anbieter haben ihre Auskunftsprozesse noch nicht strukturiert aufgebaut. Anfragen werden in allgemeine Datenschutzpostfächer landen, dort auf Standardantworten treffen und selten direkte Informationen über Trainingsdatenquellen liefern. Das ist keine Spekulation, sondern eine realistische Einschätzung auf Basis der bisherigen Erfahrungen mit DSGVO-Anfragen – die ebenfalls häufig eher formell als inhaltlich beantwortet werden.

Wer mehr erreichen will, hat künftig einen zweiten Weg: die nationalen KI-Aufsichtsbehörden. Jeder EU-Mitgliedstaat muss eine solche Behörde benennen. Dort können Beschwerden eingereicht werden, wenn Anbieter Auskunftspflichten nicht erfüllen. Das EU-KI-Büro erhält darüber hinaus direkte Einsichtsrechte in die Dokumentation der Anbieter – gestützt auf Artikel 91 der KI-Verordnung, der der EU-Kommission erlaubt, von GPAI-Modell-Anbietern zusätzliche Informationen anzufordern.

Laptop-Bildschirm mit DSGVO-Auskunftsanfrage-Formular zu KI-Trainingsdaten
Auskunftsanfragen zu Trainingsdaten können formal über DSGVO-Anfragen nach Artikel 15 gestellt werden. (Symbolbild)

Urheberrecht und Trainingsdaten: Das eigentliche Konfliktfeld

Die Transparenzpflicht über Trainingsdaten hat eine zweite, mindestens ebenso brisante Dimension: das Urheberrecht. Millionen Bücher, Artikel, Texte, Bilder und Codes sind ohne Lizenzierung in die Trainingsprozesse großer Modelle eingeflossen. Verlage, Autoren, Fotografen, Softwareentwickler haben dagegen geklagt, klagen noch oder bereiten Klagen vor.

Bisher war das Hauptproblem: Man wusste nicht konkret, ob und in welchem Umfang eigene Werke verwendet wurden. Selbst fundierte Vermutungen waren gerichtlich kaum zu verwerten. Das ändert sich nun. Wenn Anbieter Quellkategorien und Herkunftsangaben ihrer Trainingsdaten offenlegen müssen, erhalten Rechteinhaber eine Grundlage, um ihre Ansprüche zu prüfen. Das macht KI-Trainingsdaten zum ersten Mal wirklich justiziabel.

Ich halte das für den unterschätzten Kern dieser Regelung. Nicht das individuelle Auskunftsrecht von Bürgerinnen und Bürgern wird die KI-Branche unter Druck setzen – sondern die systematische Möglichkeit für Verlage, Agenturen und Kollektive, auf Basis dieser Transparenzpflichten Sammelklagen oder Lizenzverhandlungen anzustrengen. Die Transparenzpflicht ist hier kein Bürokratieakt, sondern ein Hebel für strukturelle Eigentumsansprüche.

Grenzen des Rechts: Geschäftsgeheimnisse und technische Realität

Die Kritik, dass die neuen Regelungen zu vage sind, ist berechtigt. Welche Detailtiefe eine Auskunft über Trainingsdaten haben muss, ist bisher weder im Gesetzestext abschließend geregelt noch durch Rechtsprechung konkretisiert. Anbieter werden sich auf den Schutz von Geschäftsgeheimnissen berufen – und das ist in Teilen legitim.

Die Fachkommentierung zur DSGVO hält dazu fest: Geschäftsgeheimnisse dürfen nicht zur vollständigen Verweigerung von Auskünften genutzt werden. Anbieter müssen einen Ausgleich finden – also ausreichend transparent sein, ohne sensible Modellarchitektur- oder Datenbankdetails preiszugeben. In der Praxis werden das aggregierte Informationen sein: Anteil web-gecrawlter Daten, genutzte lizenzierte Datenbanken, Herkunftsregionen, grobe Zeiträume der Datensammlung.

Eine weitere offene Flanke: Was passiert, wenn jemand die Löschung seiner personenbezogenen Daten aus einem bereits trainierten Modell verlangt? Die DSGVO kennt das Recht auf Löschung nach Artikel 17. Ob das technisch umsetzbar ist, bleibt strittig. Das Konzept des „Machine Unlearning“ – also das gezielte Entlernen bestimmter Datenpunkte aus einem trainierten Modell – existiert als Forschungsgebiet, ist aber noch weit entfernt von standardisierten, rechtssicheren Verfahren. Diesen Anspruch als vollständig durchsetzbares Recht zu kommunizieren, wäre übertrieben. Als offenes Rechtsproblem ist er jedoch klar markiert.

Was Unternehmen jetzt konkret tun müssen

Für Unternehmen, die eigene KI-Modelle entwickeln oder KI-Dienste betreiben, sind die Anforderungen klar: Wer ein GPAI-Modell anbietet, muss Dokumentation der Trainingsdaten vorhalten – Herkunft, Kategorien, Qualitätskriterien. Das ist keine Empfehlung, sondern seit August 2025 Pflicht. Wer Hochrisiko-KI einsetzt oder entwickelt, hat bis zum 2. August 2026 Zeit, vollständige Daten-Governance-Prozesse zu implementieren – inklusive strukturierter Trainings-, Validierungs- und Testdatensätze nach Artikel 10 der KI-Verordnung.

Konkret bedeutet das: Verträge mit Datenlieferanten überprüfen, Datenprovenienz dokumentieren, intern klären, wer auf Auskunftsanfragen antwortet und wie. Unternehmen, die jetzt auf diese Anfragen nicht vorbereitet sind, werden spätestens dann Probleme bekommen, wenn die nationalen Aufsichtsbehörden aktiv werden. Geldbußen bei Nicht-Einhaltung sind im AI Act vorgesehen – in diesem Bereich können sie empfindlich ausfallen.

Besonders riskant ist die Haltung, das Thema Trainingsdaten-Transparenz als abstrakte Compliance-Aufgabe zu behandeln. Es ist ein operatives Risiko. Wer keine Antworten auf berechtigte Auskunftsanfragen hat, wer nicht nachweisen kann, auf welcher Rechtsgrundlage bestimmte Daten ins Training geflossen sind, steht nicht nur vor regulatorischen Problemen. Er steht potenziell vor Urheberrechtsklagen, vor Datenschutzbeschwerden, vor Reputationsschäden.

Praktische Schritte für Bürgerinnen und Bürger

Das neue Auskunftsrecht nützt nur, wenn es aktiv genutzt wird. Wer wissen möchte, ob die eigenen Daten oder Werke in einem KI-Modell gelandet sind, sollte folgende Schritte kennen:

  • Schriftliche Anfrage beim Anbieter stellen: Richten Sie eine formelle Anfrage direkt an den Datenschutzbeauftragten des Unternehmens. Kombinieren Sie dabei den Auskunftsanspruch nach DSGVO-Artikel 15 mit dem Verweis auf die Transparenzpflichten der EU-KI-Verordnung. Das erhöht den rechtlichen Druck und macht deutlich, dass Sie die aktuelle Rechtslage kennen.
  • Frist setzen und dokumentieren: Anbieter haben nach der DSGVO in der Regel einen Monat Zeit, auf Auskunftsanfragen zu reagieren. Halten Sie Datum und Inhalt Ihrer Anfrage fest. Bleibt eine Antwort aus oder ist sie offensichtlich unvollständig, haben Sie damit eine klare Grundlage für eine Beschwerde.
  • Nationale Aufsichtsbehörde einschalten: In Deutschland ist primär die jeweils zuständige Landesdatenschutzbehörde erste Anlaufstelle für DSGVO-Beschwerden. Für Fragen rund um den AI Act werden die neu einzusetzenden nationalen KI-Behörden zuständig sein. Eine Doppelbeschwerde – bei Datenschutzbehörde und KI-Aufsicht – ist rechtlich zulässig und inhaltlich sinnvoll.
  • Verbraucherschutzorganisationen einbeziehen: Organisationen wie der Verbraucherzentrale Bundesverband oder Digitalrechte-NGOs wie noyb haben Erfahrung mit der Durchsetzung digitaler Auskunftsrechte. Gerade wenn es um strukturelle Verstöße geht, die viele Personen betreffen, lohnt sich die Koordination.

Für Kreativschaffende – Autorinnen, Fotografen, Übersetzer, Softwareentwickler – ist ein zusätzlicher Schritt relevant: Wenn Sie begründeten Verdacht haben, dass Ihre Werke Teil eines Trainingsdatensatzes waren, können Sie die Auskunft explizit auf urheberrechtlich relevante Datenquellen einschränken. Das schärft die Anfrage und erleichtert eine spätere rechtliche Einordnung.

Internationale Dimension: Was gilt außerhalb der EU?

Die EU-KI-Verordnung gilt nicht nur für europäische Unternehmen. Sie greift immer dann, wenn ein KI-System in der EU eingesetzt wird oder wenn die Ausgaben eines KI-Systems Nutzerinnen und Nutzer in der EU betreffen – unabhängig davon, wo das Unternehmen seinen Sitz hat. Das ist der sogenannte Marktortprinzip-Ansatz, den die EU bereits aus der DSGVO kennt und der sich dort als wirksam erwiesen hat.

Das bedeutet: Auch US-amerikanische oder asiatische KI-Anbieter, die ihre Produkte in Europa vertreiben, müssen die Transparenzpflichten erfüllen. Ob sie das tun werden, ist eine andere Frage. Große Plattformanbieter mit erheblichem EU-Marktanteil werden kaum das Risiko eingehen, regulatorische Konflikte mit europäischen Behörden zu riskieren. Kleinere Anbieter ohne starke Marktpräsenz hingegen könnten versuchen, die Durchsetzung zu umgehen – was dann eine Frage der behördlichen Kapazität und des politischen Willens ist.

Interessant wird in diesem Zusammenhang der Vergleich mit anderen Regulierungsansätzen: Die USA diskutieren auf Bundesebene weiterhin ohne verbindlichen KI-Rahmen, während Großbritannien nach dem Brexit einen bewusst weniger regulatorischen Kurs fährt. Das schafft für europäische Unternehmen kurzfristig Mehraufwand, mittelfristig aber einen Vertrauensvorsprung bei Kundinnen und Kunden, denen Datensouveränität wichtig ist. Wie die EU-KI-Verordnung die Rechte von Verbrauchern konkret stärkt, zeigt sich dabei nicht nur im Auskunftsrecht, sondern auch in den Pflichten zur Kennzeichnung automatisierter Inhalte und zur menschlichen Überprüfbarkeit bei folgenreichen Entscheidungen.

Was bleibt – und was noch fehlt

Die neuen Transparenzpflichten sind ein echter Fortschritt. Nicht weil sie alle Probleme lösen – das tun sie nicht. Sondern weil sie die Beweislast verschieben. Bisher mussten Betroffene, Rechteinhaber und Aufsichtsbehörden nachweisen, dass etwas falsch läuft. Jetzt müssen Anbieter dokumentieren, dass es richtig läuft. Das ist ein grundlegend anderer Ausgangspunkt für jeden Rechtsstreit.

Was noch fehlt, ist Klarheit über den konkreten Umfang der Auskunftspflichten für Bürgerinnen und Bürger bei GPAI-Modellen. Wie detailliert muss eine Antwort sein? Welche Aufschlüsselung reicht? Diese Fragen werden Durchführungsakte, Leitlinien des EU-KI-Büros und – unvermeidlich – erste Gerichtsurteile klären. Das dauert. Bis dahin bleibt das Recht auf Papier zwar real, in der Durchsetzung aber noch unvollständig.

Mein Fazit, so klar wie möglich: Wer KI-Modelle betreibt und noch keine systematische Dokumentation seiner Trainingsdaten aufgebaut hat, hat keine Zeit mehr zu verlieren. Und wer als Bürger oder Rechteinhaber verstehen will, wie ein Modell gebaut wurde, das mit seinen Daten oder Werken arbeitet, hat jetzt erstmals eine rechtliche Grundlage, um diese Frage zu stellen. Ob die Antworten kommen werden, die sie verdienen – das ist die entscheidende Frage für die nächsten Jahre.

Welche Datenqualitätsstandards der AI Act in Artikel 10 konkret verlangt, ist öffentlich zugänglich. Die Lektüre lohnt sich – für Entwickler, für Juristen, und für alle, die verstehen wollen, was „KI-Trainingsdaten“ jetzt rechtlich bedeutet.

Was werden die ersten Musterfälle zeigen? Wer wird als Erster klagen – und wer wird als Erster nachgeben?

Was halten Sie von dem Thema? Hier können Sie mit anderen Leserinnen und Lesern ins Gespräch gehen.