Der EU AI Act verlangt von KI-Betreibern, die Herkunft ihrer Trainingsdaten offenzulegen. Klingt gut – ist aber in der Praxis kaum umsetzbar. Denn die KI-Systeme selbst wissen oft nicht, woher ihr Wissen stammt. Ein Widerspruch, der die Umsetzung der Verordnung erschwert.
Es war einer der Punkte, auf die Datenschützer bei der Verabschiedung des AI Acts hingewiesen haben: Die Transparenzpflichten sind nur so gut wie ihre Durchsetzbarkeit. Und jetzt zeigt sich, dass diese Durchsetzbarkeit ein großes Problem hat. Denn die meisten KI-Systeme können gar nicht genau sagen, woher ihre Fähigkeiten kommen. Das ist kein technisches Versagen – es ist ein grundlegendes Problem der Art, wie moderne KI funktioniert, das wir bei digital-magazin.de für wichtig genug halten, um es ausführlich zu beleuchten.
Moderne KI-Systeme, insbesondere große Sprachmodelle, werden mit riesigen Datenmengen trainiert. Diese Daten stammen aus dem Internet, aus Büchern, aus lizenzierten Korpora. Das Training ist ein iterativer Prozess, bei dem Milliarden von Parametern angepasst werden. Am Ende steht ein System, das bestimmte Fähigkeiten zeigt – aber dessen exakte Funktionsweise auch für die Entwickler selbst nicht vollständig transparent ist. Das ist keine Schwäche bestimmter Unternehmen – es ist ein prinzipielles Problem, das die gesamte Branche betrifft.
Das ist das sogenannte Black-Box-Problem. Wenn ein KI-System eine Information generiert, können die Entwickler oft nicht genau sagen, welche Trainingsdaten diesen Output beeinflusst haben. Es gibt Ansätze wie Attention-Analysen, die zeigen, auf welche Teile des Inputs sich das Modell konzentriert, aber eine vollständige Rückverfolgung ist bei Modellen mit Hunderten von Milliarden Parametern praktisch unmöglich. Das ist keine Schwäche der konkreten Implementierung – es ist ein prinzipielles Problem, das tiefer liegt, als viele denken.
Für den AI Act ist das eine massive Herausforderung. Die Verordnung verlangt von Betreibern hochriskanter KI-Systeme, die Herkunft der Trainingsdaten zu dokumentieren und bei Bedarf offenzulegen. Aber wenn der Betreiber selbst nicht weiß, woher bestimmte Fähigkeiten kommen, wie soll er diese Information dann bereitstellen? Das ist keine rhetorische Frage – es ist eine genuine regulatorische Herausforderung, die noch nicht gelöst ist und die die Aufsichtsbehörden vor große Probleme stellt.
Die relevanten Artikel des AI Acts betreffen vor allem die Hochrisiko-Kategorie. Artikel 10 fordert, dass für Hochrisiko-KI-Systeme spezifische Datengovernance-Praktiken angewendet werden, einschließlich der Dokumentation von Datenherkunft, Datensammlungsprozessen und relevanten Dateneigenschaften. Das klingt erstmal machbar – aber die Realität ist komplizierter, als es auf den ersten Blick aussieht, und die Lücken tun sich auf, sobald man genauer hinsieht.
Konkreter bedeutet das: Unternehmen müssen nachweisen können, woher ihre Trainingsdaten kommen, wie sie bereinigt wurden, und welche Schritte unternommen wurden, um Verzerrungen zu reduzieren. Das klingt nach einem klaren Anforderungskatalog – aber bei genauerer Betrachtung zeigen sich die Lücken. Denn selbst wenn ein Unternehmen weiß, welche Daten es verwendet hat, kann es nicht garantieren, dass in den Quelldaten keine Verzerrungen stecken, die das Modell übernommen hat. Und das ist ein Problem, das sich nicht einfach lösen lässt.
Nehmen wir ein konkretes Beispiel: Ein Unternehmen trainiert ein KI-System zur Lebenslauf-Analyse für HR-Abteilungen. Die Trainingsdaten stammen aus verschiedenen Quellen: öffentlich zugängliche Lebensläufe, lizenzierte Datensätze, interne Daten des Unternehmens. Das Unternehmen kann dokumentieren, welche Quellen es genutzt hat. Aber es kann nicht garantieren, dass die originalen Lebensläufe nicht bereits Verzerrungen enthalten – etwa durch historische Benachteiligung bestimmter Gruppen. Die EU-KI-Verordnung ist ein Thema, das wir intensiv begleiten.

Es gibt mehrere Ebenen, auf denen die Transparenzpflichten an ihre Grenzen stoßen. Die technischen Grenzen sind dabei nur der Anfang: Bei Modellen mit mehreren hundert Milliarden Parametern ist eine vollständige Rückverfolgung der Datenherkunft nicht möglich. Die Systeme sind zu komplex, und die Wechselwirkungen zwischen Trainingsdaten und Output zu undurchsichtig. Das ist eine Tatsache, die regulatorisch anerkannt werden muss, wenn die Verordnung nicht zu einem bürokratischen Flickenteppich verkommen soll.
Hinzu kommen Dokumentationslücken: Viele Trainingsdatensätze sind nicht ausreichend dokumentiert. Open-Source-Datensätze, die im Internet frei verfügbar sind, haben oft keine klaren Angaben zur Lizenz oder Herkunft. Wenn ein KI-Unternehmen solche Daten nutzt, kann es nicht immer die volle Herkunft nachweisen. Und das ist ein Problem, das nicht so leicht zu lösen ist wie die technische Integration – es erfordert eine Änderung der Art und Weise, wie Daten dokumentiert und geteilt werden.
Ein weiterer Punkt ist die kommerziellen Vertraulichkeit: Einige KI-Unternehmen argumentieren, dass die Offenlegung ihrer Trainingsdaten Geschäftsgeheimnisse offen legen würde. Wenn ein Konkurrent erfährt, welche Daten für ein erfolgreiches Modell genutzt wurden, könnte er diese Informationen für sein eigenes Training verwenden. Das ist ein verständliches Argument – aber es steht im Widerspruch zu den Transparenzanforderungen des AI Acts, und dieser Widerspruch ist nicht leicht aufzulösen.
Der Europäische Datenschutzbeauftragte (EDPS) hat kürzlich Leitlinien veröffentlicht, die versuchen, das Problem einzuschränken. Der sogenannte „EDPS Compass“ konkretisiert, wie die AI-Act-Vorgaben in Bezug auf Datenschutz ausgelegt werden sollen. Das ist ein Schritt in die richtige Richtung – aber es löst das grundlegende Problem nicht, das tiefer liegt als viele denken und das noch lange nicht gelöst ist.
Ein zentraler Punkt: Die Transparenzpflichten gelten nicht nur für Trainingsdaten, sondern auch für die Verarbeitung personenbezogener Daten während des Trainings. Das bedeutet: Selbst wenn die Herkunft der Trainingsdaten nicht vollständig nachvollziehbar ist, müssen Unternehmen dokumentieren, welche personenbezogenen Daten dabei eine Rolle gespielt haben und wie diese verarbeitet wurden. Das verschiebt das Problem, löst es aber nicht – und kann sogar neue Probleme schaffen, wenn die Dokumentation unvollständig ist.
Denn auch hier stellt sich die Frage: Wenn ein Modell mit Milliarden von Datenpunkten trainiert wurde, wie soll ein Unternehmen dokumentieren, welche personenbezogenen Daten dabei eine Rolle gespielt haben? Die Antwort ist: Es kann nur einen Teil davon dokumentieren – und das ist möglicherweise nicht genug, um den Anforderungen des AI Acts vollständig zu entsprechen. Das ist eine Lücke, die noch geschlossen werden muss – und zwar nicht nur mit guten Absichten, sondern mit konkreten technischen Lösungen.
Die Konsequenzen für Unternehmen, die sich nicht vorbereiten, sind nicht zu unterschätzen. Bei Verstößen gegen den AI Act drohen empfindliche Strafen – bis zu 30 Millionen Euro oder 6 Prozent des weltweiten Jahresumsatzes, je nachdem, welcher Betrag höher ist. Für große Tech-Unternehmen sind das Beträge, die in die Milliarden gehen können. Aber auch für kleinere Unternehmen können die Strafen existenzbedrohend sein, wenn sie unvorbereitet getroffen werden.
Abgesehen von den finanziellen Strafen droht Reputationsschaden. In einer Zeit, in der Verbraucherinnen und Verbraucher zunehmend sensibel für Datenschutzfragen sind, kann ein Verstoß gegen den AI Act zu einem Imageproblem werden, das sich nicht einfach wieder reparieren lässt. Die Medienaufmerksamkeit für Datenschutzskandale ist hoch, und die социальные Netzwerke sorgen dafür, dass schlechte Nachrichten sich schnell verbreiten. Prävention ist deshalb immer besser als Reaktion.
Für Unternehmen, die hochriskante KI-Systeme einsetzen oder entwickeln, empfiehlt sich ein schrittweiser Ansatz zur Vorbereitung. Beginnen Sie mit einer Bestandsaufnahme: Welche KI-Systeme nutzen Sie, welche sind hochriskant, und wo liegen Ihre größten Lücken? Dann entwickeln Sie einen Maßnahmenplan, der priorisiert, welche Probleme zuerst angegangen werden. Und dann starten Sie mit der Umsetzung – nicht morgen, nicht übermorgen, sondern jetzt. Denn die Zeit rennt, und die Fristen des AI Acts nähern sich schneller, als viele denken.
Unternehmen, die hochriskante KI-Systeme betreiben oder entwickeln, stehen vor erheblichen Herausforderungen. Sie müssen nicht nur ihre aktuellen Trainingspraktiken überdenken, sondern auch Prozesse implementieren, die eine Dokumentation ermöglichen, die bei der derzeitigen technischen Realität kaum vollständig sein kann. Das ist keine leichte Aufgabe – und es ist auch keine, die man an einem Wochenende erledigen kann, sondern eine, die kontinuierliche Aufmerksamkeit und Investition erfordert.
Empfohlene Schritte für Unternehmen: Bauen Sie Datengovernance auf – wer seine Trainingsdaten nicht kennt, kann sie nicht dokumentieren. Der erste Schritt ist ein Inventory aller genutzten Datenquellen. Prüfen Sie Verträge mit Datenlieferanten – sind die Lizenzen klar dokumentiert? Können die Quellen nachgewiesen werden? Das ist mühsam, aber notwendig – und es ist besser, jetzt damit anzufangen, als später unter Druck geraten zu werden.
Verstärken Sie die technische Dokumentation – selbst wenn eine vollständige Rückverfolgung nicht möglich ist, sollte das, was dokumentiert werden kann, auch dokumentiert werden. Beziehen Sie Aufsichtsbehörden ein: Bei Unsicherheiten empfiehlt es sich, frühzeitig das Gespräch mit den zuständigen Behörden zu suchen. Das ist kein Zeichen von Schwäche – es ist ein Zeichen von Verantwortungsbewusstsein. Und es kann Ihnen später viel Ärger ersparen, wenn die Regulierung verschärft wird und Sie vorbereitet sind.
Die Transparenzpflichten des AI Acts waren ein wichtiger Fortschritt in der Regulierung von KI. Aber die technische Realität zeigt, dass einige der Anforderungen bei aktuellen Systemen nicht vollständig erfüllbar sind. Das ist kein Grund, die Regulierung abzulehnen – aber ein Grund, sie kritisch zu überprüfen und anzupassen, wo es sinnvoll ist, ohne die grundlegenden Ziele aus den Augen zu verlieren.
Eine mögliche Lösung wäre, die Anforderungen zu differenzieren: Für Systeme, bei denen eine vollständige Rückverfolgung möglich ist, sollten strenge Dokumentationspflichten gelten. Für Systeme, bei denen dies technisch nicht möglich ist, könnten alternative Nachweismethoden akzeptiert werden – etwa das Vorhalten von Prozessen und Methoden statt vollständiger Datenherkunft. Das wäre ein pragmatischer Ansatz, der die regulatorischen Ziele nicht aufgibt, aber die Realität anerkennt und umsetzbar macht.
Bis solche Änderungen kommen, müssen Unternehmen mit den aktuellen Anforderungen arbeiten. Das bedeutet: So viel Transparenz wie möglich, so viel Dokumentation wie machbar. Der AI Act ist ein lebendes Dokument – er wird sich weiterentwickeln, wie sich auch die Technologie weiterentwickelt. Und das ist auch gut so. Denn eine Regulierung, die sich nicht weiterentwickelt, wird irgendwann irrelevant – und das wäre schade um die guten Absichten, die am Anfang standen.
Wir bei digital-magazin.de werden die Umsetzung des AI Acts weiter beobachten und Sie über neue Entwicklungen informieren. Wenn Sie Fragen zur Regulierung haben, stehen wir Ihnen gerne zur Verfügung. Denn eines ist klar: Die Zukunft der KI in Europa hängt auch davon ab, ob es uns gelingt, Regulierung und Innovation in Einklang zu bringen – ein schwieriger Balanceakt, aber einer, der uns allen zugute kommt, wenn er gelingt.
Um Ihnen ein optimales Erlebnis zu bieten, verwenden wir Technologien wie Cookies, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Wenn Sie diesen Technologien zustimmen, können wir Daten wie Ihr Surfverhalten oder eindeutige IDs auf dieser Website verarbeiten. Wenn Sie Ihre Zustimmung nicht erteilen oder widerrufen, können bestimmte Merkmale und Funktionen beeinträchtigt werden.