Am 18. Dezember 2025 hat die BaFin ihre Orientierungshilfe zu IKT-Risiken beim Einsatz von KI in Finanzunternehmen veröffentlicht – und viele Compliance-Abteilungen deutscher Banken dürften seitdem unruhiger schlafen. Modellvalidierung, vollständige Inventarisierung, lückenlose Protokollierung: Was bisher als Best Practice galt, rückt nun in den Fokus der Aufsicht. Wer die Anforderungen unterschätzt, riskiert nicht nur Kritik beim nächsten Prüfbesuch, sondern läuft in eine Compliance-Investitionswelle, die sich gewaschen hat.

Was die BaFin konkret von Banken verlangt

Die Orientierungshilfe der BaFin ist formal unverbindlich. Das klingt erst einmal beruhigend. Der Haken: Unverbindlich bedeutet nicht folgenlos. Die Aufsicht hat damit ihren Erwartungshorizont schriftlich fixiert – und wer beim nächsten Audit keine Antworten auf die darin gestellten Fragen hat, erklärt sich vor Prüfern selbst zur roten Flagge. Konkret listet das Dokument auf, was Banken beim Einsatz von KI-Systemen sicherstellen sollen: vollständige Inventarisierung aller KI-Komponenten als IKT-Assets, risikobasierte Klassifizierung, kontinuierliche Überwachung über den gesamten Lebenszyklus und eine lückenlose Dokumentation von Entscheidungen, Modellversionen und Trainingsdaten.

Zum Vergleich: Noch vor drei Jahren diskutierten Banken KI vor allem als Effizienzthema – Kostensenkung hier, Betrugserkennung dort. Die BaFin betrachtet KI seit der Orientierungshilfe ausdrücklich als IKT-Risiko, gleichrangig mit IT-Sicherheit, Auslagerungssteuerung und Betriebsresilienz. Das ist ein Paradigmenwechsel, der sich in Governance-Budgets niederschlagen wird.

Die Bundesbank hat das Thema parallel auf der BaFinTech 2025 Konferenz aufgegriffen. Dort wurde deutlich: Generative KI in Bankensystemen ist kein Randthema mehr, sondern steht im Zentrum des aufsichtlichen Interesses. Digitalisierung bleibt für 2025 und 2026 ein ausgewiesenes BaFin-Fokusrisiko – das steht schwarz auf weiß in den veröffentlichten Fokusrisiken der Behörde.

Modellvalidierung: Der Kern der neuen Anforderungen

Rechnen wir nach, was Modellvalidierung in der Praxis bedeutet. Ein Kreditscoring-Modell, das auf historischen Transaktionsdaten trainiert wurde, trifft täglich tausende Entscheidungen. Ohne regelmäßige Validierung weiß niemand, ob das Modell heute noch das leistet, wofür es vor zwei Jahren freigegeben wurde. Datendrift, veränderte Kundenpopulationen, makroökonomische Schocks – all das kann ein Modell still und leise in die Fehlerhaftigkeit treiben. Unter dem Strich haftet die Bank für die Ergebnisse.

Die BaFin empfiehlt für Entwicklung und Validierung bewährte Praktiken wie Unit-Tests, Integrationstests und Code-Reviews. Das klingt nach Software-Engineering-Standard – ist es auch. Der Punkt ist, dass viele Finanzinstitute diese Disziplin für KI-Modelle bisher nicht konsequent angewendet haben. Vor Produktivsetzung sind Initialvalidierungen sinnvoll; nach Produktivsetzung braucht es dokumentierte Folgevalidierungen, die Modellqualität, Robustheit und Drift systematisch prüfen.

Besonders heikel: Modelle, die für kritische oder wichtige Funktionen eingesetzt werden. Hier verlangt die BaFin lückenlose Protokollierung von KI-Entscheidungen, Modellversionen und Trainingsdaten. Wer sich fragt, warum das so detailliert sein muss: Stellen Sie sich eine Kreditablehnung vor, die angefochten wird. Ohne Protokoll können weder Compliance noch Revision nachvollziehen, welches Modell in welcher Version zu welchem Zeitpunkt mit welchen Daten zu diesem Ergebnis gekommen ist. Das ist kein theoretisches Szenario – das ist Alltag in jedem strittigen Kundenfall.

Governance-Roadmap: Mehr als ein Organigramm

Banken-Governance bedeutet im KI-Kontext nicht, dass irgendwo im Intranet ein Grundsatzdokument schlummert. Die BaFin erwartet eine Roadmap, die den gesamten Lebenszyklus eines KI-Systems abdeckt: von der Beschaffung oder Entwicklung über die Freigabe bis zum Monitoring, zur Eskalation und – das wird gern vergessen – zum geordneten Abschalten. Zuständigkeiten müssen klar definiert sein, Freigabeprozesse dokumentiert, Schwellenwerte für Alarmierung hinterlegt.

Meiner Einschätzung nach ist genau dieser Punkt der aufwendigste Teil der kommenden Compliance-Welle. Modellvalidierung kann man als Projekt planen und abarbeiten. Eine lebendige Governance-Roadmap hingegen erfordert kontinuierliche Pflege, klare Ownership und regelmäßige Review-Zyklen. Wer das in bestehende Strukturen integrieren will, stößt schnell auf organisatorische Reibungspunkte: Wer ist für das KI-System im Kernbankbereich zuständig – IT, Fachabteilung oder Risikomanagement?

Ein weiterer Aspekt, den die BaFin ausdrücklich adressiert: Auslagerungsrisiken. KI-Systeme laufen heute selten auf eigenen Servern. Cloud-Abhängigkeiten, externe Modellbetreiber, eingekaufte Scoring-Dienste – all das ist Teil des IKT-Risikomanagements und muss in die Governance-Roadmap einfließen. Eine Bank, die ein Kreditrisiko-Modell als SaaS-Lösung einkauft, ist nicht automatisch aus der Verantwortung entlassen. Sie haftet für die Ergebnisse – und muss nachweisen können, dass sie den Anbieter angemessen überwacht.

Schatten-KI: Der unterschätzte Haken

Hier wird es unangenehm. Fachbereiche installieren KI-Tools, ohne die IT oder Compliance einzubinden. Generative KI als Browser-Plugin, ChatGPT-ähnliche Interfaces für die Kreditanalyse, automatisierte Auswertungen in Excel-Add-ins – das läuft in vielen Instituten längst, ohne dass irgendjemand eine Inventarliste führt. Die BaFin stellt in ihrer Orientierungshilfe klar: Auch nicht formell freigegebene Systeme und KI-Komponenten in Standardsoftware sollen inventarisiert werden.

Das ist, mit Verlaub, eine Herausforderung der anderen Art. Es geht nicht nur darum, bekannte KI-Systeme ordentlich zu dokumentieren. Es geht darum, erst einmal herauszufinden, was überhaupt im Einsatz ist. Wer glaubt, das sei in seinem Institut kein Problem, sollte einmal die IT-Abteilung fragen, welche KI-Features in den aktuellen Microsoft-365- oder Salesforce-Lizenzen aktiv sind. Die Antwort wird selten beruhigend sein.

Schatten-KI ist damit zu einem zentralen Governance-Risiko geworden. Wer als Bank KI-Risikomanagement ernst nimmt, muss eine systematische Inventur aller datengetriebenen Prozesse starten – und das schließt eingekaufte Software, Drittanbieter-APIs und browserbasierte Tools explizit ein. Unter dem Strich ist das eine Aufgabe, die weit über die klassische IT-Revision hinausgeht.

Praktische Schritte zur Schatten-KI-Kontrolle

Für Institute, die jetzt mit der Inventarisierung beginnen wollen, empfehlen sich in der Praxis drei Einstiegspunkte: Erstens eine strukturierte Befragung aller Fachbereiche zu genutzten datengetriebenen Tools – mit expliziter Frage nach Browser-Erweiterungen, Add-ins und cloudbasierten Diensten. Zweitens ein technisches Scanning des ausgehenden Netzwerkverkehrs auf bekannte KI-Dienste und API-Endpunkte. Drittens die Einbindung des Einkaufs: Welche Softwarelizenzen wurden in den vergangenen 24 Monaten erworben, die KI-Funktionalitäten beinhalten? Diese drei Quellen zusammen geben ein realistischeres Bild als jede IT-Revision allein. Das Ergebnis ist häufig ernüchternd – und genau deshalb notwendig.

Unit-Tests, Integrationstests, Drift-Monitoring: Die BaFin nennt konkrete technische Praktiken für die Modellvalidierung im Bankenumfeld. (Symbolbild)

DORA und EU AI Act: Zwei Uhren, eine Bank

Die BaFin-Orientierungshilfe verweist ausdrücklich auf DORA als regulatorischen Rahmen. Das Digital Operational Resilience Act ist seit Januar 2025 anwendbar und stellt bereits klare Anforderungen an IKT-Risikomanagement, Resilienztests und die Steuerung von IKT-Drittparteien. Die BaFin-Orientierungshilfe übersetzt DORA-Anforderungen jetzt konkret auf KI-Systeme – was viele Institute bisher als separate Themen behandelt haben, wächst damit zusammen.

Parallel läuft der EU AI Act. In Kraft getreten am 1. August 2024, greifen erste Pflichten für verbotene KI-Anwendungen seit dem 2. Februar 2025. Weitere Fristen für Hochrisikosysteme folgen gestaffelt in 2025 und 2026. Für Banken bedeutet das: Sie managen gleichzeitig DORA-Compliance, KI-Act-Fristen und die BaFin-Erwartungen aus der Orientierungshilfe. Wer diese drei Uhren nicht synchronisiert, riskiert, an allen Fronten gleichzeitig zu stolpern.

Zum Vergleich: Ein mittelgroßes deutsches Kreditinstitut, das bisher jährlich rund 500.000 Euro in Compliance-IT investiert hat, dürfte nach seriöser Schätzung für KI-Governance-Strukturen, Modellvalidierungsprozesse und DORA-KI-Überschneidungen zusätzlich in einer ähnlichen Größenordnung planen müssen. Konkrete Marktzahlen zeigen, dass der globale Banking-Sektor 2025 rund 58 Milliarden US-Dollar für KI, Cloud und Datenschutz aufwendet – Tendenz steigend. Der Anteil, der auf Governance und Risikomanagement entfällt, wächst dabei überproportional.

Regulatorische Synchronisierung als Strategie

Die zentrale Herausforderung liegt nicht darin, jedes Regelwerk einzeln abzuarbeiten, sondern ein integriertes Compliance-Framework aufzubauen, das DORA, EU AI Act und BaFin-Erwartungen gemeinsam adressiert. In der Praxis bedeutet das: KI-Systeme sollten von Anfang an mit einer gemeinsamen Klassifizierungslogik bewertet werden, die sowohl die DORA-Kategorien für kritische IKT-Dienste als auch die Risikoklassen des EU AI Act berücksichtigt. Wer etwa ein KI-System für die Bonitätsbewertung als Hochrisikosystem nach EU AI Act einstuft, sollte dieselbe Einstufung automatisch in das DORA-IKT-Register und die BaFin-Inventarisierung überführen. Ein dreifach geführtes Parallelregister kostet Ressourcen ohne Erkenntnisgewinn. Die Regulierung mag aus drei verschiedenen Quellen stammen – die Trends im Banking 2025 zeigen aber deutlich, dass Institute mit konsolidierter Governance-Architektur schneller und kostengünstiger auf neue Anforderungen reagieren als solche, die Compliance-Silos pflegen.

Bias und Erklärbarkeit: Die unterschätzten Haftungsrisiken

Die BaFin benennt in ihrer Orientierungshilfe explizit, dass KI-Modelle im Finanzsektor oft nicht erklärbar und schwer überprüfbar sind. Datenungleichgewichte können zu Bias führen – und Bias im Kreditscoring oder in der Versicherungsbewertung ist kein akademisches Problem. Es ist ein handfestes Diskriminierungs- und Haftungsrisiko.

Rechnen wir nach: Wenn ein Modell systematisch bestimmte Postleitzahlen schlechter bewertet, weil historische Ausfallquoten in diesen Gebieten höher waren, reproduziert es strukturelle Benachteiligungen. Unter dem Strich haftet die Bank, wenn ein Gericht entscheidet, dass die Kreditvergabe diskriminierend war – unabhängig davon, ob das Modell das bewusst oder „nur algorithmisch“ getan hat. Das Allgemeine Gleichbehandlungsgesetz, kurz AGG, gilt auch für automatisierte Entscheidungen.

Explainability ist deshalb kein Nice-to-have. Sie ist die Grundvoraussetzung dafür, dass eine Bank im Streitfall überhaupt nachweisen kann, dass eine Entscheidung rechtmäßig war. Adversarial Testing – also das gezielte Angreifen eines Modells mit konstruierten Extremfällen – und enge Drift-Überwachung mit definierten Schwellenwerten und automatischer Alarmierung sind aus Expertensicht keine Übertreibung, sondern der Standard, den die Aufsicht zunehmend erwartet.

Gegenargument: Zu viel Dokumentation bremst Innovation

Ein häufig gehörter Einwand aus Fachbereichen lautet: Wer jeden Modellschritt dokumentieren, validieren und freigeben lassen muss, verliert den Geschwindigkeitsvorteil, den KI überhaupt erst bringt. Das ist kein unberechtigter Einwand. Tatsächlich können überbürokratisierte Freigabeprozesse dazu führen, dass sinnvolle KI-Anwendungen intern schlicht nicht weiterverfolgt werden – und Fachabteilungen stattdessen in die Schatten-KI ausweichen, was das Risiko erhöht statt senkt. Die Lösung liegt in proportionalen Prozessen: Ein KI-gestütztes Textvorschlag-Tool für das interne Protokollwesen braucht keinen vierstufigen Freigabeprozess. Ein KI-Modell, das über Kreditvergabe oder Zahlungsverkehr-Anomalien entscheidet, schon. Risikobasierte Governance bedeutet also auch, niedrigschwellige KI-Nutzung nicht mit denselben Anforderungen zu belegen wie systemkritische Entscheidungsmodelle. Nur wer diese Differenzierung konsequent umsetzt, kann Compliance und Innovationsgeschwindigkeit gleichzeitig sichern.

Was das konkret kostet – und was es bringt

Ist KI-Risikomanagement also nur ein Kostentreiber? Nicht ganz. Konkret lässt sich argumentieren: Wer heute in saubere Modellvalidierung und Banken-Governance investiert, spart morgen teure Nacharbeiten nach Prüfbeanstandungen. Ein nachträglicher Aufbau von Governance-Strukturen unter Aufsichtsdruck kostet erfahrungsgemäß ein Vielfaches dessen, was eine proaktive Implementierung gekostet hätte. Das ist keine neue Erkenntnis aus der Regulierungsgeschichte – aber sie gilt hier genauso.

Die Rendite liegt also nicht im klassischen Sinn, sondern im vermiedenen Schaden: keine Reputationsrisiken durch unkontrollierte KI-Entscheidungen, keine Haftungskosten bei Diskriminierungsfällen, keine Prüfungsbeanstandungen wegen fehlender Dokumentation. Hinzu kommt ein struktureller Vorteil: Banken mit sauberer KI-Governance können neue KI-Systeme schneller und sicherer in Produktion bringen – weil die Freigabeprozesse stehen und nicht jedes Mal neu erfunden werden müssen.

Meiner Meinung nach unterschätzen viele Institute noch immer, wie stark sich die Aufsichtserwartungen in den nächsten 18 Monaten konkretisieren werden. Die Orientierungshilfe ist heute unverbindlich. Wer ihre Inhalte aber ignoriert, erklärt sich selbst zum Nachzügler – in einer Phase, in der die BaFin Digitalisierung explizit als Fokusrisiko führt.

Was bleibt: Eine offene Rechnung

Die BaFin hat mit der Orientierungshilfe vom 18. Dezember 2025 den Startpunkt für eine neue Compliance-Welle gesetzt. Modellvalidierung, vollständige Inventarisierung, Governance-Roadmaps über den gesamten KI-Lebenszyklus, Schatten-KI-Kontrolle, DORA-Verzahnung, Bias-Monitoring – das ist kein Wunschkonzert, sondern ein Arbeitsprogramm. Konkret stellt sich jetzt die Frage: Wann beginnen Institute, die noch keine strukturierte KI-Governance haben, mit der Inventur aller datengetriebenen Prozesse?

Wer wartet, bis die Anforderungen formal verbindlich werden, spielt auf Zeit, die er womöglich nicht hat. Die gestaffelten Fristen des EU AI Act, die laufende DORA-Anwendung und die klaren Erwartungen der BaFin bilden zusammen ein regulatorisches Gefüge, das enger wird – Quartal für Quartal. Welche Bank in Deutschland wird als erste mit einer vollständig dokumentierten, validierten und auditfähigen KI-Governance-Architektur in eine Prüfung gehen – und welche erklärt noch, warum das bei ihr „noch im Aufbau“ ist?

KI-Risikomanagement im Bankensektor: Was die BaFin-Orientierungshilfe jetzt konkret fordert

Was die BaFin konkret von Banken verlangt

Modellvalidierung: Der Kern der neuen Anforderungen

Governance-Roadmap: Mehr als ein Organigramm

Schatten-KI: Der unterschätzte Haken

Praktische Schritte zur Schatten-KI-Kontrolle

DORA und EU AI Act: Zwei Uhren, eine Bank

Regulatorische Synchronisierung als Strategie

Bias und Erklärbarkeit: Die unterschätzten Haftungsrisiken

Gegenargument: Zu viel Dokumentation bremst Innovation

Was das konkret kostet – und was es bringt

Was bleibt: Eine offene Rechnung

Mitreden & diskutieren

Was die BaFin konkret von Banken verlangt

Modellvalidierung: Der Kern der neuen Anforderungen

Governance-Roadmap: Mehr als ein Organigramm

Schatten-KI: Der unterschätzte Haken

Praktische Schritte zur Schatten-KI-Kontrolle

DORA und EU AI Act: Zwei Uhren, eine Bank

Regulatorische Synchronisierung als Strategie

Bias und Erklärbarkeit: Die unterschätzten Haftungsrisiken

Gegenargument: Zu viel Dokumentation bremst Innovation

Was das konkret kostet – und was es bringt

Was bleibt: Eine offene Rechnung

Auch interessant

KI-Agenten im Banking: Was Deutsche Bank und Commerzbank wirklich tun

Ubiquiti UniFi Dream Machine Pro SE: Wi-Fi 7 und Netzwerk-AI – was stimmt wirklich?

AI Act nationale Umsetzung: Wie Deutschland, Frankreich und Benelux beim Enforcement auseinanderdriften