Die Bankenaufsicht schaut genauer hin – und zwar nicht nur auf Bilanzen, sondern zunehmend auf die Algorithmen, die Kreditentscheidungen, Betrugserkennungen und Preismodelle antreiben. Wer als FinTech KI-Modelle produktiv einsetzt, ohne ein belastbares Modellrisiko-Management dahinterzustellen, riskiert aufsichtliche Konsequenzen. Rechnen wir nach, was das konkret bedeutet.

KI-Modelle unter Aufsicht: Der regulatorische Rahmen wächst

Die BaFin hat am 18. Dezember 2025 eine Orientierungshilfe zu IKT-Risiken beim Einsatz von KI veröffentlicht. Das Dokument ist formal unverbindlich – der Haken steckt im Detail: Es bildet ab, was die Aufsicht als wirksames Risikomanagement versteht, und Prüfer orientieren sich genau daran. Wer die Leitlinie ignoriert, erklärt im nächsten Gespräch mit der Aufsicht, warum seine Struktur trotzdem ausreicht. Das ist eine schwache Ausgangsposition.

Parallel dazu ist der EU AI Act seit dem 1. August 2024 in Kraft. Die Pflichten treffen Institute gestaffelt, Hochrisikoanwendungen in der Finanzbranche vollständig ab 2026 beziehungsweise 2027. Für KI-Modelle in der Kreditvergabe, im AML-Scoring oder im algorithmischen Pricing läuft die Uhr also bereits. Bereits 2021 hatte die BaFin gemeinsam mit der Deutschen Bundesbank ein Konsultationspapier zu „Maschinellem Lernen in Risikomodellen“ veröffentlicht – das war der Startschuss dafür, dass KI-Finanzmodelle nicht mehr als reines IT-Thema gelten, sondern als Modell-, Governance- und IKT-Risiko zugleich.

Aus meiner Sicht ist genau diese Dreiteilung das, was viele FinTech-Teams noch unterschätzen. Ein Entwickler denkt an Modellgenauigkeit. Ein Compliance-Manager denkt an Dokumentation. Aber die Aufsicht denkt an alle drei Dimensionen gleichzeitig – und erwartet, dass das Institut das auch tut.

Was Modellrisiko wirklich kostet: Konkrete Rechenbeispiele

Modellrisiko klingt abstrakt. Rechnen wir nach, was ein schlecht kontrolliertes KI-Modell im Kreditbetrieb kosten kann. Nehmen wir ein mittelgroßes FinTech, das monatlich 5.000 Konsumentenkredite über ein internes Scoring-Modell vergibt, Durchschnittswert 8.000 Euro pro Kredit. Das ergibt ein monatliches Volumen von 40 Millionen Euro.

Wenn das Modell durch Datendrift – also eine schleichende Verschiebung der Eingangsdaten gegenüber dem Trainingsstand – systematisch 2 Prozent der Kreditnehmer falsch einschätzt, spricht man von 100 Fällen pro Monat. Bei einer angenommenen Ausfallquote in dieser Fehlergruppe von 15 Prozent entstehen monatliche Mehrausfälle von 100 × 8.000 Euro × 0,15 = 120.000 Euro. Hochgerechnet auf zwölf Monate sind das 1,44 Millionen Euro an direktem Kreditverlust, der sich ohne laufendes Monitoring über Monate unbemerkt aufbaut.

Zum Vergleich: Ein sauber aufgesetztes Monitoring-System mit quartalsweisem Validierungszyklus und automatisiertem Drift-Alert kostet ein mittelgroßes FinTech in der Implementierung erfahrungsgemäß zwischen 80.000 und 200.000 Euro. Unter dem Strich ist das eine sehr überschaubare Versicherungsprämie gegen Millionenverluste – ganz abgesehen von regulatorischen Konsequenzen.

Stresstests für KI-Modelle: Was die Aufsicht erwartet

Der Begriff Stresstest ist in der Finanzbranche aus der Kapitalplanung bekannt. Bei KI-Finanzmodellen bedeutet er etwas Verwandtes, aber Eigenständiges: Wie verhält sich das Modell, wenn die Eingangsdaten stark vom Trainingsstand abweichen? Wenn ein Marktschock eintritt, wenn Betrugsszenarien sich verändern, wenn Kunden auf ungewöhnliche Weise clustern?

Laut einer IBM-Erhebung geben mehr als 60 Prozent der befragten Finanzinstitute an, in Stresstest-Simulationen investieren zu müssen, um neue KI-Anwendungsfälle kontrolliert validieren zu können. Gleichzeitig sehen 46 Prozent eine relevante Lücke bei der Kontrolle von Risiken über alle KI-Use-Cases hinweg. Das sind keine Randthemen – das sind Mehrheitspositionen in der Branche.

Konkret erwartet die Aufsicht dabei mehr als ein einmaliges Backtesting beim Modell-Launch. Gefragt sind Szenario-Tests unter Stressbedingungen, Robustheitsprüfungen bei synthetisch veränderten Datensätzen und Dokumentation, die zeigt, dass das Institut weiß, wo sein Modell an Grenzen stößt. Wer die BaFin-Orientierungshilfe vom Dezember 2025 liest, findet diese Erwartungen explizit unter dem Stichwort IKT-Resilienz formuliert – KI-Modelle sind demnach Teil der operationellen Widerstandsfähigkeit eines Instituts, nicht ein Zusatz dazu.

Dokumentationspflichten: Der bürokratische Preis für Modellfreiheit

Ein KI-Modell zu betreiben, ohne lückenlose Dokumentation zu führen, ist im regulierten Finanzumfeld keine Option mehr. Die Aufsicht erwartet ein Modellinventar, das alle produktiv eingesetzten Modelle erfasst: Zweck, Dateninputs, Trainingsstand, Versionierung, verantwortliche Personen und Ergebnisse der letzten Validierung. Das klingt nach Projektmanagement – ist aber faktisch eine Compliance-Pflicht.

Der Haken bei vielen FinTechs liegt nicht im Willen, sondern in der Struktur. Wer mit einem kleinen Data-Science-Team schnell iteriert, hat nach sechs Monaten zehn Modellversionen in Produktion, von denen dokumentiert ist vielleicht die Hälfte. Aufsichtlich problematisch ist das besonders dann, wenn das Modell Kreditentscheidungen mitbestimmt – denn dann greifen neben DORA auch Anforderungen aus der Kreditwesengesetz-Logik und perspektivisch die Hochrisiko-KI-Pflichten des EU AI Act.

Rechnen wir nach, was eine nachträgliche Dokumentation kostet: Ein externer Compliance-Berater setzt für die rückwirkende Dokumentation von fünf KI-Modellen erfahrungsgemäß 15 bis 20 Beratertage an – bei einem Tagessatz von 1.800 Euro macht das zwischen 27.000 und 36.000 Euro. Zum Vergleich: Eine strukturierte Dokumentationspflicht von Anfang an, eingebettet in den Entwicklungsprozess, kostet kaum Mehraufwand pro Sprintzyklus. Unter dem Strich ist das ein klarer Fall für Prävention.

Stresstest und Validierung: FinTech-Teams müssen KI-Modelle regelmäßig auf Datendrift und Robustheit prüfen. (Symbolbild)

Auslagerung und Drittanbieterrisiko: Wenn das Modell von außen kommt

Viele FinTechs nutzen keine selbst entwickelten KI-Modelle, sondern beziehen Scoring-Services, Betrugserkennung oder AML-Alerts von spezialisierten Drittanbietern. Das ändert die Verantwortungslage nicht grundsätzlich: Aufsichtlich bleibt das Institut für die Ergebnisse des Modells verantwortlich, auch wenn es extern entwickelt und betrieben wird.

Unter DORA-Logik gilt ein solcher Anbieter als IKT-Drittdienstleister. Das bedeutet: vertragliche Exit-Optionen, Auditrechte, Incident-Meldepflichten und Nachweis über die Kritikalität des Services. Für ein FinTech, das sein AML-Scoring vollständig an einen Cloud-Anbieter ausgelagert hat, ohne diese Struktur vertraglich abzusichern, entsteht ein doppeltes Risiko – operationell und regulatorisch.

Die Deutsche Bundesbank betont in ihrem Konsultationspapier zu maschinellem Lernen in Risikomodellen explizit, dass die Nachvollziehbarkeit eines Modells auch dann gesichert sein muss, wenn es von einem Dritten stammt. Das Institut muss erklären können, wie das Modell zu seinen Ergebnissen kommt – eine Black Box mit guter Trefferquote reicht nicht aus.

Algorithmen für Renditekurvenanalysen oder Zinsprognosen, wie sie im algorithmischen Trading eingesetzt werden, unterliegen derselben Logik: Auch dort erwartet die Aufsicht, dass das Institut das Modell versteht, kontrolliert und bei Fehlfunktion abschalten kann.

Modellrisiko-Management organisatorisch verankern

Ein Modellrisiko-Management ist keine einmalige Projektaufgabe, sondern eine dauerhaft zu betreibende Funktion. Branchenvereinigungen wie FIRM beschreiben in einem Whitepaper aus September 2024 explizit, dass KI Banken und FinTechs zwar erhebliche Chancen bietet, aber nur dann kontrollierbar bleibt, wenn Governance-Strukturen, Validierungsfunktionen und Modellinventare organisatorisch verankert sind – nicht als Anhang zum IT-Betrieb, sondern als eigenständige Risikodisziplin.

Was das konkret bedeutet: Es braucht eine klare Verantwortlichkeit – in größeren Instituten eine dedizierte Model Risk-Funktion, in kleineren FinTechs mindestens eine benannte Person, die Modellvalidierung und Monitoring verantwortet und nicht gleichzeitig das Modell gebaut hat. Vier-Augen-Prinzip ist hier keine Formalität, sondern Mindeststandard.

Praktisch bewährt hat sich ein Stufenmodell: Modelle werden nach Kritikalität klassifiziert – zum Beispiel hoch (Kreditentscheidung, AML), mittel (Kundensegmentierung, Kampagnensteuerung) und niedrig (interne Analysetools ohne regulatorische Folgen). Hohe Kritikalität zieht vollständige Validierungsdokumentation, regelmäßige Stresstests und formelle Freigabeprozesse nach sich. Niedrige Kritikalität kann schlanker gehandhabt werden. Das spart Ressourcen, ohne die aufsichtlich relevanten Bereiche zu vernachlässigen.

Vertrauen als Governance-Frage: Warum Erklärbarkeit kein Luxus ist

Neben der formalen Dokumentationspflicht rückt ein weiteres Thema zunehmend ins Zentrum aufsichtlicher Erwartungen: die Erklärbarkeit von KI-Entscheidungen. Ein Modell, das korrekte Ergebnisse liefert, aber nicht erklären kann, warum es einen Kreditantrag ablehnt, ist aus regulatorischer Sicht problematisch – und aus Kundenschutzperspektive erst recht.

Der EU AI Act schreibt für Hochrisiko-KI explizit vor, dass betroffene Personen eine sinnvolle Erläuterung automatisierter Entscheidungen erhalten müssen. Das betrifft nicht nur das Endergebnis, sondern die wesentlichen Einflussfaktoren. Für FinTechs, die mit komplexen Ensemble-Modellen oder tiefen neuronalen Netzen arbeiten, ist das eine genuine technische Herausforderung: Interpretierbarkeit muss von Anfang an mitgedacht werden, nicht nachträglich eingefügt werden.

Methoden wie SHAP-Werte oder LIME ermöglichen es, den Beitrag einzelner Features zu einer Modellentscheidung zu quantifizieren und verständlich darzustellen. Das Vertrauen in KI-gestützte Systeme hängt dabei direkt davon ab, ob Nutzer und Aufseher gleichermaßen nachvollziehen können, nach welcher Logik ein Algorithmus urteilt. Wer diese Erklärbarkeit nicht liefern kann, riskiert nicht nur regulatorische Beanstandungen, sondern verliert auch das Vertrauen von Kunden und Geschäftspartnern – ein Schaden, der sich schwerer quantifizieren lässt als ein Kreditausfall, aber ebenso folgenreich ist.

Ein praktischer Ansatz für FinTechs: bereits in der Modellentwicklung festlegen, welche Erklärungsmethode für welchen Use Case geeignet ist, und diese Auswahl dokumentieren. Das reduziert den Aufwand im Nachgang erheblich und schafft gleichzeitig eine Grundlage für aufsichtliche Gespräche.

EU AI Act: Hochrisiko-KI im Finanzbereich – Zeitplan und Folgen

Der EU AI Act klassifiziert KI-Systeme für Kreditwürdigkeitsprüfungen und ähnliche bonitätsbezogene Entscheidungen als Hochrisiko-KI. Das hat konkrete Folgekosten: Konformitätsbewertung, technische Dokumentation, Registrierung in einer EU-Datenbank, Logs über ausreichend lange Zeiträume, menschliche Aufsicht und transparente Nutzerinformation.

Die Anforderungen treffen FinTechs tendenziell härter als etablierte Institute, weil sie oft mit schlankeren Compliance-Teams arbeiten. Ein FinTech, das ein KI-basiertes Kreditscoring als Hochrisiko-KI einstufen muss und dafür erstmals eine vollständige technische Dokumentation nach Anhang IV des EU AI Act erstellt, rechnet erfahrungsgemäß mit einem Aufwand von drei bis sechs Monaten und internen beziehungsweise externen Ressourcen im sechsstelligen Bereich.

Zum Vergleich: Wer jetzt beginnt, Trainingsdaten zu dokumentieren, Modellversionen sauber zu versionieren und Validierungsergebnisse revisionsfest zu speichern, baut de facto schon die Grundlage für die AI-Act-Konformität. Das ist keine doppelte Arbeit – es ist dasselbe Fundament, das BaFin und DORA bereits fordern. Unter dem Strich lohnt es sich also erheblich, die verschiedenen Regulatoriken als kohärentes System zu lesen, nicht als parallele Einzelbaustellen.

Regulierungsdruck als Wettbewerbsvorteil: Das Gegenargument zum Aufwand

Ein häufiges Gegenargument in FinTech-Teams lautet: Der Regulierungsaufwand bremst Innovation und bindet Ressourcen, die besser in Produktentwicklung fließen würden. Das Argument ist verständlich – aber es greift nur kurzfristig. Mittel- und langfristig verschiebt sich die Logik erheblich.

Institute, die frühzeitig robuste Governance-Strukturen für KI-Finanzmodelle aufgebaut haben, profitieren gleich mehrfach. Erstens verkürzen sich Prüfungszyklen, weil Dokumentation und Nachweise sofort abrufbar sind. Zweitens sinkt das Risiko kostspieliger Nachbesserungen unter Zeitdruck. Drittens – und das ist der strategisch relevanteste Punkt – öffnen sich Türen zu Kooperationen mit regulierten Banken und institutionellen Partnern, die ihrerseits Rechenschaft über ihre Drittanbieter ablegen müssen. Ein FinTech, das nachweislich DORA-konform und EU-AI-Act-ready ist, ist für solche Partner deutlich attraktiver als eines, das Compliance als Hemmnis betrachtet.

Hinzu kommt: Die Bankenaufsicht beobachtet auch, wie FinTechs mit aufsichtlichem Feedback umgehen. Wer proaktiv kommuniziert, Lücken einräumt und strukturierte Abhilfepläne vorlegt, wird anders bewertet als ein Institut, das jede Prüfungsfeststellung als überraschend darstellt. Auch das ist Teil des regulatorischen Reputationskapitals, das sich FinTechs aufbauen oder verspielen können. Letztlich gilt: Wer den Kostendruck durch strukturierte KI-Governance konsequent managt, wie es führende Banken im Umgang mit KI und Kostendruck bereits praktizieren, positioniert sich langfristig stabiler als Wettbewerber, die das Thema aufschieben.

Was bleibt – und was FinTechs jetzt tun sollten

Die Richtung ist eindeutig: KI-Finanzmodelle werden nicht weniger reguliert, sondern mehr. Die Frage für FinTechs ist nicht ob, sondern wann und mit welchen Ressourcen sie ein belastbares Modellrisiko-Management aufbauen. Wer wartet, bis die Aufsicht im Rahmen einer Prüfung nachfragt, zahlt den höheren Preis – in Beratungskosten, Nachbesserungsaufwand und im schlechtesten Fall in einem öffentlichkeitswirksamen Incident.

Drei konkrete Schritte, die sich unmittelbar umsetzen lassen: Erstens ein vollständiges Inventar aller produktiv eingesetzten Modelle anlegen, inklusive Kritikalitätseinstufung. Zweitens für hochkritische Modelle einen Validierungs- und Monitoringzyklus definieren, der nicht vom Entwicklungsteam allein verantwortet wird. Drittens Drittanbieterverträge für ausgelagerte KI-Services auf DORA-Konformität prüfen – Exit-Optionen, Auditrechte, Incident-Reporting.

Finanzdienstleister, die KI-Herausforderungen im Datenmanagement unterschätzen, holen sich die Probleme später potenziert zurück. Die eigentlich spannende Frage ist: Welche FinTechs nutzen den Regulierungsdruck als strategischen Vorsprung gegenüber Wettbewerbern, die das Thema noch vor sich herschieben?

Bankenaufsicht verschärft Blick auf KI-Finanzmodelle: Was Modellrisiko und Stresstests für FinTechs bedeuten

KI-Modelle unter Aufsicht: Der regulatorische Rahmen wächst

Was Modellrisiko wirklich kostet: Konkrete Rechenbeispiele

Stresstests für KI-Modelle: Was die Aufsicht erwartet

Dokumentationspflichten: Der bürokratische Preis für Modellfreiheit

Auslagerung und Drittanbieterrisiko: Wenn das Modell von außen kommt

Modellrisiko-Management organisatorisch verankern

Vertrauen als Governance-Frage: Warum Erklärbarkeit kein Luxus ist

EU AI Act: Hochrisiko-KI im Finanzbereich – Zeitplan und Folgen

Regulierungsdruck als Wettbewerbsvorteil: Das Gegenargument zum Aufwand

Was bleibt – und was FinTechs jetzt tun sollten

Mitreden & diskutieren

KI-Modelle unter Aufsicht: Der regulatorische Rahmen wächst

Was Modellrisiko wirklich kostet: Konkrete Rechenbeispiele

Stresstests für KI-Modelle: Was die Aufsicht erwartet

Dokumentationspflichten: Der bürokratische Preis für Modellfreiheit

Auslagerung und Drittanbieterrisiko: Wenn das Modell von außen kommt

Modellrisiko-Management organisatorisch verankern

Vertrauen als Governance-Frage: Warum Erklärbarkeit kein Luxus ist

EU AI Act: Hochrisiko-KI im Finanzbereich – Zeitplan und Folgen

Regulierungsdruck als Wettbewerbsvorteil: Das Gegenargument zum Aufwand

Was bleibt – und was FinTechs jetzt tun sollten

Auch interessant

EU-Regulatoren und KI-Cyberkriminalität: Was Unternehmen jetzt konkret tun müssen

KI-Verbotsnormen für Deepfakes: Wie sicher sind Chatbots mit Bildfunktion bis Dezember 2026?

AI-Haftung im AI Act: 5 Fakten zur KI-Versicherung, die Unternehmen jetzt kennen müssen