Zum Inhalt springen
Künstliche Intelligenz

Deepfake-Phishing: Erkennungsmethoden und Corporate Defense gegen KI-Angriffe

Deepfake, Phishing – Mitarbeiterin erkennt Deepfake im Video-Call – Phishing-Angriff im Unternehmen
Synthetische Identitäten in Echtzeit-Videoanrufen sind das neue Angriffswerkzeug bei CEO-Fraud und Phishing-Kampagnen. (Symbolbild)

Synthetische CEO-Stimme am Telefon. Überzeugender Vorstand im Video-Call. Beide existieren nicht – zumindest nicht in diesem Moment. Deepfake-gestützte Phishing-Kampagnen gegen europäische Finanzinstitute zeigen: KI-Sicherheit ist kein IT-Trend, sondern gerade akute Betriebsgefahr.

Wenn der Chef anruft – und es nicht der Chef ist

Das Szenario ist so simpel wie erschreckend effektiv. Eine Mitarbeiterin im Controlling erhält einen Anruf vom CFO. Stimme, Sprachrhythmus, sogar die vertraute Formulierungsweise stimmen. Der CFO braucht sofort eine Überweisung – dringend, vertraulich, heute noch. Plot Twist: Der CFO sitzt währenddessen in einem Meeting ohne Telefon. Der Anruf kam von einer KI.

Genau solche Angriffe haben Threat-Intelligence-Teams bei koordinierten Phishing-Wellen gegen europäische Finanzinstitute dokumentiert. Audio-Deepfakes in Telefonaten, synthetische Videoidentitäten in Konferenztools, maßgeschneiderte Phishing-Mails ohne einen einzigen Rechtschreibfehler. Das ist keine Sciencefiction-Warnung mehr. Das ist laufender Betrieb.

Das Pikante daran: Generative KI hat die Eintrittsbarriere für diese Angriffe dramatisch gesenkt. Voice-Cloning aus wenigen Minuten öffentlich verfügbarem Audiomaterial. Face-Swap in Echtzeit. Texte, die sich dem Corporate-Wording des Zielunternehmens anpassen. Wer solche Kampagnen aufsetzen will, braucht keine staatliche Hackergruppe mehr im Rücken – nur Zugang zu den richtigen Diensten und ein paar LinkedIn-Recherchen über die Zielperson.

Deepfake, Phishing und die neue Qualität des Angriffs

Klassisches Phishing hat immer auf menschliche Schwächen gesetzt: Zeitdruck, Autorität, Angst. Was sich geändert hat, ist die technische Überzeugungskraft. Früher verriet eine schlecht synchronisierte Videokonferenz mit dem angeblichen Vorstand den Angriff. Heute sind Lippenbewegung, Beleuchtungsanpassung und Mimik so weit optimiert, dass selbst aufmerksame Beobachter zögern.

Deepfake-Phishing ist dabei typischerweise kein Einzelvektor-Angriff. Angreifer kombinieren: eine personalisiertere Spear-Phishing-Mail als Vorbereitung, einen Deepfake-Anruf als Druckmittel, eine gefälschte Webseite für Credential-Harvesting – und manchmal noch ein Deepfake-Video als „Beweis“ für die Legitimität der Anfrage. KI-Sicherheit muss deshalb alle diese Kanäle gleichzeitig im Blick haben, nicht nur die E-Mail-Inbox.

Brisant ist auch die Entwicklung bei Echtzeit-Angriffen. Waren synthetische Videos lange nur als vorproduzierte Clips denkbar, zeigen aktuelle Angriffsmuster, dass Deepfake-Audio und -Video zunehmend in Live-Kontexten – also während eines Telefonats oder einer Videokonferenz – eingesetzt werden. Wie aware7 in ihrer Analyse zu KI-Cyberangriffen detailliert beschreibt, ist genau diese Kombination aus Echtzeit-Manipulation und Social Engineering der gefährlichste aktuelle Angriffsvektor für Unternehmen.

Erkennungsmerkmale: Was noch funktioniert – und was nicht mehr

Video-Deepfakes: Die Checkliste schrumpft

Ältere Awareness-Materialien listeten fröhlich auf: falsches Blinzeln, Artefakte am Haarrand, wachsartige Haut. Wenig überraschend: Moderne Modelle haben diese offensichtlichen Schwächen weitgehend beseitigt. Wer heute ausschließlich auf grobe visuelle Fehler wartet, hat das Prinzip der Bedrohungslage nicht verstanden.

Es gibt dennoch Signale, die in Kombination weiterhin aussagekräftig sind. Uneinheitliche Beleuchtung zwischen Gesicht und Hintergrund. Mikroausdrücke, die nicht zur geäußerten Emotion passen. Minimale Unschärfen bei schnellen Kopfbewegungen. Lippensynchronisation, die bei bestimmten Konsonanten oder Fremdwörtern leicht versetzt wirkt. Kein einzelnes Merkmal ist ein Beweis. Die Summe aus mehreren Ungereimtheiten plus ungewöhnlichem Kommunikationskontext sollte Alarm auslösen.

Auf Forschungsebene arbeitet das Fraunhofer AISEC an algorithmischen Erkennungsansätzen, die statistische Anomalien in Audio- und Videodaten auswerten. Intels FakeCatcher analysiert beispielsweise subtile Veränderungen im Blutfluss im Gesicht – ein Signal, das synthetische Videos nicht realistisch reproduzieren können. Solche Methoden sind hochspezialisiert, werden aber zunehmend in kommerzielle Detection-Plattformen wie Sensity AI integriert.

Audio-Deepfakes: Das unheimliche Tal der Stimme

Synthetische Stimmen sind oft bereits an fehlenden oder unnatürlich gleichmäßigen Atemgeräuschen erkennbar. Monotone Sprechweise ohne die normalen Rhythmusvariationen eines Menschen. Auffällige Pausen an Stellen, wo ein Mensch keine Pause machen würde. Schwierigkeiten bei Dialekten, Akzenten oder ungewöhnlichen Eigennamen. Und ein steriles, zu gleichmäßiges Hintergrundrauschen – als würde jemand in einem schalltoten Raum anrufen.

Persönlich halte ich Audio-Deepfakes für die derzeit gefährlichere Variante – schlicht, weil Telefonanrufe keine visuelle Gegenprobe erlauben und Sprachvertrautheit ein extrem starker psychologischer Vertrauensanker ist. Wenn eine Stimme klingt wie der CEO, schaltet das kritische Denken schnell ab. Genau darauf setzen die Angreifer.

Tools wie Resemble Detect oder der ElevenLabs AI Speech Classifier können synthetische Stimmen mit variablen Trefferquoten erkennen. Beide arbeiten als API-Dienste und lassen sich in Kommunikations- oder Forensik-Workflows integrieren. Wichtig: Erkennungsraten hängen stark von der jeweiligen Modellversion ab – Herstellerdokumentation immer als aktuellen Referenzpunkt nutzen.

Audio-Deepfake-Erkennung: Wellenform-Analyse im IT-Sicherheitsbetrieb
Anomalien in der Wellenform können auf synthetisch erzeugte Stimmen hinweisen – automatisierte Detection-Tools machen diese Muster sichtbar. (Symbolbild)

KI-Phishing ohne Deepfake: Die unterschätzte Flanke

Auch ohne synthetisches Video oder Audio ist KI-gestütztes Phishing heute erheblich gefährlicher als noch vor zwei Jahren. LLM-basierte Spear-Phishing-Mails kennen keine Rechtschreibfehler mehr. Sie analysieren öffentlich verfügbare Informationen über die Zielperson – LinkedIn-Profil, Pressemitteilungen, Twitter-Aktivität – und passen Tonalität, Formulierungen und Corporate Language exakt an.

Der Clou dabei ist die Skalierung. Früher war eine überzeugend personalisierte Phishing-Mail manueller Aufwand für Stunden. Heute liefert ein LLM hundert solcher Mails in Minuten. E-Mail-Gateways, die auf generische Phishing-Phrasen trainiert wurden, stehen damit vor einem grundlegenden Erkennungsproblem. Warum KI-gestütztes Phishing eine grundlegend andere Bedrohungsdimension darstellt als klassische Massenkampagnen, liegt genau in dieser Kombination aus sprachlicher Präzision und industrieller Skalierung.

Was bleibt als zuverlässiges Signal? Vor allem: Kontext und Prozessabweichung. Eine Mail, die jemanden zur Änderung von Bankdaten auffordert – egal wie fehlerlos formuliert – die über einen ungewöhnlichen Kanal kommt oder auf eine neue Domain verlinkt, verstößt gegen Standard-Geschäftsprozesse. Trend Micro beschreibt in ihrer Deepfake-Analyse genau diese Kombination aus inhaltlichen und kontextuellen Prüfpunkten als entscheidenden Erkennungsweg.

Corporate Defense: Was Unternehmen jetzt aufbauen müssen

Prozesse schlagen Tools – immer

Das Unbequeme zuerst: Kein Detection-Tool der Welt schützt ein Unternehmen, das keine robusten Freigabeprozesse für Finanztransaktionen hat. Wer Überweisungen auf Basis eines einzigen Telefonanrufs – egal wie überzeugend die Stimme klingt – freigibt, hat ein Prozessproblem, kein Technologieproblem.

Out-of-Band-Verifikation ist dabei der wichtigste Schutz. Jede ungewöhnliche Anfrage zu Zahlungen, Datenweitergabe oder Zugriffsrechten wird über einen unabhängigen Kanal auf bekannte, dokumentierte Kontaktdaten zurückgerufen. Nicht auf die Nummer, die im Anruf genannt wurde. Nicht auf die E-Mail, die gerade reingekommen ist. Auf die Nummer im firmeneigenen Verzeichnis.

Ergänzend dazu haben sich Codewort-Systeme bewährt: Vorab definierte Begriffe oder spezifische Wissensfragen, die nur echte Mitarbeitende kennen, und die bei ungewöhnlichen Anfragen zur Identitätsbestätigung eingesetzt werden. Klingt simpel. Funktioniert in der Praxis erschreckend gut, weil Angreifer diese Information typischerweise nicht haben.

Das Vier-Augen-Prinzip – der unterschätzte Klassiker

Für Finanztransaktionen ab einem definierten Schwellenwert muss immer eine zweite Person unabhängig freigeben. Das gilt auch dann – und gerade dann –, wenn der vermeintliche CEO persönlich auf höchste Vertraulichkeit besteht. Die Bitte, das Vier-Augen-Prinzip zu umgehen, ist selbst ein Warnsignal. Ein echter Vorstand kennt die eigenen Compliance-Regeln.

Klare Payment-Policies sind dabei kein Nice-to-have. Neue Bankverbindungen werden ausschließlich über bekannte Kanäle telefonisch verifiziert. Kryptowährungs-Transaktionen auf Anfrage per Chat sind per Policy verboten. Wer diese Regeln kennt und internalisiert hat, wird auf einen Deepfake-Angriff anders reagieren als jemand, der ad hoc entscheiden muss.

Technische Maßnahmen: Layered Defense

Auf der technischen Seite braucht es mehrere Schichten. E-Mail-Gateways mit KI-basiertem Phishing-Scoring prüfen Absenderdomains, SPF/DKIM/DMARC-Konfigurationen, URL-Muster und Lookalike-Domains automatisiert. Lookalike-Domain-Monitoring erkennt frisch registrierte Domains, die dem eigenen Unternehmensnamen ähneln – oft ein Vorbereitungsindikator für Phishing-Kampagnen.

SIEM-Systeme mit KI-Korrelation können ungewöhnliche Muster erkennen: Ein Login um 3 Uhr morgens aus einem ungewöhnlichen Land, gefolgt von einem angeblichen CEO-Anruf mit Überweisungsanforderung – das ist eine Ereigniskette, die automatisiert als hochverdächtig markiert werden sollte. Multi-Faktor-Authentifizierung für alle kritischen Accounts und Least-Privilege-Prinzip für Finanz- und Adminberechtigungen sind dabei keine optionalen Hygienemaßnahmen, sondern Basisinfrastruktur.

Deepfake-Detection-Tools wie Sensity AI oder FakeCatcher lassen sich in kritische Kommunikations-Workflows integrieren – etwa als Vorfilter für eingehende Videoanrufe in bestimmten Unternehmensbereichen. Die Erkennungsraten variieren je nach Modellstand erheblich; kein Tool sollte als alleinige Sicherheitslinie betrachtet werden.

Mitarbeiterschulung: Mehr als ein Jahres-Pflichtklick

Security-Awareness-Training zu Deepfake und KI-Sicherheit muss über das klassische E-Mail-Phishing-Modul hinausgehen. Mitarbeitende müssen verstehen, dass Angriffe multimodal sind – Mail, Telefon, Video, Messenger – und dass eine überzeugende Stimme oder ein überzeugendes Gesicht kein Beleg für Echtheit ist.

Praktisch bewährt haben sich Simulationen: Deepfake-Audio- und Videoclips gemeinsam analysieren, Erkennungsmerkmale diskutieren, Entscheidungsszenarien durchspielen. Nicht als einmaliges Event, sondern als regelmäßige Übung. Denn der entscheidende Schutzfaktor ist nicht das Tool im Hintergrund, sondern die Reaktion der Person am Telefon in dem Moment, in dem der Druck aufgebaut wird.

Welche Rolle übernimmt bei einem Deepfake-Verdacht wer? Diese Frage sollte jedes Unternehmen mit einem klaren Incident-Response-Plan beantwortet haben: Security-Team und Legal sofort einbinden, Bank bei Überweisungsverdacht unverzüglich kontaktieren – Rückbuchungen sind typischerweise nur in einem sehr engen Zeitfenster möglich –, Aufzeichnungen als Forensikmaterial sichern. Wer das erst im Ernstfall koordiniert, verliert wertvolle Minuten.

Praxisszenarien: Wie ein Angriff typischerweise abläuft

Um das Bedrohungsbild greifbarer zu machen, lohnt ein Blick auf typische Angriffssequenzen, wie sie Incident-Response-Teams in ähnlicher Form wiederholt beobachtet haben. Ein gängiges Muster beginnt mit einer unauffälligen Spear-Phishing-Mail an eine Assistenz oder Sachbearbeiterin im Finanzbereich. Die Mail – sprachlich einwandfrei, mit passendem Corporate-Wording – bittet um Bestätigung einer anstehenden Transaktion. Wenige Stunden später folgt der Anruf: ein angeblicher CFO, mit vertrauter Stimme, der auf die Mail Bezug nimmt und eine sofortige Freigabe fordert. Der Zeitdruck wird als Argument für das Überspringen normaler Verifikationsschritte genutzt.

Ein zweites verbreitetes Szenario betrifft Videokonferenz-Angriffe. Dabei wird ein Meeting-Link an mehrere Teilnehmende versendet, scheinbar vom internen IT-Team oder der Geschäftsführung. In der Konferenz erscheint eine synthetische Videoidentität, die sich als Führungskraft ausgibt und Zugangsdaten oder eine interne Systemfreigabe anfordert. Weil Videokonferenzen Vertrautheit und Legitimität suggerieren, ist die Hemmschwelle für Nachfragen in diesem Kontext psychologisch besonders niedrig.

Beide Szenarien illustrieren, dass Deepfake-Angriffe kein isoliertes technisches Ereignis sind, sondern einen sorgfältig orchestrierten sozialen Ablauf haben. Das Verständnis dieser Abläufe ist Voraussetzung dafür, Mitarbeitende so zu schulen, dass sie im entscheidenden Moment nicht nach visuellen Fehlern suchen, sondern nach Prozessabweichungen fragen.

Gegenargumente und blinde Flecken in der Verteidigungsdebatte

Ein häufiges Gegenargument in der Praxis lautet: „Unsere Mitarbeitenden kennen die Stimme des Vorstands – die würden einen Fake sofort erkennen.“ Diese Einschätzung unterschätzt die psychologische Dynamik systematisch. Gerade weil eine Stimme vertraut klingt, deaktiviert das Gehirn den kritischen Filter. Das ist kein Versagen der einzelnen Person, sondern ein vorhersehbarer kognitiver Mechanismus, den Angreifer gezielt ausnutzen.

Ein weiterer blinder Fleck betrifft mittlere Unternehmensgrößen. Während Großkonzerne zunehmend in Deepfake-Detection und Security-Operations-Center investieren, fehlen mittelständischen Betrieben oft sowohl Budget als auch dediziertes Sicherheitspersonal. Dabei sind gerade sie attraktive Ziele: weniger Kontrollen, direktere Entscheidungswege, häufig persönlichere Kommunikationskultur – also genau das Umfeld, in dem ein glaubhafter Deepfake-Anruf besonders effektiv wirkt. Prozessuale Schutzmaßnahmen wie Out-of-Band-Verifikation und Codewörter kosten nichts außer Planung und Konsequenz in der Umsetzung – und sind deshalb für Unternehmen jeder Größe sofort umsetzbar.

Was bleibt – und wer die Nase vorn haben wird

Es ist ein klassischer Arms Race: Generative Modelle für Audio und Video werden realistischer, Detection-Algorithmen werden raffinierter, Angreifer passen ihre Methoden an. Wer glaubt, das Problem mit einem einzigen Tool zu lösen, unterschätzt die Dynamik dieses Wettrüstens fundamental.

Meine Einschätzung: Viele der heute noch funktionierenden visuellen und akustischen Erkennungsmerkmale werden innerhalb der nächsten ein bis drei Jahre deutlich unzuverlässiger. Die einzige Verteidigungslinie, die davon unberührt bleibt, sind robuste Geschäftsprozesse. Vier-Augen-Prinzip, Out-of-Band-Checks, klare Policies – diese Mechanismen funktionieren unabhängig davon, wie gut die nächste Deepfake-Generation wird.

Was überprüfen Sie eigentlich bei ungewöhnlichen Anfragen in Ihrem Unternehmen gerade aktiv – und wer in Ihrer Organisation weiß heute, was bei einem Deepfake-Verdacht als nächstes zu tun ist?

Was halten Sie von dem Thema? Hier können Sie mit anderen Leserinnen und Lesern ins Gespräch gehen.