4. April 2026 | Artikel drucken |

Deepfake-Angriffe auf die C-Suite: Wie KI-generierte Stimmen Millionen stehlen

7 Min. Lesezeit

Im Februar 2024 überwies ein Mitarbeiter der Finanzabteilung des britischen Ingenieurunternehmens Arup 25 Millionen US-Dollar auf Konten von Betrügern. Der Grund: Ein Videocall, in dem der CFO und weitere Führungskräfte die Überweisung genehmigten. Das Problem: Keine der Personen im Call war echt. Alle waren KI-generierte Deepfakes. Dieser Fall markiert den Wendepunkt, an dem CEO-Fraud durch künstliche Intelligenz vom theoretischen Risiko zur konkreten Unternehmensbedrohung wurde.

Das Wichtigste in Kürze

  • Im Fall Arup genügten KI-generierte Deepfakes eines CFO-Videocalls, um 25 Millionen US-Dollar zu erbeuten (Februar 2024, Hongkong).
  • Deepfake-basierte Betrugsverluste in den USA erreichten 2025 insgesamt 1,1 Milliarden US-Dollar, eine Verdreifachung gegenüber 360 Millionen US-Dollar im Vorjahr.
  • Drei Sekunden Audiomaterial reichen aus, um eine Stimmenkopie mit 85 Prozent Übereinstimmung zu erstellen.
  • Menschen erkennen hochwertige Deepfake-Videos nur in 24,5 Prozent der Fälle korrekt.
  • 85 Prozent aller Unternehmen hatten in den vergangenen zwölf Monaten mindestens einen Deepfake-bezogenen Sicherheitsvorfall.

Wie der Arup-Angriff funktionierte

Der Fall Arup in Hongkong ist deshalb so lehrreich, weil er zeigt, wie professionell Deepfake-Angriffe inzwischen ablaufen. Die Angreifer erstellten KI-generierte Video- und Audio-Kopien des CFO und weiterer Führungskräfte des globalen Ingenieurbüros. Diese Deepfakes wurden in einem Live-Videocall eingesetzt, nicht als voraufgezeichnetes Video, sondern als Echtzeit-Konferenz mit mehreren Teilnehmern.

Der Mitarbeiter der Finanzabteilung sah und hörte seine Vorgesetzten in einer scheinbar normalen Konferenzsituation. Die Anweisungen kamen klar und konsistent. Die Dringlichkeit wurde durch den Kontext einer vermeintlichen Firmenakquisition erzeugt. Innerhalb einer Sitzung genehmigte er 15 einzelne Überweisungen auf verschiedene Konten in Hongkong. Erst nach der letzten Überweisung und einer internen Nachfrage stellte sich heraus, dass die gesamte Konferenz inszeniert war. Die echten Führungskräfte wussten von nichts. Der Betrag war unwiederbringlich verloren.

Dieser Angriff funktionierte nicht, weil der Mitarbeiter leichtgläubig war. Er funktionierte, weil die Technologie ein Niveau erreicht hat, auf dem visuelle und akustische Authentifizierung nicht mehr ausreicht. Das Vertrauen in das, was wir sehen und hören, ist kein verlässlicher Sicherheitsmechanismus mehr.

1,1 Mrd. US-Dollar

Deepfake-basierte Betrugsverluste in den USA 2025. Eine Verdreifachung gegenüber 360 Millionen US-Dollar im Vorjahr.

3 Sekunden

Audiomaterial genügen, um eine Stimmenkopie mit 85 Prozent Übereinstimmung zum Original zu erstellen.

24,5 %

der Menschen erkennen hochwertige Deepfake-Videos korrekt. Visuelle Erkennung ist kein verlässlicher Schutz mehr.

Quellen: Chainalysis 2025, McAfee Deepfake Audio Study 2024, University College London Study

Warum klassische Abwehr versagt

Business Email Compromise (BEC) ist seit Jahren eine der teuersten Betrugsformen. Der Mechanismus war bisher vergleichsweise simpel: Ein Angreifer fälscht eine E-Mail des CEO oder CFO und fordert eine dringende Überweisung an. Die Abwehr war verhältnismäßig einfach und oft wirksam: E-Mail-Authentifizierung mit DMARC, telefonische Rückrufverfahren bei ungewöhnlichen Anfragen und das Vier-Augen-Prinzip für Überweisungen über einer bestimmten Schwelle.

Deepfakes hebeln genau diese bewährten Kontrollen aus, eine nach der anderen. Ein Rückruf per Telefon hilft nicht, wenn die Stimme am anderen Ende geklont ist. Ein Videocall zur Verifizierung schützt nicht, wenn das Video in Echtzeit gefälscht wird. Und das Vier-Augen-Prinzip versagt, wenn beide Prüfer im selben manipulierten Call sitzen und dort mehrere vermeintliche Führungskräfte die Transaktion bestätigen sehen. Die Angreifer haben nicht den Angriff selbst geändert, sie haben den Kanal gewechselt, über den Vertrauen und Autorität hergestellt werden.

Besonders perfide: Die Angreifer nutzen öffentlich verfügbare Informationen zur Vorbereitung. Interviews des CEO auf YouTube, Podcasts des CFO, LinkedIn-Videos und Konferenzauftritte liefern das Audiomaterial für den Stimmenklone. Unternehmensorganigramme auf der Website zeigen, wer an wen berichtet. Pressemitteilungen über Akquisitionen oder Partnerschaften liefern den inhaltlichen Rahmen für die vermeintliche Überweisungsanfrage. Der gesamte Angriff wird aus öffentlich zugänglichen Quellen zusammengesetzt.

Die Technologie dahinter ist erschreckend zugänglich geworden. Deepfake-as-a-Service-Plattformen bieten Voice-Cloning und Video-Synthese als kommerziellen Dienst an. Laut einem Bericht von Cyble explodierte die Verfügbarkeit solcher Dienste 2025. Die Einstiegskosten für einen überzeugenden Stimmenklone liegen im niedrigen dreistelligen Bereich. Die Eintrittsbarriere für Angreifer ist damit praktisch verschwunden. Was vor drei Jahren noch Spezialistenarbeit war, kann heute jeder mit einem Laptop und Internetzugang in wenigen Stunden aufsetzen. Die Demokratisierung der KI-Werkzeuge hat auch die Demokratisierung der Angriffsmittel zur Folge.

Laut Deloitte werden die durch generative KI ermöglichten Betrugsverluste von 12,3 Milliarden US-Dollar im Jahr 2024 auf 40 Milliarden US-Dollar bis 2027 steigen, ein jährliches Wachstum von 32 Prozent. Deepfake-gestützte Angriffe auf die C-Suite sind dabei der Bereich mit dem höchsten Einzelschadenspotenzial, weil sie direkt auf Entscheidungsträger mit Überweisungsbefugnis zielen.

In Deutschland beobachtet das BSI eine steigende Zahl von KI-gestützten Social-Engineering-Angriffen. Das Bundeslagebild Cybercrime 2024 des BKA dokumentiert, dass Social Engineering in Kombination mit KI-generierten Inhalten zu den am schnellsten wachsenden Bedrohungskategorien gehört. Für den deutschen Mittelstand ist die Bedrohung besonders relevant, weil flache Hierarchien und persönliche Beziehungen zwischen Geschäftsführung und Buchhaltung genau die Vertrauensstrukturen schaffen, die Deepfake-Angreifer ausnutzen.

Die Eskalation seit 2019: Eine Timeline

2019

Erster dokumentierter Fall von KI-basiertem Voice-Cloning-Betrug: Ein britisches Energieunternehmen überweist 220.000 Euro nach einem Anruf des vermeintlichen CEO der deutschen Muttergesellschaft.

2022

Voice-Cloning-Tools werden Open Source. Projekte wie Tortoise-TTS und VALL-E senken die Einstiegsbarriere drastisch. Stimmenklone sind mit wenigen Minuten Audiomaterial möglich.

Feb 2024

Der Arup-Fall in Hongkong: 25 Millionen US-Dollar Verlust durch einen Multi-Personen-Deepfake-Videocall. Der bislang größte dokumentierte Einzelfall.

2025

Deepfake-as-a-Service wird zum Massenmarkt. Betrugsverluste in den USA verdreifachen sich auf 1,1 Milliarden US-Dollar. 85 Prozent der Unternehmen melden mindestens einen Deepfake-bezogenen Vorfall.

Jan 2026

Ein Fortune-500-Finanzdienstleister verliert 28 Millionen US-Dollar durch einen einzelnen Deepfake-Videocall, bei dem der CFO für eine vermeintliche Akquisitionsüberweisung imitiert wurde.

Was Unternehmen jetzt tun müssen

Die Abwehr von Deepfake-Angriffen erfordert eine Kombination aus technischen Kontrollen, Prozessänderungen und Awareness-Training. Technologie allein reicht nicht, Prozesse allein auch nicht. Beide müssen zusammenwirken. Die folgenden Maßnahmen sind nach Wirksamkeit priorisiert und lassen sich schrittweise implementieren.

Technische Kontrollen

  • Multi-Faktor-Verifizierung für alle Überweisungen über einer definierten Schwelle: Kein einziger Kommunikationskanal darf ausreichen. Überweisungsfreigaben müssen über einen separaten, vorab vereinbarten Kanal bestätigt werden.
  • Code-Wort-Systeme: Vorab vereinbarte Passwörter, die bei sensiblen Transaktionen abgefragt werden. Das Code-Wort wird persönlich oder per verschlüsselter Nachricht vereinbart und regelmäßig gewechselt.
  • Deepfake-Detection-Tools: Lösungen wie Reality Defender, Sensity oder Intel FakeCatcher analysieren Audio- und Videostreams auf Manipulationsartefakte. Die Technologie ist noch jung und nicht fehlerfrei, bietet aber eine zusätzliche Sicherheitsebene.
  • KI-gestützte Verhaltensanalyse: Systeme, die das typische Kommunikationsmuster von Führungskräften lernen und Abweichungen flaggen, etwa ungewöhnliche Überweisungsanfragen außerhalb des normalen Geschäftsbetriebs.

Prozessänderungen

  • Callback-Verfahren über vorab festgelegte Nummern: Rückrufe erfolgen ausschließlich über intern hinterlegte Telefonnummern, nicht über die Nummer, die im Anruf angezeigt wird.
  • Zeitverzögerung bei ungewöhnlichen Überweisungen: Jede Transaktion, die außerhalb des normalen Geschäftsbetriebs liegt, erhält eine Mindestwartezeit von vier bis acht Stunden vor der Ausführung.
  • Eskalationsprotokoll: Wenn eine Führungskraft eine dringende Überweisung per Video oder Telefon anfordert und Zeitdruck ausübt, wird dies automatisch als erhöhtes Risiko eingestuft und erfordert zusätzliche Genehmigung.

Awareness und Training

  • Deepfake-Awareness in das reguläre Security-Awareness-Training integrieren. Mitarbeiter in Finanzabteilungen, HR und Assistenzrollen müssen wissen, dass Stimmen und Videos manipuliert werden können.
  • Regelmäßige Tabletop-Übungen mit Deepfake-Szenarien durchführen: Das Security-Team simuliert einen Deepfake-Anruf bei der Buchhaltung und testet, ob die definierten Prozesse und Eskalationswege tatsächlich greifen.
  • Keine Schuldzuweisung nach Vorfällen: Die Qualität heutiger Deepfakes ist so hoch, dass eine zuverlässige Erkennung durch den Menschen nicht mehr möglich ist. Der Prozess muss schützen, nicht der einzelne Mitarbeiter. Eine Kultur der Schuldzuweisung führt dazu, dass Vorfälle verschwiegen statt gemeldet werden.
  • Führungskräfte in die Awareness einbeziehen: CEOs und CFOs müssen verstehen, dass ihre öffentlichen Auftritte als Vorlage für Deepfakes dienen. Das bedeutet nicht, öffentliche Kommunikation einzuschränken, sondern die internen Prozesse so zu gestalten, dass selbst eine perfekte Imitation ihres Auftretens keine unautorisierte Transaktion auslösen kann.

Die Rolle der Cyber-Versicherung

Cyber-Versicherungen decken Deepfake-basierte Betrugsschäden nicht automatisch ab. Viele Policen unterscheiden zwischen Social-Engineering-Betrug und klassischen Cyber-Angriffen. Deepfake-Angriffe fallen oft in eine Grauzone: Es handelt sich technisch gesehen um Social Engineering, aber die eingesetzten Mittel sind hochgradig technisch. Unternehmen sollten ihre Police gezielt auf die Deckung von KI-gestütztem Betrug prüfen und gegebenenfalls einen spezifischen Baustein verhandeln.

Gleichzeitig verlangen Versicherer zunehmend den Nachweis von Präventionsmaßnahmen. Wer nachweisen kann, dass Zwei-Kanal-Verifizierung, Code-Wort-Systeme und regelmäßige Awareness-Trainings implementiert sind, erhält nicht nur bessere Konditionen, sondern vermeidet auch Ablehnungen im Schadensfall. Die Investition in Prävention rechnet sich also doppelt: Sie senkt das Risiko eines erfolgreichen Angriffs und sichert den Versicherungsschutz für den Ernstfall.

Fazit: Vertrauen Sie weder Ihren Augen noch Ihren Ohren

Deepfake-Angriffe auf die C-Suite sind keine Zukunftsbedrohung mehr. Sie passieren jetzt, sie verursachen Millionenschäden und sie werden besser und billiger. Der Arup-Fall hat gezeigt, dass selbst erfahrene Finanzprofis in einem gut inszenierten Deepfake-Call nicht zwischen Realität und Fälschung unterscheiden können.

Die Konsequenz ist klar: Unternehmen müssen ihre Überweisungsprozesse so gestalten, dass sie auch dann sicher funktionieren, wenn die Stimme und das Gesicht des Anweisenden perfekt gefälscht sind. Das bedeutet konkret: Nie einen einzigen Kommunikationskanal als Authentifizierung akzeptieren. Immer über einen separaten, vorab vereinbarten Weg bestätigen. Und jeden Zeitdruck bei finanziellen Transaktionen als Warnsignal behandeln statt als Grund für beschleunigte Freigabe.

Beginnen Sie diese Woche mit einer Überprüfung Ihrer Überweisungsfreigabeprozesse. Stellen Sie sich eine einfache Frage: Würde dieser Prozess auch dann halten, wenn der CEO am Telefon nicht echt ist? Wenn die Antwort nicht eindeutig Ja lautet, haben Sie Ihren ersten Handlungsschritt gefunden. Die Technologie der Angreifer entwickelt sich schneller als die menschliche Wahrnehmungsfähigkeit. Nur robuste Prozesse schließen die Lücke, die unsere Sinne nicht mehr schließen können.

Häufige Fragen

Was ist ein Deepfake-Angriff auf Unternehmen?

Ein Deepfake-Angriff nutzt KI-generierte Audio- oder Videoimitationen von Führungskräften, um Mitarbeiter zu manipulieren. Typischerweise werden Finanzmitarbeiter in einem gefälschten Videocall oder Telefonat dazu gebracht, Überweisungen auszuführen. Die Technologie kann die Stimme einer Person mit nur drei Sekunden Audiomaterial zu 85 Prozent replizieren.

Wie viel Schaden verursachen Deepfake-Angriffe?

Die Deepfake-basierten Betrugsverluste in den USA beliefen sich 2025 auf 1,1 Milliarden US-Dollar. Einzelfälle wie der Arup-Vorfall (25 Millionen US-Dollar) oder der Fortune-500-Fall Anfang 2026 (28 Millionen US-Dollar) zeigen das Schadenspotenzial pro Vorfall. Deloitte prognostiziert, dass generative-KI-basierter Betrug bis 2027 auf 40 Milliarden US-Dollar anwachsen wird.

Können Menschen Deepfakes erkennen?

Studien zeigen, dass Menschen hochwertige Deepfake-Videos nur in 24,5 Prozent der Fälle korrekt identifizieren. 70 Prozent der Befragten gaben an, nicht sicher unterscheiden zu können, ob eine Stimme echt oder geklont ist. Menschliche Erkennung ist daher kein verlässlicher Schutzmechanismus. Technische Kontrollen und Prozesssicherungen müssen die Hauptlast tragen.

Wie können Unternehmen sich vor Deepfake-Betrug schützen?

Die wirksamsten Maßnahmen sind: Zwei-Kanal-Verifizierung für alle Überweisungen über einer definierten Schwelle, vorab vereinbarte Code-Wörter für sensible Transaktionen, Callback-Verfahren über intern hinterlegte Nummern, Zeitverzögerung bei ungewöhnlichen Transaktionen und die Integration von Deepfake-Awareness in das reguläre Security-Training.

Ist Voice-Cloning-Technologie frei verfügbar?

Ja. Seit 2022 sind Voice-Cloning-Tools als Open-Source-Projekte verfügbar. Kommerzielle Deepfake-as-a-Service-Plattformen bieten zudem fertige Lösungen zu niedrigen Kosten an. Die Einstiegsbarriere für Angreifer liegt im niedrigen dreistelligen Euro-Bereich. Drei Sekunden Audiomaterial einer Person reichen aus, um eine überzeugende Stimmenkopie zu erstellen.

Lesetipps der Redaktion

Mehr aus dem MBF Media Netzwerk

Quelle Titelbild: Pexels / Suki Lee (px:17194838)

Benedikt Langer

Hier schreibt Benedikt Langer für Sie

Mehr Artikel vom Autor

Auch verfügbar in

FrançaisEspañolEnglish
Ein Magazin der Evernine Media GmbH