8. März 2026 | Artikel drucken |

Deepfake-Betrug im Unternehmen: Wie KI-generierte Stimmen und Videos Millionen kosten

2 Min. Lesezeit

⏱ 7 Min. Lesezeit

Im Februar 2024 überwies ein Finanzangestellter in Hongkong 25 Millionen Dollar – nach einem Videocall mit seinem vermeintlichen CFO und mehreren Kollegen. Alle Teilnehmer waren Deepfakes. Dieser Fall war kein Einzelfall: Deloitte schätzt den weltweiten Schaden durch Deepfake-Betrug 2025 auf über 200 Millionen Dollar, mit einer Verdopplung alle 12 Monate.

Das Wichtigste in Kürze

  • 25 Mio. Dollar in einem einzigen Angriff: Deepfake-Videocalls mit KI-generierten Stimmen und Gesichtern täuschen selbst erfahrene Mitarbeiter (Hongkong-Fall, 2024).
  • Voice Cloning in Sekunden: Mit 3 Sekunden Audiomaterial kann eine KI eine Stimme überzeugend klonen – CEO-Reden, Podcast-Auftritte und LinkedIn-Videos liefern das Material.
  • Prozessuale Absicherung ist der beste Schutz: Vier-Augen-Prinzip, Rückruf-Verifizierung und Out-of-Band-Bestätigung stoppen 95 Prozent der Deepfake-Angriffe.

Wie Deepfake-Angriffe auf Unternehmen funktionieren

Deepfake-gestützter Betrug folgt einem klaren Muster: Der Angreifer recherchiert die Zielorganisation, identifiziert Entscheider (CEO, CFO, Geschäftsführer) und beschafft öffentlich verfügbares Audio- und Videomaterial. LinkedIn-Beiträge, Podcast-Auftritte, YouTube-Videos und Konferenz-Vorträge liefern genug Material für überzeugende Klone. Vertiefend dazu: Deepfake-Betrug.

Voice Cloning ist die niedrigste Einstiegshürde. Tools wie ElevenLabs, Resemble.AI und Open-Source-Alternativen (TortoiseTTS, XTTS) können mit 3 bis 10 Sekunden Audiomaterial eine Stimme klonen, die in einem Telefonat kaum vom Original zu unterscheiden ist. Ein Anruf „vom CEO“ mit der Bitte, eine dringende Überweisung freizugeben, ist das häufigste Szenario.

Video-Deepfakes sind technisch aufwändiger, aber 2026 ebenfalls in Echtzeit möglich. Tools wie DeepFaceLive ermöglichen Face-Swapping in Videocalls. Der Hongkong-Fall zeigte: Selbst eine Videokonferenz mit mehreren Teilnehmern kann vollständig gefälscht werden.

Die Kombination aus Voice Cloning und E-Mail-Spoofing ist besonders gefährlich: Eine E-Mail „vom CFO“ kündigt einen Anruf an, der Anruf kommt mit der geklonten Stimme – für den Empfänger gibt es keinen erkennbaren Grund zum Misstrauen.

3 Sek.
Audio reicht zum Stimm-Klonen

200 Mio. $
geschätzter Schaden 2025

x2 / Jahr
Verdopplung der Vorfälle

Technische Erkennung: Was funktioniert – und was nicht

Deepfake-Detection ist ein Wettrüsten. Erkennungs-Tools analysieren Artefakte in Audio und Video – unnatürliche Lippenbewegungen, inkonsistente Beleuchtung, Frequenzanomalien in der Stimme. Anbieter wie Pindrop (Audio), Reality Defender und Intel FakeCatcher bieten Enterprise-Lösungen an.

Das Problem: Die Detection hinkt der Generation hinterher. Aktuelle Deepfake-Modelle produzieren Ausgaben, die für das menschliche Auge und Ohr nicht von realen Aufnahmen zu unterscheiden sind. Automatisierte Detection-Tools erreichen Erkennungsraten von 85 bis 95 Prozent – das klingt gut, bedeutet aber, dass 5 bis 15 Prozent der Fakes durchkommen. Bei einem gezielten Angriff auf ein einzelnes Unternehmen reicht das.

Deshalb ist technische Erkennung ein Layer, aber nicht die Lösung. Die eigentliche Verteidigung liegt in Prozessen und Organisationskultur.

„Deepfake-Detection wird nie 100 Prozent erreichen. Unternehmen müssen ihre Prozesse so gestalten, dass ein einzelner Deepfake – egal wie überzeugend – keinen Schaden anrichten kann.“
Vijay Balasubramaniyan, CEO Pindrop (CES 2025)

Schutzmaßnahmen: Prozesse, die Deepfakes neutralisieren

Die wirksamsten Gegenmaßnahmen sind nicht technisch, sondern organisatorisch:

Vier-Augen-Prinzip bei Finanztransaktionen: Keine Überweisung über 10.000 Euro ohne Freigabe durch mindestens zwei autorisierte Personen. Kein einzelner Anruf oder Videocall darf eine Zahlung auslösen – egal von wem er kommt.

Out-of-Band-Verifizierung: Wenn ein Anruf „vom CEO“ kommt, wird über einen separaten Kanal verifiziert – Rückruf auf die bekannte Mobilnummer, Signal-Nachricht, persönliche Ansprache im Büro. Der Angreifer kann einen Kanal fälschen, aber nicht alle gleichzeitig.

Code-Wörter für Krisensituationen: Ein vorab vereinbartes Code-Wort, das in jeder dringenden Zahlungsanweisung genannt werden muss. Einfach, aber erstaunlich effektiv – der Angreifer kennt das Code-Wort nicht.

Schulung mit realen Beispielen: Mitarbeiter in Finanzabteilungen müssen wissen, dass Deepfake-Anrufe existieren und wie überzeugend sie klingen. Live-Demos mit geklonten Stimmen von Führungskräften (mit deren Einverständnis) sind der wirksamste Awareness-Ansatz.

Technische Ergänzung: E-Mail-Authentifizierung (DMARC, DKIM, SPF) verhindert Spoofing der Absenderadresse. Deepfake-Detection-Tools in Telefonsystemen und Videokonferenz-Lösungen bieten einen zusätzlichen Layer. Und: Reduzierung öffentlich verfügbaren Audio-/Videomaterials von Führungskräften erschwert das Voice Cloning.

Key Facts auf einen Blick

Häufige Fragen

Wie erkenne ich einen Deepfake-Anruf?

Achten Sie auf: ungewöhnliche Dringlichkeit, Abweichungen vom normalen Gesprächsstil, Hintergrundgeräusche die nicht zum angeblichen Standort passen, und die Bitte, etablierte Freigabeprozesse zu umgehen. Im Zweifel: Auflegen und über bekannte Nummer zurückrufen.

Kann jeder eine Stimme klonen?

Ja. Die Tools sind frei verfügbar, teils als Open Source (TortoiseTTS, XTTS), teils als kommerzielle Dienste (ElevenLabs ab 5 Dollar/Monat). 3-10 Sekunden Audiomaterial reichen für einen überzeugenden Klon. Die Einstiegshürde ist minimal.

Sind Deepfake-Angriffe strafbar?

Ja. In Deutschland fallen Deepfake-gestützte Betrugsversuche unter § 263 StGB (Betrug), ggf. § 269 StGB (Fälschung beweiserheblicher Daten). Die EU arbeitet an spezifischer Deepfake-Regulierung im Rahmen des AI Acts. Die Strafverfolgung ist allerdings schwierig, da Angreifer oft aus dem Ausland operieren.

Was kostet Deepfake-Detection für Unternehmen?

Enterprise-Lösungen wie Pindrop (Audio-Deepfake-Detection) kosten ab 50.000 Euro jährlich. Reality Defender bietet API-basierte Detection ab 20.000 Euro/Jahr. Für die meisten Unternehmen sind prozessuale Maßnahmen (Vier-Augen-Prinzip, Rückruf-Verifizierung) kosteneffizienter und wirksamer.

Wie schütze ich mein eigenes Audio-/Videomaterial?

Komplett verhindern lässt sich das Klonen nicht, wenn öffentliche Auftritte existieren. Aber: Reduzieren Sie unnötiges Material (muss jede Keynote auf YouTube?). Nutzen Sie Audio-Wasserzeichen-Dienste. Und wichtiger: Akzeptieren Sie, dass Klonen möglich ist, und sichern Sie Ihre Prozesse entsprechend ab.

Welche Branchen sind besonders gefährdet?

Finanzbranche (hohe Transaktionswerte), Immobilienbranche (große Einzelzahlungen), Rechtsanwaltskanzleien (Treuhandkonten) und international tätige Unternehmen mit verteilten Teams (erschwertes persönliches Verifizieren). Generell: Jede Organisation, in der Einzelpersonen hohe Zahlungen freigeben können.

Weitere Artikel zum Thema

Security Awareness 2025: Warum Schulungen alleine nicht reichen

Zero Trust für den Mittelstand: Einstieg in 5 Schritten

Weiterführende Lektüre im Netzwerk

KI im Unternehmen: Künstliche Intelligenz im Unternehmen: Einsatzmöglichkeiten (MBF)

C-Level Security: Cybersicherheit in der Chefetage (Digital Chiefs)

Quelle Titelbild: Pexels / Markus Winkler

Benedikt Langer

Hier schreibt Benedikt Langer für Sie

Mehr Artikel vom Autor

Auch verfügbar in

FrançaisEspañolEnglish
Ein Magazin der Evernine Media GmbH