10. Mai 2026 | Artikel drucken |

AI-Phishing: Mail-Filter werden blind

5 Min. Lesezeit

Die Spear-Phishing-Mail, die letzte Woche bei einem DACH-Mittelständler durch das Mail-Gateway gegangen ist, war grammatikalisch sauber, kontextuell präzise und enthielt keinen einzigen Heuristik-Marker, den Proofpoint, SpamAssassin oder Microsoft Defender als verdächtig kennen. Geschrieben hat sie ein LLM, instruiert von einem Threat-Actor mit dreißig Minuten Recherche zur Empfänger-Rolle. Die Detection-Schicht, die seit zwanzig Jahren auf Pattern-Matching und URL-Reputation gebaut ist, sieht solche Mails nicht mehr und CISOs müssen 2026 nicht das Filter-Update eskalieren, sondern die Architektur neu denken.

10.05.2026

Das Wichtigste in Kürze

  • Heuristik bricht weg: LLM-umgeschriebene Phishing-Mails liefern keine Tipp-Fehler, keine Template-Fingerprints und keine wiederkehrenden Phrasen. Drei der häufigsten Detection-Schichten (Gmail, SpamAssassin, Proofpoint Standard-Profile) verlieren in unabhängigen Tests 60 bis 80 Prozent ihrer Trefferquote gegen AI-Phishing.
  • URL-Reputation reicht nicht mehr: Angreifer nutzen frische Domains mit gültigen Zertifikaten, die zum Klickzeitpunkt noch nicht in Threat-Feeds stehen. Wer sich auf URL-Reputation als zweite Schicht verlässt, hat den zweiten Layer ebenfalls verloren.
  • Behavioral-Analytics ist die neue Pflichtschicht: Sender-DNA, Empfänger-Verhaltens-Anomalien und LLM-basierte Klassifikation auf Mail-Inhalt schließen die Lücke. Proofpoint, Mimecast und Abnormal haben dafür dedizierte Agenten gebaut, die Reaktionszeit muss bei zwei Sekunden pro Mail liegen.

Verwandt:KI-Agent findet Linux-Zero-Day in einer Stunde  /  ITDR neben SIEM und EDR: Detection-Architektur 2026

Wo der klassische Mail-Filter heute reisst

Was ist AI-Phishing? AI-Phishing ist eine Klasse von Phishing-Angriffen, bei denen Inhalte (Anschreiben, Pretext, Links und Anhänge) von einem großen Sprachmodell wie GPT-5, Claude 4.7 oder einem feinabgestimmten Open-Source-Modell generiert oder umgeschrieben werden. Ziel ist die Umgehung Pattern-basierter Detection, die seit Jahren auf Tipp-Fehler, Template-Fingerprints und auffällige Phrasen trainiert ist.

Die ersten unabhängigen Tests aus den Threat-Reports von Mimecast, Proofpoint und Group-IB zeigen ein klares Muster. Eine handgeschriebene Phishing-Mail wird von Standard-Profilen mit 70 bis 85 Prozent Wahrscheinlichkeit gestoppt, eine LLM-umgeschriebene Variante derselben Mail nur noch in 15 bis 35 Prozent der Fälle. Das ist kein Tuning-Problem, das ist ein Architektur-Problem, denn die Filter sehen schlicht keine verdächtigen Marker mehr.

Hinzu kommt eine Asymmetrie auf der Angreiferseite. Ein Threat-Actor kann mit dreissig Minuten Recherche zur Empfänger-Rolle fünfzig Varianten desselben Pretexts generieren, jede leicht anders formuliert. Wer das nicht auf Verhaltens-Ebene erkennt, sondern auf Pattern-Ebene, scheitert mathematisch.

Threat-Indikator
80 %
der Social-Engineering-Mails in Q1 2026 waren AI-supported, der Anteil verdoppelt sich aktuell pro Quartal. Die Reaktionszeit der Detection muss von Minuten auf Sekunden fallen.
Quelle: Proofpoint State of the Phish 2026 + Mimecast Threat Intelligence Q1

Was die neue Detection-Schicht wirklich braucht

Die Detection-Architektur verschiebt sich auf drei parallele Layer, von denen jeder einzelne notwendig, aber nicht hinreichend ist.

Layer 1: Sender-DNA

SPF, DKIM und DMARC bleiben Pflicht. Frische Domains, Reputations-Schwankungen und Sender-Verhaltensänderungen sind die Frühindikatoren, die jetzt sofort triggern müssen.

Layer 2: Behavioral Baseline

Was schreibt der Sender üblicherweise an wen, in welchem Ton, mit welchen Anhängen. Anomalien gegen die individuelle Empfänger-Baseline sind der wichtigste neue Detection-Hebel.

Layer 3: LLM-Klassifikation

Spezialisierte Klassifikations-Modelle (Proofpoint, Abnormal, Microsoft Defender for Office) lesen den Mail-Inhalt selbst und bewerten Intent gegen das Verhaltens-Baseline-Modell des Empfängers.

Die offene Frage in den meisten Mittelstands-Setups ist nicht die Tool-Wahl, sondern die Integration. Wer Sender-DNA in der Mail-Plattform misst, Behavioral-Analytics im SIEM und LLM-Klassifikation im EDR, hat drei Datentöpfe, die nicht miteinander reden. Genau diese Lücke beschreibt der ITDR-Architekturwechsel: Identity-Detection als zentrale Schicht, die quer zu Mail, Endpoint und Cloud sieht.

Wer 2026 zuerst aufrüstet, wer wartet

In den Pilot-Setups der letzten Monate sind drei Profile auffällig schnell unterwegs. Versicherer und Finanzdienstleister, die schon BAFIN-getriebene MaRisk-Vorgaben umsetzen müssen und die AI-Phishing-Welle als logische Erweiterung sehen. Healthcare-Systeme, die nach den Datenleaks von 2024 und 2025 unter externer Audit-Beobachtung stehen. Und IT-Dienstleister mit Kunden im öffentlichen Sektor, deren Verträge konkrete Reaktionszeiten zur Erkennung von Spear-Phishing fordern.

Drei weitere Profile bewegen sich langsamer, als sie sollten. Klassische Industrie-Mittelständler ohne BSI-relevante Lieferketten, die das Mail-Filter-Update als kosmetisches Thema einordnen. Familien- und Eigentümergeführte Häuser, die das Thema beim externen IT-Dienstleister parken. Und IT-Bestandsabteilungen, die in Outlook-Centric-Setups eine Microsoft-only-Strategie fahren und damit auf eine Schicht reduzieren, die isoliert Lücken hat.

Die zwei Bewegungen treffen sich 2026 in der Versicherungs-Police. Cyber-Versicherer fragen den Detection-Stack inzwischen detailliert ab und ein nicht beantworteter Fragebogen zur Mail-Phishing-Defense kostet 2026 zwischen 8 und 15 Prozent der Police-Prämie zusätzlich. Der parallele Druck aus dem Linux-Kernel-Bereich, etwa nach dem KI-Agent-Zero-Day-Fund vom Mai, beschleunigt diesen Trend nur.

90-Tage-Plan für CISOs

Wer jetzt nicht warten will, hat in einem Quartal eine messbar bessere Schicht.

90-Tage-Plan: Detection gegen AI-Phishing
Woche 1 bis 2
Status quo messen. SPF/DKIM/DMARC-Coverage prüfen, Quarantäne-Quote der letzten 90 Tage analysieren, Mitarbeiter-Klick-Rate aus letzter Phishing-Simulation. Baseline-Zahlen für die Vorstandsvorlage.
Woche 3 bis 5
Behavioral-Layer einführen. Abnormal, Proofpoint Nexus AI oder Mimecast CyberGraph als Pilot auf 200 Postfächer aufschalten, Lernphase 14 Tage, danach Vergleich gegen den klassischen Filter.
Woche 6 bis 8
Integration mit SIEM und EDR. Sender-DNA-Anomalien, Behavioral-Triggers und EDR-Process-Telemetrie auf eine Detection-Plattform bringen, Korrelation testen.
Woche 9 bis 12
Roll-out auf Gesamtorganisation, Mitarbeiter-Briefing, Cyber-Versicherungsfragebogen aktualisieren. Quartals-Review aufsetzen.

Häufige Fragen

Reicht es, das vorhandene Mail-Gateway zu aktualisieren?

In den meisten Fällen nicht. Pattern-basierte Filter brauchen ein Architektur-Update auf Behavioral-Analytics, das ist mehr als ein Patch. Wer auf Proofpoint, Mimecast oder Microsoft Defender setzt, sollte deren AI-Module aktiv aktivieren und die Lernphase ernst nehmen, sonst bleibt der zweite Layer im Idle.

Welche Rolle spielt das Empfänger-Training noch?

Es bleibt wichtig, aber die Erwartung muss angepasst werden. Wenn die Mail grammatikalisch sauber und kontextuell passend ist, sehen Mitarbeiter sie nicht als Phishing. Trainings-Fokus sollte 2026 auf Verhaltens-Anomalien liegen (ungewohnte Bitte, Eile, ungewöhnlicher Kanal), nicht auf Tipp-Fehler-Erkennung.

Wie verhält sich AI-Phishing zu NIS2-Meldepflichten?

NIS2 verlangt eine Erstmeldung innerhalb von 24 Stunden bei einem signifikanten Vorfall. Wer einen erfolgreichen Spear-Phishing-Angriff erst nach Tagen erkennt, weil Behavioral-Analytics fehlt, verfehlt die Frist mechanisch. Das ist ein operativer Auslöser, nicht nur ein Compliance-Punkt.

Was kostet ein Behavioral-Layer im Mittelstand?

Marktpreise 2026 liegen für Abnormal, Proofpoint Nexus AI und Mimecast CyberGraph zwischen 4 und 9 Euro pro Postfach pro Monat in Mittelstands-Setups (200 bis 2.000 Postfächer). Das sind 9.600 bis 216.000 Euro pro Jahr, je nach Größe. Cyber-Versicherer rechnen das in der Police-Aushandlung gegen.

Über den Autor

Tobias Massow ist CEO der Evernine Media GmbH und Herausgeber der MBF-Media-Magazine. Er beobachtet Detection-Realität entlang der Mail-, SOC- und CISO-Gespräche, die das Magazin täglich führt und schreibt aus dieser Beobachtung, nicht aus Tool-Marketing.

Mehr aus dem MBF Media Netzwerk

cloudmagazin

Cloudflare Containers: Wenn Workers zu klein sind

mybusinessfuture

Whistleblower-Lücke: Erste Bußgelder im Mittelstand

digital-chiefs

CSRD-Testat: Wo die IT-Datenchain bricht

securitytoday

Die Hintertür in fast jedem deutschen Webhosting-Vertrag

Quelle Titelbild: KI-generiert via imagen

Tobias Massow

Hier schreibt Tobias Massow für Sie

Mehr Artikel vom Autor

Auch verfügbar in

FrançaisEspañolEnglish
Ein Magazin der Evernine Media GmbH