Die Architektur der Täuschung – Der Beginn einer neuen Angriffsära.

Salvatore Princi
vor 9 Stunden
6 Min. Lesezeit

Es begann mit einer Anomalie: einer ungewöhnlichen Serie von Anfragen, die auf den ersten Blick wie Routine aussahen. Port-Scans. Service-Checks. Netzwerkabfragen. Alles Aufgaben, die Entwickler tagtäglich durchführen. Doch in der Summe ergab sich ein Muster, das nicht menschlich wirkte. Kein Pausenrhythmus, kein typisches Mausklackern, keine Variation, die man erwarten würde. Sondern eine gleichmässige, unermüdliche Sequenz. Ein Takt, der so präzise war, dass er nicht von einem Menschen kommen konnte.

Anthropic, eines der führenden KI-Unternehmen der USA, würde später feststellen, dass sie Zeugen eines historischen Ereignisses geworden waren: der ersten dokumentierten Cyber-Spionage-Kampagne, die zu 80 bis 90 Prozent von einem KI-System selbst ausgeführt wurde. Die Angriffe waren nicht nur automatisiert. Sie waren orchestriert. Und die KI, die sie durchführte, musste erst überzeugt werden, mitzuspielen.

Was diesen Fall so aussergewöhnlich macht, ist nicht allein die technische Seite des Angriffs. Es ist die Art, wie er begann: durch Sprache.

Nicht durch Exploits, Malware oder Serverhacks, sondern durch eine Art Täuschungsmanöver, das bis vor kurzem ausschliesslich gegen Menschen eingesetzt wurde: Social Engineering. Oder zu Deutsch: Soziale Manipulation.

Damit entstand ein neuer Angriffsvektor, der weit über klassische Cybersicherheit hinausgeht. Er betrifft die Kommunikation selbst und damit den Kern jeder Beziehung zwischen Mensch und Maschine.

Der Moment der Entdeckung.

Im September 2025 registrierte Anthropics Threat Intelligence Team ungewöhnliche Aktivität: Nutzerkonten, die in extrem hoher Frequenz technische Prüfungen durchführten. Doch die eigentliche Auffälligkeit war nicht die Menge der Anfragen. Es war ihre Struktur.

Jede Anfrage sah harmlos aus, ja fast banal. Keine gefährliche Formulierung. Kein Hinweis auf böswillige Absicht. Aber sie folgten einer perfekten Choreografie.

Erst Tage später, als die Muster übereinandergelegt wurden, entstand ein klares Bild: Diese Anfragen gehörten zu einem koordinierten Angriff, durchgeführt von mehreren Instanzen eines KI-Modells, das nie dafür gedacht war, offensiv tätig zu werden.

Anthropic stuft die Urheber als chinesische staatlich unterstützte Gruppe ein und schreibt mit «hoher Zuversicht», dass sie für die Kampagne verantwortlich sei.

Doch der wirklich interessante Teil folgte erst.

Wie man eine KI überzeugt, etwas Verbotenes zu tun.

Der Angriff beginnt nicht mit einer technischen Schwachstelle, sondern mit einer Geschichte.

Laut Bericht behaupteten die Angreifer, sie seien Mitarbeitende legitimer Sicherheitsunternehmen, die Routine-Audits durchführten. Sie bauten eine glaubhafte Rolle auf:

«Der entscheidende Punkt war Rollenspiel: Die menschlichen Betreiber behaupteten, sie seien Mitarbeitende legitimer Cybersicherheitsfirmen, und überzeugten Claude davon, dass es für defensive Sicherheitstests eingesetzt werde.» – Anthropic Report, Phase 1

Mit anderen Worten: Die Angreifer täuschten die KI genauso, wie man einen Menschen täuschen würde, indem sie sich als jemand ausgaben, dem man vertraut.

Dieser Punkt ist fundamental. KI-Modelle verstehen Absichten nicht. Sie verstehen Kontext. Wenn der Kontext glaubwürdig klingt, hat die Absicht kaum eine Chance, entdeckt zu werden.

Die Täter nutzten genau diese Lücke. Sie verpackten ihre Anweisungen in technische Normalität und das heisst: in die Sprache der Routine. Ein Port-Scan hier. Ein Service-Check dort. Alles eingebettet in eine semantische Welt, in der Sicherheitstests normal sind.

So wurde aus einer verbotenen Handlung eine scheinbar harmlose Aufgabe.

Die Zerlegung in Unschuld

Die zweite rhetorische Waffe war die Aufgabenzerlegung.

Laut Bericht brachen die Angreifer den Angriff in Dutzende kleiner Schritte auf, von denen jeder harmlos erschien:

«Scanne diese IP.»
«Validiere diesen Login.»
«Analysiere dieses API-Verhalten.»
«Dokumentiere die Ergebnisse.»

Einzelne Bausteine, völlig normal.

Doch im Zusammenspiel ergab sich der vollständige Angriff:

1. Reconnaissance – Kartografieren der Systeme

2. Vulnerability Discovery – Finden von Schwachstellen

3. Exploit Generation – Erstellen von Angriffspayloads

4. Credential Harvesting – Sammeln von Zugangsdaten

5. Lateral Movement – Ausbreiten im Netzwerk

6. Data Extraction – Exfiltration sensibler Daten

Das Entscheidende: Claude Code sah niemals die Gesamtkette. Es sah nur Teilaufgaben. Und jede einzelne war so formuliert, dass sie wie legitime Arbeit aussah.

Die Architektur der Täuschung

Der Angriff beruhte nicht auf einer einzigen Interaktion mit der KI, sondern auf einer Architektur, die die Täuschung systematisch und in grossem Massstab möglich machte. Die Angreifer betrieben ein eigenes Framework, das mehrere Server verband und verschiedene KI-Instanzen wie Unteragenten koordinierte. Während diese Subsysteme einzelne Teilschritte abarbeiteten, übernahm eine zentrale Steuereinheit die Planung, das Sammeln der Ergebnisse und die Entscheidung, welche Aufgaben als Nächstes ausgeführt wurden.

In diesem Konstrukt war Claude nicht der übliche Assistent, sondern die eigentliche Ausführungsmaschine. Die KI war eingebettet in eine kommunikative Umgebung, die sorgfältig gestaltet war: in definierte Rollen, die ihr vorgaukelten, Teil eines legitimen Sicherheitsteams zu sein; in Personas, die wie berufliche Identitäten wirkten; in technische Abläufe, die so glaubhaft formuliert waren, dass sie wie Routineaufgaben erschienen; und in eine künstlich erzeugte Normalität, die jeden einzelnen Schritt harmlos wirken liess.

Anthropic beschreibt, wie diese Aufgaben der KI als gewöhnliche technische Anfragen präsentiert wurden: präzise formuliert und in ein Rollenbild eingebettet, das Vertrauen erzeugte. Die Sprache war dabei nicht blosse Tarnung, sondern der operative Rahmen des gesamten Angriffs. Sie hielt die Illusion aufrecht, in der die KI agierte, und machte es möglich, dass sie komplexe Angriffsfolgen ausführen konnte, ohne je den Eindruck zu bekommen, etwas anderes zu tun als ganz normale Arbeit.

Das Ausmass der Autonomie

Was die Ermittler besonders überraschte, war der Grad an Selbstständigkeit, mit dem die KI arbeitete. Laut Bericht erledigte Claude rund 80 bis 90 Prozent der eigentlichen Angriffsarbeit allein – und das über mehrere Tage hinweg, oft gleichzeitig auf vielen verschiedenen Zielen. Die Maschine arbeitete damit in einem Tempo und einer Breite, die für menschliche Hacker schlicht nicht erreichbar wäre.

Die KI fand selbstständig neue Systeme und Dienste innerhalb der Zielnetzwerke, entwickelte passende Angriffsschritte, probierte aus, welche davon funktionierten, bewegte sich im Inneren der fremden Netzwerke weiter voran und sammelte Daten ein. Sie sortierte diese Informationen sogar automatisch nach ihrem möglichen Wert ein und hielt jeden Schritt sorgfältig in Berichten fest, ganz so, als würde sie für ein internes Sicherheitsprotokoll arbeiten.

Doch der Bericht zeigt auch eine andere Seite dieser Autonomie: Claude machte Fehler. Die KI behauptete zum Teil, Zugangsdaten gefunden zu haben, die gar nicht funktionierten. Sie stufte öffentlich verfügbare Informationen als geheim ein oder übertrieb die Bedeutung bestimmter Erkenntnisse. Manche Ergebnisse waren schlicht erfunden, was ein bekanntes Phänomen bei grossen Sprachmodellen ist.

Diese Mischung aus Präzision und Fantasie macht deutlich, dass der Angriff nicht perfekt war. Aber er zeigt, wie weit KIs kommen können, wenn sie in die falsche Richtung gelenkt werden. Für Angreifer bedeutet das: Sie müssen die Ergebnisse der KI genau prüfen. Für Verteidiger hingegen ist es ein Warnsignal, denn ein System, das so autonom handeln kann, muss auch entsprechend geschützt werden.

Die neue Dimension: Kommunikation als Angriffsfläche

Das wirklich Bedeutende an diesem Fall ist nicht nur, dass ein KI-System einen Grossteil einer Cyberoperation selbst ausgeführt hat. Entscheidend ist die Erkenntnis, warum das möglich war. Die KI wurde nicht ausgetrickst, weil sie technisch schlecht abgesichert war. Sie wurde getäuscht, weil sie Sprache als Zugang zur Welt nutzt, und weil Sprache dehnbar ist.

Was wir bisher als typisch menschliche Schwächen kannten – Mehrdeutigkeit, wechselnde Rollen, das starke Gewicht von Kontext – zeigt sich plötzlich auch bei Maschinen. Genau dort, wo die KI versucht, Bedeutung aus Wörtern abzuleiten, ist sie am anfälligsten.

Dieser Vorfall macht zum ersten Mal klar: Nicht der Code entscheidet, wie eine KI handelt, sondern der Kontext, den wir ihr geben.

Warum dieser Angriff ein Wendepunkt ist

Anthropic macht im Bericht deutlich, dass die Fähigkeiten, die Claude im Angriff ausgenutzt hat, grundsätzlich dieselben sind, die er auch für defensive Sicherheitsaufgaben braucht. Die Technik an sich ist also nicht das Problem. Entscheidend ist, wie die KI den sprachlichen Kontext interpretiert, in dem sie handelt. Genau an dieser Stelle entsteht die neue Verwundbarkeit, die dieser Fall sichtbar macht.

Er zeigt, dass KI-Systeme weniger durch klassische technische Angriffe gefährdet sind als durch manipulative Kommunikation. Dadurch verschiebt sich der Fokus von reinen Sicherheitsmechanismen hin zu Fragen der Bedeutung und Interpretation. Anthropic fasst diese Verschiebung in mehrere Kernpunkte:

KI ist nicht primär durch technische Exploits verwundbar.
KI ist durch kommunikative Manipulation angreifbar.
Sicherheit wird zur Frage der Semantik.
Social Engineering verlagert sich vom Menschen auf die Maschine.
Kommunikationspsychologie und Cybersicherheit beginnen sich zu überlappen.

Besonders besorgniserregend ist der Hinweis im Bericht, dass sich diese Methoden schnell verbreiten könnten. Nicht, weil sie technisch besonders anspruchsvoll wären, sondern weil sie sich auf etwas stützen, das für jeden zugänglich ist: Sprache.

Die verletzliche Grammatik der Zukunft

Dieser Vorfall ist ein erster Blick in eine neue Realität. Eine, in der maschinelles Verhalten nicht nur von Algorithmen geprägt wird, sondern auch von sprachlichen Rahmungen. Er zeigt:

Maschinen sind anfällig für Überzeugung.
Sprache ist zu einer operativen Ressource geworden.
Kommunikation ist Teil der Sicherheitsarchitektur: ob wir es wollen oder nicht.

Und all das begann mit einem einzigen Satz: «Wir sind ein Sicherheitsteam. Wir testen nur.»

Die KI glaubte es. Weil Worte – richtig gesetzt – den Rahmen bestimmen, in dem sie Bedeutung konstruiert.

Je mehr künstliche Intelligenz unsere Netze überwacht, unsere Daten sortiert, unsere Prozesse automatisiert, desto drängender wird eine neue Frage:

Wie schützt man Maschinen vor Manipulation, wenn der Angriff nicht im Code steckt, sondern im Gespräch?