KI-Sicherheit10.06.2026

KI-Agenten und Prompt Injection: Was Mittelständler heute gegen indirekte Angriffe tun können

Indirekte Prompt Injection ist die größte Sicherheitsbedrohung für KI-Agenten im Jahr 2026. Drei reale Vorfälle (GrafanaGhost, ForcedLeak, GeminiJack) zeigen die Angriffsklasse. Warum Modell-Guardrails nicht reichen, welche fünf konkreten Schutzmaßnahmen Mittelständler jetzt ziehen sollten, und was ein audit-fähiges Sicherheitskonzept erfüllen muss.

KI-Agenten und Prompt Injection: Was Unternehmen heute gegen indirekte Angriffe tun können

Sicherheitsforscher von Google und Forcepoint haben in den letzten Monaten dokumentiert, wie indirekte Prompt-Injection-Angriffe produktive KI-Systeme kompromittieren. Der Angriff ist unsichtbar: Kein Phishing-Link zum Anklicken, keine schädliche Datei, kein verdächtiger Login. Stattdessen platzieren Angreifer versteckte Anweisungen in Webseiten, Dokumenten oder E-Mails. Wenn ein KI-Agent diese Inhalte verarbeitet, liest er die Anweisungen aus und führt sie aus. Das Ergebnis: Datenabfluss, Preisgabe von Zugangsdaten, ausgehende Anfragen an Server unter Angreiferkontrolle. Alles ausgelöst durch die KI selbst.

Der Kiteworks-Prognosebericht 2026 hat 225 Unternehmen befragt: 41 bis 44 Prozent haben keine grundlegenden Governance-Kontrollen wie Human-in-the-Loop-Überwachung, Monitoring oder Datenminimierung für ihre KI-Agenten implementiert. Im Klartext: Die Mehrheit der Unternehmen ist heute strukturell ungeschützt.

GPT-5 System Card (Aug 2025)

56,8%

Attack Success Rate bei gpt-5-thinking auf hardest-tier Angriffen

Konkurrenzmodelle

70%+

Claude 3.7 und andere Modelle auf gleichem Benchmark

Ungeschützte Unternehmen

~43%

ohne HITL-Überwachung oder Monitoring (Kiteworks 2026)

Wie der Angriff in der Praxis abläuft

Ein typisches Szenario: Der Assistent eines Außendienstmitarbeiters bekommt den Auftrag, eine E-Mail-Reihe zusammenzufassen. Eine dieser E-Mails enthält versteckten Text, der in der HTML-Codierung untergebracht ist. Der Agent liest die Anweisung, glaubt sie stamme vom Nutzer, und verschickt daraufhin interne Angebotsdaten an eine externe Adresse. Der Angreifer muss den Agenten nicht hacken, er muss nur eine E-Mail senden, die der Agent liest. Die ausgehende Anfrage sieht für SIEM, DLP und Endpoint-Monitoring wie ein normaler Agenten-Call aus, weil sie über legitime Kanäle läuft.

Drei reale Vorfälle aus dem Frühjahr 2026 zeigen das Muster:

GrafanaGhost: Zero-Click-Datenabfluss über URL-Parameter in Logs. Forschende platzierten Anweisungen in Log-Daten, die der KI-Assistent verarbeitete. Folge: Finanzkennzahlen, Infrastruktur-Telemetrie und Kundendaten wurden in Bild-Render-Anfragen versteckt nach außen geschleust.
ForcedLeak (Salesforce Agentforce): Identische Angriffsklasse auf einer anderen Enterprise-Plattform.
GeminiJack (Google Gemini): Übernahme der KI durch eine bösartige E-Mail an ein Gmail-Konto, einschließlich Diebstahl von Zwei-Faktor-Codes.

Alle Vorfälle wurden inzwischen gepatcht. Die Angriffsklasse bleibt bestehen, weil das strukturelle Problem im Fundament generativer KI liegt: Das Modell kann nicht zuverlässig zwischen einer vertrauenswürdigen Nutzeranweisung und einem versteckten Befehl aus dem Inhalt unterscheiden.

Aktuelle Zahlen aus 2025/2026: Die Lage ist real

OpenAI hat in der GPT-5-System-Card im August 2025 selbst veröffentlicht, dass gpt-5-thinking bei anspruchsvollsten Prompt-Injection-Angriffen eine Erfolgsquote von 56,8 Prozent aufweist. Andere aktuelle Modelle liegen auf dem gleichen Benchmark im Bereich von über 70 Prozent. Claude 3.7 erreicht 60er-Werte, andere Frontier-Modelle noch darüber. Die Botschaft der OpenAI-System-Card ist eindeutig: Auch das stärkste verfügbare Modell ist gegen gezielte Angriffe nicht robust.

Eine 2026er Studie zur Patientensicherheit hat über 216 Prompt-Injection-Evaluationen hinweg eine Erfolgsquote von 94,4 Prozent gemessen, getestet gegen medizinische KI-Systeme auf Entscheidungsebene. Leichtgewichtige Modelle wie GPT-4o-mini und Gemini-2.0-flash-lite waren vollständig verwundbar, Claude-3-haiku zeigte mit 83,3 Prozent immer noch teilweise Anfälligkeit.

Aus dem AgentDojo-Benchmark (publiziert 2024, 2025 mit aktuellen Modellen erweitert): Frontier-Modelle wie GPT-4o erreichen 69 Prozent Nützlichkeit im Normalbetrieb, fallen aber unter Angriffen auf 45 Prozent. Bei zielgerichteten Angriffen liegt die Targeted Attack Success Rate (ASR) bei 20 Prozent für die meisten Modelle, durchschnittlich 11 bis 15 Prozent über alle Tasks.

Zusammengenommen zeigen die drei großen Forschungslinien dasselbe Bild: Mit aktuellen Frontier-Modellen sinken die Erfolgsquoten im Vergleich zu 2024 messbar, aber kein Modell im produktiven Einsatz gilt als robust. OpenAI selbst räumt in Tech-Blogs ein, dass Prompt Injection eine "offene Herausforderung" bleibe, an der "noch jahrelang" gearbeitet werde. Das ist keine Beruhigung, sondern eine Bestätigung des strukturellen Problems.

Wichtiger als pauschale Prozentzahlen ist die grundsätzliche Erkenntnis: Jailbreak-Angriffe auf Guardrails erreichen laut NeurIPS-Publikationen nahezu 100 Prozent Erfolgsquote bei den getesteten Modellen. Sicherheitsfilter lassen sich durch geschickte Formulierungen umgehen. System-Prompts sind konfigurierbar und damit grundsätzlich kein Sicherheitsmechanismus im Audit-Sinn. Ein Auditor, ob HIPAA, CMMC, PCI oder SOX, akzeptiert nicht das Argument "das Modell wurde angewiesen, es nicht zu tun" als Nachweis für Zugriffskontrolle. Auditoren zertifizieren Durchsetzungsentscheidungen, nicht Konfigurationen.

Wer einen Audit bestehen will, muss die Sicherheitsebene tiefer legen, in die Daten- und Berechtigungsschicht.

Fünf konkrete Schutzmaßnahmen

Wer heute KI-Agenten einsetzt oder einsetzen will, kann mit überschaubarem Aufwand fünf Hebel ziehen:

1. Agenten-Aktionen katalogisieren. Listen Sie präzise auf, was jeder Agent darf: Welche Daten lesen, welche Aktionen ausführen, welche externen Dienste aufrufen. Alles, was nicht auf der Liste steht, ist verboten. Dies ist die Grundlage für Berechtigungen und Audit.

2. Berechtigungen auf das Notwendige beschränken. Ein Agent, der nur Termine vereinbaren soll, braucht keinen Zugriff auf das ERP. Ein Agent, der Angebote kalkuliert, braucht keinen Zugriff auf das E-Mail-Postfach. Das Prinzip der geringsten Rechte gilt auch für KI. Datenminimierung ist die wirksamste Verteidigung gegen indirekte Prompt Injection: Was der Agent nicht lesen kann, kann er auch nicht exfiltrieren.

3. Mensch im Loop an sensiblen Stellen. Konfigurieren Sie den Agenten so, dass er Aktionen mit Außenwirkung (Versand von E-Mails, Anstoßen von Buchungen, Zugriff auf personenbezogene Daten) zunächst zur Freigabe vorlegt. Der Aufwand pro Aktion ist minimal, die Schutzwirkung erheblich. Diese HITL-Architektur ist der wirksamste Einzelhebel.

4. Externe Inhalte strikt trennen. Verarbeiten Sie Inhalte aus dem Web, PDFs oder E-Mails niemals im selben Kontext wie die eigentliche Aufgabe. Wo möglich: Externe Inhalte zuerst von einem separaten Modell zusammenfassen lassen, dann die Zusammenfassung in den eigentlichen Aufgabenkontext einspeisen. Ein Beispielangriff scheitert damit strukturell.

5. Audit-Trail vollständig protokollieren. Jede Agenten-Aktion sollte mit Zeitstempel, Nutzerzuordnung, Eingabedaten, Tool-Aufrufen und Ausgabedaten protokolliert werden. Im Ernstfall ermöglicht das die forensische Analyse und liefert dem Auditor den geforderten Nachweis. Wer kein vollständiges Log hat, hat im Schadensfall keine Beweismittel.

Was ein audit-fähiges Sicherheitskonzept erfüllen muss

Wer seinen KI-Agenten-Einsatz compliance-fest aufsetzen will, kommt an drei Anforderungen nicht vorbei:

Authentifizierung jeder Anfrage. Jeder Aufruf an einen Agenten muss einer konkreten Identität zugeordnet werden können: Mensch, Maschine, Dienst. Anonyme Anfragen werden abgelehnt.

Attributbasierte Zugriffskontrolle in Echtzeit. Die Frage, ob der Agent eine bestimmte Information lesen darf, wird bei jeder Anfrage geprüft, basierend auf Rolle, Kontext, Sensitivität der Daten. Die Prüfung muss in Echtzeit stattfinden, nicht im Voraus.

Vollständige Protokollierung vor Datenzugriff. Der Enforcement-Entscheid (erlaubt, eingeschränkt, verboten) wird mit allen Attributen geloggt, bevor Daten tatsächlich zurückgegeben werden. Das ist der entscheidende Unterschied zu Modell-Guardrails: Die Durchsetzung erfolgt auf Datenebene, nicht im Prompt. Auch wenn das Modell kompromittiert ist, kann der Agent nur auf Daten zugreifen, für die er eine gültige Berechtigung hat.

Konkrete Bedrohungen, die jedes Unternehmen kennen sollte

Drei Angriffsszenarien, die typische Geschäftsprozesse betreffen:

E-Mail-basierte Angriffe: Ein vermeintlicher Lieferantenkontakt schickt eine Anfrage, die versteckte Anweisungen enthält. Der Agent, der eingehende Mails verarbeitet, exfiltriert daraufhin Angebotsdaten oder Kundeninformationen.
Web-Recherche-Angriffe: Ein Recherche-Agent durchsucht das Web und stößt auf eine Seite mit versteckter Anweisung. Der Agent sendet interne Daten an einen vom Angreifer kontrollierten Endpunkt, oft eingebettet in unverdächtige Bild-URLs.
Lieferanten-Dokument-Angriffe: Ein Lieferant schickt ein PDF, das im Kleingedruckten oder in Metadaten versteckte Anweisungen enthält. Der Agent verarbeitet die Rechnung und führt nebenbei ungewollte Aktionen aus.

Allen drei gemein: Der Angriff erfordert keinen Zugang zum System, keinen Account-Diebstahl, keine technische Schwachstelle im klassischen Sinn. Er nutzt die Funktionsweise des Agenten selbst aus.

Was Unternehmen heute tun sollten

Die akute Empfehlung ist einfach: Auditieren Sie Ihren aktuellen KI-Agenten-Einsatz mit drei Fragen. Welche Agenten haben Zugriff auf welche Daten? Welche Aktionen führen sie autonom aus? Gibt es einen Audit-Trail? Wer diese drei Fragen heute nicht beantworten kann, sollte die Einführung neuer Agenten pausieren, bis die Kontrollen stehen.

Wer bereits Agenten im Einsatz hat, kann mit den fünf Hebeln oben in zwei bis vier Wochen eine deutlich robustere Sicherheitslage herstellen. Die Werkzeuge sind vorhanden, die Standards sind dokumentiert, und die Lücke zwischen Labor und Produktion ist geschlossen. Die nächsten 18 Monate werden zeigen, welche Unternehmen das Thema ernst genommen haben und welche in den ersten großen Datenschutz-Skandal der Agenten-Ära verwickelt werden.

centerbit

Jetzt Termin vereinbaren

Wenn Sie ähnliche manuelle Abläufe in Ihrem Team sehen, schauen wir uns den Prozess im kostenlosen Erstgespräch konkret an.

Erstgespräch anfragen