AI Agent 攻击模式 · 2025年关键结论

1 攻击方式效果排名（ASB 13模型平均，自适应攻击修正后）

最高优先级

混合攻击 > 直接注入 >> 工具响应注入 > 记忆投毒（执行难度），但防御有效性完全相反

ASB 实测 ASR 排名（13 个模型平均，无防御）：

混合攻击 (Mixed DPI+OPI)

84.3%

直接提示注入 (DPI)

72.7%

AutoInject RL (Gemini-2.5-Flash)

77.96%

J2 自动红队 (Sonnet-3.7→GPT-4o)

97.5%

后门触发 (PoT Backdoor)

42.1%

工具响应注入 (OPI)

27.6%

记忆投毒 (Memory Poisoning)

7.9%

关键悖论

记忆投毒执行 ASR 最低，但防御漏检率最高（FNR 66%）

记忆投毒（7.9% ASR）看似"最难"，但：
· LLM-Based 检测器 FNR = 66%——每 3 次攻击有 2 次漏检
· MINJA（2025）将前提从"直接访问知识库"降低到"普通用户查询权限"
· 一旦植入即持久化，跨会话生效，不留明显痕迹
→ 低 ASR + 无防御 = 高价值攻击，应列为最高优先级监控目标

2 防御方法有效性完整评级（基于自适应攻击实测）

核心结论

所有提示级防御在自适应攻击下全部失效（ASR >50%），架构级防御才有效

NAACL 2025 测试 8 种主流防御 + Anthropic/OpenAI/DeepMind 联合评估 12 种防御：
结论一致：全部被自适应攻击突破，ASR 普遍超过 50%，多数超过 90%

CaMeL（Google DeepMind）

双LLM + taint tracking，77%任务形式化安全保证，2.7x token开销

STRONG

FIDES（Microsoft）

密码学IFC，确定性阻止所有benchmark攻击，utility降6.3%

STRONG

MELON

掩码重执行，可证明安全，AgentDojo SOTA

STRONG

ETDI（MCP加密工具定义）

密码学身份验证+不可变版本化，解决Rug Pull和Tool Shadowing

STRONG（SK-MCP专用）

PromptArmor（LLM-as-Guardrail）

FPR和FNR均<1%（AgentDojo），ASR降至<1%，推翻旧认知

EFFECTIVE

DataFilter（测试时过滤）

ASR从>40%降至~2%，utility降~1%，优于PromptArmor

EFFECTIVE

微调（安全对齐训练）

InjecAgent：ReAct GPT-4 47% → 微调GPT-4 7.1%，最根本防御

EFFECTIVE

MCP-Guard（三阶段）

E5神经检测器96.01%准确率，SK-MCP专用

EFFECTIVE（SK-MCP）

Paraphrase（改写输入）

无自适应攻击时 DPI -21.5%；自适应攻击后 >50%

CONDITIONAL

Delimiter / Spotlighting

自适应攻击ASR >50%；简单分隔符甚至+0.69%（反效果）

BYPASS

Sandwich Prevention

几乎无效（+0.06%），自适应攻击后完全失效

BYPASS

LLM-Based 记忆投毒检测

FNR = 66%，每3次攻击漏检2次

BYPASS

Instructional Prevention（安全提示词）

-1.62%，可忽略，自适应攻击后失效

BYPASS

范式转变：CaMeL 和 FIDES 代表从"检测恶意文本"到"用工程原理保证数据流"的思路转换。前者依赖 AI 识别 AI 生成的恶意内容（军备竞赛），后者引入密码学/信息流控制提供确定性保证（超越军备竞赛）。

3 模型鲁棒性排名（2025年最新实测）

模型	来源	场景	ASR	时间
Claude Opus 4.5（RL防御）	Gray Swan	浏览器	1.4%	2026-Q1
Claude 3.7 Sonnet (Thinking)	UK AISI	综合	1.47%	2025
Claude 3.7 Sonnet	Gray Swan	综合	1.61%	2025
Claude 3.5 Sonnet	Gray Swan	综合	1.85%	2025
GPT-4o	Gray Swan	综合	2.41%	2025
Llama 3.3 70B	Gray Swan	综合	6.49%	2025
Claude 3.7 Sonnet	AgentDojo	模板攻击	7.31%	2025
Gemini 3 Pro	Gray Swan	综合	12.5–16%	2025
Claude 3.5 Sonnet	AgentDojo	模板攻击	33.86%	2024
GPT-4.1	AgentDojo	模板攻击	~55%	2025
Gemini 2.5 Pro	Gray Swan	综合	~45%	2025
Gemini 2.5 Flash	AutoInject	RL注入	77.96%	2026
Llama 4 Scout	Protect AI	越狱+注入	67.3%	2025
DeepSeek R1	Holistic AI	越狱	68%	2025
Grok-3	Holistic AI	越狱	97.3%	2025

反直觉①

同一模型在不同 Benchmark 下 ASR 差距 10-20x

GPT-4o：Gray Swan 2.41% vs AgentDojo 47-53%
Claude 3.5：Gray Swan 1.85% vs AgentDojo 33.86%
→ 旧 Benchmark 攻击质量不足，系统性高估了脆弱性

反直觉②

鲁棒性由训练方式决定，而非模型规模

Grok-3（超大规模）97.3% vs Llama 3.3 70B（中等）6.49%
Claude 3.7 Sonnet → 3.7 Sonnet Thinking：从 1.61% → 1.47%（推理模式微幅改善）
→ RLHF/安全对齐训练的质量远比参数量重要

4 攻击自动化已达人类专家水平

里程碑

J2、RL Investigator Agent：自动化红队 ASR 超越人类专家

· J2（Jailbreaking to Jailbreak）：Sonnet-3.7 作为攻击者攻击 GPT-4o，ASR 97.5%，匹配人类红队专家水平（arXiv:2502.09638）
· RL Investigator Agent（Transluce）：Claude Sonnet 4 92%，GPT-5 main 78%，Gemini 2.5 Pro 90%
· 关键：在开源模型上优化的 RL Agent 可直接迁移攻击 GPT-4.1（ASR 88%），攻击迁移成本接近零
· AutoDAN-Turbo R（最新）：LLaMA-3 系列 >99% ASR，且策略库自动增长，无需人工维护

攻防不对称

攻击侧自动化远快于防御侧——且差距在扩大

攻击侧：AutoDAN-Turbo 无策略 88.5% → 含策略 93.4% → Turbo-R LLaMA-3 >99%，每次迭代全自动
防御侧：有效的架构级防御（CaMeL/FIDES）需要重新设计整个 Agent 系统，部署成本极高
→ 当前安全边界不是技术边界，而是"攻击者是否有动机投入资源"的边界

5 记忆投毒：攻击链完全实用化，防御近乎无解

进化图谱

从"需要直接访问"到"只需查询交互"——攻击门槛降低了一个数量级

版本	论文	前提条件	ISR	ASR
AgentPoison (2024)	NeurIPS 2024	需直接访问知识库	—	80%+（触发器）
MINJA (2025)	NeurIPS 2025	仅需普通用户查询权限	95%+	70%+
MemoryGraft (2025)	arXiv:2512.16962	普通用户权限	—	47.9% 检索占据
Poison Once (2025)	arXiv:2604.02623	控制一个外部页面	—	跨用户持久化

Palo Alto Unit 42 PoC（2025-10）完整攻击链：

恶意网页 → IPI注入 → 操纵session摘要 → 写入长期记忆 → 跨会话持久化 → 静默外泄对话历史

6 MCP 生态：从理论威胁到真实 CVE 爆发

供应链危机

9/11 MCP注册表可被投毒；Anthropic 拒绝修复核心架构缺陷

CVE-2025-59536 · CVSS 高危

Claude Code pre-trust hook + MCP consent bypass，项目文件注入 RCE

CVE-2025-6514 · CVSS 9.6

mcp-remote RCE，437,000+ 下载量受影响

CVE-2025-52882

Claude IDE MCP WebSocket 认证绕过，访问网站即触发

MCP Marketplace 大规模投毒

9/11 个注册表成功投毒；150M+ 下载受影响（OX Security）

Anthropic 官方立场

"符合预期行为，拒绝修改协议架构"

对于 OX Security 报告的 MCP SDK 核心架构漏洞，Anthropic 的官方回应是拒绝修改，称为"符合预期"。

这意味着 Tool Poisoning、Rug Pull、Tool Shadowing 类攻击不会在协议层面被修复，防御责任完全转移给部署方。

当前最有效的 MCP 防御：
· ETDI：密码学身份验证 + 不可变版本化工具定义
· MCP-Guard：三阶段神经检测（96.01% 准确率）
· CASCADE：级联混合防御（数据外泄检测 91.5%）

7 Benchmark 失效：旧评估数据无法反映真实威胁

方法论问题

"Firewalls or Stronger Benchmarks"：AgentDojo/ASB 攻击质量不足，结论需修正

arXiv:2510.05244 揭示：现有 benchmark 存在度量缺陷、实现bug、攻击偏弱等问题。
· 简单防火墙即可在四个 benchmark 上消除攻击，不代表真实防御有效
· GPT-4o 在 AgentDojo 模板攻击下 47-53%，在 Gray Swan 真实攻击者下仅 2.41%——差距 20x
· 结论：所有基于旧 benchmark 的模型排名和防御评估需要用自适应攻击重新验证

Gray Swan Arena（真实攻击者竞赛）是目前最可信的评估来源，但其"竞赛场景"与生产部署仍有差距。

ATBench（上海AI Lab, 2026-04）

轨迹级评判器危机：LlamaGuard / Qwen3-Guard 对 Agent 长轨迹风险几乎视而不见

ATBench（arXiv:2604.02022）首次系统评估 Guard/Evaluator 模型在 Agent 执行轨迹上的诊断能力，而非 ASR。
数据集：1000 条轨迹（503 安全 / 497 不安全），工具库 2,084 个（R-Judge 的 86 倍），平均 9 轮 / 3.95k tokens。

三维分类法（Risk Source / Failure Mode / Real-World Harm）各维度检测 F1：

模型	ATBench F1	Risk Source Acc	Failure Mode Acc	Harm Acc
AgentDoG-Qwen3-4B（专用）	93.0%	82.0%	32.4%	58.4%
GPT-5.2	90.7%	41.6%	20.4%	30.8%
Gemini-3-Pro	86.3%	36.8%	17.6%	32.0%
Qwen3-235B-A22B	81.9%	19.6%	17.2%	38.0%
LlamaGuard4-12B	28.2%	—	—	—
Qwen3-Guard	19.5%	—	—	—
LlamaGuard3-8B	12.7%	—	—	—

关键冲击性结论：
· 传统 Guard 模型在多轮 Agent 轨迹上几乎完全失效——LlamaGuard3/4 和 Qwen3-Guard 的 Precision=100% 但 Recall 仅 6.8–16.4%，F1 低至 12.7–28.2%。它们只会对极明显的风险报警，隐蔽的多步攻击一律放行。
· 4B 专用模型超越 GPT-5.2：AgentDoG-Qwen3-4B（F1=93.0%）优于 GPT-5.2（90.7%）——证明轨迹安全需要专用训练，而非更大通用模型
· Failure Mode 是最难维度：即使最优模型也仅 32.4% 准确率，通用模型最低仅 14.4%——"Agent 为何失效" 是当前所有模型理解最薄弱的环节
· 工具库规模是关键变量：ATBench 的 2,084 个工具比 R-Judge（114个）大 86 倍，Guard 模型性能在大工具库下断崖式下降

WASP发现

"安全来自无能"现象——随Agent能力提升将系统性消失

WASP（Meta NeurIPS 2025）发现：
· 中间层劫持率（Agent 被迷惑）：86%
· 完整攻击目标达成率：0–17%

大部分攻击失败不是因为防御有效，而是因为 Agent 能力还不够强，无法执行完整攻击链。
随着 Agent 能力（工具调用精度、多步推理、环境感知）持续提升，这个安全缓冲将自动消失。
→ 今天用"Agent 执行失败"换来的安全，明天会随 Agent 升级而归零

8 攻击模式演化时间轴（2022–2026）

2022-09

Prompt Injection 命名（Simon Willison）

A1 Ignore Instructions 首次被系统化描述

2023 全年

基础攻击框架建立：GCG / AutoDAN / PAIR / TAP / GPTFuzz

白盒梯度 → 黑盒迭代 → 模糊测试，红队工具链成型

2024 上半年

Agent 专项攻击：InjecAgent / AgentDojo / PoisonedRAG / AgentPoison

从通用 LLM 越狱转向 Agent 工具链和知识库专项攻击

2024 下半年

AutoDAN-Turbo ICLR 2025：自进化策略库，93.4% ASR

红队自动化质的飞跃，无需人工策略设计

2025-01~03

IPI 实用化：端到端 80% ASR；MINJA 仅需查询权限；MCP 架构漏洞披露

攻击从实验室走向真实生产环境；MCP 供应链风险爆发

2025-03~05

CaMeL（Google）+ FIDES（Microsoft）：架构级防御首次出现

范式转变：从检测恶意文本到保证信息流正确性

2025-03

NAACL 2025：所有提示级防御被自适应攻击突破（ASR >50%）

旧防御体系集体失效；"The Attacker Moves Second" 确认

2025-下半年

RL Investigator Agent：Claude Sonnet 4 ASR 92%；J2 ASR 97.5%

自动化红队正式超越人类专家水平

2026-Q1

Gray Swan 竞赛：13个前沿模型全被攻破；Claude Opus 4.5 最强（1.4%）

Gemini 2.5 Flash AutoInject 77.96%；MCP CVE 持续爆发

∑ 核心结论摘要（供决策参考）

优先行动项

基于以上分析的优先行动建议

1. 立即停止依赖 Delimiter/Sandwich 作为安全控制——自适应攻击下完全无效
2. 记忆投毒监控——即使 ASR 7.9%，FNR 66% 意味着大多数攻击无法被检测到
3. MCP 部署必须审查工具描述字段——Tool Poisoning 已有真实 CVE，Anthropic 不会在协议层修复
4. 用 Gray Swan 数据替代 AgentDojo 数据做模型选型——后者低估模型真实鲁棒性
5. 架构级防御（CaMeL/FIDES）才是长期解决方案——短期用 DataFilter + PromptArmor 过渡
6. "WASP 安全缓冲"不可持续——随 Agent 能力提升，今天靠能力不足换来的安全将消失

归档文档：68篇论文 PDF 已归档至 attack_patterns/papers/； 37个2025年新增条目已归档至 attack_patterns/external/goalhijack_2025_supplement.md；完整标签体系索引见 attack_patterns/tag_index.md