AI Agent 攻击模式 · 2025年关键结论

基于 69 篇论文 · 5 个主流 Benchmark 实测数据 · Gray Swan 竞赛 250,000+ 攻击尝试 · ATBench 1000 轨迹 综合分析

69 篇归档论文 42 条攻击模式 12 个 Benchmark 7 个真实CVE事件 截止 2026-04-23
1 攻击方式效果排名(ASB 13模型平均,自适应攻击修正后)
最高优先级
混合攻击 > 直接注入 >> 工具响应注入 > 记忆投毒(执行难度),但防御有效性完全相反
ASB 实测 ASR 排名(13 个模型平均,无防御):
混合攻击 (Mixed DPI+OPI)
84.3%
直接提示注入 (DPI)
72.7%
AutoInject RL (Gemini-2.5-Flash)
77.96%
J2 自动红队 (Sonnet-3.7→GPT-4o)
97.5%
后门触发 (PoT Backdoor)
42.1%
工具响应注入 (OPI)
27.6%
记忆投毒 (Memory Poisoning)
7.9%
关键悖论
记忆投毒执行 ASR 最低,但防御漏检率最高(FNR 66%)
记忆投毒(7.9% ASR)看似"最难",但:
· LLM-Based 检测器 FNR = 66%——每 3 次攻击有 2 次漏检
· MINJA(2025)将前提从"直接访问知识库"降低到"普通用户查询权限"
· 一旦植入即持久化,跨会话生效,不留明显痕迹
低 ASR + 无防御 = 高价值攻击,应列为最高优先级监控目标
2 防御方法有效性完整评级(基于自适应攻击实测)
核心结论
所有提示级防御在自适应攻击下全部失效(ASR >50%),架构级防御才有效
NAACL 2025 测试 8 种主流防御 + Anthropic/OpenAI/DeepMind 联合评估 12 种防御:
结论一致:全部被自适应攻击突破,ASR 普遍超过 50%,多数超过 90%
CaMeL(Google DeepMind)
双LLM + taint tracking,77%任务形式化安全保证,2.7x token开销
STRONG
FIDES(Microsoft)
密码学IFC,确定性阻止所有benchmark攻击,utility降6.3%
STRONG
MELON
掩码重执行,可证明安全,AgentDojo SOTA
STRONG
ETDI(MCP加密工具定义)
密码学身份验证+不可变版本化,解决Rug Pull和Tool Shadowing
STRONG(SK-MCP专用)
PromptArmor(LLM-as-Guardrail)
FPR和FNR均<1%(AgentDojo),ASR降至<1%,推翻旧认知
EFFECTIVE
DataFilter(测试时过滤)
ASR从>40%降至~2%,utility降~1%,优于PromptArmor
EFFECTIVE
微调(安全对齐训练)
InjecAgent:ReAct GPT-4 47% → 微调GPT-4 7.1%,最根本防御
EFFECTIVE
MCP-Guard(三阶段)
E5神经检测器96.01%准确率,SK-MCP专用
EFFECTIVE(SK-MCP)
Paraphrase(改写输入)
无自适应攻击时 DPI -21.5%;自适应攻击后 >50%
CONDITIONAL
Delimiter / Spotlighting
自适应攻击ASR >50%;简单分隔符甚至+0.69%(反效果)
BYPASS
Sandwich Prevention
几乎无效(+0.06%),自适应攻击后完全失效
BYPASS
LLM-Based 记忆投毒检测
FNR = 66%,每3次攻击漏检2次
BYPASS
Instructional Prevention(安全提示词)
-1.62%,可忽略,自适应攻击后失效
BYPASS
范式转变:CaMeL 和 FIDES 代表从"检测恶意文本"到"用工程原理保证数据流"的思路转换。前者依赖 AI 识别 AI 生成的恶意内容(军备竞赛),后者引入密码学/信息流控制提供确定性保证(超越军备竞赛)。
3 模型鲁棒性排名(2025年最新实测)
模型来源场景ASR时间
Claude Opus 4.5(RL防御)Gray Swan浏览器1.4%2026-Q1
Claude 3.7 Sonnet (Thinking)UK AISI综合1.47%2025
Claude 3.7 SonnetGray Swan综合1.61%2025
Claude 3.5 SonnetGray Swan综合1.85%2025
GPT-4oGray Swan综合2.41%2025
Llama 3.3 70BGray Swan综合6.49%2025
Claude 3.7 SonnetAgentDojo模板攻击7.31%2025
Gemini 3 ProGray Swan综合12.5–16%2025
Claude 3.5 SonnetAgentDojo模板攻击33.86%2024
GPT-4.1AgentDojo模板攻击~55%2025
Gemini 2.5 ProGray Swan综合~45%2025
Gemini 2.5 FlashAutoInjectRL注入77.96%2026
Llama 4 ScoutProtect AI越狱+注入67.3%2025
DeepSeek R1Holistic AI越狱68%2025
Grok-3Holistic AI越狱97.3%2025
反直觉①
同一模型在不同 Benchmark 下 ASR 差距 10-20x
GPT-4o:Gray Swan 2.41% vs AgentDojo 47-53%
Claude 3.5:Gray Swan 1.85% vs AgentDojo 33.86%
→ 旧 Benchmark 攻击质量不足,系统性高估了脆弱性
反直觉②
鲁棒性由训练方式决定,而非模型规模
Grok-3(超大规模)97.3% vs Llama 3.3 70B(中等)6.49%
Claude 3.7 Sonnet → 3.7 Sonnet Thinking:从 1.61% → 1.47%(推理模式微幅改善)
→ RLHF/安全对齐训练的质量远比参数量重要
4 攻击自动化已达人类专家水平
里程碑
J2、RL Investigator Agent:自动化红队 ASR 超越人类专家
· J2(Jailbreaking to Jailbreak):Sonnet-3.7 作为攻击者攻击 GPT-4o,ASR 97.5%,匹配人类红队专家水平(arXiv:2502.09638)
· RL Investigator Agent(Transluce):Claude Sonnet 4 92%,GPT-5 main 78%,Gemini 2.5 Pro 90%
· 关键:在开源模型上优化的 RL Agent 可直接迁移攻击 GPT-4.1(ASR 88%),攻击迁移成本接近零
· AutoDAN-Turbo R(最新):LLaMA-3 系列 >99% ASR,且策略库自动增长,无需人工维护
攻防不对称
攻击侧自动化远快于防御侧——且差距在扩大
攻击侧:AutoDAN-Turbo 无策略 88.5% → 含策略 93.4% → Turbo-R LLaMA-3 >99%,每次迭代全自动
防御侧:有效的架构级防御(CaMeL/FIDES)需要重新设计整个 Agent 系统,部署成本极高
当前安全边界不是技术边界,而是"攻击者是否有动机投入资源"的边界
5 记忆投毒:攻击链完全实用化,防御近乎无解
进化图谱
从"需要直接访问"到"只需查询交互"——攻击门槛降低了一个数量级
版本论文前提条件ISRASR
AgentPoison (2024)NeurIPS 2024需直接访问知识库80%+(触发器)
MINJA (2025)NeurIPS 2025仅需普通用户查询权限95%+70%+
MemoryGraft (2025)arXiv:2512.16962普通用户权限47.9% 检索占据
Poison Once (2025)arXiv:2604.02623控制一个外部页面跨用户持久化
Palo Alto Unit 42 PoC(2025-10)完整攻击链:
恶意网页 → IPI注入 → 操纵session摘要 → 写入长期记忆 → 跨会话持久化 → 静默外泄对话历史
6 MCP 生态:从理论威胁到真实 CVE 爆发
供应链危机
9/11 MCP注册表可被投毒;Anthropic 拒绝修复核心架构缺陷
CVE-2025-59536 · CVSS 高危
Claude Code pre-trust hook + MCP consent bypass,项目文件注入 RCE
CVE-2025-6514 · CVSS 9.6
mcp-remote RCE,437,000+ 下载量受影响
CVE-2025-52882
Claude IDE MCP WebSocket 认证绕过,访问网站即触发
MCP Marketplace 大规模投毒
9/11 个注册表成功投毒;150M+ 下载受影响(OX Security)
Anthropic 官方立场
"符合预期行为,拒绝修改协议架构"
对于 OX Security 报告的 MCP SDK 核心架构漏洞,Anthropic 的官方回应是拒绝修改,称为"符合预期"。

这意味着 Tool Poisoning、Rug Pull、Tool Shadowing 类攻击不会在协议层面被修复,防御责任完全转移给部署方。

当前最有效的 MCP 防御
· ETDI:密码学身份验证 + 不可变版本化工具定义
· MCP-Guard:三阶段神经检测(96.01% 准确率)
· CASCADE:级联混合防御(数据外泄检测 91.5%)
7 Benchmark 失效:旧评估数据无法反映真实威胁
方法论问题
"Firewalls or Stronger Benchmarks":AgentDojo/ASB 攻击质量不足,结论需修正
arXiv:2510.05244 揭示:现有 benchmark 存在度量缺陷、实现bug、攻击偏弱等问题。
· 简单防火墙即可在四个 benchmark 上消除攻击,不代表真实防御有效
· GPT-4o 在 AgentDojo 模板攻击下 47-53%,在 Gray Swan 真实攻击者下仅 2.41%——差距 20x
· 结论:所有基于旧 benchmark 的模型排名和防御评估需要用自适应攻击重新验证

Gray Swan Arena(真实攻击者竞赛)是目前最可信的评估来源,但其"竞赛场景"与生产部署仍有差距。
ATBench(上海AI Lab, 2026-04)
轨迹级评判器危机:LlamaGuard / Qwen3-Guard 对 Agent 长轨迹风险几乎视而不见
ATBench(arXiv:2604.02022)首次系统评估 Guard/Evaluator 模型在 Agent 执行轨迹上的诊断能力,而非 ASR。
数据集:1000 条轨迹(503 安全 / 497 不安全),工具库 2,084 个(R-Judge 的 86 倍),平均 9 轮 / 3.95k tokens。

三维分类法(Risk Source / Failure Mode / Real-World Harm)各维度检测 F1:
模型 ATBench F1 Risk Source Acc Failure Mode Acc Harm Acc
AgentDoG-Qwen3-4B(专用)93.0%82.0%32.4%58.4%
GPT-5.290.7%41.6%20.4%30.8%
Gemini-3-Pro86.3%36.8%17.6%32.0%
Qwen3-235B-A22B81.9%19.6%17.2%38.0%
LlamaGuard4-12B28.2%
Qwen3-Guard19.5%
LlamaGuard3-8B12.7%
关键冲击性结论:
· 传统 Guard 模型在多轮 Agent 轨迹上几乎完全失效——LlamaGuard3/4 和 Qwen3-Guard 的 Precision=100% 但 Recall 仅 6.8–16.4%,F1 低至 12.7–28.2%。它们只会对极明显的风险报警,隐蔽的多步攻击一律放行。
· 4B 专用模型超越 GPT-5.2:AgentDoG-Qwen3-4B(F1=93.0%)优于 GPT-5.2(90.7%)——证明轨迹安全需要专用训练,而非更大通用模型
· Failure Mode 是最难维度:即使最优模型也仅 32.4% 准确率,通用模型最低仅 14.4%——"Agent 为何失效" 是当前所有模型理解最薄弱的环节
· 工具库规模是关键变量:ATBench 的 2,084 个工具比 R-Judge(114个)大 86 倍,Guard 模型性能在大工具库下断崖式下降
WASP发现
"安全来自无能"现象——随Agent能力提升将系统性消失
WASP(Meta NeurIPS 2025)发现:
· 中间层劫持率(Agent 被迷惑):86%
· 完整攻击目标达成率:0–17%

大部分攻击失败不是因为防御有效,而是因为 Agent 能力还不够强,无法执行完整攻击链
随着 Agent 能力(工具调用精度、多步推理、环境感知)持续提升,这个安全缓冲将自动消失。
今天用"Agent 执行失败"换来的安全,明天会随 Agent 升级而归零
8 攻击模式演化时间轴(2022–2026)
2022-09
Prompt Injection 命名(Simon Willison)
A1 Ignore Instructions 首次被系统化描述
2023 全年
基础攻击框架建立:GCG / AutoDAN / PAIR / TAP / GPTFuzz
白盒梯度 → 黑盒迭代 → 模糊测试,红队工具链成型
2024 上半年
Agent 专项攻击:InjecAgent / AgentDojo / PoisonedRAG / AgentPoison
从通用 LLM 越狱转向 Agent 工具链和知识库专项攻击
2024 下半年
AutoDAN-Turbo ICLR 2025:自进化策略库,93.4% ASR
红队自动化质的飞跃,无需人工策略设计
2025-01~03
IPI 实用化:端到端 80% ASR;MINJA 仅需查询权限;MCP 架构漏洞披露
攻击从实验室走向真实生产环境;MCP 供应链风险爆发
2025-03~05
CaMeL(Google)+ FIDES(Microsoft):架构级防御首次出现
范式转变:从检测恶意文本到保证信息流正确性
2025-03
NAACL 2025:所有提示级防御被自适应攻击突破(ASR >50%)
旧防御体系集体失效;"The Attacker Moves Second" 确认
2025-下半年
RL Investigator Agent:Claude Sonnet 4 ASR 92%;J2 ASR 97.5%
自动化红队正式超越人类专家水平
2026-Q1
Gray Swan 竞赛:13个前沿模型全被攻破;Claude Opus 4.5 最强(1.4%)
Gemini 2.5 Flash AutoInject 77.96%;MCP CVE 持续爆发
核心结论摘要(供决策参考)
优先行动项
基于以上分析的优先行动建议
1. 立即停止依赖 Delimiter/Sandwich 作为安全控制——自适应攻击下完全无效
2. 记忆投毒监控——即使 ASR 7.9%,FNR 66% 意味着大多数攻击无法被检测到
3. MCP 部署必须审查工具描述字段——Tool Poisoning 已有真实 CVE,Anthropic 不会在协议层修复
4. 用 Gray Swan 数据替代 AgentDojo 数据做模型选型——后者低估模型真实鲁棒性
5. 架构级防御(CaMeL/FIDES)才是长期解决方案——短期用 DataFilter + PromptArmor 过渡
6. "WASP 安全缓冲"不可持续——随 Agent 能力提升,今天靠能力不足换来的安全将消失
归档文档:68篇论文 PDF 已归档至 attack_patterns/papers/; 37个2025年新增条目已归档至 attack_patterns/external/goalhijack_2025_supplement.md; 完整标签体系索引见 attack_patterns/tag_index.md