ATA 体系映射
| GoalHijack 分类 | ATA SK-* Sink 类型 | ATA SI-* 意图标签 | 典型 AP |
|---|---|---|---|
| A 语义劫持(文本) | SK-TOOL / SK-RAG | SI-INJECT / SI-EXEC | AP-Hermes-01 / AP-01 |
| B 工具链劫持 | SK-TOOL / SK-MCP | SI-EXEC / SI-PERSIST | AP-Hermes-04 / AP-OC-03 |
| C 记忆/知识库投毒 | SK-MEM / SK-RAG | SI-PERSIST / SI-INJECT | AP-Hermes-11 / AP-OC-05 |
| D 多模态注入 | SK-MULTIMODAL | SI-INJECT / SI-EXFIL | — |
| E 多Agent横向传播 | SK-AGENT | SI-LATERAL / SI-PERSIST | AP-Hermes-12 |
攻击模式卡片(32条)
A1
Ignore Instructions 直接指令覆写
明文嵌入"忽略之前的指令,执行以下操作",最早也是最基础的提示词注入形式。
来源 Greshake et al. 2023 · arXiv:2302.12173
ASR GPT-4 ~40-50%
注 OWASP LLM01:2025
A2
Illusioning 信息幻觉注入
不干扰原始任务目标,而是篡改任务执行路径中的关键信息(价格/身份/内容),任务表象完整但结果被操控。
来源 AgentDojo · NeurIPS 2024
场景 购物Agent最低价劫持 / 日历伪造
A3
Goal Misdirection 目标重定向注入
注入内容使Agent完全抛弃用户原始任务,转而执行攻击者定义的全新目标(发邮件/转账/泄露数据)。
来源 InjecAgent · ACL 2024
ASR GPT-4 ~43%,Claude ~33%
A4
Covert Data Exfiltration 隐蔽数据外泄注入
指示Agent将PII/APIKey编码进Markdown图片URL参数/Base64,通过正常Agent动作触发HTTP外泄到攻击者服务器。
来源 Imprompter · arXiv:2410.14923
ASR Mistral LeChat E2E ~80%
A5
Many-Shot Jailbreaking 多样本越狱
利用大上下文窗口填充数百个虚构"有害问答对",建立有害内容"先例",降低真实查询拒绝率。
来源 Anthropic Research 2024-04
防御难点 规则过滤无效,形式同正常多轮
A6
Crescendo 多轮渐进式越狱
将恶意目标拆解为渐进步骤,每轮基于前一轮上下文推进,每一单步无法独立触发安全过滤。
来源 Russinovich · USENIX Security 2025
ASR 人工多轮 ~75%(HarmBench)
A7
Prompt Leaking 系统提示词泄露
诱导Agent输出System Prompt/AgentProfile/工具描述,为后续针对性攻击提供先验信息,是攻击链前驱步骤。
来源 Perez & Ribeiro 2022 · OWASP LLM07:2025
B1
Tool Poisoning via MCP MCP工具描述投毒
在MCP Server工具
description字段中嵌入恶意指令。对用户不可见,对LLM可见,隐蔽性极强。
来源 Invariant Labs 2025-03 · MCPTox arXiv:2508.14925
ASR Claude ~15-35%(MCPTox 20模型测试)
B2
Tool Shadowing 工具影子覆盖
恶意Server提供与合法工具同名的工具,通过更具吸引力的描述优先被选择,镜像数据至攻击者服务器。
来源 MCP威胁建模 arXiv:2603.22489
危害 任务"正常完成",数据已被镜像
B3
ZombAIs Computer Use C2劫持
将Claude Computer Use变成C2客户端,处理含恶意文本/图像的网页时,被诱导下载并执行攻击负载,建立持久化控制。
来源 Embrace The Red Blog 2024
特点 内容注入→持久化系统控制 完整链路
B4
Agentic Coding PI 代码执行环境注入
在GitHub Copilot/Cursor/Claude Code处理的代码仓库/注释/文档中嵌入恶意指令,通过Shell/CodeREPL执行任意代码。
来源 arXiv:2601.17548 · CVE-2025-53773
载体 workflow注释/README/package.json
B5
InjecAgent Framework 工具集成Agent注入框架
系统性基准框架,1054个测试用例 × 17种Agent工具。Direct PI + Tool-call PI 双分类。
来源 Zhan et al. ACL 2024
ASR GPT-4 Enhanced: 71%
发现 ReAct框架比CoT-only更脆弱
C1
PoisonedRAG RAG知识库投毒
向向量数据库注入少量(≤5条)对抗性文档,检索时因语义相似性被返回,诱导LLM产生攻击者指定错误答案。
来源 Zou et al. USENIX Security 2025
ASR 对抗性攻击 ~90%;黑盒 ~70%+
C2
AgentPoison 记忆/知识库后门植入
在长期记忆/知识库中植入带触发器的后门记录,特定触发词查询时后门被召回并诱导执行有害操作。1-3条植入即可。
来源 Chen et al. NeurIPS 2024
ASR 有触发器场景 80%+;跨Agent迁移性强
C3
MINJA 实用化记忆注入攻击
无需直接访问记忆数据库(仅普通用户交互),通过精心设计查询诱导Agent存入恶意记忆,污染后续其他用户请求。
来源 MINJA arXiv:2503.03704
ASR 注入成功95% / 攻击成功70%
绕过 Llama Guard等防御器
C4
MemoryGraft 经验记忆嫁接攻击
植入"伪造成功经验",Agent执行类似任务时检索并模仿执行,实现间接持久化控制。攻击不在当前生效,在未来触发。
来源 MemoryGraft arXiv:2512.16962 (2025-12)
特点 时间解耦——今日植入,数周后触发
C5
Poison Once, Exploit Forever 环境注入记忆持久化
单次环境注入(恶意网页)使WebAgent将恶意内容写入记忆,后续所有用户请求被跨用户横向污染。
来源 arXiv:2604.02623 (2025-04)
特点 单次投入 / 多用户持久危害
D1
(Ab)using Images 图像/音频多模态注入
将恶意指令嵌入图像(对抗性扰动)或音频,人类不可感知,但多模态LLM处理时被触发。
来源 Bagdasaryan et al. arXiv:2307.10490
D2
Imprompter 多模态混淆注入+数据外泄
混淆对抗Prompt对人类视觉不可读,LLM正常解析并执行。提取PII格式化为Markdown图片链接参数触发HTTP外泄。
来源 Fu et al. arXiv:2410.14923
ASR Mistral LeChat E2E ~80%
D3
FigStep 排版视觉越狱
将越狱指令渲染为图片中的文字(Typography),绕过文本内容安全过滤器,模型图像理解能力读取并遵从指令。
来源 Gong et al. arXiv:2311.05608
ASR LLaVA等开源VLM 82%+
D4
CrossInject 跨模态协同注入
同时在视觉+文本中协同嵌入恶意指令,两个模态相互补偿强化。对Sandwich Prompting防御有较强鲁棒性。
来源 CrossInject arXiv:2504.14348 (2025-04)
D5
Malicious Image Patches OS Agent图像patch注入
在OS Agent屏幕截图中注入对抗性图像patch/文字,诱导GUI操作中误点击/误执行/误填写。
来源 arXiv:2503.10809 (2025-03)
场景 文件管理/邮件客户端 OS级Agent
D6
WebInject 网页像素级对抗扰动
网站所有者在网页中添加原始像素扰动,出现在Agent截图/a11y树中,间接诱导Web Agent执行攻击者目标。
来源 WAInjectBench arXiv:2510.01354
前提 攻击者为网站所有者(较高权限)
D7
Visual Memory Injection 多轮视觉记忆注入
在多轮视觉对话中植入含对抗扰动的图像,使模型将虚假信息写入工作记忆,后续轮次基于污染记忆作出错误决策。
来源 arXiv:2602.15927 (2025-02)
E1
AgentHijack Agent间消息横向传播
被注入的Agent A通过AgentMessage将恶意指令传递给SubAgent B→C,实现攻击在Agent网络中的横向扩散。
场景 CrewAI Hierarchical / AutoGen群聊
特点 单入口注入波及整个协作网络
E2
MCP Rug Pull 恶意MCP Server延迟攻击
MCP Server初始正常通过安全审查,广泛安装后通过服务端更新注入恶意描述字段,实现延迟攻击(供应链型)。
来源 Invariant Labs 2025-03
危害 审查窗口后攻击,审查结论失效
E3
Orchestrator Hijacking 编排器劫持
注入影响Orchestrator任务分发决策,使其绕过高权限审查Agent直接路由到执行Agent,或使其相信允许高权限操作。
来源 ASB · Zhang et al. ICLR 2025 · arXiv:2410.02644
红队生成算法(8种)
R1
GCG · Greedy Coordinate Gradient
白盒梯度优化,追加对抗后缀最大化有害输出概率。生成随机字符串后缀(易被困惑度过滤器拦截)。
对白盒模型 ASR >50%;需要权重访问。
R2
AutoDAN
层次化遗传算法进化越狱Prompt,生成流畅可读自然语言,规避困惑度过滤。
GPT-4o ASR ~50-65%;对黑盒模型有较强迁移性。
R3
AutoDAN-Turbo · 自进化策略库
三子Agent自主发现并积累攻击策略库,无需人工预设,对新模型自适应探索。
GPT-4-1106-turbo: 无策略88.5% / 含人工策略93.4%。ICLR 2025 Spotlight。
R4
PAIR · Prompt Automatic Iterative Refinement
攻击者LLM + 目标LLM双模型,根据反馈迭代优化攻击Prompt。
平均不到20次查询完成越狱;GPT-3.5/4 ~50%;Vicuna-13B ~88%。
R5
TAP · Tree of Attacks with Pruning
PAIR基础上引入树状搜索+剪枝策略,对攻击候选分支评估剪枝,显著提升查询效率。
R6
GPTFuzzer · 模板变异模糊测试
借鉴软件模糊测试,从种子Jailbreak模板经Generate/Mutate/Select三阶段迭代生成越狱变体,构建庞大模板池。
R7
Rainbow Teaming · 质量多样性优化
QD框架通过风险类型+攻击风格两个描述符归档和进化攻击Prompt,主动探索攻击空间多样性,而非单一高ASR。
R8
AutoHijacker · Agent工具链自动注入
专针对Agent工具调用链的黑盒优化框架,最大化Agent执行攻击者指定工具调用的概率,而非文本输出。
arXiv:2504.07736 (2025)。
Benchmark 评测体系(7个)
B1 AgentDojo
工具编排Agent安全基准
NeurIPS 2024 · 97任务 × 629安全用例 · 5任务域。动态基准防数据集泄漏。同时评估效用与安全权衡。
防御:tool_filter / spotlighting / repeat_user_prompt。
B2 InjecAgent
工具集成Agent注入基准
ACL 2024 · 1054用例 × 17工具 × 2攻击目标。
GPT-4-Turbo Enhanced ASR 71%。ReAct框架比CoT-only更脆弱。
B3 WASP
Web Agent安全基准
NeurIPS 2025 D&B Track · 基于VisualWebArena+Reddit/GitLab。攻击部分成功 86%,但完整目标 0-17%。揭示"能力不足的安全"现象。
B4 ASB
Agent Security Bench
ICLR 2025 · 10场景 × 13攻击类型。覆盖感知/记忆/工具/规划/行动全Agent层。指标:ATA / ASR / ADA。
B5 HarmBench
通用红队评测框架
ICML 2024 · 400有害行为 × 18红队方法 × 33目标模型。多模态 ASR ~80%。单轮自动化低,多轮人工 ~75%。
B6 MCPTox
MCP工具投毒基准
2025 · 20个主流LLM(GPT/Claude/Gemini/Llama/Qwen)。推理模式降低但不能消除ASR。工具描述位置显著性影响攻击成功率。
B7 WAInjectBench
Web Agent注入检测基准
arXiv:2510.01354 (2025-10)。同时评估WASP文本注入和WebInject像素扰动两类攻击的检测能力。