GoalHijack 攻击模式库 v1.0

ATA 体系映射

GoalHijack 分类	ATA SK-* Sink 类型	ATA SI-* 意图标签	典型 AP
A 语义劫持（文本）	SK-TOOL / SK-RAG	SI-INJECT / SI-EXEC	AP-Hermes-01 / AP-01
B 工具链劫持	SK-TOOL / SK-MCP	SI-EXEC / SI-PERSIST	AP-Hermes-04 / AP-OC-03
C 记忆/知识库投毒	SK-MEM / SK-RAG	SI-PERSIST / SI-INJECT	AP-Hermes-11 / AP-OC-05
D 多模态注入	SK-MULTIMODAL	SI-INJECT / SI-EXFIL	—
E 多Agent横向传播	SK-AGENT	SI-LATERAL / SI-PERSIST	AP-Hermes-12

分类语义轴场景

攻击模式卡片（32条）

Ignore Instructions 直接指令覆写

S1V1 T1T2T3 SI-INJECTSK-TOOL

明文嵌入"忽略之前的指令，执行以下操作"，最早也是最基础的提示词注入形式。

来源 Greshake et al. 2023 · arXiv:2302.12173

ASR GPT-4 ~40-50%

注 OWASP LLM01:2025

Illusioning 信息幻觉注入

S2V1 T1T2T3 SI-INJECTSK-RAG

不干扰原始任务目标，而是篡改任务执行路径中的关键信息（价格/身份/内容），任务表象完整但结果被操控。

来源 AgentDojo · NeurIPS 2024

场景 购物Agent最低价劫持 / 日历伪造

Goal Misdirection 目标重定向注入

S3V1 T1T2 SI-INJECTSI-EXEC

注入内容使Agent完全抛弃用户原始任务，转而执行攻击者定义的全新目标（发邮件/转账/泄露数据）。

来源 InjecAgent · ACL 2024

ASR GPT-4 ~43%，Claude ~33%

Covert Data Exfiltration 隐蔽数据外泄注入

S4V1 T1T2 SI-EXFILSK-TOOL

指示Agent将PII/APIKey编码进Markdown图片URL参数/Base64，通过正常Agent动作触发HTTP外泄到攻击者服务器。

来源 Imprompter · arXiv:2410.14923

ASR Mistral LeChat E2E ~80%

Many-Shot Jailbreaking 多样本越狱

S6V1 T1T3 SI-INJECTSK-RAG

利用大上下文窗口填充数百个虚构"有害问答对"，建立有害内容"先例"，降低真实查询拒绝率。

来源 Anthropic Research 2024-04

防御难点 规则过滤无效，形式同正常多轮

Crescendo 多轮渐进式越狱

S7V1 T1T2T3 SI-INJECT

将恶意目标拆解为渐进步骤，每轮基于前一轮上下文推进，每一单步无法独立触发安全过滤。

来源 Russinovich · USENIX Security 2025

ASR 人工多轮 ~75%（HarmBench）

Prompt Leaking 系统提示词泄露

S5V1 T1T2T3 SI-INJECTSI-EXFIL

诱导Agent输出System Prompt/AgentProfile/工具描述，为后续针对性攻击提供先验信息，是攻击链前驱步骤。

来源 Perez & Ribeiro 2022 · OWASP LLM07:2025

Tool Poisoning via MCP MCP工具描述投毒

S1S3V5 T5 SI-INJECTSK-MCP

在MCP Server工具description字段中嵌入恶意指令。对用户不可见，对LLM可见，隐蔽性极强。

来源 Invariant Labs 2025-03 · MCPTox arXiv:2508.14925

ASR Claude ~15-35%（MCPTox 20模型测试）

Tool Shadowing 工具影子覆盖

S5V5 T5T6 SI-EXECSK-MCP

恶意Server提供与合法工具同名的工具，通过更具吸引力的描述优先被选择，镜像数据至攻击者服务器。

来源 MCP威胁建模 arXiv:2603.22489

危害 任务"正常完成"，数据已被镜像

ZombAIs Computer Use C2劫持

S3V1V3 T2T5 SI-PERSISTSK-TOOL

将Claude Computer Use变成C2客户端，处理含恶意文本/图像的网页时，被诱导下载并执行攻击负载，建立持久化控制。

来源 Embrace The Red Blog 2024

特点 内容注入→持久化系统控制完整链路

Agentic Coding PI 代码执行环境注入

S3V1V5 T7 SI-EXECSK-TOOL

在GitHub Copilot/Cursor/Claude Code处理的代码仓库/注释/文档中嵌入恶意指令，通过Shell/CodeREPL执行任意代码。

来源 arXiv:2601.17548 · CVE-2025-53773

载体 workflow注释/README/package.json

InjecAgent Framework 工具集成Agent注入框架

S1S3V1 T1 SI-INJECTSK-TOOL

系统性基准框架，1054个测试用例 × 17种Agent工具。Direct PI + Tool-call PI 双分类。

来源 Zhan et al. ACL 2024

ASR GPT-4 Enhanced: 71%

发现 ReAct框架比CoT-only更脆弱

PoisonedRAG RAG知识库投毒

S1S3V1 T3 SI-PERSISTSK-RAG

向向量数据库注入少量（≤5条）对抗性文档，检索时因语义相似性被返回，诱导LLM产生攻击者指定错误答案。

来源 Zou et al. USENIX Security 2025

ASR 对抗性攻击 ~90%；黑盒 ~70%+

AgentPoison 记忆/知识库后门植入

S1V1 T3T4 SI-PERSISTSK-MEM

在长期记忆/知识库中植入带触发器的后门记录，特定触发词查询时后门被召回并诱导执行有害操作。1-3条植入即可。

来源 Chen et al. NeurIPS 2024

ASR 有触发器场景 80%+；跨Agent迁移性强

MINJA 实用化记忆注入攻击

S1S2V1 T4 SI-PERSISTSK-MEM

无需直接访问记忆数据库（仅普通用户交互），通过精心设计查询诱导Agent存入恶意记忆，污染后续其他用户请求。

来源 MINJA arXiv:2503.03704

ASR 注入成功95% / 攻击成功70%

绕过 Llama Guard等防御器

MemoryGraft 经验记忆嫁接攻击

S2V1 T4 SI-PERSISTSK-MEM

植入"伪造成功经验"，Agent执行类似任务时检索并模仿执行，实现间接持久化控制。攻击不在当前生效，在未来触发。

来源 MemoryGraft arXiv:2512.16962 (2025-12)

特点 时间解耦——今日植入，数周后触发

Poison Once, Exploit Forever 环境注入记忆持久化

S1V1 T2T4 SI-PERSISTSK-MEM

单次环境注入（恶意网页）使WebAgent将恶意内容写入记忆，后续所有用户请求被跨用户横向污染。

来源 arXiv:2604.02623 (2025-04)

特点 单次投入 / 多用户持久危害

(Ab)using Images 图像/音频多模态注入

S1S3 V2V6 T1T2 SI-INJECTSK-MULTIMODAL

将恶意指令嵌入图像（对抗性扰动）或音频，人类不可感知，但多模态LLM处理时被触发。

来源 Bagdasaryan et al. arXiv:2307.10490

Imprompter 多模态混淆注入+数据外泄

S4V1V2 T1T2 SI-EXFILSK-MULTIMODAL

混淆对抗Prompt对人类视觉不可读，LLM正常解析并执行。提取PII格式化为Markdown图片链接参数触发HTTP外泄。

来源 Fu et al. arXiv:2410.14923

ASR Mistral LeChat E2E ~80%

FigStep 排版视觉越狱

S6V3 T1T2 SI-INJECTSK-MULTIMODAL

将越狱指令渲染为图片中的文字（Typography），绕过文本内容安全过滤器，模型图像理解能力读取并遵从指令。

来源 Gong et al. arXiv:2311.05608

ASR LLaVA等开源VLM 82%+

CrossInject 跨模态协同注入

S1S3V4 T1T2 SI-INJECTSK-MULTIMODAL

同时在视觉+文本中协同嵌入恶意指令，两个模态相互补偿强化。对Sandwich Prompting防御有较强鲁棒性。

来源 CrossInject arXiv:2504.14348 (2025-04)

Malicious Image Patches OS Agent图像patch注入

S1S3 V2V3 T2 SI-EXECSK-MULTIMODAL

在OS Agent屏幕截图中注入对抗性图像patch/文字，诱导GUI操作中误点击/误执行/误填写。

来源 arXiv:2503.10809 (2025-03)

场景 文件管理/邮件客户端 OS级Agent

WebInject 网页像素级对抗扰动

S3V2 T2 SI-INJECTSK-MULTIMODAL

网站所有者在网页中添加原始像素扰动，出现在Agent截图/a11y树中，间接诱导Web Agent执行攻击者目标。

来源 WAInjectBench arXiv:2510.01354

前提 攻击者为网站所有者（较高权限）

Visual Memory Injection 多轮视觉记忆注入

S1V2 T2T4 SI-PERSISTSK-MULTIMODAL

在多轮视觉对话中植入含对抗扰动的图像，使模型将虚假信息写入工作记忆，后续轮次基于污染记忆作出错误决策。

来源 arXiv:2602.15927 (2025-02)

AgentHijack Agent间消息横向传播

S3V1 T6 SI-LATERALSK-AGENT

被注入的Agent A通过AgentMessage将恶意指令传递给SubAgent B→C，实现攻击在Agent网络中的横向扩散。

场景 CrewAI Hierarchical / AutoGen群聊

特点 单入口注入波及整个协作网络

MCP Rug Pull 恶意MCP Server延迟攻击

S1V5 T5 SI-PERSISTSK-MCP

MCP Server初始正常通过安全审查，广泛安装后通过服务端更新注入恶意描述字段，实现延迟攻击（供应链型）。

来源 Invariant Labs 2025-03

危害 审查窗口后攻击，审查结论失效

Orchestrator Hijacking 编排器劫持

S3S5V1 T6 SI-LATERALSK-AGENT

注入影响Orchestrator任务分发决策，使其绕过高权限审查Agent直接路由到执行Agent，或使其相信允许高权限操作。

来源 ASB · Zhang et al. ICLR 2025 · arXiv:2410.02644

红队生成算法（8种）

GCG · Greedy Coordinate Gradient

白盒梯度优化，追加对抗后缀最大化有害输出概率。生成随机字符串后缀（易被困惑度过滤器拦截）。对白盒模型 ASR >50%；需要权重访问。

AutoDAN

层次化遗传算法进化越狱Prompt，生成流畅可读自然语言，规避困惑度过滤。 GPT-4o ASR ~50-65%；对黑盒模型有较强迁移性。

AutoDAN-Turbo · 自进化策略库

三子Agent自主发现并积累攻击策略库，无需人工预设，对新模型自适应探索。 GPT-4-1106-turbo: 无策略88.5% / 含人工策略93.4%。ICLR 2025 Spotlight。

PAIR · Prompt Automatic Iterative Refinement

攻击者LLM + 目标LLM双模型，根据反馈迭代优化攻击Prompt。平均不到20次查询完成越狱；GPT-3.5/4 ~50%；Vicuna-13B ~88%。

TAP · Tree of Attacks with Pruning

PAIR基础上引入树状搜索+剪枝策略，对攻击候选分支评估剪枝，显著提升查询效率。

GPTFuzzer · 模板变异模糊测试

借鉴软件模糊测试，从种子Jailbreak模板经Generate/Mutate/Select三阶段迭代生成越狱变体，构建庞大模板池。

Rainbow Teaming · 质量多样性优化

QD框架通过风险类型+攻击风格两个描述符归档和进化攻击Prompt，主动探索攻击空间多样性，而非单一高ASR。

AutoHijacker · Agent工具链自动注入

专针对Agent工具调用链的黑盒优化框架，最大化Agent执行攻击者指定工具调用的概率，而非文本输出。 arXiv:2504.07736 (2025)。

Benchmark 评测体系（7个）

B1 AgentDojo

工具编排Agent安全基准

NeurIPS 2024 · 97任务 × 629安全用例 · 5任务域。动态基准防数据集泄漏。同时评估效用与安全权衡。防御：tool_filter / spotlighting / repeat_user_prompt。

B2 InjecAgent

工具集成Agent注入基准

ACL 2024 · 1054用例 × 17工具 × 2攻击目标。 GPT-4-Turbo Enhanced ASR 71%。ReAct框架比CoT-only更脆弱。

B3 WASP

Web Agent安全基准

NeurIPS 2025 D&B Track · 基于VisualWebArena+Reddit/GitLab。攻击部分成功 86%，但完整目标 0-17%。揭示"能力不足的安全"现象。

B4 ASB

Agent Security Bench

ICLR 2025 · 10场景 × 13攻击类型。覆盖感知/记忆/工具/规划/行动全Agent层。指标：ATA / ASR / ADA。

B5 HarmBench

通用红队评测框架

ICML 2024 · 400有害行为 × 18红队方法 × 33目标模型。多模态 ASR ~80%。单轮自动化低，多轮人工 ~75%。

B6 MCPTox

MCP工具投毒基准

2025 · 20个主流LLM（GPT/Claude/Gemini/Llama/Qwen）。推理模式降低但不能消除ASR。工具描述位置显著性影响攻击成功率。

B7 WAInjectBench

Web Agent注入检测基准

arXiv:2510.01354 (2025-10)。同时评估WASP文本注入和WebInject像素扰动两类攻击的检测能力。