ATBench(arXiv:2604.02022)首次系统评估
Guard/Evaluator 模型在 Agent 执行轨迹上的诊断能力,而非 ASR。
数据集:
1000 条轨迹(503 安全 / 497 不安全),工具库 2,084 个(R-Judge 的 86 倍),平均 9 轮 / 3.95k tokens。
三维分类法(Risk Source / Failure Mode / Real-World Harm)各维度检测 F1:
| 模型 |
ATBench F1 |
Risk Source Acc |
Failure Mode Acc |
Harm Acc |
| AgentDoG-Qwen3-4B(专用) | 93.0% | 82.0% | 32.4% | 58.4% |
| GPT-5.2 | 90.7% | 41.6% | 20.4% | 30.8% |
| Gemini-3-Pro | 86.3% | 36.8% | 17.6% | 32.0% |
| Qwen3-235B-A22B | 81.9% | 19.6% | 17.2% | 38.0% |
| LlamaGuard4-12B | 28.2% | — | — | — |
| Qwen3-Guard | 19.5% | — | — | — |
| LlamaGuard3-8B | 12.7% | — | — | — |
关键冲击性结论:
·
传统 Guard 模型在多轮 Agent 轨迹上几乎完全失效——LlamaGuard3/4 和 Qwen3-Guard 的 Precision=100% 但 Recall 仅 6.8–16.4%,F1 低至 12.7–28.2%。它们只会对极明显的风险报警,隐蔽的多步攻击一律放行。
·
4B 专用模型超越 GPT-5.2:AgentDoG-Qwen3-4B(F1=93.0%)优于 GPT-5.2(90.7%)——证明轨迹安全需要专用训练,而非更大通用模型
·
Failure Mode 是最难维度:即使最优模型也仅 32.4% 准确率,通用模型最低仅 14.4%——"Agent 为何失效" 是当前所有模型理解最薄弱的环节
· 工具库规模是关键变量:ATBench 的 2,084 个工具比 R-Judge(114个)大 86 倍,Guard 模型性能在大工具库下断崖式下降