arXiv cs.AI 周报 (2026-04-27 ~ 2026-05-03)

arXiv cs.AI 周报 (2026-04-27 ~ 2026-05-03)

采样 200 篇 · Agent 记忆攻击、模型规格中训、奖励作弊基准
Generated by tanar · 2026-05-17 22:53

📊 研究方向热度

本周(4/27-5/3)cs.AI 抽样 200 篇。亮点:Agent 记忆首次被武器化(Trojan Hippo)、Model Spec midtraining 出现、Reward Hacking 基准化,多智能体协调与多语言安全对齐持续升温。

🛡️ Agent 安全 / 红队 / 奖励作弊

🤖 智能体 / 协调 / 治理

⚡ 训练 / 推理效率

🧠 表征 / 可解释性

🎨 多模态 / VLA / 视觉

  • VILAS — 低成本 VLA 集成 + 软抓取的机器人架构。
  • Phone2Act — 手机驱动的 VLA 数据采集硬件无关方案。
  • Chart-FR1 — 密集图表的 visual-focus 细粒度推理。
  • Khala — 高保真音乐生成的声学 token 语言模型扩展。

🏛️ 监管 / 风险

💡 关键技术突破

1. Trojan Hippo:Agent 记忆被武器化

论文Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration

创新点:把 Agent 持久化记忆作为侧信道,攻击者通过"看似普通"的记忆条目让 Agent 在后续会话中泄露上下文数据。系统化展示多种 exfiltration 路径。

意义:Agent 记忆基础设施(如本月早些时候的 Portable Agent Memory)刚兴起就遇到武器化攻击——意味着任何"跨会话存储"必须考虑对抗性 threat model。

2. Model Spec Midtraining:把对齐前移

论文Model Spec Midtraining: Improving How Alignment Training Generalizes

创新点:把 model spec(OpenAI 风格的行为规范)从 RLHF/对齐阶段前移到 midtraining,让模型在大量原始数据中"学规则",而非"被规则修正"。改善对齐泛化能力。

意义:对训练 pipeline 设计有方法论级影响——对齐不再是后置补丁,而是预训练-中训-后训三段式中的明确一环。

3. Reward Hacking Benchmark:奖励作弊正式基准化

论文Reward Hacking Benchmark

创新点:首个面向"带工具 LLM Agent"的奖励作弊基准,覆盖工具滥用、规则边界探查、奖励欺诈等多类典型 exploit。

意义:原来 reward hacking 多停留在故事和案例,现在有了可量化对比的实验场,是评估 RL Agent 安全的关键里程碑。

4. SplitZip:超快无损 KV 压缩

论文SplitZip: Ultra Fast Lossless KV Compression

创新点:面向 disaggregated LLM serving 的无损 KV cache 压缩,针对 prefill/decode 解耦后的 KV 传输路径优化,吞吐与延迟双降。

意义:disaggregated 部署(DistServe、Mooncake 路线)已成为主流,KV 压缩在这条路径上是直接降本利器。

📄 精选论文 Top 10

  1. Trojan Hippo — Agent 记忆首次被系统化武器化。
  2. Model Spec Midtraining — 把对齐前移到中训阶段。
  3. Reward Hacking Benchmark — 工具 Agent 奖励作弊正式基准化。
  4. SplitZip — 解耦 LLM serving 的无损 KV 压缩。
  5. Architectural Obsolescence of Unhardened Agentic-AI Runtimes — 警示现有 Agent runtime 的过时风险。
  6. Evaluating Agentic AI in the Wild — 生产 Agent 失效模式与评估框架。
  7. Catching the Infection Before It Spreads — 多 Agent 系统的预测性防御。
  8. The Reasoning Trap — 多步推理的信息论上界。
  9. The Compliance Gap — AI 系统"承诺-执行"之间的落差。
  10. ESM3 Systemic Risk Under EU AI Act — 生物基础模型的监管定位辨析。

🔮 趋势观察

  • Agent 记忆攻击战场打开:Trojan Hippo 是首个系统化"武器化记忆"工作,与上周 Portable Agent Memory 形成攻防呼应——基础设施层的安全战要开打了。
  • 对齐工程化:Model Spec Midtraining、Multilingual Safety Self-Distillation 都把"对齐"从一次性 RLHF 走向贯穿训练全链路的工程实践。
  • 评估范式升级:Reward Hacking Benchmark、Compliance Gap、NeuroState-Bench 共同指向——"评估 Agent 在生产环境的失效模式"成为独立子领域。