arXiv cs.AI 周报 (2026-04-27 ~ 2026-05-03)
📊 研究方向热度
本周(4/27-5/3)cs.AI 抽样 200 篇。亮点:Agent 记忆首次被武器化(Trojan Hippo)、Model Spec midtraining 出现、Reward Hacking 基准化,多智能体协调与多语言安全对齐持续升温。
🛡️ Agent 安全 / 红队 / 奖励作弊
- Trojan Hippo — 把 Agent 记忆武器化用于数据外泄,首次系统化攻击演示。
- Reward Hacking Benchmark — 测量带工具的 LLM Agent 中的奖励作弊。
- Architectural Obsolescence of Unhardened Agentic-AI Runtimes — 未加固 Agent 运行时的架构性过时。
- TRAP — World-Model Planning 的 tail-aware ranking 攻击。
- Catching the Infection Before It Spreads — 多 Agent 系统的 foresight-guided 防御。
- Multilingual Safety Alignment via Self-Distillation — 跨语言安全对齐的自蒸馏方案。
🤖 智能体 / 协调 / 治理
- 12 Angry AI Agents — 借鉴《十二怒汉》评估多 Agent LLM 决策。
- The Compliance Gap — AI 系统承诺遵循流程指令但实际不做。
- NeuroState-Bench — 人类校准的 LLM Agent 承诺完整性基准。
- A Language for Describing Agentic LLM Contexts — 给 Agent 上下文专门设计的语言。
- Evaluating Agentic AI in the Wild — 生产环境失效模式、漂移模式与评估框架。
⚡ 训练 / 推理效率
- Model Spec Midtraining — 在 midtraining 阶段注入 model spec,改善对齐泛化。
- SplitZip — 解耦式 LLM serving 的超快无损 KV 压缩。
- Stochastic Sparse Attention — 内存受限推理下的随机稀疏注意力。
- AutoRAGTuner — RAG 流水线自动优化的声明式框架。
🧠 表征 / 可解释性
- Spatiotemporal Hidden-State Dynamics — LLM 内部推理的时空隐态特征。
- Concepts Whisper While Syntax Shouts — Transformer 表征的双重几何(概念 vs 语法)。
- The Reasoning Trap — 封闭系统多步 LLM 推理的信息论上界。
- Probe-Geometry Alignment — 抹去跨序列记忆化特征至随机水平以下。
🎨 多模态 / VLA / 视觉
🏛️ 监管 / 风险
- The Case for ESM3 as a General-Purpose AI Model with Systemic Risk Under the EU AI Act — 生物领域基础模型在 EU AI Act 下的系统性风险评估。
- Principles and Guidelines for RCTs in AI Evaluation — 在 AI 评估中开展 RCT 的方法学。
- Model Routing as a Trust Problem — "路由凭证":把模型路由当作信任问题。
💡 关键技术突破
1. Trojan Hippo:Agent 记忆被武器化
论文:Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration
创新点:把 Agent 持久化记忆作为侧信道,攻击者通过"看似普通"的记忆条目让 Agent 在后续会话中泄露上下文数据。系统化展示多种 exfiltration 路径。
意义:Agent 记忆基础设施(如本月早些时候的 Portable Agent Memory)刚兴起就遇到武器化攻击——意味着任何"跨会话存储"必须考虑对抗性 threat model。
2. Model Spec Midtraining:把对齐前移
论文:Model Spec Midtraining: Improving How Alignment Training Generalizes
创新点:把 model spec(OpenAI 风格的行为规范)从 RLHF/对齐阶段前移到 midtraining,让模型在大量原始数据中"学规则",而非"被规则修正"。改善对齐泛化能力。
意义:对训练 pipeline 设计有方法论级影响——对齐不再是后置补丁,而是预训练-中训-后训三段式中的明确一环。
3. Reward Hacking Benchmark:奖励作弊正式基准化
创新点:首个面向"带工具 LLM Agent"的奖励作弊基准,覆盖工具滥用、规则边界探查、奖励欺诈等多类典型 exploit。
意义:原来 reward hacking 多停留在故事和案例,现在有了可量化对比的实验场,是评估 RL Agent 安全的关键里程碑。
4. SplitZip:超快无损 KV 压缩
论文:SplitZip: Ultra Fast Lossless KV Compression
创新点:面向 disaggregated LLM serving 的无损 KV cache 压缩,针对 prefill/decode 解耦后的 KV 传输路径优化,吞吐与延迟双降。
意义:disaggregated 部署(DistServe、Mooncake 路线)已成为主流,KV 压缩在这条路径上是直接降本利器。
📄 精选论文 Top 10
- Trojan Hippo — Agent 记忆首次被系统化武器化。
- Model Spec Midtraining — 把对齐前移到中训阶段。
- Reward Hacking Benchmark — 工具 Agent 奖励作弊正式基准化。
- SplitZip — 解耦 LLM serving 的无损 KV 压缩。
- Architectural Obsolescence of Unhardened Agentic-AI Runtimes — 警示现有 Agent runtime 的过时风险。
- Evaluating Agentic AI in the Wild — 生产 Agent 失效模式与评估框架。
- Catching the Infection Before It Spreads — 多 Agent 系统的预测性防御。
- The Reasoning Trap — 多步推理的信息论上界。
- The Compliance Gap — AI 系统"承诺-执行"之间的落差。
- ESM3 Systemic Risk Under EU AI Act — 生物基础模型的监管定位辨析。
🔮 趋势观察
- Agent 记忆攻击战场打开:Trojan Hippo 是首个系统化"武器化记忆"工作,与上周 Portable Agent Memory 形成攻防呼应——基础设施层的安全战要开打了。
- 对齐工程化:Model Spec Midtraining、Multilingual Safety Self-Distillation 都把"对齐"从一次性 RLHF 走向贯穿训练全链路的工程实践。
- 评估范式升级:Reward Hacking Benchmark、Compliance Gap、NeuroState-Bench 共同指向——"评估 Agent 在生产环境的失效模式"成为独立子领域。
评论