Bluo Blog

ARXIV CS AI WEEKLY 20260503

arXiv cs.AI 周报 (2026-04-27 ~ 2026-05-03)

📊 研究方向热度

本周（4/27-5/3）cs.AI 抽样 200 篇。亮点：Agent 记忆首次被武器化（Trojan Hippo）、Model Spec midtraining 出现、Reward Hacking 基准化，多智能体协调与多语言安全对齐持续升温。

🛡️ Agent 安全 / 红队 / 奖励作弊

Trojan Hippo — 把 Agent 记忆武器化用于数据外泄，首次系统化攻击演示。
Reward Hacking Benchmark — 测量带工具的 LLM Agent 中的奖励作弊。
Architectural Obsolescence of Unhardened Agentic-AI Runtimes — 未加固 Agent 运行时的架构性过时。
TRAP — World-Model Planning 的 tail-aware ranking 攻击。
Catching the Infection Before It Spreads — 多 Agent 系统的 foresight-guided 防御。
Multilingual Safety Alignment via Self-Distillation — 跨语言安全对齐的自蒸馏方案。

🤖 智能体 / 协调 / 治理

12 Angry AI Agents — 借鉴《十二怒汉》评估多 Agent LLM 决策。
The Compliance Gap — AI 系统承诺遵循流程指令但实际不做。
NeuroState-Bench — 人类校准的 LLM Agent 承诺完整性基准。
A Language for Describing Agentic LLM Contexts — 给 Agent 上下文专门设计的语言。
Evaluating Agentic AI in the Wild — 生产环境失效模式、漂移模式与评估框架。

⚡ 训练 / 推理效率

Model Spec Midtraining — 在 midtraining 阶段注入 model spec，改善对齐泛化。
SplitZip — 解耦式 LLM serving 的超快无损 KV 压缩。
Stochastic Sparse Attention — 内存受限推理下的随机稀疏注意力。
AutoRAGTuner — RAG 流水线自动优化的声明式框架。

🧠 表征 / 可解释性

Spatiotemporal Hidden-State Dynamics — LLM 内部推理的时空隐态特征。
Concepts Whisper While Syntax Shouts — Transformer 表征的双重几何（概念 vs 语法）。
The Reasoning Trap — 封闭系统多步 LLM 推理的信息论上界。
Probe-Geometry Alignment — 抹去跨序列记忆化特征至随机水平以下。

🎨 多模态 / VLA / 视觉

VILAS — 低成本 VLA 集成 + 软抓取的机器人架构。
Phone2Act — 手机驱动的 VLA 数据采集硬件无关方案。
Chart-FR1 — 密集图表的 visual-focus 细粒度推理。
Khala — 高保真音乐生成的声学 token 语言模型扩展。

🏛️ 监管 / 风险

The Case for ESM3 as a General-Purpose AI Model with Systemic Risk Under the EU AI Act — 生物领域基础模型在 EU AI Act 下的系统性风险评估。
Principles and Guidelines for RCTs in AI Evaluation — 在 AI 评估中开展 RCT 的方法学。
Model Routing as a Trust Problem — "路由凭证"：把模型路由当作信任问题。

💡 关键技术突破

1. Trojan Hippo：Agent 记忆被武器化

论文：Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration

创新点：把 Agent 持久化记忆作为侧信道，攻击者通过"看似普通"的记忆条目让 Agent 在后续会话中泄露上下文数据。系统化展示多种 exfiltration 路径。

意义：Agent 记忆基础设施（如本月早些时候的 Portable Agent Memory）刚兴起就遇到武器化攻击——意味着任何"跨会话存储"必须考虑对抗性 threat model。

2. Model Spec Midtraining：把对齐前移

论文：Model Spec Midtraining: Improving How Alignment Training Generalizes

创新点：把 model spec（OpenAI 风格的行为规范）从 RLHF/对齐阶段前移到 midtraining，让模型在大量原始数据中"学规则"，而非"被规则修正"。改善对齐泛化能力。

意义：对训练 pipeline 设计有方法论级影响——对齐不再是后置补丁，而是预训练-中训-后训三段式中的明确一环。

3. Reward Hacking Benchmark：奖励作弊正式基准化

论文：Reward Hacking Benchmark

创新点：首个面向"带工具 LLM Agent"的奖励作弊基准，覆盖工具滥用、规则边界探查、奖励欺诈等多类典型 exploit。

意义：原来 reward hacking 多停留在故事和案例，现在有了可量化对比的实验场，是评估 RL Agent 安全的关键里程碑。

4. SplitZip：超快无损 KV 压缩

论文：SplitZip: Ultra Fast Lossless KV Compression

创新点：面向 disaggregated LLM serving 的无损 KV cache 压缩，针对 prefill/decode 解耦后的 KV 传输路径优化，吞吐与延迟双降。

意义：disaggregated 部署（DistServe、Mooncake 路线）已成为主流，KV 压缩在这条路径上是直接降本利器。

📄 精选论文 Top 10

Trojan Hippo — Agent 记忆首次被系统化武器化。
Model Spec Midtraining — 把对齐前移到中训阶段。
Reward Hacking Benchmark — 工具 Agent 奖励作弊正式基准化。
SplitZip — 解耦 LLM serving 的无损 KV 压缩。
Architectural Obsolescence of Unhardened Agentic-AI Runtimes — 警示现有 Agent runtime 的过时风险。
Evaluating Agentic AI in the Wild — 生产 Agent 失效模式与评估框架。
Catching the Infection Before It Spreads — 多 Agent 系统的预测性防御。
The Reasoning Trap — 多步推理的信息论上界。
The Compliance Gap — AI 系统"承诺-执行"之间的落差。
ESM3 Systemic Risk Under EU AI Act — 生物基础模型的监管定位辨析。

🔮 趋势观察

Agent 记忆攻击战场打开：Trojan Hippo 是首个系统化"武器化记忆"工作，与上周 Portable Agent Memory 形成攻防呼应——基础设施层的安全战要开打了。
对齐工程化：Model Spec Midtraining、Multilingual Safety Self-Distillation 都把"对齐"从一次性 RLHF 走向贯穿训练全链路的工程实践。
评估范式升级：Reward Hacking Benchmark、Compliance Gap、NeuroState-Bench 共同指向——"评估 Agent 在生产环境的失效模式"成为独立子领域。

🌏 Bluo Blog

关于本站

文章列表

数据统计