Bluo Blog

arXiv cs.AI 周报 (2026-06-01~2026-06-07)

🗓️ 本周覆盖

本周（2026-06-01 ~ 2026-06-07）共 5/7 天 daily 报告可用。缺失日期：2026-06-06, 2026-06-07（这些日的论文不在本汇总范围内）。 5 天合计收录约 882 篇 cs.AI 论文（186 + 263 + 129 + 202 + 102），主要子类为 cs.LG（约 300 篇）、cs.CL（约 177 篇）、cs.CV。下文所有数字和取舍都基于这 5 天的 daily picks。

🔥 本周主题

🤖 智能体系统：从"提示驱动"到"结构化工程"（5/5 天出现）

本周最强主线。Agent 架构沿三条轨迹同步推进：(1) 状态与记忆从上下文文本迁入参数空间/环境侧/层次图结构；(2) 技能从手工 prompt 升级为可蒸馏、可演化的工程资产；(3) 运行时治理协议标准化（libOS、MCP 生态、Recuse Signal）。

06-01：Harness-1 — 状态外置到 harness，RL 只学语义决策，8 项检索基准 +11.4 分
06-02：PROVE — 20 个有状态 MCP 服务器 + 343 工具，工具编排 RL 训练基础设施
06-03：TMEM — 单 episode 内 LoRA 在线更新，将经验内化为参数记忆
06-04：MAGE — 记忆组织为层次状态树，成功率 +7.8–20.4 pp
06-05：Socratic-SWE — 轨迹→技能→任务闭环自演化，SWE-bench Verified 50.4%

🛡️ Agent 安全：从模型层越狱到系统级威胁面（5/5 天出现）

安全研究的"威胁面"本周完成质变——从 chat 级 prompt 越狱升级到 agent 持久状态攻击、MCP 协议不一致、记忆投毒、自适应蠕虫和社会规则漏洞利用。防御端同步推进，但仍在追赶。

06-01：SPADE-Bench — 首测 agent 计划-行动分歧的战略性欺骗
06-02：AI Agents Enable Adaptive Computer Worms — 开源 LLM 驱动零成本自适应蠕虫
06-03：Cross-Session Stored Prompt Injection — 类比存储型 XSS，跨会话持久化攻击
06-04：Recuse Signal — robots.txt 的 agent 版本，100% 触发合规退出
06-05：Think Fast — 无 CoT 能力年均翻倍，CoT 监控安全窗口正在收窄

⚡ 推理训练效率：RL 后训练工具箱与推理成本优化（5/5 天出现）

本周两大焦点同时成熟：(1) GRPO/RLVR 的"第二代工具箱"——信用分配（RREDCoT）、半监督（GeoMin）、经验回放机制集中涌现；(2) 推理成本从工程优化上升为研究课题——动态推理深度控制、test-time compute 统一框架、架构级稀疏注意力。

06-01：SimSD — diffusion LLM 投机解码，吞吐 ×7.46，免训练
06-02：VEPO — 视觉敏感度 × token 熵修复视觉推理 RL 盲区
06-03：Why Muon Outperforms Adam — 首次从曲率角度系统解释 Muon 2× 效率
06-04：CLSA — 跨层共享路由，128K 上下文 7.6× 解码加速
06-05：DyCon — 免训练动态推理深度控制，消除过度思考

🎬 多模态：更长、更实时、更高效（5/5 天出现）

视频 MLLM 正从"更多帧"走向"原生视频理解"——预测式编码压缩 token、层次图记忆解锁小时级视频、流式实时同步。音频侧 TTS 达到 2B 参数连续自回归 SOTA，流式音频交互统一离线/在线两种模式。

06-01：AdaCodec — 1/7 token 预算超 Qwen3-VL-8B，TTFT 9.26s→1.62s
06-03：Audio Interaction Model — 统一离线+在线流式音频 LALM
06-05：MemDreamer — 层次图记忆，2% 上下文窗口获 12.5 分提升
06-05：dots.tts — 2B 参数开源 TTS，Seed-TTS-Eval 全面 SOTA

🔬 科学应用与形式化推理（4/5 天出现）

LLM/Agent 在科学前沿取得里程碑式进展——形式化定理证明首次开源模型 MiniF2F 100%，蛋白设计 agent 闭环，量子码搜索产出新发现，工业评测基准持续涌现。

06-01：AgentPLM — PLM × 生物物理 oracle 闭环，抗体优化 hit rate 最高
06-01：Evolutionary Discovery of QLDPC Codes — $400 找到 465 个新量子码
06-04：Goedel-Architect — 开源模型 MiniF2F 100%、IMO 2025 解 4/6 题
06-05：DaX — 跨尺度病理基础模型，161 任务/44 数据集基准最优

📈 方向走势

持续高产（5/5 天）：智能体系统（每日占比最高方向，5 天合计超 150 篇）、Agent 安全与可信（每日 10-40 篇稳定输出）、推理训练效率（每日 6-50 篇，06-02 和 06-04 尤为密集）、多模态理解与生成（每日 9-45 篇）。

本周爆发：Agent 记忆架构 — 06-01 仅有 AGENTCL 涉及记忆主题，但 06-04 单日出现 5 篇记忆相关论文（MAGE、MRAgent、MemGate、TokenMizer、RBI-Eval），06-05 继续有 AdMem、MemDreamer，显示"记忆从检索到状态管理"已形成社区共识。具身智能 — 前 3 天零星出现，06-04 爆发性涌现 25+ 篇（HANDOFF、LadderMan、WLA、TempoVLA 等），人形机器人方向集中发力。

消退：视频安全/越狱 — 06-01 有视频越狱和视频 MLLM 判官偏差等多篇工作，但后续 4 天未见同类主题延续，可能是阶段性爆发。

🌟 周度 Top 10

Goedel-Architect: Streamlining Formal Theorem Proving with Blueprint Generation and Refinement
Jui-Hui Chung, Sanjeev Arora 等 (Princeton) · 06-04 daily Top 1 · 开源模型首次 MiniF2F-test 100%、IMO 2025 解 4/6，形式化证明进入工程化阶段
Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models
Dewi Gould, Francis Rhys Ward 等 (Redwood Research) · 06-05 daily Top 1 · 无 CoT 能力年均翻倍，GPT-5.5 已超 3 分钟——CoT 监控安全范式的核心预警
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
Pengcheng Jiang 等 (UIUC + Cohere) · 06-01 daily Top 2 · 状态外置范式，8 项检索基准平均 +11.4 分，跨域可迁移
AI Agents Enable Adaptive Computer Worms
Jonas Guan, Nicolas Papernot 等 (U of Toronto) · 06-02 daily Top 1 · 开源 LLM 驱动零边际成本自适应蠕虫，颠覆网络安全威胁格局
You Only Index Once: Cross-Layer Sparse Attention with Shared Routing
Yutao Sun, Li Dong, Furu Wei (Microsoft Research) · 06-04 daily Top 2 · 跨层共享路由，128K 上下文 17.1× 整体吞吐提升
Streaming Communication in Multi-Agent Reasoning
Zhen Yang 等 (HKUST) · 06-03 daily Top 1 · 流式多智能体推理 + step-level scaling law，HMMT 2026 最高 +22.4pp
AdaCodec: A Predictive Visual Code for Video MLLMs
Haowen Hou 等 (微软/上海 AI Lab) · 06-01 daily Top 1 · 视频编解码思路重设 MLLM 接口，1/7 token 反超基线
PROVE: Synthesize and Reward — RL for Multi-Step Tool Use in Live Environments
Ibrahim Abdelaziz 等 (IBM Research) · 06-02 daily Top 2 · 20 个有状态 MCP 服务器，BFCL Multi-Turn +10.2 点
TMEM: Scaling Self-Evolving Agents via Parametric Memory
Tao Ren 等 (百度) · 06-03 daily Top 3 · 首次在 Agent 框架中实现"经验→参数"闭环，突破上下文窗口瓶颈
dots.tts Technical Report
Shi Lian 等 (Pika/上海交大) · 06-05 daily Top 3 · 2B 参数开源 Apache 2.0 TTS，Seed-TTS-Eval 全面 SOTA，首包延迟 54ms

📊 本周数字

~882

5 天合计 cs.AI 论文

263

单日最高（06-02）

cs.LG ~300

最活跃交叉子类

150+

Agent 相关论文（5 天）

5/5

Agent 安全每天出现

🔮 趋势观察

Agent 记忆正在经历"范式转移"。本周最清晰的跨日信号：06-01 Harness-1 将状态外置到环境侧，06-03 TMEM 将经验内化为参数，06-04 MAGE/MRAgent/MemGate 将记忆建模为状态树/关联图/信任网关，06-05 MemDreamer 用层次图记忆解锁小时级视频。"语义相似度检索"作为记忆机制正被系统性替代，新范式的收敛点是：记忆 = 可查询的执行状态 + 信任边界。

Agent 安全研究与 Agent 能力研究已形成"共演化"。06-01 SPADE-Bench 测计划-行动欺骗 → 06-02 AI 蠕虫+SocioHack 展示攻击端能力放大 → 06-03 存储型注入+MCP 描述不一致暴露系统漏洞 → 06-04 Recuse Signal+ANCHOR 提出治理原语 → 06-05 Think Fast 预警 CoT 监控窗口收窄。这条线的密度和连贯性在近期的 cs.AI 周度中罕见，标志着 Agent 安全已从"附属研究"升级为独立的第一公民方向。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI WEEKLY 20260607