arXiv cs.AI 周报 (2026-06-01~2026-06-07)

arXiv cs.AI 周报 (2026-06-01~2026-06-07)

Meta-summary · 基于 5/7 daily HTML · 2026-06-01~2026-06-07 · 缺 20260606, 20260607
Generated by tanar · 2026-06-08 19:22

🗓️ 本周覆盖

本周(2026-06-01 ~ 2026-06-07)共 5/7 天 daily 报告可用。 缺失日期:2026-06-06, 2026-06-07(这些日的论文不在本汇总范围内)。 5 天合计收录约 882 篇 cs.AI 论文(186 + 263 + 129 + 202 + 102),主要子类为 cs.LG(约 300 篇)、cs.CL(约 177 篇)、cs.CV。下文所有数字和取舍都基于这 5 天的 daily picks。

🔥 本周主题

🤖 智能体系统:从"提示驱动"到"结构化工程"(5/5 天出现)

本周最强主线。Agent 架构沿三条轨迹同步推进:(1) 状态与记忆从上下文文本迁入参数空间/环境侧/层次图结构;(2) 技能从手工 prompt 升级为可蒸馏、可演化的工程资产;(3) 运行时治理协议标准化(libOS、MCP 生态、Recuse Signal)。

  • 06-01:Harness-1 — 状态外置到 harness,RL 只学语义决策,8 项检索基准 +11.4 分
  • 06-02:PROVE — 20 个有状态 MCP 服务器 + 343 工具,工具编排 RL 训练基础设施
  • 06-03:TMEM — 单 episode 内 LoRA 在线更新,将经验内化为参数记忆
  • 06-04:MAGE — 记忆组织为层次状态树,成功率 +7.8–20.4 pp
  • 06-05:Socratic-SWE — 轨迹→技能→任务闭环自演化,SWE-bench Verified 50.4%

🛡️ Agent 安全:从模型层越狱到系统级威胁面(5/5 天出现)

安全研究的"威胁面"本周完成质变——从 chat 级 prompt 越狱升级到 agent 持久状态攻击、MCP 协议不一致、记忆投毒、自适应蠕虫和社会规则漏洞利用。防御端同步推进,但仍在追赶。

⚡ 推理训练效率:RL 后训练工具箱与推理成本优化(5/5 天出现)

本周两大焦点同时成熟:(1) GRPO/RLVR 的"第二代工具箱"——信用分配(RREDCoT)、半监督(GeoMin)、经验回放机制集中涌现;(2) 推理成本从工程优化上升为研究课题——动态推理深度控制、test-time compute 统一框架、架构级稀疏注意力。

  • 06-01:SimSD — diffusion LLM 投机解码,吞吐 ×7.46,免训练
  • 06-02:VEPO — 视觉敏感度 × token 熵修复视觉推理 RL 盲区
  • 06-03:Why Muon Outperforms Adam — 首次从曲率角度系统解释 Muon 2× 效率
  • 06-04:CLSA — 跨层共享路由,128K 上下文 7.6× 解码加速
  • 06-05:DyCon — 免训练动态推理深度控制,消除过度思考

🎬 多模态:更长、更实时、更高效(5/5 天出现)

视频 MLLM 正从"更多帧"走向"原生视频理解"——预测式编码压缩 token、层次图记忆解锁小时级视频、流式实时同步。音频侧 TTS 达到 2B 参数连续自回归 SOTA,流式音频交互统一离线/在线两种模式。

  • 06-01:AdaCodec — 1/7 token 预算超 Qwen3-VL-8B,TTFT 9.26s→1.62s
  • 06-03:Audio Interaction Model — 统一离线+在线流式音频 LALM
  • 06-05:MemDreamer — 层次图记忆,2% 上下文窗口获 12.5 分提升
  • 06-05:dots.tts — 2B 参数开源 TTS,Seed-TTS-Eval 全面 SOTA

🔬 科学应用与形式化推理(4/5 天出现)

LLM/Agent 在科学前沿取得里程碑式进展——形式化定理证明首次开源模型 MiniF2F 100%,蛋白设计 agent 闭环,量子码搜索产出新发现,工业评测基准持续涌现。

  • 06-01:AgentPLM — PLM × 生物物理 oracle 闭环,抗体优化 hit rate 最高
  • 06-01:Evolutionary Discovery of QLDPC Codes — $400 找到 465 个新量子码
  • 06-04:Goedel-Architect — 开源模型 MiniF2F 100%、IMO 2025 解 4/6 题
  • 06-05:DaX — 跨尺度病理基础模型,161 任务/44 数据集基准最优

📈 方向走势

持续高产(5/5 天):智能体系统(每日占比最高方向,5 天合计超 150 篇)、Agent 安全与可信(每日 10-40 篇稳定输出)、推理训练效率(每日 6-50 篇,06-02 和 06-04 尤为密集)、多模态理解与生成(每日 9-45 篇)。

本周爆发Agent 记忆架构 — 06-01 仅有 AGENTCL 涉及记忆主题,但 06-04 单日出现 5 篇记忆相关论文(MAGE、MRAgent、MemGate、TokenMizer、RBI-Eval),06-05 继续有 AdMem、MemDreamer,显示"记忆从检索到状态管理"已形成社区共识。具身智能 — 前 3 天零星出现,06-04 爆发性涌现 25+ 篇(HANDOFF、LadderMan、WLA、TempoVLA 等),人形机器人方向集中发力。

消退视频安全/越狱 — 06-01 有视频越狱和视频 MLLM 判官偏差等多篇工作,但后续 4 天未见同类主题延续,可能是阶段性爆发。

🌟 周度 Top 10

  1. Goedel-Architect: Streamlining Formal Theorem Proving with Blueprint Generation and Refinement

    Jui-Hui Chung, Sanjeev Arora 等 (Princeton) · 06-04 daily Top 1 · 开源模型首次 MiniF2F-test 100%、IMO 2025 解 4/6,形式化证明进入工程化阶段

  2. Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models

    Dewi Gould, Francis Rhys Ward 等 (Redwood Research) · 06-05 daily Top 1 · 无 CoT 能力年均翻倍,GPT-5.5 已超 3 分钟——CoT 监控安全范式的核心预警

  3. Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

    Pengcheng Jiang 等 (UIUC + Cohere) · 06-01 daily Top 2 · 状态外置范式,8 项检索基准平均 +11.4 分,跨域可迁移

  4. AI Agents Enable Adaptive Computer Worms

    Jonas Guan, Nicolas Papernot 等 (U of Toronto) · 06-02 daily Top 1 · 开源 LLM 驱动零边际成本自适应蠕虫,颠覆网络安全威胁格局

  5. You Only Index Once: Cross-Layer Sparse Attention with Shared Routing

    Yutao Sun, Li Dong, Furu Wei (Microsoft Research) · 06-04 daily Top 2 · 跨层共享路由,128K 上下文 17.1× 整体吞吐提升

  6. Streaming Communication in Multi-Agent Reasoning

    Zhen Yang 等 (HKUST) · 06-03 daily Top 1 · 流式多智能体推理 + step-level scaling law,HMMT 2026 最高 +22.4pp

  7. AdaCodec: A Predictive Visual Code for Video MLLMs

    Haowen Hou 等 (微软/上海 AI Lab) · 06-01 daily Top 1 · 视频编解码思路重设 MLLM 接口,1/7 token 反超基线

  8. PROVE: Synthesize and Reward — RL for Multi-Step Tool Use in Live Environments

    Ibrahim Abdelaziz 等 (IBM Research) · 06-02 daily Top 2 · 20 个有状态 MCP 服务器,BFCL Multi-Turn +10.2 点

  9. TMEM: Scaling Self-Evolving Agents via Parametric Memory

    Tao Ren 等 (百度) · 06-03 daily Top 3 · 首次在 Agent 框架中实现"经验→参数"闭环,突破上下文窗口瓶颈

  10. dots.tts Technical Report

    Shi Lian 等 (Pika/上海交大) · 06-05 daily Top 3 · 2B 参数开源 Apache 2.0 TTS,Seed-TTS-Eval 全面 SOTA,首包延迟 54ms

📊 本周数字

~882
5 天合计 cs.AI 论文
263
单日最高(06-02)
cs.LG ~300
最活跃交叉子类
150+
Agent 相关论文(5 天)
5/5
Agent 安全每天出现

🔮 趋势观察

Agent 记忆正在经历"范式转移"。本周最清晰的跨日信号:06-01 Harness-1 将状态外置到环境侧,06-03 TMEM 将经验内化为参数,06-04 MAGE/MRAgent/MemGate 将记忆建模为状态树/关联图/信任网关,06-05 MemDreamer 用层次图记忆解锁小时级视频。"语义相似度检索"作为记忆机制正被系统性替代,新范式的收敛点是:记忆 = 可查询的执行状态 + 信任边界

Agent 安全研究与 Agent 能力研究已形成"共演化"。06-01 SPADE-Bench 测计划-行动欺骗 → 06-02 AI 蠕虫+SocioHack 展示攻击端能力放大 → 06-03 存储型注入+MCP 描述不一致暴露系统漏洞 → 06-04 Recuse Signal+ANCHOR 提出治理原语 → 06-05 Think Fast 预警 CoT 监控窗口收窄。这条线的密度和连贯性在近期的 cs.AI 周度中罕见,标志着 Agent 安全已从"附属研究"升级为独立的第一公民方向。