arXiv cs.AI 日报 (20260604~20260604)

arXiv cs.AI 日报 (20260604~20260604)

共 202 篇 · 主要子类:cs.AI: 202, cs.LG: 62, cs.CL: 51 · 20260604-20260604
Generated by tanar · 2026-06-06 14:48

📅 arXiv cs.AI 日报 (2026-06-04)

共收录 202 篇论文,涵盖智能体与记忆、推理与训练优化、机器人与具身智能、安全与评估等方向。

📊 研究方向热度分析

🤖 智能体 · 记忆 · 工具使用(约 35 篇)

本日最热方向。核心趋势:记忆从"语义检索"走向"执行状态管理",工具调用从"全量暴露"走向"因果最小化过滤",技能从上下文文本转入权重空间。

⚡ 推理 · 训练效率 · RL 优化(约 40 篇)

两大焦点:(1) RL 后训练中的信用分配与方差控制(RREDCoT、MDP-GRPO、OrderGrad);(2) 架构级效率突破——跨层稀疏注意力、RNN 无展开训练、权重预条件化。

🦾 机器人 · 具身智能 · 自动驾驶(约 25 篇)

VLA 模型持续升级:速度可控(TempoVLA)、世界模型驱动(WorldFly、WLA、PLAN-S);人形机器人向全身操控与极端运动(爬梯)推进。

🛡️ 安全 · 对齐 · 评估基准(约 25 篇)

安全研究呈现两个新方向:(1) 对 LLM agent 的协作式治理信号(Recuse Signal)和记忆边界审计;(2) 自演化系统中的人类反馈机制与奖励黑客监控。

💡 关键技术突破

开源模型攻克数学竞赛:MiniF2F 100%、IMO 2025 4/6

论文Goedel-Architect: Streamlining Formal Theorem Proving with Blueprint Generation and Refinement

创新点:提出蓝图生成与精化框架——先生成定义和引理的依赖图,再并行关闭各开放节点,失败驱动全局蓝图迭代。使用开源 DeepSeek-V4-Flash (284B-A13B) 作为骨干,MiniF2F-test 达到 100% pass@1,PutnamBench 88.8%,IMO 2025 解出 4/6 题。

意义:以低至 500× 的成本差距达到同类开源流水线 SOTA,证明形式化定理证明已进入工程化可复用阶段。

跨层共享路由:一次索引解决长上下文效率三重瓶颈

论文You Only Index Once: Cross-Layer Sparse Attention with Shared Routing

创新点:在 KV 共享架构(YOCO)基础上,将 token 级 top-k 路由索引也跨层共享,一次计算即复用多层。同时改善预填充、KV 缓存和解码三个推理瓶颈。128K 上下文实现 7.6× 解码加速和 17.1× 整体吞吐提升。

意义:首次在精度与效率间找到完整架构级解法,为长上下文 LLM 部署提供了实用路径。

去除循环依赖:用监督学习训练 RNN

论文Pretraining Recurrent Networks without Recurrence

创新点:提出 Supervised Memory Training(SMT),通过 Transformer 编码器学习预测性状态标签,将 RNN 训练转化为单步记忆转移的监督学习。实现 O(1) 梯度路径和时间并行训练,在语言建模和像素序列建模上超越 BPTT。

意义:从根本上解耦"记住什么"和"如何更新记忆",有望释放 RNN 在时间抽象方面的 scaling 潜力。

扩散语言模型的自增强检索:丢弃的 token 也是好线索

论文SARDI: Self-Augmenting Retrieval for Diffusion Language Models

创新点:发现离散扩散 LM 在去噪过程中被丢弃的低置信度 token 可作为前瞻信号,用于提前检索相关证据。方法无需训练、与检索器无关,五个多跳 QA 基准上超越现有无训练基线,吞吐高达 8×。

意义:开辟了扩散语言模型在 RAG 场景的新范式,将"生成过程中的副产品"转化为检索优势。

子空间感知稀疏自编码器:终结特征分裂

论文SASA: Subspace-Aware Sparse Autoencoders for Mechanistic Interpretability

创新点:理论证明标准 SAE 的单向量解码器在高维特征上必然导致指数级特征分裂;提出学习解码子空间 + 块稀疏门控 + 核范数秩自适应,将样本复杂度从指数降至多项式。GPT-2 和 Mistral-7B 上减少分裂与吸收,半数 token 预算即达同等效果。

意义:为机械可解释性社区提供了理论基础和实用工具,有望成为 SAE 的下一代标准。

👥 作者与机构

机构 / 团队 代表论文 核心作者
Princeton University Goedel-Architect Sanjeev Arora, Danqi Chen, Chi Jin, Mengdi Wang 等 17 位作者
MIT SMT (Pretraining RNNs) Akarsh Kumar, Phillip Isola
Microsoft Research CLSA (You Only Index Once) Yutao Sun, Li Dong, Furu Wei
Caltech / Georgia Tech HANDOFF Lizhi Yang, Georgia Gkioxari, Aaron Ames
Cornell / Kilian Weinberger 组 SARDI Paul Jünger, Kilian Q. Weinberger
Sepp Hochreiter 组 RREDCoT Mykyta Ielanskyi, Sepp Hochreiter
UC Berkeley / Stanford LadderMan Siheng Zhao, Koushil Sreenath, C. Karen Liu, Guanya Shi
Shanghai AI Lab / SJTU MLEvolve Shangheng Du, Lei Bai 等
Kuaishou OneRec Team OneReason 80+ 作者联合团队
Carnegie Mellon / Penn DoPr (Double Preconditioning) Thomas T. Zhang, Nikolai Matni, Max Simchowitz

* 本日高产机构:Princeton(定理证明)、Microsoft Research(长上下文效率)、UC Berkeley(具身智能)形成三个明显的高密度合作簇。

📄 精选论文 Top 10

  1. Goedel-Architect: Streamlining Formal Theorem Proving with Blueprint Generation and Refinement

    Jui-Hui Chung, Sanjeev Arora 等 · 蓝图生成 + 并行证明框架,开源模型首次达成 MiniF2F 100%

  2. You Only Index Once: Cross-Layer Sparse Attention with Shared Routing

    Yutao Sun, Li Dong, Furu Wei · 跨层共享路由索引,128K 上下文 17.1× 吞吐提升

  3. Pretraining Recurrent Networks without Recurrence

    Akarsh Kumar, Phillip Isola · 将 RNN 训练还原为单步监督学习,打开并行训练新范式

  4. MLEvolve: A Self-Evolving Framework for Automated ML Algorithm Discovery

    Shangheng Du, Lei Bai 等 · Progressive MCGS + 回顾记忆,MLE-Bench SOTA,半预算超 AlphaEvolve

  5. Self-Augmenting Retrieval for Diffusion Language Models

    Paul Jünger, Kilian Weinberger · 离散扩散 LM 的无训练 RAG,吞吐 8× 领先

  6. Subspace-Aware Sparse Autoencoders for Effective Mechanistic Interpretability

    Seyed Arshan Dalili, Mehrdad Mahdavi · 理论 + 实验终结 SAE 特征分裂问题

  7. World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis

    Yi Yang 等 · WLA-0 (2B) 联合世界 / 语言 / 动作建模,RTX 5090 上 40ms 推理

  8. Beyond Similarity: Trustworthy Memory Search for Personal AI Agents

    Jiawen Zhang, Ruoxi Jia 等 · 9M 参数 MemGate 网关,将记忆搜索从相似匹配升级为信任边界

  9. LadderMan: Learning Humanoid Perceptive Ladder Climbing

    Siheng Zhao, Koushil Sreenath, Guanya Shi 等 · 人形机器人零样本真实爬梯 + 梯上操作

  10. Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

    Zhuoming Chen, Beidi Chen · 可编程稀疏注意力系统,AI agent 自动搜出 3.46× 吞吐方案

🔮 趋势观察

1. Agent 记忆从"检索"到"状态管理"的范式转移。至少 5 篇论文(MAGE、MRAgent、TokenMizer、MemGate、RBI-Eval)不约而同指出:语义相似性检索不足以支撑长程 agent 任务,记忆需要被建模为执行状态树、关联图或信任过滤网关。这一方向正在从单篇探索走向系统级共识。

2. RL 后训练的"第二代工具箱"成形。GRPO 的不稳定性已被充分暴露(MDP-GRPO 识别三类病理),新方案围绕信用分配(RREDCoT)、序统计量目标(OrderGrad)、中心化优势(MaxPO)展开,正在替代朴素的 Monte Carlo reward。

3. 具身 AI 的"世界模型 + VLA"融合加速。WLA、WorldFly、PLAN-S 三篇论文均在 VLA 中引入世界模型预测未来状态,用于指导动作生成。世界建模从独立模块走向与动作策略的端到端联合训练,正成为具身智能的新标配。