arXiv cs.AI 日报 (20260618~20260618)
📊 arXiv cs.AI 日报 (2026-06-18)
共收录 122 篇论文,按主题聚类为 5 个核心方向。
📊 研究方向热度分析
🤖 LLM 智能体与多智能体协作(~22 篇)
本日智能体方向论文密度极高,核心趋势是:从单次任务执行走向持续自我进化与群体知识共享。ENPIRE 让编程 Agent 自主驱动机器人策略迭代;CoD 提出跨域泛化的长生命周期 Agent 元能力;MATM 将轨迹检索拓展为多 Agent 群体记忆。
- ENPIRE: Agentic Robot Policy Self-Improvement in the Real World — 编程 Agent 自主完成真实世界机器人策略迭代,达 99% 成功率
- Connect the Dots: Training LLMs for Long-Lifecycle Agents — 端到端 RL 训练 LLM 元能力,实现跨域泛化
- Multi-Agent Transactive Memory — 群体级轨迹存取框架,无需联合训练即可共享过程知识
- ScaffoldAgent: Utility-Guided Dynamic Outline Optimization — 效用引导的大纲动态优化,提升深度研究报告质量
- ToolPro: Beyond Static Endpoints — 用可执行工具程序替代静态 API 端点,延迟降低 53.4%
⚡ 推理、RL 与训练优化(~18 篇)
本日集中出现多篇解决 RLVR 训练不稳定性的工作:ICT 通过 token 层面分布偏差避免熵坍塌;UARM 引入不确定性感知的奖励建模;StreamKL 提供 43× 加速的注意力蒸馏原语。
- StreamKL: Fast and Memory-Efficient KL Divergence for Attention Distillation — 首个融合 GPU 原语,前向 43× 加速,HBM 占用 O(1)
- Beyond Entropy: ICT Framework for LLM Reasoning — 仅更新 10% 独特 token,pass@4 平均提升 4.58%
- Process-Verified RL for Theorem Proving via Lean — 用 Lean 证明助手作为过程级奖励预言机
- UARM: Uncertainty-Aware Reward Modeling for Stable RLHF — 共形预测 + 异方差分解缓解 reward hacking
- Efficiently Representing Algorithms With CoT Transformers — CoT 可高效模拟 Word RAM 算法,仅多对数开销
🦾 机器人与具身智能(~20 篇)
VLA 模型轻量化与真实世界部署是核心主题。VLA 冗余层发现揭示 50% 可裁剪空间;FAFM 将频率感知引入流匹配实现更平滑控制;PhysDrift 直接在机器人关节空间生成协同语音动作。
- Finetuning VLA Models Requires Fewer Layers Than You Think — 训练无关压缩 VLA 深度 50%,训练加速 40-50%
- FAFM: Frequency-Aware Flow Matching for Robotic Action — DCT 域流匹配 + Sobolev 正则,跨频率输入鲁棒
- PhysDrift: Bridging the Embodiment Gap in Humanoid Co-Speech Motion — 绕过人体中间表示,直接预测机器人关节轨迹
- Tri-Info: Generalizable Failure Prediction for VLA Models — 信息论信号跨架构/环境迁移,真实世界 83% 准确率
- VOiLA: Vectorized Online Planning with Learned Diffusion Model — 蒸馏扩散采样器降低成本近 3 个数量级
👁️ 多模态与视觉-语言模型(~15 篇)
多模态模型的可靠性与效率成为焦点:SPOT-E 用熵整形改善 VLM 视觉证据利用;ROSE 揭示感知到动作的转换瓶颈;变长 tokenizer 通过可学习全局合并优化质量-计算权衡。
- SPOT-E: Test-Time Entropy Shaping with Visual Spotlights — 即插即用的推理时视觉聚焦,跨模型族一致提升
- ROSE: Benchmarking the Perception-to-Action Gap — 固定视觉场景变换任务上下文,揭示最大 44.5pp 性能落差
- Variable-Length Tokenization via Learnable Global Merging — 合并式变长 tokenizer 实现更优 gFID-计算权衡
- SoftSkill: Behavioral Compression for Contextual Adaptation — 32 个软 token 替代数百 Markdown token,性能显著提升
🛡️ 安全、评估与对齐(~15 篇)
安全评估领域呈现专业化趋势:FinRED 构建金融领域定制红队框架;SafeSpec 在推测解码中集成安全感知;ToolPrivBench 发现 LLM Agent 普遍存在过度提权行为。
- SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling — 推测解码中整合安全头,ASR 降 15% 且保留 2.06× 加速
- FinRED: Expert-Guided Financial LLM Red-Teaming — 对齐 FATF/DORA 的金融安全评估,已部署于韩国 FSI
- ToolPrivBench: Over-Privileged Tool Selection in LLM Agents — 发现主流 Agent 普遍过度提权,提出权限感知后训练防御
- Apparent Psychological Profiles of LLMs are Measurement Artifacts — 81-90% 的模型间差异来自方向性响应偏差
💡 关键技术突破
StreamKL:注意力蒸馏的 O(1) 内存突破
论文:StreamKL: Fast and Memory-Efficient KL Divergence for Boosting Attention Distillation
创新点:提出首个融合 GPU 原语用于注意力 KL 散度计算,导出新颖的在线公式处理双分布 KL 归约,在片上 SRAM 中流式处理 query-key 块,将 HBM 占用从 O(N_Q·N_K) 降至 O(1)。前向 43× 加速、反向 14× 加速。
意义:彻底解除长上下文注意力蒸馏的内存瓶颈,使单 GPU 上万级上下文蒸馏成为可能,对知识蒸馏、稀疏注意力训练和持续学习有广泛推动作用。
ENPIRE:编程 Agent 自主驱动真实世界机器人策略进化
论文:ENPIRE: Agentic Robot Policy Self-Improvement in the Real World
创新点:构建完整的物理反馈闭环框架(环境重置→策略执行→结果验证→代码改进),让前沿编程 Agent 在灵巧操作任务(整理针盒、扎线带、工具使用)上自主达到 99% 成功率,多机器人并行进一步加速。
意义:将编程 Agent 的能力边界从纯数字环境拓展至物理世界,为"Agent 自主推进机器人研究"开辟了实用路径。
VLA 模型存在 50% 的冗余深度
论文:Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
创新点:发现 pi_0、GR00T-N1.5 等 VLA 基础模型尽管在多样物理轨迹上训练,仍存在严重的层间表示冗余。用单次前向传播的 CKA 分析即可识别冗余层并永久裁剪 50% 深度,无需任何训练。训练时间减少 40-50%,推理加速最高 30%。
意义:为 VLA 模型在资源受限的实体机器人上部署提供了高效范式,在 3 个仿真基准和 10 个真实任务上验证有效。
ICT:token 分布偏差驱动的 LLM 推理稳定训练
论文:Beyond Entropy: Learning from Token-Level Distributional Deviations
创新点:指出 RLVR 的熵坍塌与熵爆炸二难困境,提出 ICT 框架利用 JS 散度识别关键分支 token,仅对 10% 独特 token 做选择性更新。理论证明同时降低 Shannon 熵的不确定性并控制 Rényi 熵的概率集中度。
意义:在 Qwen2.5 三个尺度上平均 pass@4 提升 4.58%(最高 14.9%),为 RLVR 训练稳定性提供了新的理论和实践工具。
CoT Transformer 可高效模拟 Word RAM 算法
论文:Efficiently Representing Algorithms With Chain-of-Thought Transformers
创新点:证明 CoT transformer 可以仅用多对数级开销模拟任意 Word RAM 算法(如 O(n log n) 排序、Dijkstra 算法),远优于已知 Turing 机模拟的二次开销。在有限精度、连续 CoT 和混合架构三种设定下均成立。
意义:从计算理论层面显著提升了对 CoT 推理表达能力的理解,为推理模型设计提供理论基础。
👥 作者与机构
| 活跃机构 / 团队 | 代表论文 | 关注领域 |
|---|---|---|
| UC Berkeley / Stanford (Shi, Goldberg, Zhu 等) | ENPIRE | Agent 自主机器人研究 |
| 阿里巴巴 (Chen, Shi, Li 等) | Connect the Dots | 长生命周期 Agent RL |
| 港大 Lingpeng Kong 组 | SoftSkill | 行为压缩与上下文适应 |
| DFKI / TU Darmstadt (Nguyen, Peters, Sonntag 等) | VLA 层裁剪 | VLA 模型压缩 |
| 上海交大 (Liu, Zhao 等) | StreamKL | 高效注意力蒸馏 |
| 北大 (Yang, Wang 等) | ScaffoldAgent, ICT | 深度研究 Agent / RL 训练稳定 |
| King Abdullah / 首尔大 (Kim, Yun / Lee 等) | Process-Verified RL / KAIST 系列 | 形式化推理 / 具身对话导航 |
| IBM Research (Patel, El Maghraoui 等) | Beyond Static Leaderboards | Agent 评估方法论 |
注:本日论文作者分布广泛,上表仅列出多篇论文或高影响力工作的主要团队。
📄 精选论文 Top 10
-
ENPIRE: Agentic Robot Policy Self-Improvement in the Real World
Wenli Xiao, Guanya Shi, Ken Goldberg 等 · 编程 Agent 闭环自主训练机器人策略达 99% 成功率,开创物理世界 Agent 研究范式
-
StreamKL: Fast and Memory-Efficient KL Divergence for Boosting Attention Distillation
Guangda Liu, Jieru Zhao 等 · 首个 O(1) 内存的注意力 KL 融合原语,前向 43× 加速,开启长上下文蒸馏
-
Connect the Dots: Training LLMs for Long-Lifecycle Agents
Yanxi Chen, Yaliang Li 等 · 提出 CoD 元能力框架,端到端 RL 赋予 Agent 跨域探索与自我更新能力
-
Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
Gia-Binh Nguyen, Jan Peters 等 · 训练无关地裁剪 VLA 50% 深度,4 种机器人本体验证等效性能
-
Beyond Entropy: Learning from Token-Level Distributional Deviations
Xuanzhi Feng, Song Guo 等 · ICT 框架以 10% token 选择性更新稳定 RLVR 训练,最高 14.9% 提升
-
Efficiently Representing Algorithms With Chain-of-Thought Transformers
Yanhong Li, William Merrill 等 · CoT 可多对数开销模拟 Word RAM 算法,填补理论空白
-
SoftSkill: Behavioral Compression for Contextual Adaptation
Xijia Tao, Lingpeng Kong 等 · 32 个 soft token 替代数百 Markdown skill token,冻结模型即可适配
-
SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling
Haotian Xu, Cheng Zhuo 等 · 推测解码内嵌安全头 + 反思多采样,安全与效率兼得
-
Multi-Agent Transactive Memory
To Eun Kim, Fernando Diaz 等 · 群体级轨迹复用减少重复探索,ALFWorld/WebArena 验证有效
-
Tri-Info: Generalizable Failure Prediction for VLA Models
Jinghan Yang, Yanchao Yang 等 · 信息论三重信号跨模型/环境/sim-to-real 迁移检测 VLA 故障
🔮 趋势观察
1. Agent 从"执行者"进化为"自我进化者":ENPIRE 和 CoD 标志着一个转折——Agent 不再仅是执行预定义任务的工具,而是能够在物理世界或数字环境中持续积累经验、跨域泛化的自主实体。MATM 进一步将这种能力从个体延伸到群体。
2. RLVR 训练稳定性成为集中攻关目标:ICT、UARM、Process-Verified RL 等多篇论文从不同角度(token 选择、奖励校准、符号验证器)解决 GRPO 系训练的熵坍塌和 reward hacking 问题,表明社区已意识到 scaling RLVR 的核心瓶颈不在算力而在训练可靠性。
3. VLA 模型部署进入"瘦身期":VLA 层裁剪论文揭示的 50% 冗余是一个具有工程价值的发现。结合 FAFM 的频率域动作生成和 Tri-Info 的故障检测,具身智能正从"能力展示"转向"可靠部署"。
评论