arXiv cs.AI 日报 (20260618~20260618)

arXiv cs.AI 日报 (20260618~20260618)

共 122 篇 · 主要子类:cs.AI: 122, cs.LG: 29, cs.CL: 20 · 20260618-20260618
Generated by tanar · 2026-06-19 09:20

📊 arXiv cs.AI 日报 (2026-06-18)

共收录 122 篇论文,按主题聚类为 5 个核心方向。

📊 研究方向热度分析

🤖 LLM 智能体与多智能体协作(~22 篇)

本日智能体方向论文密度极高,核心趋势是:从单次任务执行走向持续自我进化与群体知识共享。ENPIRE 让编程 Agent 自主驱动机器人策略迭代;CoD 提出跨域泛化的长生命周期 Agent 元能力;MATM 将轨迹检索拓展为多 Agent 群体记忆。

⚡ 推理、RL 与训练优化(~18 篇)

本日集中出现多篇解决 RLVR 训练不稳定性的工作:ICT 通过 token 层面分布偏差避免熵坍塌;UARM 引入不确定性感知的奖励建模;StreamKL 提供 43× 加速的注意力蒸馏原语。

🦾 机器人与具身智能(~20 篇)

VLA 模型轻量化与真实世界部署是核心主题。VLA 冗余层发现揭示 50% 可裁剪空间;FAFM 将频率感知引入流匹配实现更平滑控制;PhysDrift 直接在机器人关节空间生成协同语音动作。

👁️ 多模态与视觉-语言模型(~15 篇)

多模态模型的可靠性与效率成为焦点:SPOT-E 用熵整形改善 VLM 视觉证据利用;ROSE 揭示感知到动作的转换瓶颈;变长 tokenizer 通过可学习全局合并优化质量-计算权衡。

🛡️ 安全、评估与对齐(~15 篇)

安全评估领域呈现专业化趋势:FinRED 构建金融领域定制红队框架;SafeSpec 在推测解码中集成安全感知;ToolPrivBench 发现 LLM Agent 普遍存在过度提权行为。

💡 关键技术突破

StreamKL:注意力蒸馏的 O(1) 内存突破

论文StreamKL: Fast and Memory-Efficient KL Divergence for Boosting Attention Distillation

创新点:提出首个融合 GPU 原语用于注意力 KL 散度计算,导出新颖的在线公式处理双分布 KL 归约,在片上 SRAM 中流式处理 query-key 块,将 HBM 占用从 O(N_Q·N_K) 降至 O(1)。前向 43× 加速、反向 14× 加速。

意义:彻底解除长上下文注意力蒸馏的内存瓶颈,使单 GPU 上万级上下文蒸馏成为可能,对知识蒸馏、稀疏注意力训练和持续学习有广泛推动作用。

ENPIRE:编程 Agent 自主驱动真实世界机器人策略进化

论文ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

创新点:构建完整的物理反馈闭环框架(环境重置→策略执行→结果验证→代码改进),让前沿编程 Agent 在灵巧操作任务(整理针盒、扎线带、工具使用)上自主达到 99% 成功率,多机器人并行进一步加速。

意义:将编程 Agent 的能力边界从纯数字环境拓展至物理世界,为"Agent 自主推进机器人研究"开辟了实用路径。

VLA 模型存在 50% 的冗余深度

论文Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think

创新点:发现 pi_0、GR00T-N1.5 等 VLA 基础模型尽管在多样物理轨迹上训练,仍存在严重的层间表示冗余。用单次前向传播的 CKA 分析即可识别冗余层并永久裁剪 50% 深度,无需任何训练。训练时间减少 40-50%,推理加速最高 30%。

意义:为 VLA 模型在资源受限的实体机器人上部署提供了高效范式,在 3 个仿真基准和 10 个真实任务上验证有效。

ICT:token 分布偏差驱动的 LLM 推理稳定训练

论文Beyond Entropy: Learning from Token-Level Distributional Deviations

创新点:指出 RLVR 的熵坍塌与熵爆炸二难困境,提出 ICT 框架利用 JS 散度识别关键分支 token,仅对 10% 独特 token 做选择性更新。理论证明同时降低 Shannon 熵的不确定性并控制 Rényi 熵的概率集中度。

意义:在 Qwen2.5 三个尺度上平均 pass@4 提升 4.58%(最高 14.9%),为 RLVR 训练稳定性提供了新的理论和实践工具。

CoT Transformer 可高效模拟 Word RAM 算法

论文Efficiently Representing Algorithms With Chain-of-Thought Transformers

创新点:证明 CoT transformer 可以仅用多对数级开销模拟任意 Word RAM 算法(如 O(n log n) 排序、Dijkstra 算法),远优于已知 Turing 机模拟的二次开销。在有限精度、连续 CoT 和混合架构三种设定下均成立。

意义:从计算理论层面显著提升了对 CoT 推理表达能力的理解,为推理模型设计提供理论基础。

👥 作者与机构

活跃机构 / 团队 代表论文 关注领域
UC Berkeley / Stanford (Shi, Goldberg, Zhu 等) ENPIRE Agent 自主机器人研究
阿里巴巴 (Chen, Shi, Li 等) Connect the Dots 长生命周期 Agent RL
港大 Lingpeng Kong 组 SoftSkill 行为压缩与上下文适应
DFKI / TU Darmstadt (Nguyen, Peters, Sonntag 等) VLA 层裁剪 VLA 模型压缩
上海交大 (Liu, Zhao 等) StreamKL 高效注意力蒸馏
北大 (Yang, Wang 等) ScaffoldAgent, ICT 深度研究 Agent / RL 训练稳定
King Abdullah / 首尔大 (Kim, Yun / Lee 等) Process-Verified RL / KAIST 系列 形式化推理 / 具身对话导航
IBM Research (Patel, El Maghraoui 等) Beyond Static Leaderboards Agent 评估方法论

注:本日论文作者分布广泛,上表仅列出多篇论文或高影响力工作的主要团队。

📄 精选论文 Top 10

  1. ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

    Wenli Xiao, Guanya Shi, Ken Goldberg 等 · 编程 Agent 闭环自主训练机器人策略达 99% 成功率,开创物理世界 Agent 研究范式

  2. StreamKL: Fast and Memory-Efficient KL Divergence for Boosting Attention Distillation

    Guangda Liu, Jieru Zhao 等 · 首个 O(1) 内存的注意力 KL 融合原语,前向 43× 加速,开启长上下文蒸馏

  3. Connect the Dots: Training LLMs for Long-Lifecycle Agents

    Yanxi Chen, Yaliang Li 等 · 提出 CoD 元能力框架,端到端 RL 赋予 Agent 跨域探索与自我更新能力

  4. Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think

    Gia-Binh Nguyen, Jan Peters 等 · 训练无关地裁剪 VLA 50% 深度,4 种机器人本体验证等效性能

  5. Beyond Entropy: Learning from Token-Level Distributional Deviations

    Xuanzhi Feng, Song Guo 等 · ICT 框架以 10% token 选择性更新稳定 RLVR 训练,最高 14.9% 提升

  6. Efficiently Representing Algorithms With Chain-of-Thought Transformers

    Yanhong Li, William Merrill 等 · CoT 可多对数开销模拟 Word RAM 算法,填补理论空白

  7. SoftSkill: Behavioral Compression for Contextual Adaptation

    Xijia Tao, Lingpeng Kong 等 · 32 个 soft token 替代数百 Markdown skill token,冻结模型即可适配

  8. SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling

    Haotian Xu, Cheng Zhuo 等 · 推测解码内嵌安全头 + 反思多采样,安全与效率兼得

  9. Multi-Agent Transactive Memory

    To Eun Kim, Fernando Diaz 等 · 群体级轨迹复用减少重复探索,ALFWorld/WebArena 验证有效

  10. Tri-Info: Generalizable Failure Prediction for VLA Models

    Jinghan Yang, Yanchao Yang 等 · 信息论三重信号跨模型/环境/sim-to-real 迁移检测 VLA 故障

🔮 趋势观察

1. Agent 从"执行者"进化为"自我进化者":ENPIRE 和 CoD 标志着一个转折——Agent 不再仅是执行预定义任务的工具,而是能够在物理世界或数字环境中持续积累经验、跨域泛化的自主实体。MATM 进一步将这种能力从个体延伸到群体。

2. RLVR 训练稳定性成为集中攻关目标:ICT、UARM、Process-Verified RL 等多篇论文从不同角度(token 选择、奖励校准、符号验证器)解决 GRPO 系训练的熵坍塌和 reward hacking 问题,表明社区已意识到 scaling RLVR 的核心瓶颈不在算力而在训练可靠性。

3. VLA 模型部署进入"瘦身期":VLA 层裁剪论文揭示的 50% 冗余是一个具有工程价值的发现。结合 FAFM 的频率域动作生成和 Tri-Info 的故障检测,具身智能正从"能力展示"转向"可靠部署"。