arXiv cs.AI 日报 (20260618~20260618)

📊 arXiv cs.AI 日报 (2026-06-18)

共收录 122 篇论文，按主题聚类为 5 个核心方向。

📊 研究方向热度分析

🤖 LLM 智能体与多智能体协作（~22 篇）

本日智能体方向论文密度极高，核心趋势是：从单次任务执行走向持续自我进化与群体知识共享。ENPIRE 让编程 Agent 自主驱动机器人策略迭代；CoD 提出跨域泛化的长生命周期 Agent 元能力；MATM 将轨迹检索拓展为多 Agent 群体记忆。

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World — 编程 Agent 自主完成真实世界机器人策略迭代，达 99% 成功率
Connect the Dots: Training LLMs for Long-Lifecycle Agents — 端到端 RL 训练 LLM 元能力，实现跨域泛化
Multi-Agent Transactive Memory — 群体级轨迹存取框架，无需联合训练即可共享过程知识
ScaffoldAgent: Utility-Guided Dynamic Outline Optimization — 效用引导的大纲动态优化，提升深度研究报告质量
ToolPro: Beyond Static Endpoints — 用可执行工具程序替代静态 API 端点，延迟降低 53.4%

⚡ 推理、RL 与训练优化（~18 篇）

本日集中出现多篇解决 RLVR 训练不稳定性的工作：ICT 通过 token 层面分布偏差避免熵坍塌；UARM 引入不确定性感知的奖励建模；StreamKL 提供 43× 加速的注意力蒸馏原语。

StreamKL: Fast and Memory-Efficient KL Divergence for Attention Distillation — 首个融合 GPU 原语，前向 43× 加速，HBM 占用 O(1)
Beyond Entropy: ICT Framework for LLM Reasoning — 仅更新 10% 独特 token，pass@4 平均提升 4.58%
Process-Verified RL for Theorem Proving via Lean — 用 Lean 证明助手作为过程级奖励预言机
UARM: Uncertainty-Aware Reward Modeling for Stable RLHF — 共形预测 + 异方差分解缓解 reward hacking
Efficiently Representing Algorithms With CoT Transformers — CoT 可高效模拟 Word RAM 算法，仅多对数开销

🦾 机器人与具身智能（~20 篇）

VLA 模型轻量化与真实世界部署是核心主题。VLA 冗余层发现揭示 50% 可裁剪空间；FAFM 将频率感知引入流匹配实现更平滑控制；PhysDrift 直接在机器人关节空间生成协同语音动作。

Finetuning VLA Models Requires Fewer Layers Than You Think — 训练无关压缩 VLA 深度 50%，训练加速 40-50%
FAFM: Frequency-Aware Flow Matching for Robotic Action — DCT 域流匹配 + Sobolev 正则，跨频率输入鲁棒
PhysDrift: Bridging the Embodiment Gap in Humanoid Co-Speech Motion — 绕过人体中间表示，直接预测机器人关节轨迹
Tri-Info: Generalizable Failure Prediction for VLA Models — 信息论信号跨架构/环境迁移，真实世界 83% 准确率
VOiLA: Vectorized Online Planning with Learned Diffusion Model — 蒸馏扩散采样器降低成本近 3 个数量级

👁️ 多模态与视觉-语言模型（~15 篇）

多模态模型的可靠性与效率成为焦点：SPOT-E 用熵整形改善 VLM 视觉证据利用；ROSE 揭示感知到动作的转换瓶颈；变长 tokenizer 通过可学习全局合并优化质量-计算权衡。

SPOT-E: Test-Time Entropy Shaping with Visual Spotlights — 即插即用的推理时视觉聚焦，跨模型族一致提升
ROSE: Benchmarking the Perception-to-Action Gap — 固定视觉场景变换任务上下文，揭示最大 44.5pp 性能落差
Variable-Length Tokenization via Learnable Global Merging — 合并式变长 tokenizer 实现更优 gFID-计算权衡
SoftSkill: Behavioral Compression for Contextual Adaptation — 32 个软 token 替代数百 Markdown token，性能显著提升

🛡️ 安全、评估与对齐（~15 篇）

安全评估领域呈现专业化趋势：FinRED 构建金融领域定制红队框架；SafeSpec 在推测解码中集成安全感知；ToolPrivBench 发现 LLM Agent 普遍存在过度提权行为。

SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling — 推测解码中整合安全头，ASR 降 15% 且保留 2.06× 加速
FinRED: Expert-Guided Financial LLM Red-Teaming — 对齐 FATF/DORA 的金融安全评估，已部署于韩国 FSI
ToolPrivBench: Over-Privileged Tool Selection in LLM Agents — 发现主流 Agent 普遍过度提权，提出权限感知后训练防御
Apparent Psychological Profiles of LLMs are Measurement Artifacts — 81-90% 的模型间差异来自方向性响应偏差

💡 关键技术突破

StreamKL：注意力蒸馏的 O(1) 内存突破

论文：StreamKL: Fast and Memory-Efficient KL Divergence for Boosting Attention Distillation

创新点：提出首个融合 GPU 原语用于注意力 KL 散度计算，导出新颖的在线公式处理双分布 KL 归约，在片上 SRAM 中流式处理 query-key 块，将 HBM 占用从 O(N_Q·N_K) 降至 O(1)。前向 43× 加速、反向 14× 加速。

意义：彻底解除长上下文注意力蒸馏的内存瓶颈，使单 GPU 上万级上下文蒸馏成为可能，对知识蒸馏、稀疏注意力训练和持续学习有广泛推动作用。

ENPIRE：编程 Agent 自主驱动真实世界机器人策略进化

论文：ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

创新点：构建完整的物理反馈闭环框架（环境重置→策略执行→结果验证→代码改进），让前沿编程 Agent 在灵巧操作任务（整理针盒、扎线带、工具使用）上自主达到 99% 成功率，多机器人并行进一步加速。

意义：将编程 Agent 的能力边界从纯数字环境拓展至物理世界，为"Agent 自主推进机器人研究"开辟了实用路径。

VLA 模型存在 50% 的冗余深度

论文：Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think

创新点：发现 pi_0、GR00T-N1.5 等 VLA 基础模型尽管在多样物理轨迹上训练，仍存在严重的层间表示冗余。用单次前向传播的 CKA 分析即可识别冗余层并永久裁剪 50% 深度，无需任何训练。训练时间减少 40-50%，推理加速最高 30%。

意义：为 VLA 模型在资源受限的实体机器人上部署提供了高效范式，在 3 个仿真基准和 10 个真实任务上验证有效。

ICT：token 分布偏差驱动的 LLM 推理稳定训练

论文：Beyond Entropy: Learning from Token-Level Distributional Deviations

创新点：指出 RLVR 的熵坍塌与熵爆炸二难困境，提出 ICT 框架利用 JS 散度识别关键分支 token，仅对 10% 独特 token 做选择性更新。理论证明同时降低 Shannon 熵的不确定性并控制 Rényi 熵的概率集中度。

意义：在 Qwen2.5 三个尺度上平均 pass@4 提升 4.58%（最高 14.9%），为 RLVR 训练稳定性提供了新的理论和实践工具。

CoT Transformer 可高效模拟 Word RAM 算法

论文：Efficiently Representing Algorithms With Chain-of-Thought Transformers

创新点：证明 CoT transformer 可以仅用多对数级开销模拟任意 Word RAM 算法（如 O(n log n) 排序、Dijkstra 算法），远优于已知 Turing 机模拟的二次开销。在有限精度、连续 CoT 和混合架构三种设定下均成立。

意义：从计算理论层面显著提升了对 CoT 推理表达能力的理解，为推理模型设计提供理论基础。

👥 作者与机构

活跃机构 / 团队	代表论文	关注领域
UC Berkeley / Stanford (Shi, Goldberg, Zhu 等)	ENPIRE	Agent 自主机器人研究
阿里巴巴 (Chen, Shi, Li 等)	Connect the Dots	长生命周期 Agent RL
港大 Lingpeng Kong 组	SoftSkill	行为压缩与上下文适应
DFKI / TU Darmstadt (Nguyen, Peters, Sonntag 等)	VLA 层裁剪	VLA 模型压缩
上海交大 (Liu, Zhao 等)	StreamKL	高效注意力蒸馏
北大 (Yang, Wang 等)	ScaffoldAgent, ICT	深度研究 Agent / RL 训练稳定
King Abdullah / 首尔大 (Kim, Yun / Lee 等)	Process-Verified RL / KAIST 系列	形式化推理 / 具身对话导航
IBM Research (Patel, El Maghraoui 等)	Beyond Static Leaderboards	Agent 评估方法论

注：本日论文作者分布广泛，上表仅列出多篇论文或高影响力工作的主要团队。

📄 精选论文 Top 10

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World
Wenli Xiao, Guanya Shi, Ken Goldberg 等 · 编程 Agent 闭环自主训练机器人策略达 99% 成功率，开创物理世界 Agent 研究范式
StreamKL: Fast and Memory-Efficient KL Divergence for Boosting Attention Distillation
Guangda Liu, Jieru Zhao 等 · 首个 O(1) 内存的注意力 KL 融合原语，前向 43× 加速，开启长上下文蒸馏
Connect the Dots: Training LLMs for Long-Lifecycle Agents
Yanxi Chen, Yaliang Li 等 · 提出 CoD 元能力框架，端到端 RL 赋予 Agent 跨域探索与自我更新能力
Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
Gia-Binh Nguyen, Jan Peters 等 · 训练无关地裁剪 VLA 50% 深度，4 种机器人本体验证等效性能
Beyond Entropy: Learning from Token-Level Distributional Deviations
Xuanzhi Feng, Song Guo 等 · ICT 框架以 10% token 选择性更新稳定 RLVR 训练，最高 14.9% 提升
Efficiently Representing Algorithms With Chain-of-Thought Transformers
Yanhong Li, William Merrill 等 · CoT 可多对数开销模拟 Word RAM 算法，填补理论空白
SoftSkill: Behavioral Compression for Contextual Adaptation
Xijia Tao, Lingpeng Kong 等 · 32 个 soft token 替代数百 Markdown skill token，冻结模型即可适配
SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling
Haotian Xu, Cheng Zhuo 等 · 推测解码内嵌安全头 + 反思多采样，安全与效率兼得
Multi-Agent Transactive Memory
To Eun Kim, Fernando Diaz 等 · 群体级轨迹复用减少重复探索，ALFWorld/WebArena 验证有效
Tri-Info: Generalizable Failure Prediction for VLA Models
Jinghan Yang, Yanchao Yang 等 · 信息论三重信号跨模型/环境/sim-to-real 迁移检测 VLA 故障

🔮 趋势观察

1. Agent 从"执行者"进化为"自我进化者"：ENPIRE 和 CoD 标志着一个转折——Agent 不再仅是执行预定义任务的工具，而是能够在物理世界或数字环境中持续积累经验、跨域泛化的自主实体。MATM 进一步将这种能力从个体延伸到群体。

2. RLVR 训练稳定性成为集中攻关目标：ICT、UARM、Process-Verified RL 等多篇论文从不同角度（token 选择、奖励校准、符号验证器）解决 GRPO 系训练的熵坍塌和 reward hacking 问题，表明社区已意识到 scaling RLVR 的核心瓶颈不在算力而在训练可靠性。

3. VLA 模型部署进入"瘦身期"：VLA 层裁剪论文揭示的 50% 冗余是一个具有工程价值的发现。结合 FAFM 的频率域动作生成和 Tri-Info 的故障检测，具身智能正从"能力展示"转向"可靠部署"。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI DAILY 20260618