arXiv cs.AI 周报 (20260518~20260524)
arXiv cs.AI 周报 (20260518 ~ 20260524)
本周 cs.AI 领域共 1029 篇论文,本报告基于其中代表性样本进行聚类与解读。核心趋势集中在 Agent 技能进化、多模态视觉推理、RL 训练范式、模型评测与对齐三大类。
📊 研究方向热度分析
🤖 智能体技能与记忆 (8 篇)
本周 Agent 方向的主旋律是"把技能当作可优化的外部状态",以及对长程记忆/工具流的可控性、可审计性。
- SkillOpt — 首个系统化的可控文本空间 skill 优化器,跨 6 个 benchmark 全胜。
- From Raw Experience to Skill Consumption — 系统拆解 skill 生命周期,提出 meta-skill 减少负迁移。
- MemAudit — 用因果归因+结构异常检测做记忆投毒后置审计,攻击成功率从 83% 降到 0。
- OnePred — 递归 intent memory 把多轮对话 token 消耗压低 22×。
- DART — 给结构化工具 Agent 提供"语义可恢复性"局部回滚。
- EPC-AW — 缓解多 Agent 规划中的"认知失校"问题。
🖼️ 多模态视觉推理与生成 (10 篇)
"think with images" 范式持续演进;视频生成走向 RL 后训练与可控长视频;高分辨率视觉搜索成为 MLLM 新瓶颈。
🔥 推理强化学习与训练范式 (9 篇)
RL 在推理增强、过程奖励、去 GT 测试时优化、对称性利用上多面开花,Shannon 视角重写 scaling law。
- Shannon Scaling Law — 用信息论统一解释灾难过训和量化退化。
- Metacognition as Reward (MaR) — 元认知信号代替逐题人工 rubric。
- CoSPlay — 无 GT、无训练、code 与 unit test 协同进化。
- Co-ReAct — Rubric 作为 step-level 行动协作者。
- EDGE-OPD — On-Policy Self-Distillation + 证据掩码。
- LEO (Learn Everything at Once) — All-goals 学习提速 250×。
- Reflex — 在状态空间 RL 中利用反射对称性。
- SOM — 单步 MeanFlow 策略优化,在线 RL 中显著加速。
🛡️ 对齐、偏见与安全 (6 篇)
本周热点:后训练才是地缘政治偏见的真正源头;安全研究攻防失衡受到正式批评;社交流畅的 AI 让人难以辨别。
- Geopolitical Bias in Post-Training — Qwen 后训练让对华偏好放大 18 倍。
- AI Security Should Better Incentivize Defense — 揭示攻击/防御论文严重失衡。
- Socially Fluent AI — 群聊中人类无法以高于随机的概率识别 AI。
- Human Decision-Making with LLM Narratives — 越有说服力的解释越拖慢决策。
- Frontier LLMs in Cybersecurity — 前沿模型在黑盒渗透测试中覆盖率仅 4-8%。
- Subliminal Learning — 形成 subliminal 传递的真正条件是 output head 兼容。
📐 评测、可解释性与机制分析 (6 篇)
系统性地反思"benchmark 是否能代表真实工作",以及 representation 收敛是否意味推理收敛。
- Design and Report Benchmarks for Knowledge Work — 提出基于 O*NET 的 18 类工作活动评测设计法。
- Convergence Without Understanding — 表征收敛不等于推理收敛。
- Unpack — 单次前向回溯整张注意力 + MLP 组合通路。
- MetaEvaluator — 在无标签数据上元学习评估新模型。
- GENSTRAT — 程序生成的博弈环境抗污染评测策略推理。
- Agentic Proving for Program Verification — Claude Code 在 CLEVER 上达 98.1%,暴露 benchmark 设计漏洞。
🤲 具身智能与机器人 (5 篇)
跨形态迁移、组合式运动原语、医疗与农业领域的具体应用同时出现。
- Any2Any — 仅用 1% 算力即可跨人形机器人迁移 WBT 策略。
- Sparse Compositional Flow Matching — 用可重用运动原语在物理空间组合轨迹。
- VDSS — 通气机决策支持,bandit 在线学习医生偏好。
- PhenoYieldNet — 多作物物候感知的产量预测。
- 6G for Embodied Agents — 5G O-RAN 原型实现毫秒级远程人机交互。
⚙️ 系统、推理服务与基础设施 (4 篇)
面向能源、长上下文、检索的工程化方案集中出现。
- XWind — 把推理 GPU 部署在风电场,跨站路由器降 P99 延迟 52%。
- Parallel Context Compaction — 长程 Agent 上下文压缩并行化。
- HARNESS-LM — 三段式蒸馏让 Bing Ads 上线 190M 模型并提升收入。
- Ontological Knowledge Blocks — 把法规编译为可机器校验的合规约束。
💡 关键技术突破
SkillOpt:把 Agent Skill 当深度学习参数一样训练
论文:SkillOpt: Executive Strategy for Self-Evolving Agent Skills
创新点:首次提出系统化的"文本空间优化器"——独立 optimizer 模型把得分回放转换成对单个 skill 文档的"加/删/改"有界编辑,仅当 held-out 验证分数严格提升才接受。引入文本版的 learning rate budget、rejected-edit buffer 和 epoch-wise meta update。
意义:在 6 个 benchmark × 7 个目标模型 × 3 个执行框架的 52 个组合上全部胜出,GPT-5.5 在 Codex 内提升 +24.8 分。给"Agent 自我改进"提供了首个稳定可复现的范式。
Shannon Scaling Law:把 LLM 训练视作有噪信道
论文:LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
创新点:基于 Shannon-Hartley 定理,将参数量映射为信道带宽、训练 token 映射为信号功率,给出 LLM 的根本"Shannon 容量"。U 型性能退化、灾难过训、量化退化都成为信噪比下降的自然推论。
意义:用 6.9B 拟合可外推到 12B/307B token(R²=0.847),传统单调 scaling law 在此完全失效。给业内"何时停止扩张"提供了理论依据。
Metacognition as Reward:让模型按"元认知"自我评分
论文:Metacognition as Reward (MaR): Reinforcing LLM Reasoning via Knowledge and Regulation Signals
创新点:跳出 RLVR 仅看最终答案、RaR 需逐题写 rubric 的束缚,把推理轨迹拆为"元认知知识"与"元认知调控"两个通用维度作为过程奖励,无需 instance-specific rubric。
意义:Qwen3.5-9B + MaR 在 22 个 benchmark 上平均提升 7.7%,单点超越 GPT-OSS-120B。为通用过程奖励设计提供了新范式。
CoSPlay:无 GT 测试时双向自我博弈
论文:CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test
创新点:让 code 和 unit test 互为评估者,通过双向 pass-count 矩阵共同进化;多个 code 并列时按输出共识聚类选最终答案。完全免训练、免 GT。
意义:Qwen2.5-7B 上 BoN 从 22.1% 提升到 33.2%,UT 准确率从 14.6% 飙到 78.3%,匹配甚至超过专门 RLVR 训练的 CURE-7B。
Post-Training 才是地缘偏见真正起源
论文:It's the humans, not the data: Geopolitical bias in LLMs originates in post-training
创新点:对比 7 家厂商的 base/chat 模型对,发现 6 家在 post-training 后明显偏向开发方所在国。Qwen 2.5 chat 的对华倾向比 base 强 18 倍;French Mistral 仅在法语提示下才偏向法国。
意义:颠覆了"偏见来自预训练数据"的主流认知,对 alignment 流程的透明度与审计提出新要求。
👥 作者与机构
本周一个明显特征是"中国机构 + 微软研究院 + 开源大厂"的密集合作,以及在 Agent / RL 方向几条作者链的高产。下面用一张文字结构图标记关键群组:
活跃合作群组
| 群组特征 | 核心作者 | 代表论文 |
|---|---|---|
| Agent Skill 优化(微软系,最大集群) | Yifan Yang, Zisu Huang, Ziyang Gong, Qihao Yang, Qi Dai, Bei Liu, Dongdong Chen, Chong Luo | SkillOpt + From Raw Experience to Skill Consumption |
| ReAct/Rubric/Memory 三连 | Bowen Zhang, Jiazheng Kang, Zixin Song, Jiangwang Chen, Guanjun Jiang | OnePred + Co-ReAct |
| CP/DP 调度与求解 | Pierre Schaus, Charles Thomas, Emma Legrand, Roger Kameugne (UCLouvain) | Aircraft Disassembly + Partial Shop Scheduling |
| FAIR / Meta 视觉 | Rim Assouel, Amir Bar, Michal Drozdzal, Adriana Romero-Soriano | PGT (Procedurally Generated Tasks) |
| Oxford / Foerster Lab RL | Michael Matthews, Matthew Jackson, Jakob Foerster | LEO (All-Goals Learning) |
| NVIDIA Diffusion Group | Karsten Kreis, Morteza Mardani, Arash Vahdat, Ante Jukić | DiLaDiff |
| 微软 Bing Ads 检索 | Vipul Gupta, Pranjal Chitale, Manik Varma | HARNESS-LM |
机构分布速览
• 工业研究院:Microsoft Research、NVIDIA、Meta FAIR、Google DeepMind、Tencent、Alibaba、Baidu 频繁出现于多模态与 RL 方向。
• 顶尖高校:Stanford、CMU、Oxford、MIT、Tsinghua、SJTU、Fudan、HKUST 占据基础理论与评测论文主导。
• 跨机构合作:MSR + 复旦/SJTU/上交 在 Agent Skill 方向形成稳定联合实验室式输出。
📄 精选论文 Top 10
-
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
Yifan Yang, Ziyang Gong, Weiquan Huang 等 · 把 Agent skill 当深度学习参数训练,52/52 全胜,是本周最具范式意义的工作。
-
LLMs as Noisy Channels: A Shannon Perspective on Scaling Laws
Xu Ouyang, Deyi Liu, Yuhang Cai 等 · 用 Shannon-Hartley 重写 LLM scaling law,解释了灾难过训等非单调现象。
-
Metacognition as Reward (MaR)
Sirui Chen, Lei Xu, Yuying Zhao 等 · 用元认知信号代替逐题 rubric,Qwen3.5-9B 单点击败 GPT-OSS-120B。
-
Geopolitical Bias Originates in Post-Training
Stuart Bladon, Brinnae Bent · 7 家厂商的 base/chat 对比,颠覆"偏见来自数据"的旧认知。
-
CoSPlay: Cooperative Self-Play with Self-Generated Code and Unit Test
Zhangyi Hu, Chenhui Liu, Tian Huang 等 · 测试时 code/UT 协同进化,无 GT 即匹配 RLVR 训练效果。
-
Socially Fluent AI Decouples Conversational Signals from Identity
Lixiang Yan, Yueqiao Jin, Xibin Han 等 · 786 人实测:群聊中人类不能高于随机识别 AI 队友。
-
ETCHR: Editing To Clarify and Harness Reasoning
Beichen Zhang, Yuhong Liu, Jinsong Li 等 · 解耦的"问题感知图像编辑器"驱动 MLLM 视觉推理,Kimi K2.5 提升 +4.61。
-
XWind: Cross-site Router for LLM Inference at Wind Farms
Tella Rajashekhar Reddy 等(Microsoft)· 把 GPU 搬到风电场,P99 延迟比 power-cap 降低 98%。
-
Design and Report Benchmarks for Knowledge Work
Yining Hua, Hongbin Na, Cyrus Ayubcha, Levi Lian · 基于 O*NET 18 类工作活动重构 LLM 评测方法论。
-
ChainFlow-VLA: Causal Flow Planning with VLMs
Xiyang Wang 等 · 自动驾驶中统一 AR 因果与 Diffusion 全局优化,NAVSIM v1 达 94.85 接近人类。
🔮 趋势观察
趋势 1:从"训练权重"到"训练 Skill"
本周至少 4 篇论文(SkillOpt、Skill Lifecycle、Co-ReAct、EDGE-OPD)把"Agent 自我提升"从 prompt 工程上升到"可优化外部状态",明确借鉴 SGD/优化器框架。这意味着 Agent 改进进入了"可复现、可比较、可审计"阶段。
趋势 2:评测危机愈演愈烈
CLEVER 上 Claude Code 跑到 98%,研究者反过来质疑 benchmark 本身(Agentic Proving);Knowledge Work 论文呼吁基于 O*NET 重写评测;EvalVerse 把视频生成评测扩展到"专家级电影品质";MetaEvaluator 在无标签下评估新模型。评测的科学化、专业化将是 2026 下半年的主旋律。
趋势 3:对齐研究的"反向归因"
Geopolitical Bias、AI Security Defense Imbalance、Socially Fluent AI 三篇都在指出:问题不在数据/模型,在于 post-training 与评测激励结构。这是一个值得 alignment 社区认真反思的方向。
趋势 4:RL 后训练正在"侵入" Diffusion / Flow Matching
Precise、SOM、One-Forcing 同期出现,意味着 RL 后训练已成为图像/视频生成模型的标配收尾步骤。SDE 一致性、采样器设计将成为下一年视觉生成的关键工程战场。
评论