arXiv cs.AI 周报 (20260518~20260524)

arXiv cs.AI 周报 (20260518~20260524)

共 1029 篇 · 主要子类:cs.AI: 1029, cs.LG: 439, cs.CV: 213 · 20260518-20260524
Generated by tanar · 2026-05-25 15:29

arXiv cs.AI 周报 (20260518 ~ 20260524)

本周 cs.AI 领域共 1029 篇论文,本报告基于其中代表性样本进行聚类与解读。核心趋势集中在 Agent 技能进化、多模态视觉推理、RL 训练范式、模型评测与对齐三大类。

📊 研究方向热度分析

🤖 智能体技能与记忆 (8 篇)

本周 Agent 方向的主旋律是"把技能当作可优化的外部状态",以及对长程记忆/工具流的可控性、可审计性。

  • SkillOpt — 首个系统化的可控文本空间 skill 优化器,跨 6 个 benchmark 全胜。
  • From Raw Experience to Skill Consumption — 系统拆解 skill 生命周期,提出 meta-skill 减少负迁移。
  • MemAudit — 用因果归因+结构异常检测做记忆投毒后置审计,攻击成功率从 83% 降到 0。
  • OnePred — 递归 intent memory 把多轮对话 token 消耗压低 22×。
  • DART — 给结构化工具 Agent 提供"语义可恢复性"局部回滚。
  • EPC-AW — 缓解多 Agent 规划中的"认知失校"问题。

🖼️ 多模态视觉推理与生成 (10 篇)

"think with images" 范式持续演进;视频生成走向 RL 后训练与可控长视频;高分辨率视觉搜索成为 MLLM 新瓶颈。

  • ETCHR — 解耦的"问题感知图像编辑器",给 MLLM 当推理助手。
  • SPACENUM — VLM 在空间数值理解上接近随机,揭示根本缺陷。
  • CVSearch — 训练-free 自适应视觉搜索,兼顾覆盖与效率。
  • Precise — Flow-Matching 模型 RL 后训练的 SDE 一致性采样器。
  • EvalVerse — 专业级电影视频生成的专家校准评测框架。
  • DrawVideo — Sketch 引导的故事板长视频生成。
  • ChainFlow-VLA — 因果生成 + 全局精化统一框架,NAVSIM v1 接近人类水平。

🔥 推理强化学习与训练范式 (9 篇)

RL 在推理增强、过程奖励、去 GT 测试时优化、对称性利用上多面开花,Shannon 视角重写 scaling law。

🛡️ 对齐、偏见与安全 (6 篇)

本周热点:后训练才是地缘政治偏见的真正源头;安全研究攻防失衡受到正式批评;社交流畅的 AI 让人难以辨别。

📐 评测、可解释性与机制分析 (6 篇)

系统性地反思"benchmark 是否能代表真实工作",以及 representation 收敛是否意味推理收敛。

🤲 具身智能与机器人 (5 篇)

跨形态迁移、组合式运动原语、医疗与农业领域的具体应用同时出现。

⚙️ 系统、推理服务与基础设施 (4 篇)

面向能源、长上下文、检索的工程化方案集中出现。

💡 关键技术突破

SkillOpt:把 Agent Skill 当深度学习参数一样训练

论文SkillOpt: Executive Strategy for Self-Evolving Agent Skills

创新点:首次提出系统化的"文本空间优化器"——独立 optimizer 模型把得分回放转换成对单个 skill 文档的"加/删/改"有界编辑,仅当 held-out 验证分数严格提升才接受。引入文本版的 learning rate budget、rejected-edit buffer 和 epoch-wise meta update。

意义:在 6 个 benchmark × 7 个目标模型 × 3 个执行框架的 52 个组合上全部胜出,GPT-5.5 在 Codex 内提升 +24.8 分。给"Agent 自我改进"提供了首个稳定可复现的范式。

Shannon Scaling Law:把 LLM 训练视作有噪信道

论文LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

创新点:基于 Shannon-Hartley 定理,将参数量映射为信道带宽、训练 token 映射为信号功率,给出 LLM 的根本"Shannon 容量"。U 型性能退化、灾难过训、量化退化都成为信噪比下降的自然推论。

意义:用 6.9B 拟合可外推到 12B/307B token(R²=0.847),传统单调 scaling law 在此完全失效。给业内"何时停止扩张"提供了理论依据。

Metacognition as Reward:让模型按"元认知"自我评分

论文Metacognition as Reward (MaR): Reinforcing LLM Reasoning via Knowledge and Regulation Signals

创新点:跳出 RLVR 仅看最终答案、RaR 需逐题写 rubric 的束缚,把推理轨迹拆为"元认知知识"与"元认知调控"两个通用维度作为过程奖励,无需 instance-specific rubric。

意义:Qwen3.5-9B + MaR 在 22 个 benchmark 上平均提升 7.7%,单点超越 GPT-OSS-120B。为通用过程奖励设计提供了新范式。

CoSPlay:无 GT 测试时双向自我博弈

论文CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

创新点:让 code 和 unit test 互为评估者,通过双向 pass-count 矩阵共同进化;多个 code 并列时按输出共识聚类选最终答案。完全免训练、免 GT。

意义:Qwen2.5-7B 上 BoN 从 22.1% 提升到 33.2%,UT 准确率从 14.6% 飙到 78.3%,匹配甚至超过专门 RLVR 训练的 CURE-7B。

Post-Training 才是地缘偏见真正起源

论文It's the humans, not the data: Geopolitical bias in LLMs originates in post-training

创新点:对比 7 家厂商的 base/chat 模型对,发现 6 家在 post-training 后明显偏向开发方所在国。Qwen 2.5 chat 的对华倾向比 base 强 18 倍;French Mistral 仅在法语提示下才偏向法国。

意义:颠覆了"偏见来自预训练数据"的主流认知,对 alignment 流程的透明度与审计提出新要求。

👥 作者与机构

本周一个明显特征是"中国机构 + 微软研究院 + 开源大厂"的密集合作,以及在 Agent / RL 方向几条作者链的高产。下面用一张文字结构图标记关键群组:

活跃合作群组

群组特征 核心作者 代表论文
Agent Skill 优化(微软系,最大集群) Yifan Yang, Zisu Huang, Ziyang Gong, Qihao Yang, Qi Dai, Bei Liu, Dongdong Chen, Chong Luo SkillOpt + From Raw Experience to Skill Consumption
ReAct/Rubric/Memory 三连 Bowen Zhang, Jiazheng Kang, Zixin Song, Jiangwang Chen, Guanjun Jiang OnePred + Co-ReAct
CP/DP 调度与求解 Pierre Schaus, Charles Thomas, Emma Legrand, Roger Kameugne (UCLouvain) Aircraft Disassembly + Partial Shop Scheduling
FAIR / Meta 视觉 Rim Assouel, Amir Bar, Michal Drozdzal, Adriana Romero-Soriano PGT (Procedurally Generated Tasks)
Oxford / Foerster Lab RL Michael Matthews, Matthew Jackson, Jakob Foerster LEO (All-Goals Learning)
NVIDIA Diffusion Group Karsten Kreis, Morteza Mardani, Arash Vahdat, Ante Jukić DiLaDiff
微软 Bing Ads 检索 Vipul Gupta, Pranjal Chitale, Manik Varma HARNESS-LM

机构分布速览

工业研究院:Microsoft Research、NVIDIA、Meta FAIR、Google DeepMind、Tencent、Alibaba、Baidu 频繁出现于多模态与 RL 方向。

顶尖高校:Stanford、CMU、Oxford、MIT、Tsinghua、SJTU、Fudan、HKUST 占据基础理论与评测论文主导。

跨机构合作:MSR + 复旦/SJTU/上交 在 Agent Skill 方向形成稳定联合实验室式输出。

📄 精选论文 Top 10

  1. SkillOpt: Executive Strategy for Self-Evolving Agent Skills

    Yifan Yang, Ziyang Gong, Weiquan Huang 等 · 把 Agent skill 当深度学习参数训练,52/52 全胜,是本周最具范式意义的工作。

  2. LLMs as Noisy Channels: A Shannon Perspective on Scaling Laws

    Xu Ouyang, Deyi Liu, Yuhang Cai 等 · 用 Shannon-Hartley 重写 LLM scaling law,解释了灾难过训等非单调现象。

  3. Metacognition as Reward (MaR)

    Sirui Chen, Lei Xu, Yuying Zhao 等 · 用元认知信号代替逐题 rubric,Qwen3.5-9B 单点击败 GPT-OSS-120B。

  4. Geopolitical Bias Originates in Post-Training

    Stuart Bladon, Brinnae Bent · 7 家厂商的 base/chat 对比,颠覆"偏见来自数据"的旧认知。

  5. CoSPlay: Cooperative Self-Play with Self-Generated Code and Unit Test

    Zhangyi Hu, Chenhui Liu, Tian Huang 等 · 测试时 code/UT 协同进化,无 GT 即匹配 RLVR 训练效果。

  6. Socially Fluent AI Decouples Conversational Signals from Identity

    Lixiang Yan, Yueqiao Jin, Xibin Han 等 · 786 人实测:群聊中人类不能高于随机识别 AI 队友。

  7. ETCHR: Editing To Clarify and Harness Reasoning

    Beichen Zhang, Yuhong Liu, Jinsong Li 等 · 解耦的"问题感知图像编辑器"驱动 MLLM 视觉推理,Kimi K2.5 提升 +4.61。

  8. XWind: Cross-site Router for LLM Inference at Wind Farms

    Tella Rajashekhar Reddy 等(Microsoft)· 把 GPU 搬到风电场,P99 延迟比 power-cap 降低 98%。

  9. Design and Report Benchmarks for Knowledge Work

    Yining Hua, Hongbin Na, Cyrus Ayubcha, Levi Lian · 基于 O*NET 18 类工作活动重构 LLM 评测方法论。

  10. ChainFlow-VLA: Causal Flow Planning with VLMs

    Xiyang Wang 等 · 自动驾驶中统一 AR 因果与 Diffusion 全局优化,NAVSIM v1 达 94.85 接近人类。

🔮 趋势观察

趋势 1:从"训练权重"到"训练 Skill"

本周至少 4 篇论文(SkillOpt、Skill Lifecycle、Co-ReAct、EDGE-OPD)把"Agent 自我提升"从 prompt 工程上升到"可优化外部状态",明确借鉴 SGD/优化器框架。这意味着 Agent 改进进入了"可复现、可比较、可审计"阶段。

趋势 2:评测危机愈演愈烈

CLEVER 上 Claude Code 跑到 98%,研究者反过来质疑 benchmark 本身(Agentic Proving);Knowledge Work 论文呼吁基于 O*NET 重写评测;EvalVerse 把视频生成评测扩展到"专家级电影品质";MetaEvaluator 在无标签下评估新模型。评测的科学化、专业化将是 2026 下半年的主旋律。

趋势 3:对齐研究的"反向归因"

Geopolitical Bias、AI Security Defense Imbalance、Socially Fluent AI 三篇都在指出:问题不在数据/模型,在于 post-training 与评测激励结构。这是一个值得 alignment 社区认真反思的方向。

趋势 4:RL 后训练正在"侵入" Diffusion / Flow Matching

Precise、SOM、One-Forcing 同期出现,意味着 RL 后训练已成为图像/视频生成模型的标配收尾步骤。SDE 一致性、采样器设计将成为下一年视觉生成的关键工程战场。