Bluo Blog

arXiv cs.AI 周报 (20260518~20260524)

arXiv cs.AI 周报 (20260518 ~ 20260524)

本周 cs.AI 领域共 1029 篇论文，本报告基于其中代表性样本进行聚类与解读。核心趋势集中在 Agent 技能进化、多模态视觉推理、RL 训练范式、模型评测与对齐三大类。

📊 研究方向热度分析

🤖 智能体技能与记忆 (8 篇)

本周 Agent 方向的主旋律是"把技能当作可优化的外部状态"，以及对长程记忆/工具流的可控性、可审计性。

SkillOpt — 首个系统化的可控文本空间 skill 优化器，跨 6 个 benchmark 全胜。
From Raw Experience to Skill Consumption — 系统拆解 skill 生命周期，提出 meta-skill 减少负迁移。
MemAudit — 用因果归因+结构异常检测做记忆投毒后置审计，攻击成功率从 83% 降到 0。
OnePred — 递归 intent memory 把多轮对话 token 消耗压低 22×。
DART — 给结构化工具 Agent 提供"语义可恢复性"局部回滚。
EPC-AW — 缓解多 Agent 规划中的"认知失校"问题。

🖼️ 多模态视觉推理与生成 (10 篇)

"think with images" 范式持续演进；视频生成走向 RL 后训练与可控长视频；高分辨率视觉搜索成为 MLLM 新瓶颈。

ETCHR — 解耦的"问题感知图像编辑器"，给 MLLM 当推理助手。
SPACENUM — VLM 在空间数值理解上接近随机，揭示根本缺陷。
CVSearch — 训练-free 自适应视觉搜索，兼顾覆盖与效率。
Precise — Flow-Matching 模型 RL 后训练的 SDE 一致性采样器。
EvalVerse — 专业级电影视频生成的专家校准评测框架。
DrawVideo — Sketch 引导的故事板长视频生成。
ChainFlow-VLA — 因果生成 + 全局精化统一框架，NAVSIM v1 接近人类水平。

🔥 推理强化学习与训练范式 (9 篇)

RL 在推理增强、过程奖励、去 GT 测试时优化、对称性利用上多面开花，Shannon 视角重写 scaling law。

Shannon Scaling Law — 用信息论统一解释灾难过训和量化退化。
Metacognition as Reward (MaR) — 元认知信号代替逐题人工 rubric。
CoSPlay — 无 GT、无训练、code 与 unit test 协同进化。
Co-ReAct — Rubric 作为 step-level 行动协作者。
EDGE-OPD — On-Policy Self-Distillation + 证据掩码。
LEO (Learn Everything at Once) — All-goals 学习提速 250×。
Reflex — 在状态空间 RL 中利用反射对称性。
SOM — 单步 MeanFlow 策略优化，在线 RL 中显著加速。

🛡️ 对齐、偏见与安全 (6 篇)

本周热点：后训练才是地缘政治偏见的真正源头；安全研究攻防失衡受到正式批评；社交流畅的 AI 让人难以辨别。

Geopolitical Bias in Post-Training — Qwen 后训练让对华偏好放大 18 倍。
AI Security Should Better Incentivize Defense — 揭示攻击/防御论文严重失衡。
Socially Fluent AI — 群聊中人类无法以高于随机的概率识别 AI。
Human Decision-Making with LLM Narratives — 越有说服力的解释越拖慢决策。
Frontier LLMs in Cybersecurity — 前沿模型在黑盒渗透测试中覆盖率仅 4-8%。
Subliminal Learning — 形成 subliminal 传递的真正条件是 output head 兼容。

📐 评测、可解释性与机制分析 (6 篇)

系统性地反思"benchmark 是否能代表真实工作"，以及 representation 收敛是否意味推理收敛。

Design and Report Benchmarks for Knowledge Work — 提出基于 O*NET 的 18 类工作活动评测设计法。
Convergence Without Understanding — 表征收敛不等于推理收敛。
Unpack — 单次前向回溯整张注意力 + MLP 组合通路。
MetaEvaluator — 在无标签数据上元学习评估新模型。
GENSTRAT — 程序生成的博弈环境抗污染评测策略推理。
Agentic Proving for Program Verification — Claude Code 在 CLEVER 上达 98.1%，暴露 benchmark 设计漏洞。

🤲 具身智能与机器人 (5 篇)

跨形态迁移、组合式运动原语、医疗与农业领域的具体应用同时出现。

Any2Any — 仅用 1% 算力即可跨人形机器人迁移 WBT 策略。
Sparse Compositional Flow Matching — 用可重用运动原语在物理空间组合轨迹。
VDSS — 通气机决策支持，bandit 在线学习医生偏好。
PhenoYieldNet — 多作物物候感知的产量预测。
6G for Embodied Agents — 5G O-RAN 原型实现毫秒级远程人机交互。

⚙️ 系统、推理服务与基础设施 (4 篇)

面向能源、长上下文、检索的工程化方案集中出现。

XWind — 把推理 GPU 部署在风电场，跨站路由器降 P99 延迟 52%。
Parallel Context Compaction — 长程 Agent 上下文压缩并行化。
HARNESS-LM — 三段式蒸馏让 Bing Ads 上线 190M 模型并提升收入。
Ontological Knowledge Blocks — 把法规编译为可机器校验的合规约束。

💡 关键技术突破

SkillOpt：把 Agent Skill 当深度学习参数一样训练

论文：SkillOpt: Executive Strategy for Self-Evolving Agent Skills

创新点：首次提出系统化的"文本空间优化器"——独立 optimizer 模型把得分回放转换成对单个 skill 文档的"加/删/改"有界编辑，仅当 held-out 验证分数严格提升才接受。引入文本版的 learning rate budget、rejected-edit buffer 和 epoch-wise meta update。

意义：在 6 个 benchmark × 7 个目标模型 × 3 个执行框架的 52 个组合上全部胜出，GPT-5.5 在 Codex 内提升 +24.8 分。给"Agent 自我改进"提供了首个稳定可复现的范式。

Shannon Scaling Law：把 LLM 训练视作有噪信道

论文：LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws

创新点：基于 Shannon-Hartley 定理，将参数量映射为信道带宽、训练 token 映射为信号功率，给出 LLM 的根本"Shannon 容量"。U 型性能退化、灾难过训、量化退化都成为信噪比下降的自然推论。

意义：用 6.9B 拟合可外推到 12B/307B token（R²=0.847），传统单调 scaling law 在此完全失效。给业内"何时停止扩张"提供了理论依据。

Metacognition as Reward：让模型按"元认知"自我评分

论文：Metacognition as Reward (MaR): Reinforcing LLM Reasoning via Knowledge and Regulation Signals

创新点：跳出 RLVR 仅看最终答案、RaR 需逐题写 rubric 的束缚，把推理轨迹拆为"元认知知识"与"元认知调控"两个通用维度作为过程奖励，无需 instance-specific rubric。

意义：Qwen3.5-9B + MaR 在 22 个 benchmark 上平均提升 7.7%，单点超越 GPT-OSS-120B。为通用过程奖励设计提供了新范式。

CoSPlay：无 GT 测试时双向自我博弈

论文：CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

创新点：让 code 和 unit test 互为评估者，通过双向 pass-count 矩阵共同进化；多个 code 并列时按输出共识聚类选最终答案。完全免训练、免 GT。

意义：Qwen2.5-7B 上 BoN 从 22.1% 提升到 33.2%，UT 准确率从 14.6% 飙到 78.3%，匹配甚至超过专门 RLVR 训练的 CURE-7B。

Post-Training 才是地缘偏见真正起源

论文：It's the humans, not the data: Geopolitical bias in LLMs originates in post-training

创新点：对比 7 家厂商的 base/chat 模型对，发现 6 家在 post-training 后明显偏向开发方所在国。Qwen 2.5 chat 的对华倾向比 base 强 18 倍；French Mistral 仅在法语提示下才偏向法国。

意义：颠覆了"偏见来自预训练数据"的主流认知，对 alignment 流程的透明度与审计提出新要求。

👥 作者与机构

本周一个明显特征是"中国机构 + 微软研究院 + 开源大厂"的密集合作，以及在 Agent / RL 方向几条作者链的高产。下面用一张文字结构图标记关键群组：

活跃合作群组

群组特征	核心作者	代表论文
Agent Skill 优化（微软系，最大集群）	Yifan Yang, Zisu Huang, Ziyang Gong, Qihao Yang, Qi Dai, Bei Liu, Dongdong Chen, Chong Luo	SkillOpt + From Raw Experience to Skill Consumption
ReAct/Rubric/Memory 三连	Bowen Zhang, Jiazheng Kang, Zixin Song, Jiangwang Chen, Guanjun Jiang	OnePred + Co-ReAct
CP/DP 调度与求解	Pierre Schaus, Charles Thomas, Emma Legrand, Roger Kameugne (UCLouvain)	Aircraft Disassembly + Partial Shop Scheduling
FAIR / Meta 视觉	Rim Assouel, Amir Bar, Michal Drozdzal, Adriana Romero-Soriano	PGT (Procedurally Generated Tasks)
Oxford / Foerster Lab RL	Michael Matthews, Matthew Jackson, Jakob Foerster	LEO (All-Goals Learning)
NVIDIA Diffusion Group	Karsten Kreis, Morteza Mardani, Arash Vahdat, Ante Jukić	DiLaDiff
微软 Bing Ads 检索	Vipul Gupta, Pranjal Chitale, Manik Varma	HARNESS-LM

机构分布速览

• 工业研究院：Microsoft Research、NVIDIA、Meta FAIR、Google DeepMind、Tencent、Alibaba、Baidu 频繁出现于多模态与 RL 方向。

• 顶尖高校：Stanford、CMU、Oxford、MIT、Tsinghua、SJTU、Fudan、HKUST 占据基础理论与评测论文主导。

• 跨机构合作：MSR + 复旦/SJTU/上交在 Agent Skill 方向形成稳定联合实验室式输出。

📄 精选论文 Top 10

SkillOpt: Executive Strategy for Self-Evolving Agent Skills
Yifan Yang, Ziyang Gong, Weiquan Huang 等 · 把 Agent skill 当深度学习参数训练，52/52 全胜，是本周最具范式意义的工作。
LLMs as Noisy Channels: A Shannon Perspective on Scaling Laws
Xu Ouyang, Deyi Liu, Yuhang Cai 等 · 用 Shannon-Hartley 重写 LLM scaling law，解释了灾难过训等非单调现象。
Metacognition as Reward (MaR)
Sirui Chen, Lei Xu, Yuying Zhao 等 · 用元认知信号代替逐题 rubric，Qwen3.5-9B 单点击败 GPT-OSS-120B。
Geopolitical Bias Originates in Post-Training
Stuart Bladon, Brinnae Bent · 7 家厂商的 base/chat 对比，颠覆"偏见来自数据"的旧认知。
CoSPlay: Cooperative Self-Play with Self-Generated Code and Unit Test
Zhangyi Hu, Chenhui Liu, Tian Huang 等 · 测试时 code/UT 协同进化，无 GT 即匹配 RLVR 训练效果。
Socially Fluent AI Decouples Conversational Signals from Identity
Lixiang Yan, Yueqiao Jin, Xibin Han 等 · 786 人实测：群聊中人类不能高于随机识别 AI 队友。
ETCHR: Editing To Clarify and Harness Reasoning
Beichen Zhang, Yuhong Liu, Jinsong Li 等 · 解耦的"问题感知图像编辑器"驱动 MLLM 视觉推理，Kimi K2.5 提升 +4.61。
XWind: Cross-site Router for LLM Inference at Wind Farms
Tella Rajashekhar Reddy 等（Microsoft）· 把 GPU 搬到风电场，P99 延迟比 power-cap 降低 98%。
Design and Report Benchmarks for Knowledge Work
Yining Hua, Hongbin Na, Cyrus Ayubcha, Levi Lian · 基于 O*NET 18 类工作活动重构 LLM 评测方法论。
ChainFlow-VLA: Causal Flow Planning with VLMs
Xiyang Wang 等 · 自动驾驶中统一 AR 因果与 Diffusion 全局优化，NAVSIM v1 达 94.85 接近人类。

🔮 趋势观察

趋势 1：从"训练权重"到"训练 Skill"

本周至少 4 篇论文（SkillOpt、Skill Lifecycle、Co-ReAct、EDGE-OPD）把"Agent 自我提升"从 prompt 工程上升到"可优化外部状态"，明确借鉴 SGD/优化器框架。这意味着 Agent 改进进入了"可复现、可比较、可审计"阶段。

趋势 2：评测危机愈演愈烈

CLEVER 上 Claude Code 跑到 98%，研究者反过来质疑 benchmark 本身（Agentic Proving）；Knowledge Work 论文呼吁基于 O*NET 重写评测；EvalVerse 把视频生成评测扩展到"专家级电影品质"；MetaEvaluator 在无标签下评估新模型。评测的科学化、专业化将是 2026 下半年的主旋律。

趋势 3：对齐研究的"反向归因"

Geopolitical Bias、AI Security Defense Imbalance、Socially Fluent AI 三篇都在指出：问题不在数据/模型，在于 post-training 与评测激励结构。这是一个值得 alignment 社区认真反思的方向。

趋势 4：RL 后训练正在"侵入" Diffusion / Flow Matching

Precise、SOM、One-Forcing 同期出现，意味着 RL 后训练已成为图像/视频生成模型的标配收尾步骤。SDE 一致性、采样器设计将成为下一年视觉生成的关键工程战场。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI WEEKLY 20260524