arXiv cs.AI 日报 (20260531~20260531)

arXiv cs.AI 日报 (2026-05-31)

当日 cs.AI 相关投稿共 140 篇。本期主线集中在 Agent 技能演化、推理与 RL 训练范式、Agent/RAG 安全攻防、多模态评测,以及面向 Agentic 负载的推理系统优化。

📊 研究方向热度分析

Agent 技能演化与编排可靠性(8 篇)

本周一个明显趋势:把 Agent skill 视为可在线生长、可诊断、可修复的"软件件",并用执行反馈闭环不断重写。

SkillSmith — 技能与工具协同演化,用 Lotka-Volterra 互作矩阵量化技能间冲突。
SkillAdaptor — 步级失败归因 + 训练-free 技能修复,在 WebShop/PinchBench 持续涨点。
SkillRevise — 把一次性生成的初始技能用执行证据迭代重写,base agent 成功率 36% → 62%。
Self-Healing Orchestrator — 失败感知 + 验证守护的恢复控制器,100 任务 fault-injection 上 98.8% 成功率。
CAREAgent — 两阶段构建可验证临床推理轨迹,医嘱生成 F1 显著领先。

推理、RL 训练与评测饱和(7 篇)

主线是"基准饱和后怎么办":自动进化更难的题目,以及在 RLVR/NLHF 中更高效地利用样本与避免奖励黑客。

VAIR (Enigma of Artificial Reason) — 揭示大型推理模型的"生产-评估鸿沟",solve 几乎满分但 grade 只有 48%。
BenchEvolver — 以解为中心进化任务,把 LCB 易题准确率从 99% 降到 27%–62%,恢复区分度。
POPO — 优先级化离策略组重放,绕过 RLVR 中"全对/全错"无效样本的问题。
Efficient Exploration for Iterative NLHF — 给出 $O(\sqrt{T})$ regret 的显式探索性 NLHF。
Before the Model Learns the Bug — fuzz RLVR verifier,直接量化"奖励本身是 bug"的风险面。
OPD+ — 证明 on-policy 蒸馏中常见的 stop-gradient 设计会产生有偏估计并给出修正。

安全、对齐与 Agent/RAG 攻防(7 篇)

攻防面从模型层下沉到了 skill 仓库、知识库、判官与多语种边界。

RA-ICA / CREEP — 通过污染外部语料对 RAG 系统发起推理成本攻击,token 消耗最高放大 13 倍。
DiscourseFlip — 黑盒 RAG 的篇章级观点操纵,跨语义网络协调注毒。
D-Judge — 通过改写受害模型输出,扰乱多轮越狱中攻击者 judge 的反馈回路。
ClawHub Security Signals — 67k OpenClaw skill 的扫描结果数据集,三种扫描器仅 0.69% 完全一致。
Cybersecurity Refusals Framework — 8 个前沿模型中 6 个进攻性任务拒绝率几乎为 0。
Low-Resource Safety = Calibration Failure — 表征可分,但拒绝阈值未校准;1–4 条样本即可大幅修复。
TukaBench — 7 种非洲语言的越狱基准,文化适配后拒绝率最低。

多模态评测与视觉推理(6 篇)

新基准集体把矛头对准"看上去对、机制其实不对"的多模态盲点。

SVHalluc — 首个语音-视觉幻觉基准,开源 AV-LLM 几近随机,只有 Gemini 2.5 Pro 明显领先。
Dr. DocBench — 难度感知的专家级文档解析基准,跨 52 个 BISAC 学科。
TECCI — 刻意难为的图像编辑基准,最强模型整体成功率仍 < 22%。
Beyond Visual Memory — 拆解 latent visual reasoning,发现增益主要来自边界 token 而非"视觉记忆槽"。
KIVI — 知识密集型视频生成基准,SOTA 仍明显落后人类。
3DCodeBench — 评测 VLM 作为程序化 3D 建模 agent,API 不匹配仍是主要 fail mode。

Agentic 推理系统与高性能仿真(5 篇)

关注点从"训练快"转向"服务/编辑/重放快",尤其针对稀疏注意力与 agent 化编辑负载。

Move the Query, Not the Cache — MLA 下跨实例注意力,routing query 比拉 KV cache 更划算。
Leyline — KV cache 编辑指令原语,RoPE 旋转修正使 agent 重放命中率 +11.2 pp。
MURMUR — 长音频 ASR 推理:chunk 大小可调 + KV sliding window 淘汰,延迟降 4.2×。
Crazyflow — JAX 可微无人机仿真,把"边飞边训"做到 0.38 秒训出恢复策略。
HASTE — XMC 输出层的 group-shared fixed fan-in 稀疏 + CUDA kernel,反向 25× 加速。

💡 关键技术突破

大型推理模型的"生产-评估鸿沟"被实证

论文:An Enigma of Artificial Reason (VAIR)

创新点:构造"答案对但推理过程明显有缺陷"的数学题集合 VAIR,把"评估推理"从"生产推理"中剥离。前沿 LRM 解题接近满分,却只能正确识别 48% 的错误推理;线性 probe + causal patching 证明问题来自"答案验证偏置"——模型先猜答案再为其编辑理由。

意义:当前以"答对率"为唯一奖励的 RL 训练范式天然鼓励生产而非评估推理,提示需要专门面向 critic / verifier 的训练目标。

多智能体 LLM 的 Ringelmann 缩放律

论文:The Ringelmann Effect in Multi-Agent LLM Systems

创新点:提出双参数缩放律 $R(N) = 1/(1+c(N-1)N^{-β})$,把任意 agent 配置归入硬天花板 / 亚线性 / 线性三种渐近;并通过平均场定理证明 peer 数 $k$ 与回合 $τ$ 只通过乘积 $kτ$ 进入动力学。44 个 (model × task × cond) 单元下拟合 $R^2 > 0.99$。

意义:给"加几个 agent 辩论一下"这类经验做法提供了清晰可证伪的标尺——同质团队中,debate 的收益常常来自重评估而非 peer 内容。

Cross-Instance MLA:把 query 路由出去,而不是把 KV 拉过来

论文:Move the Query, Not the Cache

创新点:针对 MLA(DeepSeek-V3.2/V4、GLM-5.1)在大规模 agentic 负载下的跨节点注意力,给出拓扑感知成本模型与闭式 route/fetch/local 判定式;在真实 IBGDA 多节点 H100 集群验证误差 ~7%。一个 query row 仅 ~1KB,远小于要 attend 的 chunk。

意义:为下一代分布式 KV 系统提供了体系结构级原则——压缩或稀疏选择把 attention 单元缩小后,通信方向应被翻转。

Memory 冲突解决:别让 LLM 来做版本仲裁

论文:Don't Ask the LLM to Track Freshness

创新点:在 MemoryAgentBench 的 FactConsolidation 任务上证明,把答案管线从"让 LLM 判定最新事实"换成"候选抽取 + Python max(serial)",FC-SH 一举 +10.8 分,262K 上升 +21 分,直接逼近 95%。

意义:指出整个 agent-memory 子领域的瓶颈在于"组装阶段"而非存储或检索;确定性聚合是 current-value 冲突的正确原语。

物理基础模型从仿真零样本迁移到实验室湍流

论文:Emergent Transfer of a Physics Foundation Model

创新点:在 ≤3 条 DNS 上微调 Walrus 基础模型,即可在 Rayleigh-Taylor 不稳定性上 zero-shot 跳出 DNS 体系、进入真实实验观测到的 α≈0.06–0.07 增长带,从未见过实验样本;并能 zero-shot 推广到训练集中没有的稳定层结。

意义:为科学基础模型提供了独立的 sim-to-lab 证据,数据驱动地佐证了百年悬而未决的 "α 实验/仿真差距"主因是初始条件。

👥 作者与机构观察

从当日 140 篇投稿中观察到几个值得注意的合作模式:

合作集群	代表论文	看点
FAIR 系 + Cranmer / Polymathic AI	Walrus RTI Transfer	23 位作者跨流体、ML、天体物理联署的大规模科学基础模型实证。
ZJU NLP / SkillX 系	SkillAdaptor, SkillRevise, SkillSmith	单日 3 篇 skill-evolution 论文集中出现,显示出明确的"OpenClaw skill 软件工程化"主线。
Berkeley / Stanford / Anthropic Safety	Cybersecurity Refusals, BenchEvolver	Zico Kolter、Ion Stoica、Dawn Song 等出现在前沿 agent 安全与基准饱和方向。
Erlangen (Bole Ma / Wellein)	Move the Query, Leyline	同一作者同日两篇,系统性提出"agentic LLM 推理系统"两类全新原语。
MBZUAI / AISafety 多语种线	TukaBench, IndoBias, Low-Resource Safety	Fajri Koto 团队同日 2 篇,把低资源语言安全/偏见基准做成系列。
Wrocław 大集体 (Reasoning4Sciences)	Reasoning4Sciences	40+ 作者跨 28 个 ERC 学科系统盘点 RLM 应用成熟度,典型 community paper。

📄 精选论文 Top 10

Move the Query, Not the Cache: Cross-Instance Latent Attention
Bole Ma, Jan Eitzinger, Harald Köstler · MLA 时代分布式推理的"原语翻转",并附实测成本模型。
An Enigma of Artificial Reason: Production-Evaluation Gap in LRMs
Mingzhong Sun, Teresa Yeo, Armando Solar-Lezama · 直击当前 RL 推理训练范式的盲点,极具讨论价值。
The Ringelmann Effect in Multi-Agent LLM Systems
Blaž Bertalanič, Carolina Fortuna · 给"加 agent 是否值"提供了第一条像样的缩放律。
Emergent Transfer of a Physics Foundation Model
Mukhopadhyay, Nixon, Watteaux et al. · 科学基础模型 sim-to-lab 的强证据,影响远超 RTI。
Don't Ask the LLM to Track Freshness
Vikas Reddy, Sumanth Challaram · 把"LLM 智能"换成"Python max",纠正子领域研究方向。
BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution
Yangzhen Wu et al. (Berkeley/Stanford) · 让饱和的 LiveCodeBench 重新成为前沿评测与训练信号。
Crazyflow: GPU-Accelerated Differentiable Drone Simulator in JAX
Schuck, Rath, Hua et al. · 仿真速度突破让"in-flight RL"从概念变为 0.38 秒可重现的实测。
Leyline: KV Cache Directives for Agentic Inference
Bole Ma, Jan Eitzinger, Harald Koestler · 为 agent harness 提供首个"显式编辑 KV 而不重 prefill"的服务侧原语。
Inference Cost Attacks for Retrieval-Augmented LLMs (RA-ICA)
Liu, Ning, Ding, Fan · 通过污染外部知识库,把 token 消耗放大 13×,定义 RAG 安全的新攻面。
SVHalluc: Speech-Vision Hallucination in Audio-Visual LLMs
Chenshuang Zhang et al. · 首个语音内容驱动的 AV 幻觉基准,暴露开源 AV-LLM 的根本缺口。

🔮 趋势观察

从"模型层"下沉到"agent 软件层"

当天有大量论文不再聚焦 LLM 本身,而是把 agent skill、KV cache、memory 仲裁、RAG 注毒、verifier 等当作可观测、可修复的软件组件:SkillSmith / SkillAdaptor / SkillRevise(skill 仓库)、Leyline(KV cache 编辑)、Don't Ask LLM Track Freshness(memory 组装)、Fuzzing RLVR Verifiers(奖励组件)、ClawHub(skill 安全)。"agent 工程化"正在形成一个跨子领域的共同议题。

"基准饱和"是当周显学

BenchEvolver、Dr. DocBench、TECCI、KIVI、SVHalluc、TukaBench、IndoBias、TimeSage-MT、TravelEval、SmartHome-Bench 等同日扎堆出现。共同模式是:针对前沿模型在常规 benchmark 上 >95% 这一现状,改去做难度感知、跨语言文化、多模态新维度、多轮交互、verifiable simulator 等更难诊断的评测。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI DAILY 20260531