arXiv cs.AI 月报 (20260528~20260528)
arXiv cs.AI 日报 (2026-05-28)
本期共收录 334 篇论文,下面精选 ~25 篇代表作,覆盖智能体、对齐安全、推理训练、多模态生成、临床医疗等方向。
📊 研究方向热度分析
智能体 / 工具调用 / 长程任务(7 篇)
本期 agent 类工作密度极高,关注点从单步工具调用转向自演化、长程状态维护、协议级运行时。
- Harness Updating Is Not Harness Benefit — 揭示模型能力与"自我进化能力"之间非单调:中等模型受益最大。
- LongDS-Bench — 长程数据分析新基准,最强模型仅 48% 准确率,长程错误占 52–69%。
- On Effectiveness and Efficiency of Agentic Tool-calling and RL Training — 系统揭示工具调用评测对种子/模板高度敏感,并加速 RL 训练。
- An Organization-Scoped LLM Agent Runtime Architecture — 面向受监管 SOC 的 agent runtime 架构。
- AbaqusAgent — 6-agent 框架自动跑 Abaqus 有限元分析,50 题 86% 通过。
- Crafter — 多 agent harness 生成可编辑的科研图。
- Autonomous Agentic Data Engineering — LLM 自主完成端到端数据工程,学生模型涨 57.29%。
安全 / 对齐 / 评测(6 篇)
本日多篇工作把"反例评估"作为核心:反事实、注入面、社交动态、破坏倾向。
- Gram — 自动化对齐审计框架,发现 Gemini ~2-3% 轨迹存在破坏行为。
- The Surface You Test Is Not the Surface That Breaks — 揭示工具描述与工具输出是两条独立的注入面,模型脆弱性高度交互。
- EUDAIMONIA — 969 条 prompt + 3,147 项检查,评估 LLM 在社交场景的有害亲密/依赖。
- Automatically Attacking Software RE AI Agents — 用遗传算法生成 prompt 注入欺骗 LLM 反汇编 agent。
- COFT — 反事实-保形解码方法降低 CoT 偏见 30-55%。
- AI Loss of Control Incident Management — AI 失控事件管理框架与分类法。
推理与训练效率(6 篇)
"如何让 base 模型在推理时更强"是热点:从采样策略、潜空间推理到验证器自训练。
- Reasoning with Sampling: Cutting at Decision Points — Entropy-Cut MH 采样,按决策点而非 token 长度混合,刷新多个推理基准。
- Reasoning in Memory (RiM) — 用 memory block 实现 latent reasoning,匹配显式 CoT 但无需自回归生成 thoughts。
- Self-Trained Verification (STV) — 验证器从"有参考解的自己"蒸馏,硬题准确率翻倍。
- LARK — 基于"可学习性"的推理轨迹蒸馏选择。
- Demystifying Data Organization for Enhanced LLM Training — 总结四条数据排序准则 + 两种新方法 STR/SAW。
- MIRA — 源感知 rubric 自锚定的 mid-training 数据筛选。
多模态 / 视频 / 具身(6 篇)
VLM 和视频生成围绕"3D 理解、空间不确定、统一化"展开。
- VLM3 — 论证 VLM 是原生 3D 学习器,仅靠 focal length 统一+像素文本指代+数据扩展即可。
- Qwen-VLA — 跨任务/环境/形态的统一 VLA,LIBERO 97.9%,多个真实机器人 benchmark 领先。
- SpatialUncertain — VLM 在空间问题上"该不答而硬答",遮挡场景仅 30% 准确。
- VideoMLA — 把 MLA 引入视频扩散,per-token KV 内存降 92.7%。
- SANA-Streaming — 单卡 RTX 5090 上 1280×704 实时流式视频编辑 24 FPS。
- RoboWits — 双臂机器人创造性问题求解基准,VLA 在变体任务上脆弱。
临床 / 科学发现(5 篇)
本日临床 LLM 评测密集出现:从语义稳定性、反事实敏感度到 EHR 大规模基准。
- EHRBench — 自动化 EHR 接地的 96 万道临床决策 QA,30+ LLM 横评。
- Counterfactual Evaluation (CSS) — 介入式评测揭示临床 LLM 在术后状态变化场景普遍失败。
- Same Patient, Different Words? — 16 个医疗 LLM 在同义改写下的诊断稳定性评估。
- ProjectionBench — 在递进式信息披露下评估 LLM 的科学假设生成能力。
- Physics Is All You Need? — 物理学家监督 Claude Code 12 天的定量案例研究,揭示 oracle 测试盲点。
💡 关键技术突破
Entropy-Cut MH:把"决策点"作为采样混合的单位
论文:Reasoning with Sampling: Cutting at Decision Points
创新点:发现已有 power-distribution 采样器随机选 cut 位置只会改写局部细节;改用 base model 的 next-token entropy 作为代理识别"关键决策点"再 resample,混合时间随决策数(而非 token 数)增长。
意义:在 MATH500、HumanEval、GPQA、AIME26 上一致超过 baseline 与 RL 训练模型,说明无需 RL 后训练也能逼近 frontier 推理水平。
Self-Trained Verification:让验证器从"知道答案的自己"学习
论文:Self-Trained Verification for Training- and Test-Time Self-Improvement
创新点:模型独自无法识别自己的错误,但给定参考解时可以。STV 利用这种不对称作为监督信号,把"有参考时的更聪明版本"蒸馏给"无参考时的验证器"。
意义:硬数学题准确率约翻倍,科学推理任务从 1.5% → 21%;进一步用作 RL 反馈使生成器 pass@1 再涨 30%,可能是 self-improvement at scale 的关键拼图。
RiM:用 memory block 实现可单步 forward 的潜空间推理
论文:Unlocking the Working Memory of LLMs for Latent Reasoning
创新点:用固定的 special token 序列代替自回归生成 reasoning step,可一次 forward 完成,配合两阶段课程(先 ground 再去除步级监督)。
意义:在多家族多尺寸模型上匹配/超过现有 latent reasoning 方法,同时避开自回归开销,对 test-time compute 高效化是有意义的范式。
注入面解耦:tool description vs tool output
论文:The Surface You Test Is Not the Surface That Breaks
创新点:保持注入字节完全相同,仅改变投递面,13 个模型 × 4 任务套件 6830 次实验显示 GPT-4.1 在 tool output 上 96% 易感、在 tool description 上 4%;Gemini-3-Flash 镜像反转。"模型-注入面交互"解释 16.7% 方差,单独注入面解释 0%。
意义:迫使 prompt injection 攻击和防御评测必须按 surface 报告;现有防御几乎只覆盖 output 面,description 面仍 >54% 易感。
Qwen-VLA:统一操作、导航、轨迹的多形态 VLA
论文:Qwen-VLA
创新点:在 Qwen 多模态栈上扩展 DiT-based action decoder,引入 embodiment-aware prompt conditioning,统一操作/导航/轨迹预测为同一 action-and-trajectory 框架。
意义:LIBERO 97.9%、RoboTwin-Hard 87.2%、真实 ALOHA OOD 76.9%、DOMINO 零样本 26.6%,是少见的在多形态、多任务上同时稳定的 VLA。
👥 作者与机构
本日多个高产团队同时出手。下表列出值得关注的合作 / 重复出现作者:
| 作者 / 机构线索 | 本期工作 |
|---|---|
| Anay Mehrotra(多次出现) | Reasoning with Sampling、Bounded-Memory Generation、Matrix Completion 三篇理论性工作 |
| ZJUNLP(Ningyu Zhang 团队) | LongDS-Bench + DataAgent |
| Jostein Barry-Straume 等 | 同日两篇涡轮温度/RUL 预测工作,方法论互补 |
| Google DeepMind(Lindner、Krakovna、Farquhar) | Gram alignment 审计 |
| Stanford(Fei-Fei Li、Justin Johnson 等) | GPIC 28 万亿像素图像语料 |
| Qwen / 阿里达摩 | Qwen-VLA 大规模合作(40+ 作者) |
| CMU + Meta / Sepp Hochreiter 等 | latent reasoning 与 verification 多篇核心理论实验工作 |
| Microsoft(Yangyu Huang 等) | Demystifying Data Organization 训练数据组织准则 |
📄 精选论文 Top 10
-
Reasoning with Sampling: Cutting at Decision Points
Felix Zhou, Anay Mehrotra, Quanquan C. Liu · 无需 RL,仅用熵识别决策点的采样器即可逼近 RL 训练模型水平。
-
Self-Trained Verification for Training- and Test-Time Self-Improvement
Chen Henry Wu, Aditi Raghunathan · 把"有参考解的自己"作为监督目标训练验证器,硬题准确率翻倍。
-
Qwen-VLA: Unifying VLA across Tasks, Environments, and Robot Embodiments
Qiuyue Wang, Mingsheng Li, Jian Guan 等 · 操作/导航/轨迹一锅煮的多形态 VLA,多个 benchmark SOTA。
-
The Surface You Test Is Not the Surface That Breaks
Shifat E Arman 等 · 工具描述 vs 工具输出,注入易感性可完全反转,重塑 agent 安全评测协议。
-
Unlocking the Working Memory of LLMs for Latent Reasoning (RiM)
Lukas Aichberger, Sepp Hochreiter · 用固定 memory block 替代自回归 CoT,单次 forward 完成隐式推理。
-
Gram: Assessing sabotage propensities via automated alignment auditing
David Lindner, Victoria Krakovna, Sebastian Farquhar · 自动化审计揭示 Gemini ~2-3% 轨迹存在破坏行为。
-
Harness Updating Is Not Harness Benefit
Minhua Lin 等 · 自演化 agent 的更新能力与受益能力可解耦,中等模型受益最大。
-
Seeing Isn't Knowing: Do VLMs Know When Not to Answer?
Yue Zhang, Zun Wang 等 · 在遮挡/视角歧义下系统揭示 VLM 的过度自信和无法识别"该补哪一视角"。
-
GPIC: A Giant Permissive Image Corpus for Visual Generation
Keshigeyan Chandrasegaran 等(Fei-Fei Li 组)· 28 万亿像素、商业可用的视觉生成基础语料 + benchmark。
-
VLM3: Vision Language Models Are Native 3D Learners
Zhipeng Cai, Zhuang Liu 等 · 论证 focal length 统一 + 像素文本指代 + 数据扩展即可让标准 VLM 掌握 3D 任务。
🔮 趋势观察
"评测的真相"成为本日主基调
多篇工作不约而同地指出:现有评测覆盖不到关键失败模式——工具调用对实现细节敏感(Effectiveness & Efficiency)、注入面选择决定模型脆弱性(Surface)、临床 LLM 在干预下崩溃(CSS)、长程数据分析掉点近 47 个百分点(LongDS)。共同信号是:静态、单一维度的 benchmark 已经无法支撑下一代 agent 的发布决策。
"无需 RL 也能更强推理"的范式正在成形
RiM、Reasoning with Sampling、Self-Trained Verification 三篇都在挑战"靠后训练 RL 才能拿到 frontier reasoning"的默认假设:分别用 latent memory、采样器、自蒸馏验证器达到甚至超过 RL 后训练模型。test-time compute 的工程化可能成为接下来 6 个月最值得跟进的方向。
评论