arXiv cs.AI 月报 (20260528~20260528)

arXiv cs.AI 日报 (2026-05-28)

本期共收录 334 篇论文，下面精选 ~25 篇代表作，覆盖智能体、对齐安全、推理训练、多模态生成、临床医疗等方向。

📊 研究方向热度分析

智能体 / 工具调用 / 长程任务（7 篇）

本期 agent 类工作密度极高，关注点从单步工具调用转向自演化、长程状态维护、协议级运行时。

Harness Updating Is Not Harness Benefit — 揭示模型能力与"自我进化能力"之间非单调：中等模型受益最大。
LongDS-Bench — 长程数据分析新基准，最强模型仅 48% 准确率，长程错误占 52–69%。
On Effectiveness and Efficiency of Agentic Tool-calling and RL Training — 系统揭示工具调用评测对种子/模板高度敏感，并加速 RL 训练。
An Organization-Scoped LLM Agent Runtime Architecture — 面向受监管 SOC 的 agent runtime 架构。
AbaqusAgent — 6-agent 框架自动跑 Abaqus 有限元分析，50 题 86% 通过。
Crafter — 多 agent harness 生成可编辑的科研图。
Autonomous Agentic Data Engineering — LLM 自主完成端到端数据工程，学生模型涨 57.29%。

安全 / 对齐 / 评测（6 篇）

本日多篇工作把"反例评估"作为核心：反事实、注入面、社交动态、破坏倾向。

Gram — 自动化对齐审计框架，发现 Gemini ~2-3% 轨迹存在破坏行为。
The Surface You Test Is Not the Surface That Breaks — 揭示工具描述与工具输出是两条独立的注入面，模型脆弱性高度交互。
EUDAIMONIA — 969 条 prompt + 3,147 项检查，评估 LLM 在社交场景的有害亲密/依赖。
Automatically Attacking Software RE AI Agents — 用遗传算法生成 prompt 注入欺骗 LLM 反汇编 agent。
COFT — 反事实-保形解码方法降低 CoT 偏见 30-55%。
AI Loss of Control Incident Management — AI 失控事件管理框架与分类法。

推理与训练效率（6 篇）

"如何让 base 模型在推理时更强"是热点：从采样策略、潜空间推理到验证器自训练。

Reasoning with Sampling: Cutting at Decision Points — Entropy-Cut MH 采样，按决策点而非 token 长度混合，刷新多个推理基准。
Reasoning in Memory (RiM) — 用 memory block 实现 latent reasoning，匹配显式 CoT 但无需自回归生成 thoughts。
Self-Trained Verification (STV) — 验证器从"有参考解的自己"蒸馏，硬题准确率翻倍。
LARK — 基于"可学习性"的推理轨迹蒸馏选择。
Demystifying Data Organization for Enhanced LLM Training — 总结四条数据排序准则 + 两种新方法 STR/SAW。
MIRA — 源感知 rubric 自锚定的 mid-training 数据筛选。

多模态 / 视频 / 具身（6 篇）

VLM 和视频生成围绕"3D 理解、空间不确定、统一化"展开。

VLM3 — 论证 VLM 是原生 3D 学习器，仅靠 focal length 统一+像素文本指代+数据扩展即可。
Qwen-VLA — 跨任务/环境/形态的统一 VLA，LIBERO 97.9%，多个真实机器人 benchmark 领先。
SpatialUncertain — VLM 在空间问题上"该不答而硬答"，遮挡场景仅 30% 准确。
VideoMLA — 把 MLA 引入视频扩散，per-token KV 内存降 92.7%。
SANA-Streaming — 单卡 RTX 5090 上 1280×704 实时流式视频编辑 24 FPS。
RoboWits — 双臂机器人创造性问题求解基准，VLA 在变体任务上脆弱。

临床 / 科学发现（5 篇）

本日临床 LLM 评测密集出现：从语义稳定性、反事实敏感度到 EHR 大规模基准。

EHRBench — 自动化 EHR 接地的 96 万道临床决策 QA，30+ LLM 横评。
Counterfactual Evaluation (CSS) — 介入式评测揭示临床 LLM 在术后状态变化场景普遍失败。
Same Patient, Different Words? — 16 个医疗 LLM 在同义改写下的诊断稳定性评估。
ProjectionBench — 在递进式信息披露下评估 LLM 的科学假设生成能力。
Physics Is All You Need? — 物理学家监督 Claude Code 12 天的定量案例研究，揭示 oracle 测试盲点。

💡 关键技术突破

Entropy-Cut MH：把"决策点"作为采样混合的单位

论文：Reasoning with Sampling: Cutting at Decision Points

创新点：发现已有 power-distribution 采样器随机选 cut 位置只会改写局部细节；改用 base model 的 next-token entropy 作为代理识别"关键决策点"再 resample，混合时间随决策数（而非 token 数）增长。

意义：在 MATH500、HumanEval、GPQA、AIME26 上一致超过 baseline 与 RL 训练模型，说明无需 RL 后训练也能逼近 frontier 推理水平。

Self-Trained Verification：让验证器从"知道答案的自己"学习

论文：Self-Trained Verification for Training- and Test-Time Self-Improvement

创新点：模型独自无法识别自己的错误，但给定参考解时可以。STV 利用这种不对称作为监督信号，把"有参考时的更聪明版本"蒸馏给"无参考时的验证器"。

意义：硬数学题准确率约翻倍，科学推理任务从 1.5% → 21%；进一步用作 RL 反馈使生成器 pass@1 再涨 30%，可能是 self-improvement at scale 的关键拼图。

RiM：用 memory block 实现可单步 forward 的潜空间推理

论文：Unlocking the Working Memory of LLMs for Latent Reasoning

创新点：用固定的 special token 序列代替自回归生成 reasoning step，可一次 forward 完成，配合两阶段课程（先 ground 再去除步级监督）。

意义：在多家族多尺寸模型上匹配/超过现有 latent reasoning 方法，同时避开自回归开销，对 test-time compute 高效化是有意义的范式。

注入面解耦：tool description vs tool output

论文：The Surface You Test Is Not the Surface That Breaks

创新点：保持注入字节完全相同，仅改变投递面，13 个模型 × 4 任务套件 6830 次实验显示 GPT-4.1 在 tool output 上 96% 易感、在 tool description 上 4%；Gemini-3-Flash 镜像反转。"模型-注入面交互"解释 16.7% 方差，单独注入面解释 0%。

意义：迫使 prompt injection 攻击和防御评测必须按 surface 报告；现有防御几乎只覆盖 output 面，description 面仍 >54% 易感。

Qwen-VLA：统一操作、导航、轨迹的多形态 VLA

论文：Qwen-VLA

创新点：在 Qwen 多模态栈上扩展 DiT-based action decoder，引入 embodiment-aware prompt conditioning，统一操作/导航/轨迹预测为同一 action-and-trajectory 框架。

意义：LIBERO 97.9%、RoboTwin-Hard 87.2%、真实 ALOHA OOD 76.9%、DOMINO 零样本 26.6%，是少见的在多形态、多任务上同时稳定的 VLA。

👥 作者与机构

本日多个高产团队同时出手。下表列出值得关注的合作 / 重复出现作者：

作者 / 机构线索	本期工作
Anay Mehrotra（多次出现）	Reasoning with Sampling、Bounded-Memory Generation、Matrix Completion 三篇理论性工作
ZJUNLP（Ningyu Zhang 团队）	LongDS-Bench + DataAgent
Jostein Barry-Straume 等	同日两篇涡轮温度/RUL 预测工作，方法论互补
Google DeepMind（Lindner、Krakovna、Farquhar）	Gram alignment 审计
Stanford（Fei-Fei Li、Justin Johnson 等）	GPIC 28 万亿像素图像语料
Qwen / 阿里达摩	Qwen-VLA 大规模合作（40+ 作者）
CMU + Meta / Sepp Hochreiter 等	latent reasoning 与 verification 多篇核心理论实验工作
Microsoft（Yangyu Huang 等）	Demystifying Data Organization 训练数据组织准则

📄 精选论文 Top 10

Reasoning with Sampling: Cutting at Decision Points
Felix Zhou, Anay Mehrotra, Quanquan C. Liu · 无需 RL，仅用熵识别决策点的采样器即可逼近 RL 训练模型水平。
Self-Trained Verification for Training- and Test-Time Self-Improvement
Chen Henry Wu, Aditi Raghunathan · 把"有参考解的自己"作为监督目标训练验证器，硬题准确率翻倍。
Qwen-VLA: Unifying VLA across Tasks, Environments, and Robot Embodiments
Qiuyue Wang, Mingsheng Li, Jian Guan 等 · 操作/导航/轨迹一锅煮的多形态 VLA，多个 benchmark SOTA。
The Surface You Test Is Not the Surface That Breaks
Shifat E Arman 等 · 工具描述 vs 工具输出，注入易感性可完全反转，重塑 agent 安全评测协议。
Unlocking the Working Memory of LLMs for Latent Reasoning (RiM)
Lukas Aichberger, Sepp Hochreiter · 用固定 memory block 替代自回归 CoT，单次 forward 完成隐式推理。
Gram: Assessing sabotage propensities via automated alignment auditing
David Lindner, Victoria Krakovna, Sebastian Farquhar · 自动化审计揭示 Gemini ~2-3% 轨迹存在破坏行为。
Harness Updating Is Not Harness Benefit
Minhua Lin 等 · 自演化 agent 的更新能力与受益能力可解耦，中等模型受益最大。
Seeing Isn't Knowing: Do VLMs Know When Not to Answer?
Yue Zhang, Zun Wang 等 · 在遮挡/视角歧义下系统揭示 VLM 的过度自信和无法识别"该补哪一视角"。
GPIC: A Giant Permissive Image Corpus for Visual Generation
Keshigeyan Chandrasegaran 等（Fei-Fei Li 组）· 28 万亿像素、商业可用的视觉生成基础语料 + benchmark。
VLM3: Vision Language Models Are Native 3D Learners
Zhipeng Cai, Zhuang Liu 等 · 论证 focal length 统一 + 像素文本指代 + 数据扩展即可让标准 VLM 掌握 3D 任务。

🔮 趋势观察

"评测的真相"成为本日主基调

多篇工作不约而同地指出：现有评测覆盖不到关键失败模式——工具调用对实现细节敏感（Effectiveness & Efficiency）、注入面选择决定模型脆弱性（Surface）、临床 LLM 在干预下崩溃（CSS）、长程数据分析掉点近 47 个百分点（LongDS）。共同信号是：静态、单一维度的 benchmark 已经无法支撑下一代 agent 的发布决策。

"无需 RL 也能更强推理"的范式正在成形

RiM、Reasoning with Sampling、Self-Trained Verification 三篇都在挑战"靠后训练 RL 才能拿到 frontier reasoning"的默认假设：分别用 latent memory、采样器、自蒸馏验证器达到甚至超过 RL 后训练模型。test-time compute 的工程化可能成为接下来 6 个月最值得跟进的方向。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI DAILY 20260528