arXiv cs.AI 月报 (20260528~20260528)

arXiv cs.AI 月报 (20260528~20260528)

共 334 篇 · 主要子类:cs.AI: 334, cs.LG: 113, cs.CL: 90 · 20260528-20260528
Generated by tanar · 2026-06-02 16:12

arXiv cs.AI 日报 (2026-05-28)

本期共收录 334 篇论文,下面精选 ~25 篇代表作,覆盖智能体、对齐安全、推理训练、多模态生成、临床医疗等方向。

📊 研究方向热度分析

智能体 / 工具调用 / 长程任务(7 篇)

本期 agent 类工作密度极高,关注点从单步工具调用转向自演化、长程状态维护、协议级运行时

安全 / 对齐 / 评测(6 篇)

本日多篇工作把"反例评估"作为核心:反事实、注入面、社交动态、破坏倾向。

推理与训练效率(6 篇)

"如何让 base 模型在推理时更强"是热点:从采样策略、潜空间推理到验证器自训练。

多模态 / 视频 / 具身(6 篇)

VLM 和视频生成围绕"3D 理解、空间不确定、统一化"展开。

  • VLM3 — 论证 VLM 是原生 3D 学习器,仅靠 focal length 统一+像素文本指代+数据扩展即可。
  • Qwen-VLA — 跨任务/环境/形态的统一 VLA,LIBERO 97.9%,多个真实机器人 benchmark 领先。
  • SpatialUncertain — VLM 在空间问题上"该不答而硬答",遮挡场景仅 30% 准确。
  • VideoMLA — 把 MLA 引入视频扩散,per-token KV 内存降 92.7%。
  • SANA-Streaming — 单卡 RTX 5090 上 1280×704 实时流式视频编辑 24 FPS。
  • RoboWits — 双臂机器人创造性问题求解基准,VLA 在变体任务上脆弱。

临床 / 科学发现(5 篇)

本日临床 LLM 评测密集出现:从语义稳定性、反事实敏感度到 EHR 大规模基准。

💡 关键技术突破

Entropy-Cut MH:把"决策点"作为采样混合的单位

论文Reasoning with Sampling: Cutting at Decision Points

创新点:发现已有 power-distribution 采样器随机选 cut 位置只会改写局部细节;改用 base model 的 next-token entropy 作为代理识别"关键决策点"再 resample,混合时间随决策数(而非 token 数)增长。

意义:在 MATH500、HumanEval、GPQA、AIME26 上一致超过 baseline 与 RL 训练模型,说明无需 RL 后训练也能逼近 frontier 推理水平。

Self-Trained Verification:让验证器从"知道答案的自己"学习

论文Self-Trained Verification for Training- and Test-Time Self-Improvement

创新点:模型独自无法识别自己的错误,但给定参考解时可以。STV 利用这种不对称作为监督信号,把"有参考时的更聪明版本"蒸馏给"无参考时的验证器"。

意义:硬数学题准确率约翻倍,科学推理任务从 1.5% → 21%;进一步用作 RL 反馈使生成器 pass@1 再涨 30%,可能是 self-improvement at scale 的关键拼图。

RiM:用 memory block 实现可单步 forward 的潜空间推理

论文Unlocking the Working Memory of LLMs for Latent Reasoning

创新点:用固定的 special token 序列代替自回归生成 reasoning step,可一次 forward 完成,配合两阶段课程(先 ground 再去除步级监督)。

意义:在多家族多尺寸模型上匹配/超过现有 latent reasoning 方法,同时避开自回归开销,对 test-time compute 高效化是有意义的范式。

注入面解耦:tool description vs tool output

论文The Surface You Test Is Not the Surface That Breaks

创新点:保持注入字节完全相同,仅改变投递面,13 个模型 × 4 任务套件 6830 次实验显示 GPT-4.1 在 tool output 上 96% 易感、在 tool description 上 4%;Gemini-3-Flash 镜像反转。"模型-注入面交互"解释 16.7% 方差,单独注入面解释 0%。

意义:迫使 prompt injection 攻击和防御评测必须按 surface 报告;现有防御几乎只覆盖 output 面,description 面仍 >54% 易感。

Qwen-VLA:统一操作、导航、轨迹的多形态 VLA

论文Qwen-VLA

创新点:在 Qwen 多模态栈上扩展 DiT-based action decoder,引入 embodiment-aware prompt conditioning,统一操作/导航/轨迹预测为同一 action-and-trajectory 框架。

意义:LIBERO 97.9%、RoboTwin-Hard 87.2%、真实 ALOHA OOD 76.9%、DOMINO 零样本 26.6%,是少见的在多形态、多任务上同时稳定的 VLA。

👥 作者与机构

本日多个高产团队同时出手。下表列出值得关注的合作 / 重复出现作者:

作者 / 机构线索 本期工作
Anay Mehrotra(多次出现) Reasoning with Sampling、Bounded-Memory Generation、Matrix Completion 三篇理论性工作
ZJUNLP(Ningyu Zhang 团队) LongDS-Bench + DataAgent
Jostein Barry-Straume 等 同日两篇涡轮温度/RUL 预测工作,方法论互补
Google DeepMind(Lindner、Krakovna、Farquhar) Gram alignment 审计
Stanford(Fei-Fei Li、Justin Johnson 等) GPIC 28 万亿像素图像语料
Qwen / 阿里达摩 Qwen-VLA 大规模合作(40+ 作者)
CMU + Meta / Sepp Hochreiter 等 latent reasoning 与 verification 多篇核心理论实验工作
Microsoft(Yangyu Huang 等) Demystifying Data Organization 训练数据组织准则

📄 精选论文 Top 10

  1. Reasoning with Sampling: Cutting at Decision Points

    Felix Zhou, Anay Mehrotra, Quanquan C. Liu · 无需 RL,仅用熵识别决策点的采样器即可逼近 RL 训练模型水平。

  2. Self-Trained Verification for Training- and Test-Time Self-Improvement

    Chen Henry Wu, Aditi Raghunathan · 把"有参考解的自己"作为监督目标训练验证器,硬题准确率翻倍。

  3. Qwen-VLA: Unifying VLA across Tasks, Environments, and Robot Embodiments

    Qiuyue Wang, Mingsheng Li, Jian Guan 等 · 操作/导航/轨迹一锅煮的多形态 VLA,多个 benchmark SOTA。

  4. The Surface You Test Is Not the Surface That Breaks

    Shifat E Arman 等 · 工具描述 vs 工具输出,注入易感性可完全反转,重塑 agent 安全评测协议。

  5. Unlocking the Working Memory of LLMs for Latent Reasoning (RiM)

    Lukas Aichberger, Sepp Hochreiter · 用固定 memory block 替代自回归 CoT,单次 forward 完成隐式推理。

  6. Gram: Assessing sabotage propensities via automated alignment auditing

    David Lindner, Victoria Krakovna, Sebastian Farquhar · 自动化审计揭示 Gemini ~2-3% 轨迹存在破坏行为。

  7. Harness Updating Is Not Harness Benefit

    Minhua Lin 等 · 自演化 agent 的更新能力与受益能力可解耦,中等模型受益最大。

  8. Seeing Isn't Knowing: Do VLMs Know When Not to Answer?

    Yue Zhang, Zun Wang 等 · 在遮挡/视角歧义下系统揭示 VLM 的过度自信和无法识别"该补哪一视角"。

  9. GPIC: A Giant Permissive Image Corpus for Visual Generation

    Keshigeyan Chandrasegaran 等(Fei-Fei Li 组)· 28 万亿像素、商业可用的视觉生成基础语料 + benchmark。

  10. VLM3: Vision Language Models Are Native 3D Learners

    Zhipeng Cai, Zhuang Liu 等 · 论证 focal length 统一 + 像素文本指代 + 数据扩展即可让标准 VLM 掌握 3D 任务。

🔮 趋势观察

"评测的真相"成为本日主基调

多篇工作不约而同地指出:现有评测覆盖不到关键失败模式——工具调用对实现细节敏感(Effectiveness & Efficiency)、注入面选择决定模型脆弱性(Surface)、临床 LLM 在干预下崩溃(CSS)、长程数据分析掉点近 47 个百分点(LongDS)。共同信号是:静态、单一维度的 benchmark 已经无法支撑下一代 agent 的发布决策

"无需 RL 也能更强推理"的范式正在成形

RiM、Reasoning with Sampling、Self-Trained Verification 三篇都在挑战"靠后训练 RL 才能拿到 frontier reasoning"的默认假设:分别用 latent memory、采样器、自蒸馏验证器达到甚至超过 RL 后训练模型。test-time compute 的工程化可能成为接下来 6 个月最值得跟进的方向。