arXiv cs.AI 月报 (20260601~20260601)

arXiv cs.AI 月报 (20260601~20260601)

共 186 篇 · 主要子类:cs.AI: 186, cs.LG: 58, cs.CL: 50 · 20260601-20260601
Generated by tanar · 2026-06-02 16:21

arXiv cs.AI 日报 (2026-06-01)

共收录 186 篇论文(UTC 提交日 2026-06-01)。本期热度集中在 智能体系统安全与评测视频/多模态理解 三大主轴上,多篇工作把"工具调用 / 记忆 / 计划"明确从 policy 中解耦到 harness/环境侧。

📊 研究方向热度分析

🤖 智能体系统与工具使用(11 篇)

本日最拥挤的方向。多篇工作把"记忆/工具状态"从 policy 中外置到环境/harness 一侧,policy 只学语义决策;另几篇关注 agent 的持续学习与自我演化。

  • Harness-1 — 20B 检索 agent,把候选池/证据池放进 harness,RL 只优化语义决策,8 项 benchmark 平均 +11.4 分
  • COMAP — world model 与 policy 闭环共演化,Qwen3-4B 相对提升 16.75%
  • SIRI — agent 自挖技能、自验证、自蒸馏,推理时不需技能库
  • AGENTCL — 严格评测 language agents 的持续学习,提出 MemProbe 探针法
  • EAPO — 学会"不调用工具",9 个基准平均 +10%、工具调用 -18%

🛡️ Agent 安全、对齐与红队评测(10 篇)

"agent 在 production 部署"成为新红线,研究焦点从 chat 安全转向工具调用安全 / 自欺骗 / 隐私泄露。

  • SPADE-Bench — 首个测 agent "计划-行动分歧" 的 benchmark,揭示 tool-use 场景下战略性欺骗
  • AgentRedBench — 24 个企业级 SaaS 集成的间接 prompt 注入红队,无防护 ASR 32-81%
  • SeClaw — spec 驱动的 agent 安全任务自动合成 + 轨迹级评测框架
  • Ghost Tool Calls — 投机式 tool call 在 commit 前就已泄露用户意图,提出 issue-time 隐私契约
  • SafeSteer — 只用 100 条有害样本,定位 safety token 做 on-policy 蒸馏,几乎零 alignment tax

🎬 视频 / 多模态理解(9 篇)

视频 MLLM 在"瞬时事件 / 时序保真度 / token 预算"上集中突围;多个工作开始关注判官模型的感知忠实度。

  • AdaCodec — 视频 MLLM 的"预测式视觉编码",1/7 token 预算超过 Qwen3-VL-8B 基线,TTFT 9.26s → 1.62s
  • Moment-Video — 测视频 MLLM 对瞬时事件的捕捉,33 个模型最高仅 39.6%
  • Perceptual Judgment Bias — MLLM-as-Judge 会偏向文本叙事而忽略视觉证据,GRPO+batch ranking 缓解
  • PaSBench-Video — 流视频主动安全预警基准,recall 与误报率 Pearson 0.64
  • Jailbreaking via Multi-Clip Video — 视频比静态图像更易越狱,且 clip 越多越脆

⚡ LLM 训练 / 推理效率(6 篇)

从压缩到 RL 训练吞吐到 diffusion LLM 推理加速,本日有多篇有趣的"非平凡 trick"。

  • SimSD — 把投机解码引入 diffusion LLM,吞吐最高 ×7.46,免训练
  • SubFit — 子模块级(非连续)残差替换压缩,25% 稀疏度下保留 84.6% 准确率
  • SAGC — 动态调整 GRPO/DAPO 的 group size 缓解 straggler,提升 wall-clock
  • SISA — SSM 重要性信号直接嵌入 attention score,纯 SDPA 实现,NIAH 收敛快 7×
  • FOAM — 自适应 Shampoo damping,缓解 staleness 同时降低 wall-clock

🔬 科学 / 医疗 / 工业应用(7 篇)

LLM/agent 开始进入"真问题":量子码搜索、蛋白设计、计算数学开题、临床纵向决策。

  • AgentPLM — 蛋白语言模型 + 工具(ESMFold/FoldX/Vina)+ CAPO,抗体优化 hit rate 创新高
  • Evolutionary Discovery of QLDPC Codes — LLM 驱动演化搜索,140 小时/$400 找到 465 个量子码,含新 [[288,16,12]]
  • Iteris — agentic 系统参与两个 Simons Workshop 开题,产出可验证结果
  • ClinEnv — 真实住院全程模拟基准,最强模型决策 F1 仅 0.31
  • Beyond One-shot — agent 从 A/B 实验数据自动设计干预,CTR 较基线 +6.5pp(693k 患者真实田野)

💡 关键技术突破

AdaCodec:把视频 MLLM 当成视频编解码器来设计

论文AdaCodec: A Predictive Visual Code for Video MLLMs

创新点:借鉴视频编码 I/P 帧思路 —— 只在场景无法从历史预测时才送完整参考帧 token,其余帧用紧凑 P-token 编码帧间变化(运动+残差)。

意义:1/7 token 预算超过 Qwen3-VL-8B 的 224k 基线;TTFT 从 9.26s 压到 1.62s。把"视频接口"从图像化推回视频原生范式,长视频推理成本将被重写。

SimSD:让 Diffusion LLM 也能投机解码

论文SimSD: Simple Speculative Decoding in Diffusion Language Models

创新点:通过 plug-and-play 的 attention mask 设计,让 draft 模型预测的 reference token 与当前步交互,从而在单次前向内完成验证 —— 这正是 AR 模型 causal mask 提供的关键能力。

意义:吞吐最高 ×7.46 且免训练。把 dLLM 的并行解码优势 + 投机解码合二为一,显著降低 diffusion 路线工业化部署门槛。

Harness-1:把"状态管理"从 policy 中抽到 harness 里

论文Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

创新点:candidate pool / 证据链 / 验证记录 / 去重 / 预算渲染全部由环境维护,RL 只学"搜什么、留什么、查什么、何时停"等语义决策。

意义:8 个检索基准平均 0.730,比次强开源 +11.4 分;在跨域 hold-out 上提升更大,验证了"状态外置 → 行为可泛化"的工程范式。

SafeSteer:只动 safety token 的对齐法

论文SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

创新点:构造 activation steering 的"safety teacher",然后只把 reverse KL 约束在精选的 safety token 上做 on-policy 蒸馏 —— 不用通用语料、不用 reward model。

意义:100 条有害样本(基线 1% 的成本)实现 7 项安全基准提升、5 项通用能力几乎无损,几乎消除了 alignment tax。

AgentPLM:会调工具、会反馈的蛋白语言模型

论文AgentPLM: Agentic Protein Language Models with Reasoning-Augmented Decoding

创新点:在 PLM 自回归生成中交替调用 ESMFold / FoldX / AutoDock Vina 等生物物理 oracle,并提出 CAPO(对比型 agent 策略优化)端到端学习"何时该听 oracle"。

意义:把 PLM 从"被动 oracle"升级为"在线纠错 agent",抗体优化 top-10% hit rate 显著领先 passive baseline,为湿实验闭环铺路。

👥 作者与机构

活跃机构与代表作

机构 / 团队 代表方向 本日工作
微软 / 上海 AI Lab(Nan Duan, Jiaqi Wang 等) 视频 MLLM AdaCodec
UIUC + Cohere(Pengcheng Jiang, Jiawei Han) 搜索 agent / RL harness Harness-1
OSU + HippoRAG 团队(Huan Sun, Yu Su) Agent 持续学习 AGENTCL
上海交大 / 同济(Dongrui Liu, Linfeng Zhang) 多模态安全 / CAPTCHA HLL
北大 / 商汤(Yaodong Yang, Juntao Dai) Agent 自欺骗评测 SPADE-Bench
IBM Quantum(Andrew Cross, Ismael Faro) LLM × 量子纠错码 Bivariate Bicycle Codes
EPFL / MPI-SWS(Bardia Mohammadi 等) Tool-use 隐私 Ghost Tool Calls
UCSD(Jingbo Shang) Diffusion LLM 加速 SimSD
上海交大 + 美团(Siheng Chen 等) MCP / 个性化 agent MCP-Persona

观察:本日中文圈作者高度活跃,且明显集中在 agent / video MLLM / RL 三条线;欧美团队更偏理论(belief change / certified training / 量子码)与医学影像。

📄 精选论文 Top 10

  1. AdaCodec: A Predictive Visual Code for Video MLLMs

    Haowen Hou, Zhen Huang, Zheming Liang 等 · 把视频 MLLM 当编解码器设计,1/7 token 预算反超全 token 基线。

  2. Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

    Pengcheng Jiang, Zhiyi Shi, Kelly Hong 等 · 状态外置 → 8 项检索基准平均 +11.4 分,跨域可迁移。

  3. SimSD: Simple Speculative Decoding in Diffusion Language Models

    Junxia Cui, Haotian Ye, Runchu Tian 等 · 首个让 dLLM 跑通投机解码的方法,吞吐 ×7.46。

  4. SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

    Hao Li, Jingkun An, Zijun Song 等 · 100 条样本完成安全对齐,几乎零通用能力损失。

  5. SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence

    Yuyan Bu, Haowei Li, Qirui Zheng 等 · 把 agent 自欺骗与幻觉严格区分,真实工具压力场景。

  6. Evolutionary Discovery of Bivariate Bicycle Codes with LLM-Guided Search

    Juan Cruz-Benito, Andrew W. Cross 等 (IBM) · LLM 演化搜索找到 465 个新量子码,$400 跑完。

  7. AgentPLM: Agentic Protein Language Models with Reasoning-Augmented Decoding

    Sahil Rahman, Maxx Richard Rahman · PLM × FoldX/Vina 在线纠错,抗体优化 hit rate 最高。

  8. Beyond One-shot: AI Agents for Learning in Field Experiments

    Junjie Luo, Ritu Agarwal, Gordon Gao · 真实 69 万人次医疗田野实验,agent 自动生成胜出干预。

  9. AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations

    Hiskias Dingeto, Will Leeney · 24 个企业集成,ASR 从 69.9% 砍到 2.4%,守端模型开源。

  10. ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents

    Yuxing Lu, Yushuhong Lin 等 · 真实住院"主治医师"评测,7 模型最高决策 F1 仅 0.31。

🔮 趋势观察

趋势一:Agent 范式正在"剥洋葱" —— policy 越来越薄

Harness-1 把状态搬到环境侧、SIRI 把技能内化到 policy、COMAP 把 world model 与 policy 解耦协同、EAPO 教模型"不要调用工具"。共同主线是:把可外置的状态/记忆/工具脚手架剥出来,policy 只保留语义决策。这一范式对 RL 训练效率、可观测性、可泛化性都更友好。

趋势二:Agent 安全研究从"prompt 越狱"切换到"production 红线"

本日 5 篇安全工作(SPADE-Bench / AgentRedBench / SeClaw / Ghost Tool Calls / HLL)全部围绕"agent 真在调工具"这一前提:计划-行动分歧、间接 prompt 注入、投机调用泄露意图、CAPTCHA 替人验证。安全社区正在追赶 production 部署节奏。

趋势三:视频 MLLM 的"时序保真度"成为新瓶颈

Moment-Video 最强模型仅 39.6%,PaSBench-Video 主动预警高召回伴生高误报,AdaCodec 直接重设视频接口。"看长视频不只是更多帧" 正成为共识:稀疏采样/token 压缩/语言先验在瞬时事件面前集体失灵,代码、benchmark、表征同步迭代。