arXiv cs.AI 日报 (20260530~20260530)
arXiv cs.AI 日报 (2026-05-30)
本期共收录 99 篇 cs.AI 相关论文。围绕 LLM 智能体安全、推理与训练效率、多模态视觉、对齐与基准评估等方向展开,重点突出 4 个研究方向、4 项关键技术突破,并精选 Top 10 论文。
📊 研究方向热度分析
智能体 / 记忆 / 工具使用(约 12 篇)
本周智能体研究密集聚焦在长周期任务的失败归因、技能调用判别与记忆系统进化,强调"会用工具"远比"有更多工具"重要。
- FALAT: Tracing Failures in LLM Agent Trajectories — 依赖图引导搜索精确归因多智能体失败步骤
- MemPro: Agentic Memory Systems as Evolvable Programs — 把记忆系统视为可演化程序,跨版本迭代改进
- CoMIC: Collaborative Memory and Insights Circulation — 云边协同的去中心化执行 + 集中反思框架
- SelSkill: Skill or Skip? — 双粒度偏好学习决定何时调用技能
- MOSAIC: Modular Orchestration for Structured Agentic Intelligence — 把自动数据科学转化为可复用的结构化模型选择
安全 / 对齐 / 责任(约 10 篇)
智能体生态的供应链安全、推理痕迹泄露、组合性风险与法律责任成为多篇论文的共同主题。
- SkillVetBench — 开放技能生态的语义+沙箱双阶段安全审计基准
- SkillReact: When Safe Skills Collide — 测量"个体安全技能"组合后的潜在风险
- Adversarial Feeds Steer LLM Agent Decisions — 上游推荐流可以系统性扭转智能体决策
- Hidden Thoughts Are Not Secret — 通过提示工程恢复被隐藏的推理痕迹
- Acting with AI: Agentic Tort Liability — 以交互理论重构智能体侵权法律框架
- MESA: MoE Safety Alignment — 针对 MoE"安全稀疏性"的去中心化对齐
推理 / 训练效率 / RL(约 14 篇)
推理质量与训练成本的平衡是本日最大类别:稀疏训练、潜在奖励引导、自适应推理与跨域 RL 多线并进。
- SMET: Memory-Efficient LLM Training with Dynamic Sparsity — 解决 DST 中新生长参数的"冷启动"震荡
- Latent Reward Steering (LRS) — 在 SAE 潜在空间用奖励梯度引导推理
- CARE-RL: Capability-Aware Reinforcement Learning — 通过子空间投影缓解多域 RL 能力冲突
- DeLask: Decoder Layer Skipping — 用层间梯度反向识别"幻觉源"层并跳过
- KACE: Knowledge-Adaptive Context Engineering — 难度/领域分层的"知识树"按需注入上下文
多模态 / 视觉 / 视频(约 10 篇)
从可教学的视频思考、专业指令式图像编辑,到 VLA 的安全屏障,多模态在"任务化"与"专业化"上加速。
- CV-Arena — 12K 真实图像指令编辑基准 + Active Elo 人机协同评测
- Pause and Think — 4B 参数模型靠"暂停推理"达到 235B 的水准
- V-LynX — 复用 Video LLM 内部 token 接口接入新模态
- PaCo-VLA — 在 VLA 与底层控制间插入被动性安全屏障
- SkyShield — 低空 UAV 单目语义占据基准与安全度量 KAR-mIoU
💡 关键技术突破
Subliminal Learning 的真相:只是 LoRA 的副产物
论文:Subliminal Learning is a LoRA Artifact
创新点:系统化拆解了"看似无害数据可传递行为偏好"这一现象,证明其与 LoRA 秩呈倒 U 形相关,全参数微调下消失,且高度依赖训练-评估上下文一致性。
意义:将一个看似神秘的安全风险还原为可控的微调超参数问题,为后续对齐研究提供清晰的边界。
Active Elo + CV-Judge:人机协同评测大规模视觉指令
论文:CV-Arena
创新点:用 VLM 评判器自动过滤明显失败/高置信比较,把高质量近距离比较交给专家评分,并通过可靠度加权 Elo 聚合多源偏好。
意义:为指令式图像编辑这类专业级开放任务提供了可扩展、保留人类保真度的评测范式。
FALAT:依赖图驱动的多智能体失败归因
论文:FALAT
创新点:把失败归因从"逐步分类"重构为"依赖搜索"——先构造任务应有的解决预期,再追溯推理-工具-消息依赖链路,并验证修正某步是否足以恢复期望结果。
意义:在 Who&When 上同时显著提升责任智能体与关键步骤识别精度,为长轨迹智能体提供可解释的诊断基础。
SMET:让动态稀疏训练真正稳定下来
论文:Memory-Efficient LLM Training with Dynamic Sparsity
创新点:指出 Adam 在新激活参数上的"冷启动"是 DST loss spike 的根因,提出优化器预热 + 密度感知学习率缩放,仅对活跃参数存梯度与状态。
意义:使稀疏预训练成为密集训练的实用替代方案,推动大模型显存与算力的进一步压缩。
Latent Reward Steering:在潜在状态中"修正"推理
论文:LRS
创新点:不再依赖预定义的认知行为,而是训练奖励模型评估 SAE 中间状态的优劣,仅在"脆弱状态"上用奖励梯度做修正。
意义:为推理模型在不重训练前提下提供细粒度、按需介入的认知增强通路。
👥 作者与机构观察
本期论文呈现明显的"中美高校 + 工业实验室"协作格局;多数论文为 5-10 人小队合作,少数(如 CV-Arena、SkillVetBench、MOSAIC)为多机构联合。
📄 精选论文 Top 10
-
CV-Arena: An Open Benchmark for Instructional Computer Vision Problem Solving
Fangzhou Lin, Peiran Li, Lingyu Xu 等 · 12K 高分辨率指令编辑 + 人机协同 Elo,重新定义视觉编辑评测尺度
-
Subliminal Learning is a LoRA Artifact
Todd Nief, Harvey Yiyun Fu, Mark Muchane 等 · 把一个安全谜团还原为 LoRA 超参问题,警示对齐研究方法论
-
Memory-Efficient LLM Training with Dynamic Sparsity (SMET)
Qiao Xiao, Boqian Wu, Patrik Okanovic 等 · 解决 DST 在 LLM 预训练中的稳定性瓶颈
-
FALAT: Tracing Failures in LLM Agent Trajectories
Md Nakhla Rafi, Md Ahasanuzzaman, Dong Jae Kim 等 · 把"哪个智能体哪一步犯错"做成可计算的依赖搜索
-
SkillVetBench
Ismail Hossain, Sai Puppala, Zhuoran Lu 等 · 首个面向开放技能生态的语义+沙箱双阶段供应链安全基准
-
Latent Reward Steering
Jiakang Li, Guanyu Zhu, Can Jin 等 · 推理时的"潜在奖励梯度"修正法,免重训练促进认知行为
-
Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults
Rana Muhammad Usman · 强证据揭示上游推荐器是被忽视的智能体安全攻击面
-
Pause and Think: Video-Grounded Assistive Action Suggestion
Shivam Singh, Saptarshi Majumdar, Pratik Prabhanjan 等 · 4B VLM 通过结构化推理监督超越 GPT-4o 与同代大模型
-
MemPro: Agentic Memory Systems as Evolvable Programs
Qingshan Liu, Guoqing Wang, Wen Wu 等 · 把整个记忆-检索 pipeline 当作可演化程序而非固定提示
-
Acting with AI: An Interaction-Based Framework for Agentic Tort Liability
Yiheng Yao · 将 Bratman 计划理论引入侵权法,构建可解释的智能体责任分配框架
🔮 趋势观察
智能体研究正在从"做更多"转向"做对"
本日不少于 6 篇论文(FALAT、SelSkill、SkillVetBench、SkillReact、TRACE、CoMIC)都在解决同一个问题:当工具/技能/记忆数量增加时,如何保证智能体仍能做出正确且安全的决策。这表明智能体研究的关注点正从能力扩展转向治理与归因。
"少即是多"在多个维度同时出现
Pause and Think(4B → 235B 水平)、SkillPager(节省 47% tokens)、SMET(仅训活跃参数)、KACE(分层注入)、DeLask(跳过有害层)共同昭示:结构化稀疏 + 选择性激活正成为继 RL 与 RAG 之后的下一个主旋律。
评论