arXiv cs.AI 日报 (20260530~20260530)

arXiv cs.AI 日报 (2026-05-30)

本期共收录 99 篇 cs.AI 相关论文。围绕 LLM 智能体安全、推理与训练效率、多模态视觉、对齐与基准评估等方向展开，重点突出 4 个研究方向、4 项关键技术突破，并精选 Top 10 论文。

📊 研究方向热度分析

智能体 / 记忆 / 工具使用（约 12 篇）

本周智能体研究密集聚焦在长周期任务的失败归因、技能调用判别与记忆系统进化，强调"会用工具"远比"有更多工具"重要。

FALAT: Tracing Failures in LLM Agent Trajectories — 依赖图引导搜索精确归因多智能体失败步骤
MemPro: Agentic Memory Systems as Evolvable Programs — 把记忆系统视为可演化程序，跨版本迭代改进
CoMIC: Collaborative Memory and Insights Circulation — 云边协同的去中心化执行 + 集中反思框架
SelSkill: Skill or Skip? — 双粒度偏好学习决定何时调用技能
MOSAIC: Modular Orchestration for Structured Agentic Intelligence — 把自动数据科学转化为可复用的结构化模型选择

安全 / 对齐 / 责任（约 10 篇）

智能体生态的供应链安全、推理痕迹泄露、组合性风险与法律责任成为多篇论文的共同主题。

SkillVetBench — 开放技能生态的语义+沙箱双阶段安全审计基准
SkillReact: When Safe Skills Collide — 测量"个体安全技能"组合后的潜在风险
Adversarial Feeds Steer LLM Agent Decisions — 上游推荐流可以系统性扭转智能体决策
Hidden Thoughts Are Not Secret — 通过提示工程恢复被隐藏的推理痕迹
Acting with AI: Agentic Tort Liability — 以交互理论重构智能体侵权法律框架
MESA: MoE Safety Alignment — 针对 MoE"安全稀疏性"的去中心化对齐

推理 / 训练效率 / RL（约 14 篇）

推理质量与训练成本的平衡是本日最大类别：稀疏训练、潜在奖励引导、自适应推理与跨域 RL 多线并进。

SMET: Memory-Efficient LLM Training with Dynamic Sparsity — 解决 DST 中新生长参数的"冷启动"震荡
Latent Reward Steering (LRS) — 在 SAE 潜在空间用奖励梯度引导推理
CARE-RL: Capability-Aware Reinforcement Learning — 通过子空间投影缓解多域 RL 能力冲突
DeLask: Decoder Layer Skipping — 用层间梯度反向识别"幻觉源"层并跳过
KACE: Knowledge-Adaptive Context Engineering — 难度/领域分层的"知识树"按需注入上下文

多模态 / 视觉 / 视频（约 10 篇）

从可教学的视频思考、专业指令式图像编辑，到 VLA 的安全屏障，多模态在"任务化"与"专业化"上加速。

CV-Arena — 12K 真实图像指令编辑基准 + Active Elo 人机协同评测
Pause and Think — 4B 参数模型靠"暂停推理"达到 235B 的水准
V-LynX — 复用 Video LLM 内部 token 接口接入新模态
PaCo-VLA — 在 VLA 与底层控制间插入被动性安全屏障
SkyShield — 低空 UAV 单目语义占据基准与安全度量 KAR-mIoU

💡 关键技术突破

Subliminal Learning 的真相：只是 LoRA 的副产物

论文：Subliminal Learning is a LoRA Artifact

创新点：系统化拆解了"看似无害数据可传递行为偏好"这一现象，证明其与 LoRA 秩呈倒 U 形相关，全参数微调下消失，且高度依赖训练-评估上下文一致性。

意义：将一个看似神秘的安全风险还原为可控的微调超参数问题，为后续对齐研究提供清晰的边界。

Active Elo + CV-Judge：人机协同评测大规模视觉指令

论文：CV-Arena

创新点：用 VLM 评判器自动过滤明显失败/高置信比较，把高质量近距离比较交给专家评分，并通过可靠度加权 Elo 聚合多源偏好。

意义：为指令式图像编辑这类专业级开放任务提供了可扩展、保留人类保真度的评测范式。

FALAT：依赖图驱动的多智能体失败归因

论文：FALAT

创新点：把失败归因从"逐步分类"重构为"依赖搜索"——先构造任务应有的解决预期，再追溯推理-工具-消息依赖链路，并验证修正某步是否足以恢复期望结果。

意义：在 Who&When 上同时显著提升责任智能体与关键步骤识别精度，为长轨迹智能体提供可解释的诊断基础。

SMET：让动态稀疏训练真正稳定下来

论文：Memory-Efficient LLM Training with Dynamic Sparsity

创新点：指出 Adam 在新激活参数上的"冷启动"是 DST loss spike 的根因，提出优化器预热 + 密度感知学习率缩放，仅对活跃参数存梯度与状态。

意义：使稀疏预训练成为密集训练的实用替代方案，推动大模型显存与算力的进一步压缩。

Latent Reward Steering：在潜在状态中"修正"推理

论文：LRS

创新点：不再依赖预定义的认知行为，而是训练奖励模型评估 SAE 中间状态的优劣，仅在"脆弱状态"上用奖励梯度做修正。

意义：为推理模型在不重训练前提下提供细粒度、按需介入的认知增强通路。

👥 作者与机构观察

本期论文呈现明显的"中美高校 + 工业实验室"协作格局；多数论文为 5-10 人小队合作，少数（如 CV-Arena、SkillVetBench、MOSAIC）为多机构联合。

类型	代表论文	关键词
大型多机构协作	CV-Arena (15 作者), MOSAIC (11 作者)	基准、Agent
系列工作（同一作者）	Subramanian & Bansal × 2（RL 泛化）；Vinay Edula × 2（PCB 检测）	RL、检测
工业实验室出品	Samsung (LP5X-PIM Sim)；Accenture/Adobe 风格 (Authenticity Debt)	硬件、治理
单作者观点稿	AXIOM、AI Sovereignty (France)、Interaction-Centered Intelligence	愿景与法律

📄 精选论文 Top 10

CV-Arena: An Open Benchmark for Instructional Computer Vision Problem Solving
Fangzhou Lin, Peiran Li, Lingyu Xu 等 · 12K 高分辨率指令编辑 + 人机协同 Elo，重新定义视觉编辑评测尺度
Subliminal Learning is a LoRA Artifact
Todd Nief, Harvey Yiyun Fu, Mark Muchane 等 · 把一个安全谜团还原为 LoRA 超参问题，警示对齐研究方法论
Memory-Efficient LLM Training with Dynamic Sparsity (SMET)
Qiao Xiao, Boqian Wu, Patrik Okanovic 等 · 解决 DST 在 LLM 预训练中的稳定性瓶颈
FALAT: Tracing Failures in LLM Agent Trajectories
Md Nakhla Rafi, Md Ahasanuzzaman, Dong Jae Kim 等 · 把"哪个智能体哪一步犯错"做成可计算的依赖搜索
SkillVetBench
Ismail Hossain, Sai Puppala, Zhuoran Lu 等 · 首个面向开放技能生态的语义+沙箱双阶段供应链安全基准
Latent Reward Steering
Jiakang Li, Guanyu Zhu, Can Jin 等 · 推理时的"潜在奖励梯度"修正法，免重训练促进认知行为
Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults
Rana Muhammad Usman · 强证据揭示上游推荐器是被忽视的智能体安全攻击面
Pause and Think: Video-Grounded Assistive Action Suggestion
Shivam Singh, Saptarshi Majumdar, Pratik Prabhanjan 等 · 4B VLM 通过结构化推理监督超越 GPT-4o 与同代大模型
MemPro: Agentic Memory Systems as Evolvable Programs
Qingshan Liu, Guoqing Wang, Wen Wu 等 · 把整个记忆-检索 pipeline 当作可演化程序而非固定提示
Acting with AI: An Interaction-Based Framework for Agentic Tort Liability
Yiheng Yao · 将 Bratman 计划理论引入侵权法，构建可解释的智能体责任分配框架

🔮 趋势观察

智能体研究正在从"做更多"转向"做对"

本日不少于 6 篇论文（FALAT、SelSkill、SkillVetBench、SkillReact、TRACE、CoMIC）都在解决同一个问题：当工具/技能/记忆数量增加时，如何保证智能体仍能做出正确且安全的决策。这表明智能体研究的关注点正从能力扩展转向治理与归因。

"少即是多"在多个维度同时出现

Pause and Think（4B → 235B 水平）、SkillPager（节省 47% tokens）、SMET（仅训活跃参数）、KACE（分层注入）、DeLask（跳过有害层）共同昭示：结构化稀疏 + 选择性激活正成为继 RL 与 RAG 之后的下一个主旋律。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI DAILY 20260530