arXiv cs.AI 日报 (20260603~20260603)

arXiv cs.AI 日报 (20260603~20260603)

共 129 篇 · 主要子类:cs.AI: 129, cs.LG: 50, cs.CL: 26 · 20260603-20260603
Generated by tanar · 2026-06-05 10:18

📊 研究方向热度分析

arXiv cs.AI 日报 (2026-06-03) · 共 129 篇论文

🤖 智能体架构与协作推理(约 35 篇)

本日最热方向。核心趋势:智能体从"提示词驱动"走向"结构化工程"——流式通信、参数化记忆、图结构规划、自演化框架层出不穷,工业级部署案例增多。

⚡ 推理训练与强化学习优化(约 30 篇)

RLVR 的数据效率与奖励信号质量成为焦点:从丰富反馈中学习、半监督 RLVR、经验回放、以及优化器底层机制的理论解析同步推进。

🛡️ AI 安全、隐私与可信性(约 25 篇)

安全关注点从"单次会话越狱"升级到"跨会话持久化攻击":MCP 协议的描述-代码不一致、Agent 记忆投毒、级联幻觉等系统级威胁集中暴露。

🎨 多模态理解与生成(约 20 篇)

流式音频交互、视频记忆评测、主动式程序辅助等方向推动多模态模型向"实时感知-决策-响应"闭环演进。

💡 关键技术突破

流式多智能体推理 + Step-Level Scaling Law

论文Streaming Communication in Multi-Agent Reasoning

创新点:StreamMA 将多智能体的"生成-传输"范式改为流水线式流式传输,下游 Agent 在上游生成早期可靠步骤时即可开始工作。首次提供 stream/serial/single 三种协议的闭式联合分析,发现"增加每个 Agent 的推理步数"同时提升效果与效率——一条正交于 Agent 数量缩放的新维度。

意义:在 HMMT 2026 上最高 +22.4pp,为多智能体系统提供了低延迟高效果的新范式,工业级多 Agent 编排可直接受益。

自演化参数记忆:Agent 在单集内真正"学习"

论文TMEM: Scaling Self-Evolving Agents via Parametric Memory

创新点:跳出"提示空间记忆"范式,Agent 在单 episode 内通过在线 LoRA 更新将蒸馏监督吸收进快速权重 Δ_t,真正改变后续行为。提取策略本身可用 RL 优化,SVD 初始化加速在线收敛。

意义:首次在 Agent 框架中实现"经验→参数"闭环,突破上下文窗口瓶颈,为长期自主 Agent 提供新范式。

从丰富反馈中学习:分布式 DAgger 的单调改进保证

论文DistIL: RL from Rich Feedback with Distributional DAgger

创新点:证明基于反向 KL 或 Jensen-Shannon 的 RL+自蒸馏目标无法保证单调策略改进,而前向交叉熵目标可以。DistIL 利用执行轨迹、工具输出等丰富反馈,通过序列级梯度实现精细信用分配。

意义:为 RLVR 之外的推理模型训练提供了理论更扎实的替代方案,在科学推理、编程、数学三类任务上均超越基线。

Muon 优于 Adam 的曲率机理揭示

论文Why Muon Outperforms Adam: A Curvature Perspective

创新点:通过二阶 Taylor 展开发现 Muon 的优势不在一阶项而在更小的二阶曲率惩罚,进一步分解为 Normalized Directional Sharpness (NDS)——Muon 通过平衡跨曲率组的更新能量获得更低 NDS。在风格化二次问题上给出严格证明。

意义:首次从曲率角度系统解释 Muon 的 2× 训练效率优势,为优化器设计提供理论指导。

跨会话存储型提示注入:Agent 安全新威胁面

论文Cross-Session Stored Prompt Injection in Agentic Systems

创新点:类比 Web 安全中的存储型 XSS,定义"跨会话存储型提示注入"——一次成功注入可持久存在于 Agent 记忆/文件系统等系统状态中,在未来会话中隐式影响行为。构建形式化定义、分类体系和评测沙箱。

意义:将提示注入从短暂模型级威胁升级为长期系统级漏洞,推动社区重视 Agent 持久化状态的安全机制设计。

👥 作者与机构

机构/团体 活跃方向 代表论文
HKUST (Ying-Cong Chen 等) 多智能体推理 StreamMA
Ant Research / 蚂蚁集团 数据高效 RLVR、Agent 评测 GeoMin, PivotTrace, Meta-Agent Challenge
Baidu / 百度 工业级 Agent、RLVR MapAgent, TMEM
UC Berkeley / Dawn Song AI 安全 CyberGym-E2E
Tencent (Shuicheng Yan 等) 流式音频交互 Audio Interaction Model
Meta (Seungwhan Moon 等) 第一人称视角辅助 EgoProactive / Pro²Bench
KAIST (Sung Ju Hwang 等) Agent 问题发现 TIDE
清华 (Hao Peng, THUAIS) 奖励黑客、推理 RL CHERRL
Neo4j (Zachary Blumenfeld) Agent 技能图 AIP

注:本日 Agent 方向论文机构分布广泛,工业界(百度、蚂蚁、Meta、Tencent、Neo4j)与学术界(HKUST、KAIST、清华、Berkeley)均有强势输出。

📄 精选论文 Top 10

  1. Streaming Communication in Multi-Agent Reasoning

    Zhen Yang, Xiaogang Xu, Wen Wang 等 · 流式通信+step-level scaling law,多智能体推理效果与延迟双赢

  2. Reinforcement Learning from Rich Feedback with Distributional DAgger

    Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad · 理论证明前向 CE 的单调改进优势,超越 RLVR 基线

  3. Scaling Self-Evolving Agents via Parametric Memory (TMEM)

    Tao Ren, Weiyao Luo, Hui Yang 等 · 单 episode 内 LoRA 在线更新,Agent 真正从经验中学习

  4. AutoLab: Can Frontier Models Solve Long-Horizon Auto Research Tasks?

    Zhangchen Xu, Junda Chen, Yue Huang 等 · 36 个超长时间跨度任务,"坚持迭代"比"初始质量"更重要

  5. Why Muon Outperforms Adam: A Curvature Perspective

    Shuche Wang, Fengzhuo Zhang 等 · 首次从二阶曲率角度系统揭示 Muon 2× 效率优势的几何来源

  6. Audio Interaction Model

    Zhifei Xie, Zihang Liu 等 · 统一离线+在线流式音频 LALM,SoundFlow 框架+2.6M 数据集

  7. The Meta-Agent Challenge: Autonomous Agent Development

    Xinyu Lu, Tianshu Wang 等 · 元 Agent 很少匹配人类工程基线,且暴露对抗性自我改进风险

  8. Cross-Session Stored Prompt Injection in Agentic Systems

    Yuanbo Xie, Tianyun Liu 等 · 形式化跨会话存储型注入,现有防御全部失效

  9. GeoMin: Data-Efficient Semi-Supervised RLVR

    Guangcheng Zhu, Shenzhi Yang 等 · 10% 标注超越全监督,几何分布建模释放无标注数据价值

  10. CyberGym-E2E: End-to-End Cybersecurity Benchmark

    Tianneng Shi, Robin Rheem 等 · 920 个真实漏洞、139 个开源项目,覆盖全生命周期

🔮 趋势观察

1. Agent 安全从模型层升级到系统层。本日至少 5 篇论文聚焦 Agent 的系统级安全——跨会话持久化注入、记忆投毒、MCP 描述-代码不一致、级联幻觉——说明随着 Agent 具备持久状态和外部工具调用能力,安全威胁面已质变,传统的提示词防护完全不够用。

2. RLVR 的"数据效率"成为新竞争主线。GeoMin(10% 标注超全监督)、PivotTrace(29.3% 标注超全监督)、Rollout-Level Replay 三篇同日出现,表明 RLVR 社区的关注重心正从"如何训练"转向"用更少数据训练得更好"。半监督和主动学习范式正在快速渗透。

3. Agent 工业落地案例密集涌现。MapAgent(百度地图 360+ 城市)、Archi(CERN CMS 实验)、Parthenon(法律事务)、DMAIC-IAD(工业异常检测)、DSIRM(天猫搜索)——Agent 不再只是学术玩具,产业界正用结构化框架解决真实业务问题。