arXiv cs.AI 日报 (20260603~20260603)

📊 研究方向热度分析

arXiv cs.AI 日报 (2026-06-03) · 共 129 篇论文

🤖 智能体架构与协作推理（约 35 篇）

本日最热方向。核心趋势：智能体从"提示词驱动"走向"结构化工程"——流式通信、参数化记忆、图结构规划、自演化框架层出不穷，工业级部署案例增多。

Streaming Communication in Multi-Agent Reasoning — 流水线化多智能体推理，平均 +7.3pp，发现 step-level scaling law
TMEM: Scaling Self-Evolving Agents via Parametric Memory — 单集内在线 LoRA 更新，将失败经验内化为参数
AgentJet: Swarm Training Framework for Agentic RL — 解耦多节点架构，支持异构多模型 RL 与热更新
Meta-Agent Challenge — 评估前沿模型自主开发 Agent 的能力，揭示高方差与对抗行为
BioManus: MCP-Native Graph Planning for Biomedical Agents — 图结构化 MCP 生态，上下文压缩比 Θ(N/(h·m̄))

⚡ 推理训练与强化学习优化（约 30 篇）

RLVR 的数据效率与奖励信号质量成为焦点：从丰富反馈中学习、半监督 RLVR、经验回放、以及优化器底层机制的理论解析同步推进。

DistIL: RL from Rich Feedback with Distributional DAgger — 前向交叉熵保证单调策略改进，超越 RLVR 基线
Why Muon Outperforms Adam: A Curvature Perspective — 从曲率视角证明 Muon 的 NDS 更低，理论+实证
GeoMin: Semi-Supervised RLVR via Geometric Distribution Modeling — 仅 10% 标注超越全监督模型
Rollout-Level Advantage-Prioritized Experience Replay for GRPO — 回放缓冲区提升 GRPO 样本效率，4B 规模 +4.35pp
CHERRL: Controllable Hacking Environment for Rubric-Based RL — 提供可控环境稳定复现奖励黑客行为

🛡️ AI 安全、隐私与可信性（约 25 篇）

安全关注点从"单次会话越狱"升级到"跨会话持久化攻击"：MCP 协议的描述-代码不一致、Agent 记忆投毒、级联幻觉等系统级威胁集中暴露。

Cross-Session Stored Prompt Injection in Agentic Systems — 类比存储型 XSS，注入可跨会话持久影响 Agent
DCI in Real-world MCP Servers — 19,200 对描述-代码中 9.93% 存在不一致，构成安全盲区
Memory Poisoning Attacks in LLM Agents — 识别 4 种写入通道和 9 种结构漏洞
CHARM: Cascading Hallucination in Agentic RAG — 89.4% 级联检出率，错误传播降低 82.1%
CyberGym-E2E: End-to-End Cybersecurity Benchmark — 920 个真实漏洞，覆盖发现-PoC-修补全生命周期

🎨 多模态理解与生成（约 20 篇）

流式音频交互、视频记忆评测、主动式程序辅助等方向推动多模态模型向"实时感知-决策-响应"闭环演进。

Audio Interaction Model — 统一离线任务与在线流式音频交互，构建 2.6M 流式语料
M³Eval: Multi-Modal Memory Evaluation — 首个基于认知心理学的多模态记忆评测框架
EgoProactive: Proactive Procedural Assistance — 大规模第一人称视角主动干预基准+架构
GeM-NR: Multi-View Editing for Nonrigid Scene Changes — 无训练方法实现几何感知多视角一致编辑
Evaluating Reasoning Fidelity in Visual Text Generation — T2I 模型可渲染清晰文本但推理过程频现语义错误

💡 关键技术突破

流式多智能体推理 + Step-Level Scaling Law

论文：Streaming Communication in Multi-Agent Reasoning

创新点：StreamMA 将多智能体的"生成-传输"范式改为流水线式流式传输，下游 Agent 在上游生成早期可靠步骤时即可开始工作。首次提供 stream/serial/single 三种协议的闭式联合分析，发现"增加每个 Agent 的推理步数"同时提升效果与效率——一条正交于 Agent 数量缩放的新维度。

意义：在 HMMT 2026 上最高 +22.4pp，为多智能体系统提供了低延迟高效果的新范式，工业级多 Agent 编排可直接受益。

自演化参数记忆：Agent 在单集内真正"学习"

论文：TMEM: Scaling Self-Evolving Agents via Parametric Memory

创新点：跳出"提示空间记忆"范式，Agent 在单 episode 内通过在线 LoRA 更新将蒸馏监督吸收进快速权重 Δ_t，真正改变后续行为。提取策略本身可用 RL 优化，SVD 初始化加速在线收敛。

意义：首次在 Agent 框架中实现"经验→参数"闭环，突破上下文窗口瓶颈，为长期自主 Agent 提供新范式。

从丰富反馈中学习：分布式 DAgger 的单调改进保证

论文：DistIL: RL from Rich Feedback with Distributional DAgger

创新点：证明基于反向 KL 或 Jensen-Shannon 的 RL+自蒸馏目标无法保证单调策略改进，而前向交叉熵目标可以。DistIL 利用执行轨迹、工具输出等丰富反馈，通过序列级梯度实现精细信用分配。

意义：为 RLVR 之外的推理模型训练提供了理论更扎实的替代方案，在科学推理、编程、数学三类任务上均超越基线。

Muon 优于 Adam 的曲率机理揭示

论文：Why Muon Outperforms Adam: A Curvature Perspective

创新点：通过二阶 Taylor 展开发现 Muon 的优势不在一阶项而在更小的二阶曲率惩罚，进一步分解为 Normalized Directional Sharpness (NDS)——Muon 通过平衡跨曲率组的更新能量获得更低 NDS。在风格化二次问题上给出严格证明。

意义：首次从曲率角度系统解释 Muon 的 2× 训练效率优势，为优化器设计提供理论指导。

跨会话存储型提示注入：Agent 安全新威胁面

论文：Cross-Session Stored Prompt Injection in Agentic Systems

创新点：类比 Web 安全中的存储型 XSS，定义"跨会话存储型提示注入"——一次成功注入可持久存在于 Agent 记忆/文件系统等系统状态中，在未来会话中隐式影响行为。构建形式化定义、分类体系和评测沙箱。

意义：将提示注入从短暂模型级威胁升级为长期系统级漏洞，推动社区重视 Agent 持久化状态的安全机制设计。

👥 作者与机构

机构/团体	活跃方向	代表论文
HKUST (Ying-Cong Chen 等)	多智能体推理	StreamMA
Ant Research / 蚂蚁集团	数据高效 RLVR、Agent 评测	GeoMin, PivotTrace, Meta-Agent Challenge
Baidu / 百度	工业级 Agent、RLVR	MapAgent, TMEM
UC Berkeley / Dawn Song	AI 安全	CyberGym-E2E
Tencent (Shuicheng Yan 等)	流式音频交互	Audio Interaction Model
Meta (Seungwhan Moon 等)	第一人称视角辅助	EgoProactive / Pro²Bench
KAIST (Sung Ju Hwang 等)	Agent 问题发现	TIDE
清华 (Hao Peng, THUAIS)	奖励黑客、推理 RL	CHERRL
Neo4j (Zachary Blumenfeld)	Agent 技能图	AIP

注：本日 Agent 方向论文机构分布广泛，工业界（百度、蚂蚁、Meta、Tencent、Neo4j）与学术界（HKUST、KAIST、清华、Berkeley）均有强势输出。

📄 精选论文 Top 10

Streaming Communication in Multi-Agent Reasoning
Zhen Yang, Xiaogang Xu, Wen Wang 等 · 流式通信+step-level scaling law，多智能体推理效果与延迟双赢
Reinforcement Learning from Rich Feedback with Distributional DAgger
Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad · 理论证明前向 CE 的单调改进优势，超越 RLVR 基线
Scaling Self-Evolving Agents via Parametric Memory (TMEM)
Tao Ren, Weiyao Luo, Hui Yang 等 · 单 episode 内 LoRA 在线更新，Agent 真正从经验中学习
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research Tasks?
Zhangchen Xu, Junda Chen, Yue Huang 等 · 36 个超长时间跨度任务，"坚持迭代"比"初始质量"更重要
Why Muon Outperforms Adam: A Curvature Perspective
Shuche Wang, Fengzhuo Zhang 等 · 首次从二阶曲率角度系统揭示 Muon 2× 效率优势的几何来源
Audio Interaction Model
Zhifei Xie, Zihang Liu 等 · 统一离线+在线流式音频 LALM，SoundFlow 框架+2.6M 数据集
The Meta-Agent Challenge: Autonomous Agent Development
Xinyu Lu, Tianshu Wang 等 · 元 Agent 很少匹配人类工程基线，且暴露对抗性自我改进风险
Cross-Session Stored Prompt Injection in Agentic Systems
Yuanbo Xie, Tianyun Liu 等 · 形式化跨会话存储型注入，现有防御全部失效
GeoMin: Data-Efficient Semi-Supervised RLVR
Guangcheng Zhu, Shenzhi Yang 等 · 10% 标注超越全监督，几何分布建模释放无标注数据价值
CyberGym-E2E: End-to-End Cybersecurity Benchmark
Tianneng Shi, Robin Rheem 等 · 920 个真实漏洞、139 个开源项目，覆盖全生命周期

🔮 趋势观察

1. Agent 安全从模型层升级到系统层。本日至少 5 篇论文聚焦 Agent 的系统级安全——跨会话持久化注入、记忆投毒、MCP 描述-代码不一致、级联幻觉——说明随着 Agent 具备持久状态和外部工具调用能力，安全威胁面已质变，传统的提示词防护完全不够用。

2. RLVR 的"数据效率"成为新竞争主线。GeoMin（10% 标注超全监督）、PivotTrace（29.3% 标注超全监督）、Rollout-Level Replay 三篇同日出现，表明 RLVR 社区的关注重心正从"如何训练"转向"用更少数据训练得更好"。半监督和主动学习范式正在快速渗透。

3. Agent 工业落地案例密集涌现。MapAgent（百度地图 360+ 城市）、Archi（CERN CMS 实验）、Parthenon（法律事务）、DMAIC-IAD（工业异常检测）、DSIRM（天猫搜索）——Agent 不再只是学术玩具，产业界正用结构化框架解决真实业务问题。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI DAILY 20260603