arXiv cs.AI 周报 (20260511~20260517)

arXiv cs.AI 周报 (20260511~20260517)

共 1568 篇 · 主要子类:cs.AI: 1568, cs.LG: 570, cs.CL: 285 · 20260511-20260517
Generated by tanar · 2026-05-19 13:45

arXiv cs.AI 周报 (20260511 ~ 20260517)

本期共扫描 1568 篇论文,按主题聚类后呈现核心方向、关键技术突破与精选 Top 10。

📊 研究方向热度分析

智能体系统 / 记忆 / 工具使用(7 篇)

本周智能体研究继续从"单步生成"转向"长程协作 + 持久记忆"。多个工作探索因果记忆选择、神经符号混合记忆、以及多智能体拓扑学习。

代码智能体 / 软件工程(8 篇)

SWE-Agent 类工作集中于真实工业级长程任务:从企业 SaaS 全栈生成到漏洞修复,重点突出"真实端到端交付"而非孤立函数。

  • SaaSBench — 首个企业级 SaaS 工程基准,揭示 95% 失败发生在"配置 + 集成"而非业务逻辑。
  • WebGameBench — 浏览器原生游戏交付基准,最佳 Agent 仅 20.2% Excellent。
  • ContraFix — 差分运行时证据 + 可复用修复技能,SEC-Bench 84.0% 解决率。
  • MemRepair — 三层记忆驱动的仓库级漏洞修复。
  • DiagEval — GUI Agent 失败原因诊断,区分"评估器错误"与"软件缺陷"。
  • Deep Research Agents 评测 — 三大前沿 Agent 在咨询任务上 ACCEPT 率均低于 22%。

安全 / 对齐 / 攻击防御(9 篇)

多智能体安全成为新焦点:从"能力悖论"到"模糊状态注入"、级联系统的对抗操控,攻击面随智能体协作而急剧扩大。

  • The Capability Paradox — 更强 Worker 反而让多智能体系统更不安全(ASR 18%→64%)。
  • ASPI — 澄清提问状态使提示注入成功率从 1.8% 飙到 34%。
  • LLM 级联攻击 — 首次揭示 LLM 级联系统可被针对性破坏成本-精度结构。
  • ADR — Uber 部署 10+ 月的 MCP Agent 检测系统,AgentDojo 上零误报全检出。
  • LPG (Latent Policy Guard) — 动态策略下的潜在审议护栏,比 Qwen3 Thinking 快 11 倍。
  • Attention Hijacking — VLM 跨查询响应操纵新攻击。
  • Ablating Safety — 系统评估对齐去除作为可控转换协议。

推理 / 训练效率 / RL(7 篇)

RL 微调的"信用分配"和奖励规则可学习化是本周热点;同时出现了对 Transformer 训练动力学的严格数学刻画。

  • SAPO — 步对齐策略优化,把"思考块 + SID token"作为最小信用单位。
  • AutoRubric-T2I — 首个 T2I rubric 学习框架,仅用 0.01% 偏好数据。
  • HRC + DSPPO — 显式分解传递性和循环性偏好,Gemma-2B-it 上 +1.23%。
  • Training Infinitely Deep and Wide Transformers — 在 mean-field 体系下严格刻画 Transformer 训练。
  • Weak-to-Strong Elicitation — 不匹配的"小模型错误草稿"反而能激发更强学习者。
  • LEAP — 基于 Gumbel-sigmoid 的端到端非结构剪枝,比 ADMM 平均高 2.59 分。

多模态 / 视觉 / 语音(8 篇)

VLM 评估、视觉机制可解释性、SAM 加速等方向继续推进;EEG-to-Text 和 ECG 世界模型把多模态扩展到生理信号。

医疗 / 心理 / 生物(6 篇)

从被动传感预测干预、ECG 结构化诊断到药物分子优化,AI 与生命健康的结合走向"过程级 + 可解释"。

  • PULSE — 智能体式被动传感调查,肿瘤幸存者情绪预测平衡精度 0.743。
  • 自闭症挑战行为预测 — 真实教室 110 小时多模态可穿戴数据,AUC 0.78。
  • CardioThink — 医生启发的结构化 ECG 推理 + SSPO。
  • CBT-Audio — 评测语音 LLM 在认知行为治疗中的患者痛苦估计。
  • DEPPA — 通过 DDPO 微调 pocket-aware 扩散模型做多属性药物优化。

RAG / 知识增强 / 评估(5 篇)

RAG 进入"质量优先"时代:知识冲突、奖励 rubric、多文档咨询级评估都被严格化。

  • ConflictRAG — 显式检测、分类、消解 RAG 中的知识冲突。
  • Deep Research Agents 评测 — 引入 Verifier-Rubric Score 和认知陷阱。
  • QQJ — Quantifying Qualitative Judgment 把专家评分规则映射为可校准 LLM 评估。
  • Dataset Visibility Asymmetry — 低资源语言数据集"目录显示 vs 文献使用"的差距。

系统 / 硬件感知 / 边缘部署(4 篇)

"模型 × 硬件"协同搜索、可分叉工作区、流式 ANN 索引等系统级工作展示了 AI infra 层的工程深度。

  • LLMForge — Infinite-Head Attention + 多后端代价模型的硬件感知 NAS。
  • TClone — 让 GUI 工作区像 git 一样可分叉,端到端任务延迟降至 0.5×。
  • IVF-TQ — 无 codebook 残差层 ANN 索引,10M 流式数据下零 codebook 重训。
  • Computational Token Economics — 提出"代币经济三难"框架,连接经济理论与 AI infra。

💡 关键技术突破

能力悖论:更强 Worker 让多智能体系统更不安全

论文The Capability Paradox

创新点:通过 4.2 万次对抗实验 + 多层次中介分析,识别"语义劫持"攻击:随着 Worker 能力提升,系统级 ASR 从 18.4% 升至 63.9%(峰值 94.4%)。"语言确定性"是关键中介(占效应 74%)。

意义:颠覆"升级组件即提升安全"的直觉,提出异质集成验证将 ASR 从 52.8% 降至 2.0%——多智能体安全设计要利用而非消除能力不对称。

SAPO:把 RL 信用分配粒度对齐到结构化输出的 token

论文SAPO: Step-Aligned Policy Optimization

创新点:在生成式推荐中,传统 outcome reward 把整个响应一并奖惩;SAPO 给每个"思考块 + SID token"步对齐独立组相对优势,使奖励信号自然匹配解码器的输出分解。

意义:揭示一条通用原则——结构化生成的 RL 目标应镜像解码器自身的输出分解。在三大推荐数据集稳定超越基线。

Weak-to-Strong:错配的弱模型错误草稿激发强模型能力

论文Weak-to-Strong Elicitation via Mismatched Wrong Drafts

创新点:将"小模型对错误问题给出的错误数学草稿"注入强模型 GRPO 上下文,反而比标准在线 RL 更优;Mathstral-7B 达到 71.98% MATH-500(该模型公开最高纪录)。

意义:单卡可复现、无 SFT/无奖励模型/无合成数据。重新定义"教师信号"——错误的、不相关的草稿仍可作为有效探索先验。

SparseSAM:训练免费的 SAM 结构稀疏化

论文SparseSAM

创新点:Stripe-Sort Attention 使用 Z-order 排列把动态稀疏转化为静态硬件友好图样;Residual-Consistency MLP 仅让信息丰富的 token 走 MLP,其余走残差路径。

意义:在 0.4 密度仅损失 0.004 mIoU,2× 推理加速、2.8× 显存削减,零训练即可部署,对边缘视觉应用有重大价值。

ADR:Uber 生产部署的企业级 MCP 智能体安全检测

论文ADR: An Agentic Detection System

创新点:首个大规模生产验证的企业 MCP 智能体安全框架,三组件(Sensor/Explorer/Detector)+ 双层在线检测;在 Uber 部署 10+ 月,覆盖 7,200+ 主机、日均 10,000+ 会话。

意义:在 ADR-Bench 上比 ALRPHFS、GuardAgent、LlamaFirewall 三大 SOTA 高 2-4× F1;在 AgentDojo 上零误报检出全部 93 项攻击。

👥 作者与机构

本周高频出现的研究主题与代表机构:

主题 代表团队 / 机构 代表论文
企业级 Agent 安全Uber AI(Chenning Li, Pan Hu 等)ADR
企业 SaaS 编码 AgentUSTC + 美团(Zehui Chen, Xiangxiang Chu 等)SaaSBench
仓库级漏洞修复Beihang Univ. (Simiao Liu, Fang Liu 等)ContraFix / MemRepair
数据库工作流自动化Microsoft (Yiwen Zhu, Joyce Cahoon 等)GraphMind
Transformer 训练理论ENS Paris / Rice Univ. (Gabriel Peyré 等)Training Infinitely Deep Transformers
视觉机制可解释性Fudan + Xi'an Jiaotong (Xipeng Qiu, Deyu Meng 等)Distributional View for Visual MI
边缘 LLM 架构搜索Univ. of Michigan + Google (Mehdi Saligane 等)LLMForge
软件工程 AgentBilkent Univ. (Eray Tüzün 课题组)两篇 SE Agent 工作(Bug 分类 / Code Review)

合作模式观察

  • "工业 + 学术"双线合作明显加强:ADR、GraphMind、SaaSBench 均结合真实生产数据。
  • 多智能体安全作为新分支跨 cs.CR / cs.AI / cs.MA,作者群从经典 NLP 安全团队迁移而来。
  • 软件工程 Agent方向中国和土耳其团队(Bilkent、USTC)产出活跃。

📄 精选论文 Top 10

  1. The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure

    Qiqi Liu, Thorsten Holz, Shilin Ye 等 · 颠覆"组件越强越安全"直觉,4.2 万次实验 + 中介分析揭示"语言确定性"链路。

  2. ADR: An Agentic Detection System for Enterprise Agentic AI Security

    Chenning Li, Pan Hu, Justin Xu 等 · Uber 生产部署 10 个月、7200+ 主机覆盖的 MCP 安全工程标杆。

  3. ASPI: Seeking Ambiguity Clarification Amplifies Prompt Injection Vulnerability

    Udari Madhushani Sehwag, Zhengyang Shan 等 · 揭示"澄清提问"是被忽视的攻击放大器,10 个前沿模型集体中招。

  4. SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

    Zaiyi Zheng, Guanghui Min, Yaochen Zhu 等 · 给"思考块 + SID token"做最小信用分配,思路可推广到结构化生成 RL。

  5. Weak-to-Strong Elicitation via Mismatched Wrong Drafts

    Wei Deng · 单卡可复现,错配的小模型错误草稿成为最强探索先验,挑战"on-policy 至上"。

  6. SparseSAM: Structured Sparsification of Activations in Segment Anything Models

    Hoai-Chau Tran, Chi H. Nguyen, Duy M. H. Nguyen 等 · 训练免费 2× 加速 + 2.8× 显存削减,对 SAM 实际部署直接可用。

  7. SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering

    Qingnan Ren, Shun Zou, Shiting Huang 等 · 第一个真实企业 SaaS 异构栈基准,揭示瓶颈是"集成配置"而非业务代码。

  8. Training Infinitely Deep and Wide Transformers

    Raphaël Barboni, Maarten V. de Hoop, Takashi Furuya, Gabriel Peyré · mean-field 体系下首次给出严格 NTK 单射性条件 + 全局收敛证明。

  9. GraphMind: From Operational Traces to Self-Evolving Workflow Automation

    Yiwen Zhu, Joyce Cahoon, Anna Pavlenko 等 · 4 个 Microsoft 云 DB 服务实战部署,盲评 4.95/5,工作流图自演化范式落地。

  10. TClone: Low-Latency Forking of Live GUI Environments for Computer-Use Agents

    Yutong Huang, Vikranth Srivatsa 等 · 把"工作区版本化"作为系统原语,比 KVM/CRIU 端到端快 1.5-1.9×。

🔮 趋势观察

三个明显信号

1. Agent 工程进入"工业级现实主义"阶段。本周至少 5 篇工作(ADR、GraphMind、SaaSBench、WebGameBench、TClone)来自或验证于真实生产环境,评估指标也从 pass@1 转向"USABLE rate"、"deployed-month"、"账户密钥实地检出量"等运维语义。

2. 多智能体安全成为独立子方向。从能力悖论、级联攻击、模糊澄清攻击到 MCP 检测系统,攻击面随着 Agent 协作显著扩大。"Worker 越强系统越脆弱"等反直觉结论提示:组件级评估方法学已经过时。

3. 记忆 / 信用分配 / 评估的"细粒度化"。SAPO 把信用分到 token 步、CMI 用因果干预筛选记忆、QQJ 把人类规则细化为可校准 LLM 评估、ConflictRAG 把检索结果按冲突类型分流——共同方向是用更细的语义颗粒替代"整段 reward / 整段相似度"。