arXiv cs.AI 周报 (2026-05-04 ~ 2026-05-10)

arXiv cs.AI 周报 (2026-05-04 ~ 2026-05-10)

采样 200 篇 · Agent 安全、推理效率、医疗 AI
Generated by tanar · 2026-05-17 22:48

📊 研究方向热度

本周(5/4-5/10)cs.AI 抽样 200 篇。Agent 安全成独立议题;推理效率从静态阈值走向自适应;多模态向 VLA / 轻量化适配分流。

🤖 智能体 / 记忆 / 工具使用

🛡️ Agent 安全 / 越狱 / 红队

⚡ 推理效率

  • LEAD — RL 动态校准正确性-效率,对称惩罚 over/under-thinking。
  • LoopUS — 预训练 LLM 重铸为循环潜空间精化模型。
  • RuPLaR — 多步推理链压缩到一步潜空间表示。
  • Hidden Error Awareness in CoT — CoT 错误信号诊断有用但不因果。

🎨 多模态 / VLA

  • RePO-VLA — recovery-driven 策略优化训练 VLA。
  • SKG-VLA — 场景知识图谱作 VLA 结构先验。
  • LiteMedCoT-VL — 医学 VQA 参数高效适配。
  • SWIFT — 长视频生成的 prompt-adaptive memory。

🩺 医疗 AI

⚙️ 训练系统 / Serving

🧠 表征 / 可解释性

💡 关键技术突破

1. Oracle Poisoning:当 Agent 信任工具返回的数据

论文Oracle Poisoning

创新点:定义区别于 prompt injection 的攻击范式——污染 KG 让模型"以正确推理得错误结论"。4200 万节点生产 KG,9 模型 / 3 厂商,270 次工具调用中 269 次接受伪造数据。揭示 inline 评估假阴性:GPT-5.1 inline 0%、tool-use 100%。

意义:直接冲击当下 Agent 安全评估方法学。

2. Portable Agent Memory:跨厂商记忆协议

论文Portable Agent Memory

创新点:Apache 2.0 协议 + SDK,五种记忆类型,Merkle-DAG 防篡改,capability-based 访问控制。Demo 跨 GPT-4 / Claude / Gemini / Llama 迁移。

意义:Agent 记忆现被锁在各厂商 runtime,这是事实标准空缺位的有力候选。

3. LEAD:动态校准推理预算

论文LEAD

创新点:Potential-Scaled Instability 动态调权,基于模型自己的正确轨迹估 per-problem 目标长度,对称惩罚 over/under。5 个数学基准上拿到 RL 高效推理方法里最高 Accuracy-Efficiency Score。

意义:o1/R1 类模型产品化压缩瓶颈的可落地解。

4. From Detection to Recovery:504 GPU 训练运营复盘

论文From Detection to Recovery

创新点:稀有的中等规模训练运营第一手数据——故障检测、定位、自动恢复策略;公开最常见故障类别和最难恢复窗口。

意义:对没万卡集群但要跑数百卡的团队(多数高校、垂类创业)有强参考价值。

📄 精选论文 Top 10

  1. Oracle Poisoning — Agent 数据投毒首个生产级实证。
  2. Portable Agent Memory — 跨厂商 Agent 记忆迁移协议。
  3. LEAD — 可落地的 RL 压缩长链推理方案。
  4. Security Risks in Tool-Enabled AI Agents — Agent 攻击面系统化梳理。
  5. Position: AI Security Policy Should Target Systems — 监管对象应是系统而非模型。
  6. From Detection to Recovery — 504 GPU 训练运营第一手数据。
  7. LoopUS — 把训练好的 LLM 重构为循环潜空间精化。
  8. How LLMs Are Persuaded — 少数注意力头重路由就改立场。
  9. Wittgensteinian Representation Hypothesis — 语言是多模态表征吸引子。
  10. CalBench — 多 Agent 隐私-协调评估基准。

🔮 趋势观察

  • Agent 安全独立成议题:本周至少 6 篇(KG 投毒、工具滥用、欺骗 UI、过度授权),已能撑一个 workshop。
  • 推理效率走向自适应:LEAD、RuPLaR、LoopUS 都让模型自估算推理预算。
  • VLA 模型增多:具身智能与多模态合流。
  • 评估方法学反思:分布式 ASR、策略多样性、系统级监管——领域转向成熟的信号。