arXiv cs.AI 周报 (2026-05-04 ~ 2026-05-10)
采样 200 篇 · Agent 安全、推理效率、医疗 AI
📊 研究方向热度
本周(5/4-5/10)cs.AI 抽样 200 篇。Agent 安全成独立议题;推理效率从静态阈值走向自适应;多模态向 VLA / 轻量化适配分流。
🤖 智能体 / 记忆 / 工具使用
- Portable Agent Memory — 跨厂商可验证记忆协议(Apache 2.0),Merkle-DAG 防篡改。
- CalBench — 多 Agent 隐私-协调权衡基准,私有日历谈判排程。
- Do Self-Evolving Agents Forget? — 终身学习 Agent 的能力退化与保持。
🛡️ Agent 安全 / 越狱 / 红队
- Oracle Poisoning — 攻击者污染 KG,9 模型在 tool-use 下 100% 信任伪造数据。
- Security Risks in Tool-Enabled AI Agents — 系统化分析特权执行环境攻击面。
- Position: AI Security Policy Should Target Systems, Not Models
- Single-Configuration ASR Is Not Enough — 越狱评估应报告分布。
- Don't Click That — 训练 Web Agent 抵御欺骗性 UI。
⚡ 推理效率
- LEAD — RL 动态校准正确性-效率,对称惩罚 over/under-thinking。
- LoopUS — 预训练 LLM 重铸为循环潜空间精化模型。
- RuPLaR — 多步推理链压缩到一步潜空间表示。
- Hidden Error Awareness in CoT — CoT 错误信号诊断有用但不因果。
🎨 多模态 / VLA
- RePO-VLA — recovery-driven 策略优化训练 VLA。
- SKG-VLA — 场景知识图谱作 VLA 结构先验。
- LiteMedCoT-VL — 医学 VQA 参数高效适配。
- SWIFT — 长视频生成的 prompt-adaptive memory。
🩺 医疗 AI
- WISTERIA — 多视图一致性学 EHR 表示。
- EpiGraph — 面向癫痫推理的证据密集 LLM。
- Virtual Neuroscientist — 多 Agent 自动神经影像分析。
- LLM-Guided MCTS over KGs — 药物-疾病机制可解释推理。
⚙️ 训练系统 / Serving
- KV-RM — 静态图 LLM serving 下规范 KV-cache 迁移。
- DisagMoE — 计算-通信重叠的 MoE 训练流水线。
- From Detection to Recovery — 504 GPU LLM 预训练运营复盘。
- Navigating LLM Valley — 优化器系统对比。
🧠 表征 / 可解释性
- How LLMs Are Persuaded — 少数注意力头重路由就改立场。
- The Wittgensteinian Representation Hypothesis — 语言是多模态表征收敛的吸引子。
- The Geometry of Forgetting — 时间知识漂移是 LLM 表征独立的一维。
💡 关键技术突破
1. Oracle Poisoning:当 Agent 信任工具返回的数据
创新点:定义区别于 prompt injection 的攻击范式——污染 KG 让模型"以正确推理得错误结论"。4200 万节点生产 KG,9 模型 / 3 厂商,270 次工具调用中 269 次接受伪造数据。揭示 inline 评估假阴性:GPT-5.1 inline 0%、tool-use 100%。
意义:直接冲击当下 Agent 安全评估方法学。
2. Portable Agent Memory:跨厂商记忆协议
创新点:Apache 2.0 协议 + SDK,五种记忆类型,Merkle-DAG 防篡改,capability-based 访问控制。Demo 跨 GPT-4 / Claude / Gemini / Llama 迁移。
意义:Agent 记忆现被锁在各厂商 runtime,这是事实标准空缺位的有力候选。
3. LEAD:动态校准推理预算
论文:LEAD
创新点:Potential-Scaled Instability 动态调权,基于模型自己的正确轨迹估 per-problem 目标长度,对称惩罚 over/under。5 个数学基准上拿到 RL 高效推理方法里最高 Accuracy-Efficiency Score。
意义:o1/R1 类模型产品化压缩瓶颈的可落地解。
4. From Detection to Recovery:504 GPU 训练运营复盘
创新点:稀有的中等规模训练运营第一手数据——故障检测、定位、自动恢复策略;公开最常见故障类别和最难恢复窗口。
意义:对没万卡集群但要跑数百卡的团队(多数高校、垂类创业)有强参考价值。
📄 精选论文 Top 10
- Oracle Poisoning — Agent 数据投毒首个生产级实证。
- Portable Agent Memory — 跨厂商 Agent 记忆迁移协议。
- LEAD — 可落地的 RL 压缩长链推理方案。
- Security Risks in Tool-Enabled AI Agents — Agent 攻击面系统化梳理。
- Position: AI Security Policy Should Target Systems — 监管对象应是系统而非模型。
- From Detection to Recovery — 504 GPU 训练运营第一手数据。
- LoopUS — 把训练好的 LLM 重构为循环潜空间精化。
- How LLMs Are Persuaded — 少数注意力头重路由就改立场。
- Wittgensteinian Representation Hypothesis — 语言是多模态表征吸引子。
- CalBench — 多 Agent 隐私-协调评估基准。
🔮 趋势观察
- Agent 安全独立成议题:本周至少 6 篇(KG 投毒、工具滥用、欺骗 UI、过度授权),已能撑一个 workshop。
- 推理效率走向自适应:LEAD、RuPLaR、LoopUS 都让模型自估算推理预算。
- VLA 模型增多:具身智能与多模态合流。
- 评估方法学反思:分布式 ASR、策略多样性、系统级监管——领域转向成熟的信号。
评论