Bluo Blog

ARXIV CS AI WEEKLY 20260510

arXiv cs.AI 周报 (2026-05-04 ~ 2026-05-10)

📊 研究方向热度

本周（5/4-5/10）cs.AI 抽样 200 篇。Agent 安全成独立议题；推理效率从静态阈值走向自适应；多模态向 VLA / 轻量化适配分流。

🤖 智能体 / 记忆 / 工具使用

Portable Agent Memory — 跨厂商可验证记忆协议（Apache 2.0），Merkle-DAG 防篡改。
CalBench — 多 Agent 隐私-协调权衡基准，私有日历谈判排程。
Do Self-Evolving Agents Forget? — 终身学习 Agent 的能力退化与保持。

🛡️ Agent 安全 / 越狱 / 红队

Oracle Poisoning — 攻击者污染 KG，9 模型在 tool-use 下 100% 信任伪造数据。
Security Risks in Tool-Enabled AI Agents — 系统化分析特权执行环境攻击面。
Position: AI Security Policy Should Target Systems, Not Models
Single-Configuration ASR Is Not Enough — 越狱评估应报告分布。
Don't Click That — 训练 Web Agent 抵御欺骗性 UI。

⚡ 推理效率

LEAD — RL 动态校准正确性-效率，对称惩罚 over/under-thinking。
LoopUS — 预训练 LLM 重铸为循环潜空间精化模型。
RuPLaR — 多步推理链压缩到一步潜空间表示。
Hidden Error Awareness in CoT — CoT 错误信号诊断有用但不因果。

🎨 多模态 / VLA

RePO-VLA — recovery-driven 策略优化训练 VLA。
SKG-VLA — 场景知识图谱作 VLA 结构先验。
LiteMedCoT-VL — 医学 VQA 参数高效适配。
SWIFT — 长视频生成的 prompt-adaptive memory。

🩺 医疗 AI

WISTERIA — 多视图一致性学 EHR 表示。
EpiGraph — 面向癫痫推理的证据密集 LLM。
Virtual Neuroscientist — 多 Agent 自动神经影像分析。
LLM-Guided MCTS over KGs — 药物-疾病机制可解释推理。

⚙️ 训练系统 / Serving

KV-RM — 静态图 LLM serving 下规范 KV-cache 迁移。
DisagMoE — 计算-通信重叠的 MoE 训练流水线。
From Detection to Recovery — 504 GPU LLM 预训练运营复盘。
Navigating LLM Valley — 优化器系统对比。

🧠 表征 / 可解释性

How LLMs Are Persuaded — 少数注意力头重路由就改立场。
The Wittgensteinian Representation Hypothesis — 语言是多模态表征收敛的吸引子。
The Geometry of Forgetting — 时间知识漂移是 LLM 表征独立的一维。

💡 关键技术突破

1. Oracle Poisoning：当 Agent 信任工具返回的数据

论文：Oracle Poisoning

创新点：定义区别于 prompt injection 的攻击范式——污染 KG 让模型"以正确推理得错误结论"。4200 万节点生产 KG，9 模型 / 3 厂商，270 次工具调用中 269 次接受伪造数据。揭示 inline 评估假阴性：GPT-5.1 inline 0%、tool-use 100%。

意义：直接冲击当下 Agent 安全评估方法学。

2. Portable Agent Memory：跨厂商记忆协议

论文：Portable Agent Memory

创新点：Apache 2.0 协议 + SDK，五种记忆类型，Merkle-DAG 防篡改，capability-based 访问控制。Demo 跨 GPT-4 / Claude / Gemini / Llama 迁移。

意义：Agent 记忆现被锁在各厂商 runtime，这是事实标准空缺位的有力候选。

3. LEAD：动态校准推理预算

论文：LEAD

创新点：Potential-Scaled Instability 动态调权，基于模型自己的正确轨迹估 per-problem 目标长度，对称惩罚 over/under。5 个数学基准上拿到 RL 高效推理方法里最高 Accuracy-Efficiency Score。

意义：o1/R1 类模型产品化压缩瓶颈的可落地解。

4. From Detection to Recovery：504 GPU 训练运营复盘

论文：From Detection to Recovery

创新点：稀有的中等规模训练运营第一手数据——故障检测、定位、自动恢复策略；公开最常见故障类别和最难恢复窗口。

意义：对没万卡集群但要跑数百卡的团队（多数高校、垂类创业）有强参考价值。

📄 精选论文 Top 10

Oracle Poisoning — Agent 数据投毒首个生产级实证。
Portable Agent Memory — 跨厂商 Agent 记忆迁移协议。
LEAD — 可落地的 RL 压缩长链推理方案。
Security Risks in Tool-Enabled AI Agents — Agent 攻击面系统化梳理。
Position: AI Security Policy Should Target Systems — 监管对象应是系统而非模型。
From Detection to Recovery — 504 GPU 训练运营第一手数据。
LoopUS — 把训练好的 LLM 重构为循环潜空间精化。
How LLMs Are Persuaded — 少数注意力头重路由就改立场。
Wittgensteinian Representation Hypothesis — 语言是多模态表征吸引子。
CalBench — 多 Agent 隐私-协调评估基准。

🔮 趋势观察

Agent 安全独立成议题：本周至少 6 篇（KG 投毒、工具滥用、欺骗 UI、过度授权），已能撑一个 workshop。
推理效率走向自适应：LEAD、RuPLaR、LoopUS 都让模型自估算推理预算。
VLA 模型增多：具身智能与多模态合流。
评估方法学反思：分布式 ASR、策略多样性、系统级监管——领域转向成熟的信号。

🌏 Bluo Blog

关于本站

文章列表

数据统计