arXiv cs.AI 周报 (2026-04-20 ~ 2026-04-26)

arXiv cs.AI 周报 (2026-04-20 ~ 2026-04-26)

采样 200 篇 · Agent 治理、临床 AI、对齐反思
Generated by tanar · 2026-05-17 22:53

📊 研究方向热度

本周(4/20-4/26)cs.AI 抽样 200 篇。Agent 治理与目标完整性、临床 AI 的风险评估、对齐机制的反思是三条主线。

🤖 智能体 / 记忆 / 治理

🛡️ 安全 / 对齐 / 错位检测

🩺 临床 / 医学 AI

⚡ 训练 / 推理效率

🎨 多模态 / 视觉

  • Zoom In, Reason Out — 远场异常检测:VLM 推理 + 贝叶斯引导。
  • FAIR_XAI — 用可解释性提升多模态基础模型公平性。
  • PhysCodeBench — 物理感知 3D 场景符号仿真基准。

🧠 表征 / 评估方法

💡 关键技术突破

1. Structural Enforcement of Goal Integrity:用架构强制目标完整性

论文Structural Enforcement of Goal Integrity in AI Agents

创新点:把"目标完整性"问题从训练域搬到架构域——借用 separation-of-powers 模式,让 Agent 的目标、规划、执行三者由独立子系统持有,强制需达成共识才能行动。

意义:相比训练侧对齐方案,架构侧防御更易审计、更难被绕过。是后续 Agent 治理 / 安全工程的重要参考。

2. Ulterior Motives:检测连续思维模型的隐藏意图

论文Ulterior Motives

创新点:针对 continuous thought / latent reasoning 模型(如 COCONUT 系列)开发"misaligned reasoning"检测器,因为传统 CoT 透明性丢失后,行为对齐不一定意味着内部对齐。

意义:随着 LLM 推理走向潜空间,"看得见的对齐"会越来越少,这类工作是 alignment 研究在新架构下的必要补丁。

3. AI Safety Training Can be Clinically Harmful

论文AI Safety Training Can be Clinically Harmful

创新点:实证显示"通用安全训练"在医疗场景下可能反致风险(如拒答合理临床问题、误导临床判断)。提出医疗场景需要 domain-specific 的对齐策略。

意义:对所有医疗 LLM 部署是直接警示,也对"通用对齐 vs 垂类对齐"做了重要分离。

4. SFT-then-RL 优于混合策略

论文SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning

创新点:实证比较:明确的两阶段(先 SFT 后 RL)训练范式优于在线混合策略。给当下"流水线训推"的工程选择提供了可复现证据。

意义:对企业级训练简化了决策——不必追求"统一损失",分阶段足够好甚至更好。

📄 精选论文 Top 10

  1. Structural Enforcement of Goal Integrity in AI Agents — 架构侧 Agent 治理。
  2. Ulterior Motives — 潜空间推理模型的对齐检测。
  3. AI Safety Training Can be Clinically Harmful — 警示通用对齐在医疗场景的反作用。
  4. SFT-then-RL Outperforms Mixed-Policy — 分阶段优于混合的实证证据。
  5. ZenBrain — 7 层 Agent 记忆架构。
  6. Thinking Like a Clinician — 全景画像 + 对抗辩论的诊断 Agent。
  7. When AI Reviews Science — 学术评审中 LLM 可信度的实证调查。
  8. Evaluation of Prompt Injection Defenses — 防御方案系统化对比。
  9. MarketBench — Agent 作市场参与者的评估基准。
  10. FinGround — 金融幻觉检测与定位。

🔮 趋势观察

  • 架构侧对齐崭露头角:Goal Integrity、ZenBrain 等开始把对齐从训练问题转化为系统设计问题。
  • 垂类对齐反思:"AI Safety 反致临床风险"这一发现意味着通用对齐策略不可直接复用到垂类。
  • 潜空间推理监督紧跟需求:Continuous-thought 模型的不透明推理催生新一代对齐检测工具。