arXiv cs.AI 周报 (2026-04-20 ~ 2026-04-26)
📊 研究方向热度
本周(4/20-4/26)cs.AI 抽样 200 篇。Agent 治理与目标完整性、临床 AI 的风险评估、对齐机制的反思是三条主线。
🤖 智能体 / 记忆 / 治理
- ZenBrain — 神经科学启发的 7 层自治 AI 记忆架构。
- Structural Enforcement of Goal Integrity in AI Agents — Separation-of-Powers 架构保障 Agent 目标完整性。
- ClawTrace — 成本感知的 Agent 技能蒸馏 tracing。
- MarketBench — 评估 AI Agent 作为市场参与者的能力。
🛡️ 安全 / 对齐 / 错位检测
- Ulterior Motives — 在 continuous thought 模型中检测错位推理(misaligned reasoning)。
- Evaluation of Prompt Injection Defenses in LLMs — 主流防御的对比评估。
- Agentic Adversarial Rewriting — 暴露黑盒 NLP 流水线的架构漏洞。
- Pref-CTRL — 用 representation editing 做偏好驱动 LLM 对齐。
🩺 临床 / 医学 AI
- AI Safety Training Can be Clinically Harmful — 安全训练可能在医疗场景反成风险,警示性立场论文。
- Vibe Medicine — 重新定义生物医学研究中的人-AI 协作。
- Thinking Like a Clinician — 全景画像 + 对抗辩论的认知 AI 诊断 Agent。
- Does Machine Unlearning Preserve Clinical Safety? — 医学图像分类中遗忘机制的风险分析。
⚡ 训练 / 推理效率
- SFT-then-RL Outperforms Mixed-Policy — 实证:分阶段 SFT→RL 优于混合策略。
- Tandem — 大小语言模型协同推理。
- Hybrid JIT-CUDA Graph Optimization — 低延迟 LLM 推理的 JIT + CUDA Graph 优化。
- MTRouter — 历史-模型联合 embedding 的多轮 LLM 路由。
🎨 多模态 / 视觉
- Zoom In, Reason Out — 远场异常检测:VLM 推理 + 贝叶斯引导。
- FAIR_XAI — 用可解释性提升多模态基础模型公平性。
- PhysCodeBench — 物理感知 3D 场景符号仿真基准。
🧠 表征 / 评估方法
- When AI reviews science: Can we trust the referee? — 同行评审中使用 LLM 的可信度调查。
- GSAR — 多 Agent LLM 中的类型化 grounding,用于幻觉检测与恢复。
- FinGround — 通过原子声明验证检测和定位金融幻觉。
- Domain-Filtered KG from Sparse Autoencoder Features — 用 SAE 特征构建领域过滤的知识图谱。
💡 关键技术突破
1. Structural Enforcement of Goal Integrity:用架构强制目标完整性
论文:Structural Enforcement of Goal Integrity in AI Agents
创新点:把"目标完整性"问题从训练域搬到架构域——借用 separation-of-powers 模式,让 Agent 的目标、规划、执行三者由独立子系统持有,强制需达成共识才能行动。
意义:相比训练侧对齐方案,架构侧防御更易审计、更难被绕过。是后续 Agent 治理 / 安全工程的重要参考。
2. Ulterior Motives:检测连续思维模型的隐藏意图
创新点:针对 continuous thought / latent reasoning 模型(如 COCONUT 系列)开发"misaligned reasoning"检测器,因为传统 CoT 透明性丢失后,行为对齐不一定意味着内部对齐。
意义:随着 LLM 推理走向潜空间,"看得见的对齐"会越来越少,这类工作是 alignment 研究在新架构下的必要补丁。
3. AI Safety Training Can be Clinically Harmful
论文:AI Safety Training Can be Clinically Harmful
创新点:实证显示"通用安全训练"在医疗场景下可能反致风险(如拒答合理临床问题、误导临床判断)。提出医疗场景需要 domain-specific 的对齐策略。
意义:对所有医疗 LLM 部署是直接警示,也对"通用对齐 vs 垂类对齐"做了重要分离。
4. SFT-then-RL 优于混合策略
论文:SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning
创新点:实证比较:明确的两阶段(先 SFT 后 RL)训练范式优于在线混合策略。给当下"流水线训推"的工程选择提供了可复现证据。
意义:对企业级训练简化了决策——不必追求"统一损失",分阶段足够好甚至更好。
📄 精选论文 Top 10
- Structural Enforcement of Goal Integrity in AI Agents — 架构侧 Agent 治理。
- Ulterior Motives — 潜空间推理模型的对齐检测。
- AI Safety Training Can be Clinically Harmful — 警示通用对齐在医疗场景的反作用。
- SFT-then-RL Outperforms Mixed-Policy — 分阶段优于混合的实证证据。
- ZenBrain — 7 层 Agent 记忆架构。
- Thinking Like a Clinician — 全景画像 + 对抗辩论的诊断 Agent。
- When AI Reviews Science — 学术评审中 LLM 可信度的实证调查。
- Evaluation of Prompt Injection Defenses — 防御方案系统化对比。
- MarketBench — Agent 作市场参与者的评估基准。
- FinGround — 金融幻觉检测与定位。
🔮 趋势观察
- 架构侧对齐崭露头角:Goal Integrity、ZenBrain 等开始把对齐从训练问题转化为系统设计问题。
- 垂类对齐反思:"AI Safety 反致临床风险"这一发现意味着通用对齐策略不可直接复用到垂类。
- 潜空间推理监督紧跟需求:Continuous-thought 模型的不透明推理催生新一代对齐检测工具。
评论