Bluo Blog

ARXIV CS AI WEEKLY 20260426

arXiv cs.AI 周报 (2026-04-20 ~ 2026-04-26)

📊 研究方向热度

本周（4/20-4/26）cs.AI 抽样 200 篇。Agent 治理与目标完整性、临床 AI 的风险评估、对齐机制的反思是三条主线。

🤖 智能体 / 记忆 / 治理

ZenBrain — 神经科学启发的 7 层自治 AI 记忆架构。
Structural Enforcement of Goal Integrity in AI Agents — Separation-of-Powers 架构保障 Agent 目标完整性。
ClawTrace — 成本感知的 Agent 技能蒸馏 tracing。
MarketBench — 评估 AI Agent 作为市场参与者的能力。

🛡️ 安全 / 对齐 / 错位检测

Ulterior Motives — 在 continuous thought 模型中检测错位推理（misaligned reasoning）。
Evaluation of Prompt Injection Defenses in LLMs — 主流防御的对比评估。
Agentic Adversarial Rewriting — 暴露黑盒 NLP 流水线的架构漏洞。
Pref-CTRL — 用 representation editing 做偏好驱动 LLM 对齐。

🩺 临床 / 医学 AI

AI Safety Training Can be Clinically Harmful — 安全训练可能在医疗场景反成风险，警示性立场论文。
Vibe Medicine — 重新定义生物医学研究中的人-AI 协作。
Thinking Like a Clinician — 全景画像 + 对抗辩论的认知 AI 诊断 Agent。
Does Machine Unlearning Preserve Clinical Safety? — 医学图像分类中遗忘机制的风险分析。

⚡ 训练 / 推理效率

SFT-then-RL Outperforms Mixed-Policy — 实证：分阶段 SFT→RL 优于混合策略。
Tandem — 大小语言模型协同推理。
Hybrid JIT-CUDA Graph Optimization — 低延迟 LLM 推理的 JIT + CUDA Graph 优化。
MTRouter — 历史-模型联合 embedding 的多轮 LLM 路由。

🎨 多模态 / 视觉

Zoom In, Reason Out — 远场异常检测：VLM 推理 + 贝叶斯引导。
FAIR_XAI — 用可解释性提升多模态基础模型公平性。
PhysCodeBench — 物理感知 3D 场景符号仿真基准。

🧠 表征 / 评估方法

When AI reviews science: Can we trust the referee? — 同行评审中使用 LLM 的可信度调查。
GSAR — 多 Agent LLM 中的类型化 grounding，用于幻觉检测与恢复。
FinGround — 通过原子声明验证检测和定位金融幻觉。
Domain-Filtered KG from Sparse Autoencoder Features — 用 SAE 特征构建领域过滤的知识图谱。

💡 关键技术突破

1. Structural Enforcement of Goal Integrity：用架构强制目标完整性

论文：Structural Enforcement of Goal Integrity in AI Agents

创新点：把"目标完整性"问题从训练域搬到架构域——借用 separation-of-powers 模式，让 Agent 的目标、规划、执行三者由独立子系统持有，强制需达成共识才能行动。

意义：相比训练侧对齐方案，架构侧防御更易审计、更难被绕过。是后续 Agent 治理 / 安全工程的重要参考。

2. Ulterior Motives：检测连续思维模型的隐藏意图

论文：Ulterior Motives

创新点：针对 continuous thought / latent reasoning 模型（如 COCONUT 系列）开发"misaligned reasoning"检测器，因为传统 CoT 透明性丢失后，行为对齐不一定意味着内部对齐。

意义：随着 LLM 推理走向潜空间，"看得见的对齐"会越来越少，这类工作是 alignment 研究在新架构下的必要补丁。

3. AI Safety Training Can be Clinically Harmful

论文：AI Safety Training Can be Clinically Harmful

创新点：实证显示"通用安全训练"在医疗场景下可能反致风险（如拒答合理临床问题、误导临床判断）。提出医疗场景需要 domain-specific 的对齐策略。

意义：对所有医疗 LLM 部署是直接警示，也对"通用对齐 vs 垂类对齐"做了重要分离。

4. SFT-then-RL 优于混合策略

论文：SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning

创新点：实证比较：明确的两阶段（先 SFT 后 RL）训练范式优于在线混合策略。给当下"流水线训推"的工程选择提供了可复现证据。

意义：对企业级训练简化了决策——不必追求"统一损失"，分阶段足够好甚至更好。

📄 精选论文 Top 10

Structural Enforcement of Goal Integrity in AI Agents — 架构侧 Agent 治理。
Ulterior Motives — 潜空间推理模型的对齐检测。
AI Safety Training Can be Clinically Harmful — 警示通用对齐在医疗场景的反作用。
SFT-then-RL Outperforms Mixed-Policy — 分阶段优于混合的实证证据。
ZenBrain — 7 层 Agent 记忆架构。
Thinking Like a Clinician — 全景画像 + 对抗辩论的诊断 Agent。
When AI Reviews Science — 学术评审中 LLM 可信度的实证调查。
Evaluation of Prompt Injection Defenses — 防御方案系统化对比。
MarketBench — Agent 作市场参与者的评估基准。
FinGround — 金融幻觉检测与定位。

🔮 趋势观察

架构侧对齐崭露头角：Goal Integrity、ZenBrain 等开始把对齐从训练问题转化为系统设计问题。
垂类对齐反思："AI Safety 反致临床风险"这一发现意味着通用对齐策略不可直接复用到垂类。
潜空间推理监督紧跟需求：Continuous-thought 模型的不透明推理催生新一代对齐检测工具。

🌏 Bluo Blog

关于本站

文章列表

数据统计