Bluo Blog

arXiv cs.OS 周报 (20260413~20260419)

arXiv cs.OS 周报 (20260413 ~ 20260419)

本周共 9 篇 cs.OS 相关论文。主线非常清晰：一半在做 AI agent 时代的内核/文件系统重设计，另一半是 分层内存（tiered memory）调优 和 异构调度。下面跳过粗粒度方向分类，直接进入深度解读。

📖 深度解读

ProbeLogits: Kernel-Level LLM Inference Primitives for AI-Native Operating Systems

Daeyeon Son · Anima OS · 2026-04-13

🎯 核心问题
应用层的 LLM guardrail（如 Llama Guard）跑在用户态，10 行脚本就能绕过；同时一次"安全判别"要让 guard 模型再生成几十个 token，代价高昂。能不能把"安不安全"的决策做成一次 forward pass 后直接读 logit 的内核原语？

🔧 关键方法
ProbeLogits 在 forward 之后读取特定 token（如 "Safe"/"Dangerous"）的 logit 分布，配合一个 contextual calibration 参数 α 做 prior 校正，**完全无可学习参数**。它作为内核原语驻留在 Anima OS（约 8.6 万行 Rust 写的 bare-metal x86_64 OS）中，位于 WASM sandbox boundary **之下**，所有 agent 行为必经的 15 个 host function 都强制走它。与 LG3 这种"生成式 guard"相比，从范式上把"分类"和"生成"解耦。

📊 实验或论据
在 Qwen 2.5-7B / Llama 3 8B / Mistral 7B 三个底模、HarmBench / XSTest / ToxicChat 三套基准上评估。HarmBench non-copyright 上 block rate 97–99%；ToxicChat F1 最高 0.812，比 Llama Guard 3 高 13.7pp 且 95% CI 不重叠。Latency 比 LG3 快 ~2.5×；bare-metal 上单次决策 65 ms。

⚠️ 局限
65 ms 对内核 syscall 类语义检查来说仍是很重的开销（百倍于普通 syscall）；α 作为部署期 knob 没说在线如何整定；只在 7B 量级模型上验证，更大模型的 verbalizer prior 漂移未评估。

💼 对系统人的启示
这是"AI-native OS"理念里少见的把 LLM **直接做成内核原语**的尝试。如果你在搭 agent 平台，可以借鉴"读 logit 而不是生成 token"这一招，把它做成内核或 sidecar 网关——比堆 guard 模型便宜得多。

Governed MCP: Kernel-Level Tool Governance for AI Agents via Logit-Based Safety Primitives

Daeyeon Son · Anima OS · 2026-04-18（ProbeLogits 的姊妹篇）

🎯 核心问题
MCP（Model Context Protocol）让 agent 像发 syscall 一样调外部 tool，但今天的 MCP enforcement 全在用户态，10 行 Python 就能绕。需要一个"MCP 网关"，类比内核之于 syscall。

🔧 关键方法
Governed MCP 是 6 层流水线：schema 校验 → trust tier → rate limit → 对抗 pre-filter → **ProbeLogits 语义闸**（承重层）→ constitutional policy match，全程 Blake3 哈希链审计。每一次 MCP 调用必走该网关；WASM 运行时的 15 个 host function 全部 mediation，所谓"complete mediation of the WASM ABI surface"。

📊 实验或论据
在 Anima OS（~86k 行 Rust）上实现。前 5 层非推理层加 65.3 µs/call；ProbeLogits 层 65 ms（7B Q4_0）。101-prompt MCP benchmark 4-config ablation：去掉 ProbeLogits 后 F1 从 0.773 掉到 0.327（Δ -0.446）——纯手写规则防火墙根本不够。

⚠️ 局限
65 ms/call 对高频 tool-use loop 会成瓶颈；Anima OS 自身是新写的研究 OS，离 Linux 还有距离；benchmark 仅 101 prompt，泛化性需要更大规模验证。

💼 对系统人的启示
"agent 调 tool 等于 syscall"这个心智模型本身就值得借鉴——你设计 agent 网关时，应当像写 LSM hook 一样去做 mediation，而不是 wrap 库。哈希审计链 + 完全中介是可以直接借用的工程模式。

Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy

Shawn W. Zhong, Junxuan Liao, Jing Liu et al. · UW-Madison（Arpaci-Dusseau 组）· 2026-04-15

🎯 核心问题
AI coding agent 直接 rm/write 用户文件系统，要么放权（损数据）、要么频繁问权限（堵流程）。现状的根因：agent 对自己造成的 FS 副作用既缺信息也缺控制。

🔧 关键方法
先做了 290 份 13 框架公开事故报告的系统性梳理，然后提出 YoloFS——一个 "agent-native" 文件系统，三件套：(1) **Staging** 所有 mutation 提交前隔离，用户最终一次性 review/commit；(2) **Snapshots** 把这种"撤销窗口"也开放给 agent，让它能自检自纠；(3) **Progressive permission** 用最小交互对访问做渐进式 gating。把信息和控制权从 agent 移到 FS 自己。

📊 实验或论据
新提出了一套捕获 user-agent-filesystem 三方交互的评估方法。11 个"含隐藏副作用"任务上，YoloFS 让 agent 自纠 8 个，且所有副作用都 staged 可 review；112 个日常任务上，交互次数少于 baseline 且 success rate 持平。

⚠️ 局限
Staging 等价于一层 overlay/copy-on-write 语义，大文件写入或长期跑的 agent session 的存储放大代价 abstract 未提；与 git 等已有版本控制工具的边界也没讨论。

💼 对系统人的启示
思路非常 OS-style：与其改每个 agent 框架，不如把不变式下沉到 FS。这套 staging + snapshot 完全可以在 overlayfs / btrfs 上原型，立刻给 Cursor/Claude Code 这类工具加一层兜底，工程价值很高。

TierBPF: Page Migration Admission Control for Tiered Memory via eBPF

Xi Wang, Tal Zussman, Yuang Xu et al. · UC Merced / Columbia · 2026-04-14

🎯 核心问题
现有软件 tiered memory（TPP、AutoNUMA 等）只决定"哪些页该升/降级"，不看页面尺寸和底层硬件拓扑——而 CXL/PMEM 上这两个因素恰恰决定带宽差异。

🔧 关键方法
TierBPF 是一组 eBPF hook，挂在已有 tiering 系统上做"二值 admission"决策（这次迁移到底做不做）。用一套不依赖 working set size 的轻量 page profiling 跟踪页访问；策略全部用 eBPF 写，用户可以自定义而无需改内核。

📊 实验或论据
集成进 3 个 tiering 系统、17 个 workload。Geomean 吞吐提升最高 17.7%，单个 workload 最高提升 75%。

⚠️ 局限
依赖 eBPF 可观察性钩子是否覆盖到 page migration 路径（在 mainline kernel 上有几个还是 staging）；admission control 是二值的，对多层（>2 tier）拓扑能否扩展未讨论。

💼 对系统人的启示
一个非常"工程友好"的方向：把策略从内核 C 代码挪到 eBPF，让 SRE 能按 workload 在线调。如果你在做 CXL pool 或 PMEM 分层，这种 hook-based 架构值得照搬，不需要等内核合并。

Hybrid Adaptive Tuning for Tiered Memory Systems (PTMT)

Xi Wang, Jie Liu, Shuangyan Yang et al. · UC Merced · 2026-04-14

🎯 核心问题
TPP/UPM/Colloid/AutoNUMA 这些 tiering 方案默认参数对不同 workload 性能差异很大，但在线调参开销又非常大——纯 online RL 在内核里跑不动。

🔧 关键方法
PTMT 走 "offline + online" 混合：离线阶段把代表性 workload + 参数空间扫一遍建 performance database 用于在线查询，降低 runtime cost；在线阶段用一个为 tiering 定制的 RL agent 做最终调节。先对系统参数做了一次系统性分类与敏感度刻画。

📊 实验或论据
在 4 个 tiering 系统（TPP、UPM、Colloid、AutoNUMA）上分别比默认配置提升 30% / 26% / 21% / 14%，平均超过 SOTA 32%。

⚠️ 局限
Offline DB 对 workload 漂移的鲁棒性 abstract 未提；定制版 RL 收敛性以及 reward 设计细节需读全文；冷启动时性能曲线没说。

💼 对系统人的启示
"离线建表 + 在线 RL 微调"是个对内核可上线的折中模板——纯 online RL 在生产环境一直跑不通，这种"先学一张表、在线只做小范围 explore"的范式可以套到 IO scheduler、page reclaim 等地方。

MARS: Efficient, Adaptive Co-Scheduling for Heterogeneous Agentic Systems

Yifei Wang, Hancheng Ye, Yechen Xu et al. · Duke · 2026-04-14

🎯 核心问题
LLM agent workload 不再是 single-turn GPU 推理，而是"GPU 推理 + CPU 上 repo-scale tool 执行"的多轮循环。现有 LLM serving 系统只看 GPU，会让 CPU 端工具压力堵住整个 critical path。

🔧 关键方法
MARS 建一条"GPU 推理 + CPU tool 执行"的统一信息流；用一个**外部 control plane** 把 admission 和 execution 解耦，防止两侧资源同时过载；内部 agent-centric 调度器优先 latency-sensitive 的延续请求，并自适应决定 KV cache 是保留还是丢弃（只在 warm resumption 真有收益时才留）。

📊 实验或论据
端到端延迟最多降低 5.94×，同时几乎不损吞吐；接入 OpenHands coding agent 框架后，端到端任务完成时间加速 1.87×。源码即将开源。

⚠️ 局限
没列对照的 baseline 是哪些；GPU-CPU 资源建模粒度（per-process? per-task?）需读全文；多租户场景下 control plane 的隔离性 abstract 未提。

💼 对系统人的启示
把"agent serving"当成 GPU-CPU 联合调度问题是正确视角。如果你在搭 vLLM/SGLang 之外的 agent 平台，可以直接借鉴 "KV cache 自适应保留" 这条 policy——多数现有系统是无脑常保留，浪费显存。

Nanvix: A Multikernel OS Design for High-Density Serverless Deployments

Carlos Segarra, Pedro H. Penna, Enrique Saurez et al. · Microsoft Research / Imperial · 2026-04-13

🎯 核心问题
Serverless 想要高 deployment density（每台主机塞更多函数），但租户间必须强隔离（侧信道），同租户内共享又容易在 host 资源上踩踏。鱼和熊掌怎么兼得？

🔧 关键方法
Nanvix 是一个 multikernel OS，把状态拆成两层：**ephemeral execution state**（每次调用独有，跑在轻量 user VM + 微内核，只实现 thread/memory）+ **long-lived persistent state**（同租户共享，跑在 system VM + macro-kernel，承担驱动和 I/O）。User VM 的所有 I/O 都 forward 到 system VM。结果：跨租户走 hypervisor 强隔离；同租户走共享 macro-kernel 减少 contention。

📊 实验或论据
应用启动时间比 SOTA 低一个数量级；I/O 开销中等。回放一份生产 trace 时，所需 host server 数为 SOTA 的 1/20–1/100，密度提升非常显著。

⚠️ 局限
Multikernel 路线工程负担一直很重（驱动重写、调度协调）；I/O 经 VM 转发的尾延迟分布 abstract 未给；与现有 microVM（Firecracker、Cloud Hypervisor）的 head-to-head 比较需读全文。

💼 对系统人的启示
"状态分两层、用 VM 边界做隔离单元、宿主端共享 driver" 这一拆分思路即便不上 multikernel 也能借鉴——同租户内的 sandbox 用 microVM + 共享 host I/O 代理，是一条比 nested namespace 更干净的隔离路线。

👥 作者与机构

本周 cs.OS 上活跃度最高的几组：

机构 / 组	代表作	主题
UC Merced (Dong Li 组)	TierBPF, PTMT	分层内存（Xi Wang 同时为两篇一作）
Anima OS (Daeyeon Son)	ProbeLogits, Governed MCP	AI-native OS、单人工作但配套完整
UW-Madison (Arpaci-Dusseau 组)	YoloFS	agent-native FS
Microsoft Research / Imperial	Nanvix	multikernel serverless
Duke (Yiran Chen 组)	MARS	agent serving 调度

两个观察：(1) UC Merced 的 Xi Wang 同周作为一作发了两篇 tiered memory 论文，可能在做"分层内存"系列；(2) Daeyeon Son 单独输出 Anima OS 的两篇姊妹篇，显示出"AI-native OS"作为新栈正在被严肃构建。

📄 值得一提（未深读）

A Physics-Aware Framework for Short-Term GPU Power Forecasting of AI Data Centers
M. AlShaikh Saleh et al. · 用 RC 热网络 + DLinear 建模 5–80 分钟 GPU 功耗，比 SOTA transformer 时序模型在 MAE 上最高提升 52%——做 DC 容量/调度的工程师可以借鉴 physics-informed 思路。
A Periodic Space of Distributed Computing: Vision & Framework
M. Amini Salehi, R. Buyya et al. · 类比化学元素周期表，给分布式计算建一个"系统属性周期框架"。纯 vision paper，适合在 reading group 拿来吵架，不指望直接落地。

🔮 趋势观察

本周 9 篇里有 3 篇明确针对 "AI agent 时代的 OS 抽象"（ProbeLogits、Governed MCP、YoloFS），加上 1 篇 agent serving 调度（MARS）和 1 篇 AI data center 功耗建模（PI-DLinear），过半数论文都把 LLM/agent 当成 OS 设计的一等公民。这与一两年前 cs.OS 里以"传统 syscall / 文件系统优化"为主的局面已经明显不同。

具体可以观察到三个微趋势：(1) "agent 调 tool ≡ syscall" 这个心智模型正在多组同时浮现，未来一年应该会出现 LSM/eBPF 的 agent 版本；(2) 把策略从内核 C 挪到 eBPF 的做法在 tiered memory 上已经成熟（TierBPF），下一站很可能是 page reclaim 和 scheduler class；(3) 分层内存调优的瓶颈从"策略"转向"调参"（PTMT），说明这领域已经过了 hot-path 算法竞赛，进入工程精修期。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS OS WEEKLY 20260419