arXiv cs.OS 周报 (20260413~20260419)
arXiv cs.OS 周报 (20260413 ~ 20260419)
本周共 9 篇 cs.OS 相关论文。主线非常清晰:一半在做 AI agent 时代的内核/文件系统重设计,另一半是 分层内存(tiered memory)调优 和 异构调度。下面跳过粗粒度方向分类,直接进入深度解读。
📖 深度解读
ProbeLogits: Kernel-Level LLM Inference Primitives for AI-Native Operating Systems
Daeyeon Son · Anima OS · 2026-04-13
🎯 核心问题
应用层的 LLM guardrail(如 Llama Guard)跑在用户态,10 行脚本就能绕过;同时一次"安全判别"要让 guard 模型再生成几十个 token,代价高昂。能不能把"安不安全"的决策做成一次 forward pass 后直接读 logit 的内核原语?
🔧 关键方法
ProbeLogits 在 forward 之后读取特定 token(如 "Safe"/"Dangerous")的 logit 分布,配合一个 contextual calibration 参数 α 做 prior 校正,**完全无可学习参数**。它作为内核原语驻留在 Anima OS(约 8.6 万行 Rust 写的 bare-metal x86_64 OS)中,位于 WASM sandbox boundary **之下**,所有 agent 行为必经的 15 个 host function 都强制走它。与 LG3 这种"生成式 guard"相比,从范式上把"分类"和"生成"解耦。
📊 实验或论据
在 Qwen 2.5-7B / Llama 3 8B / Mistral 7B 三个底模、HarmBench / XSTest / ToxicChat 三套基准上评估。HarmBench non-copyright 上 block rate 97–99%;ToxicChat F1 最高 0.812,比 Llama Guard 3 高 13.7pp 且 95% CI 不重叠。Latency 比 LG3 快 ~2.5×;bare-metal 上单次决策 65 ms。
⚠️ 局限
65 ms 对内核 syscall 类语义检查来说仍是很重的开销(百倍于普通 syscall);α 作为部署期 knob 没说在线如何整定;只在 7B 量级模型上验证,更大模型的 verbalizer prior 漂移未评估。
💼 对系统人的启示
这是"AI-native OS"理念里少见的把 LLM **直接做成内核原语**的尝试。如果你在搭 agent 平台,可以借鉴"读 logit 而不是生成 token"这一招,把它做成内核或 sidecar 网关——比堆 guard 模型便宜得多。
Governed MCP: Kernel-Level Tool Governance for AI Agents via Logit-Based Safety Primitives
Daeyeon Son · Anima OS · 2026-04-18(ProbeLogits 的姊妹篇)
🎯 核心问题
MCP(Model Context Protocol)让 agent 像发 syscall 一样调外部 tool,但今天的 MCP enforcement 全在用户态,10 行 Python 就能绕。需要一个"MCP 网关",类比内核之于 syscall。
🔧 关键方法
Governed MCP 是 6 层流水线:schema 校验 → trust tier → rate limit → 对抗 pre-filter → **ProbeLogits 语义闸**(承重层)→ constitutional policy match,全程 Blake3 哈希链审计。每一次 MCP 调用必走该网关;WASM 运行时的 15 个 host function 全部 mediation,所谓"complete mediation of the WASM ABI surface"。
📊 实验或论据
在 Anima OS(~86k 行 Rust)上实现。前 5 层非推理层加 65.3 µs/call;ProbeLogits 层 65 ms(7B Q4_0)。101-prompt MCP benchmark 4-config ablation:去掉 ProbeLogits 后 F1 从 0.773 掉到 0.327(Δ -0.446)——纯手写规则防火墙根本不够。
⚠️ 局限
65 ms/call 对高频 tool-use loop 会成瓶颈;Anima OS 自身是新写的研究 OS,离 Linux 还有距离;benchmark 仅 101 prompt,泛化性需要更大规模验证。
💼 对系统人的启示
"agent 调 tool 等于 syscall"这个心智模型本身就值得借鉴——你设计 agent 网关时,应当像写 LSM hook 一样去做 mediation,而不是 wrap 库。哈希审计链 + 完全中介是可以直接借用的工程模式。
Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy
Shawn W. Zhong, Junxuan Liao, Jing Liu et al. · UW-Madison(Arpaci-Dusseau 组)· 2026-04-15
🎯 核心问题
AI coding agent 直接 rm/write 用户文件系统,要么放权(损数据)、要么频繁问权限(堵流程)。现状的根因:agent 对自己造成的 FS 副作用既缺信息也缺控制。
🔧 关键方法
先做了 290 份 13 框架公开事故报告的系统性梳理,然后提出 YoloFS——一个 "agent-native" 文件系统,三件套:(1) **Staging** 所有 mutation 提交前隔离,用户最终一次性 review/commit;(2) **Snapshots** 把这种"撤销窗口"也开放给 agent,让它能自检自纠;(3) **Progressive permission** 用最小交互对访问做渐进式 gating。把信息和控制权从 agent 移到 FS 自己。
📊 实验或论据
新提出了一套捕获 user-agent-filesystem 三方交互的评估方法。11 个"含隐藏副作用"任务上,YoloFS 让 agent 自纠 8 个,且所有副作用都 staged 可 review;112 个日常任务上,交互次数少于 baseline 且 success rate 持平。
⚠️ 局限
Staging 等价于一层 overlay/copy-on-write 语义,大文件写入或长期跑的 agent session 的存储放大代价 abstract 未提;与 git 等已有版本控制工具的边界也没讨论。
💼 对系统人的启示
思路非常 OS-style:与其改每个 agent 框架,不如把不变式下沉到 FS。这套 staging + snapshot 完全可以在 overlayfs / btrfs 上原型,立刻给 Cursor/Claude Code 这类工具加一层兜底,工程价值很高。
TierBPF: Page Migration Admission Control for Tiered Memory via eBPF
Xi Wang, Tal Zussman, Yuang Xu et al. · UC Merced / Columbia · 2026-04-14
🎯 核心问题
现有软件 tiered memory(TPP、AutoNUMA 等)只决定"哪些页该升/降级",不看页面尺寸和底层硬件拓扑——而 CXL/PMEM 上这两个因素恰恰决定带宽差异。
🔧 关键方法
TierBPF 是一组 eBPF hook,挂在已有 tiering 系统上做"二值 admission"决策(这次迁移到底做不做)。用一套不依赖 working set size 的轻量 page profiling 跟踪页访问;策略全部用 eBPF 写,用户可以自定义而无需改内核。
📊 实验或论据
集成进 3 个 tiering 系统、17 个 workload。Geomean 吞吐提升最高 17.7%,单个 workload 最高提升 75%。
⚠️ 局限
依赖 eBPF 可观察性钩子是否覆盖到 page migration 路径(在 mainline kernel 上有几个还是 staging);admission control 是二值的,对多层(>2 tier)拓扑能否扩展未讨论。
💼 对系统人的启示
一个非常"工程友好"的方向:把策略从内核 C 代码挪到 eBPF,让 SRE 能按 workload 在线调。如果你在做 CXL pool 或 PMEM 分层,这种 hook-based 架构值得照搬,不需要等内核合并。
Hybrid Adaptive Tuning for Tiered Memory Systems (PTMT)
Xi Wang, Jie Liu, Shuangyan Yang et al. · UC Merced · 2026-04-14
🎯 核心问题
TPP/UPM/Colloid/AutoNUMA 这些 tiering 方案默认参数对不同 workload 性能差异很大,但在线调参开销又非常大——纯 online RL 在内核里跑不动。
🔧 关键方法
PTMT 走 "offline + online" 混合:离线阶段把代表性 workload + 参数空间扫一遍建 performance database 用于在线查询,降低 runtime cost;在线阶段用一个为 tiering 定制的 RL agent 做最终调节。先对系统参数做了一次系统性分类与敏感度刻画。
📊 实验或论据
在 4 个 tiering 系统(TPP、UPM、Colloid、AutoNUMA)上分别比默认配置提升 30% / 26% / 21% / 14%,平均超过 SOTA 32%。
⚠️ 局限
Offline DB 对 workload 漂移的鲁棒性 abstract 未提;定制版 RL 收敛性以及 reward 设计细节需读全文;冷启动时性能曲线没说。
💼 对系统人的启示
"离线建表 + 在线 RL 微调"是个对内核可上线的折中模板——纯 online RL 在生产环境一直跑不通,这种"先学一张表、在线只做小范围 explore"的范式可以套到 IO scheduler、page reclaim 等地方。
MARS: Efficient, Adaptive Co-Scheduling for Heterogeneous Agentic Systems
Yifei Wang, Hancheng Ye, Yechen Xu et al. · Duke · 2026-04-14
🎯 核心问题
LLM agent workload 不再是 single-turn GPU 推理,而是"GPU 推理 + CPU 上 repo-scale tool 执行"的多轮循环。现有 LLM serving 系统只看 GPU,会让 CPU 端工具压力堵住整个 critical path。
🔧 关键方法
MARS 建一条"GPU 推理 + CPU tool 执行"的统一信息流;用一个**外部 control plane** 把 admission 和 execution 解耦,防止两侧资源同时过载;内部 agent-centric 调度器优先 latency-sensitive 的延续请求,并自适应决定 KV cache 是保留还是丢弃(只在 warm resumption 真有收益时才留)。
📊 实验或论据
端到端延迟最多降低 5.94×,同时几乎不损吞吐;接入 OpenHands coding agent 框架后,端到端任务完成时间加速 1.87×。源码即将开源。
⚠️ 局限
没列对照的 baseline 是哪些;GPU-CPU 资源建模粒度(per-process? per-task?)需读全文;多租户场景下 control plane 的隔离性 abstract 未提。
💼 对系统人的启示
把"agent serving"当成 GPU-CPU 联合调度问题是正确视角。如果你在搭 vLLM/SGLang 之外的 agent 平台,可以直接借鉴 "KV cache 自适应保留" 这条 policy——多数现有系统是无脑常保留,浪费显存。
Nanvix: A Multikernel OS Design for High-Density Serverless Deployments
Carlos Segarra, Pedro H. Penna, Enrique Saurez et al. · Microsoft Research / Imperial · 2026-04-13
🎯 核心问题
Serverless 想要高 deployment density(每台主机塞更多函数),但租户间必须强隔离(侧信道),同租户内共享又容易在 host 资源上踩踏。鱼和熊掌怎么兼得?
🔧 关键方法
Nanvix 是一个 multikernel OS,把状态拆成两层:**ephemeral execution state**(每次调用独有,跑在轻量 user VM + 微内核,只实现 thread/memory)+ **long-lived persistent state**(同租户共享,跑在 system VM + macro-kernel,承担驱动和 I/O)。User VM 的所有 I/O 都 forward 到 system VM。结果:跨租户走 hypervisor 强隔离;同租户走共享 macro-kernel 减少 contention。
📊 实验或论据
应用启动时间比 SOTA 低一个数量级;I/O 开销中等。回放一份生产 trace 时,所需 host server 数为 SOTA 的 1/20–1/100,密度提升非常显著。
⚠️ 局限
Multikernel 路线工程负担一直很重(驱动重写、调度协调);I/O 经 VM 转发的尾延迟分布 abstract 未给;与现有 microVM(Firecracker、Cloud Hypervisor)的 head-to-head 比较需读全文。
💼 对系统人的启示
"状态分两层、用 VM 边界做隔离单元、宿主端共享 driver" 这一拆分思路即便不上 multikernel 也能借鉴——同租户内的 sandbox 用 microVM + 共享 host I/O 代理,是一条比 nested namespace 更干净的隔离路线。
👥 作者与机构
本周 cs.OS 上活跃度最高的几组:
两个观察:(1) UC Merced 的 Xi Wang 同周作为一作发了两篇 tiered memory 论文,可能在做"分层内存"系列;(2) Daeyeon Son 单独输出 Anima OS 的两篇姊妹篇,显示出"AI-native OS"作为新栈正在被严肃构建。
📄 值得一提(未深读)
-
A Physics-Aware Framework for Short-Term GPU Power Forecasting of AI Data Centers
M. AlShaikh Saleh et al. · 用 RC 热网络 + DLinear 建模 5–80 分钟 GPU 功耗,比 SOTA transformer 时序模型在 MAE 上最高提升 52%——做 DC 容量/调度的工程师可以借鉴 physics-informed 思路。
-
A Periodic Space of Distributed Computing: Vision & Framework
M. Amini Salehi, R. Buyya et al. · 类比化学元素周期表,给分布式计算建一个"系统属性周期框架"。纯 vision paper,适合在 reading group 拿来吵架,不指望直接落地。
🔮 趋势观察
本周 9 篇里有 3 篇明确针对 "AI agent 时代的 OS 抽象"(ProbeLogits、Governed MCP、YoloFS),加上 1 篇 agent serving 调度(MARS)和 1 篇 AI data center 功耗建模(PI-DLinear),过半数论文都把 LLM/agent 当成 OS 设计的一等公民。这与一两年前 cs.OS 里以"传统 syscall / 文件系统优化"为主的局面已经明显不同。
具体可以观察到三个微趋势:(1) "agent 调 tool ≡ syscall" 这个心智模型正在多组同时浮现,未来一年应该会出现 LSM/eBPF 的 agent 版本;(2) 把策略从内核 C 挪到 eBPF 的做法在 tiered memory 上已经成熟(TierBPF),下一站很可能是 page reclaim 和 scheduler class;(3) 分层内存调优的瓶颈从"策略"转向"调参"(PTMT),说明这领域已经过了 hot-path 算法竞赛,进入工程精修期。
评论