Bluo Blog

arXiv cs.OS 周报 (20260518~20260524)

arXiv cs.OS 周报 (20260518 ~ 20260524)

本周 cs.OS 共 7 篇新论文。主线非常清晰：LLM / Agent 工作负载正在重塑系统软件栈——从沙箱 checkpoint、安全容器、tiered memory、GPU serverless，到块存储调度，几乎每一篇都在回答"传统 OS 抽象怎么应付 LLM 时代的访问模式"。本期对 7 篇全部做工程师视角的深度解读。

📖 深度解读

DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback

Yunpeng Dong, Jingkai He, Yuze Hou et al. · SJTU IPADS（Haibo Chen 组） · 2026-05-21

🎯 核心问题
LLM agent 做 test-time tree search / RL 时要频繁对完整沙箱（文件 + 进程内存 + 上下文）做 checkpoint/rollback，现有 full duplication 方案每次几百毫秒到秒级延迟，深搜索和大 fan-out 直接被卡死。

🔧 关键方法
核心观察：连续 checkpoint 之间状态高度相似，所以只复制 delta。提出 OS 级抽象 DeltaState，由两个机制组成：(1) DeltaFS 把文件状态分层管理，checkpoint 时把可写层冻结、再插一新层，文件更新退化为 copy-on-write，rollback 就是层切换；(2) DeltaCR 用增量 dump 处理进程状态，rollback 时绕过传统恢复管线，直接从冻结的 template process fork()。

📊 实验或论据
在 SWE-bench 与 RL micro-benchmark 上，checkpoint 14ms、rollback 5ms，比 full duplication 快两到三个数量级；同等时间预算下能探索更多节点。

⚠️ 局限
📄 abstract 未明确提及；从设计推测：层叠 FS 对极长 chain 的累积开销、template process 的内存常驻成本，以及与现有容器 runtime 的集成成本，需读全文确认。

💼 对系统人的启示
思路与 OverlayFS + criu 增量恢复相通，但把"agent 沙箱"作为一等公民的目标场景。如果你在做 RL training infra 或 agentic 服务，DeltaFS 的分层快照设计可以直接借鉴。

ParaCell: Paravirtualized Secure Containers with Lightweight Intra-Container Isolation and Intent-Driven Memory Management

Yiyang Wu, Xunjie Wang, Jinyu Gu, Haibo Chen · SJTU IPADS · 2026-05-20

🎯 核心问题
每容器一内核（Kata、gVisor 风格）能挡住 shared-kernel 攻击，但代价是 VM exit 频繁、嵌套页表昂贵。新兴 agent 工作负载又要求 bursty 的内存弹性，传统大页摊销 + reactive shadow page-fault 路径完全不够用。

🔧 关键方法
两个支点：(1) MPK-based XGate——把 container user / container kernel 放在同一个地址空间内用 Intel MPK 做隔离，把 user→kernel 切换从 VM exit 降级成 domain switch；(2) Pager——hook 容器内核 allocator 的 alloc/free 事件，把 GPA→HPA 绑定 batch 化、proactive 化，避免 reactive shadow page-table fault 又保住细粒度回收。本质是把 container kernel 已经知道的内存意图显式上抛给 host。

📊 实验或论据
作为 RunV 的 drop-in replacement。bare-metal 下相比 PVM 降低延迟最多 57%、相比 RunV 降 33%；嵌套云下分别降 79%、88%。Agent 负载相比 SOTA HyperAlloc 节省 35.6% 内存。

⚠️ 局限
依赖 Intel MPK（AMD / ARM 需替代原语，如 PAC / MTE）。MPK 单进程 16 个 protection key 上限对深度多 domain 场景是天花板。📄 abstract 未明确披露兼容性边界。

💼 对系统人的启示
"intra-address-space hardware protection" 这个套路（XGate）值得云原生团队关注——比起加 hypervisor exit，把保护域压进同一地址空间是这两年逐步成熟的方向。如果你在用 Kata / RunV，论文的 Pager 部分就是个具体可借鉴的内存协同接口设计。

Clove: Object-Level CXL Memory Management in Managed Runtimes

Sam Son, Zhihong Luo, Wen Zhang, Sylvia Ratnasamy, Scott Shenker · UC Berkeley · 2026-05-19

🎯 核心问题
CXL 分层内存的 page-based 管理在 4KB / 2MB 粒度上不够准；object-level 管理理论上更优但已有方案大多针对 C/C++ 等 unmanaged 语言、要 bespoke runtime 或编译器支持，落地成本高。

🔧 关键方法
关键观察：JVM / V8 / .NET 这类 managed runtime 已经天然具备 object relocation 与动态代码生成机制——只是缺 hotness tracking 和 relocation policy 这两块。Clove 在 JVM 上扩展，加入 profile-guided 对象热度追踪，并把 relocation policy 接到既有的 GC moving 路径上，把热对象迁到 fast tier、冷对象下沉到 CXL。

📊 实验或论据
JVM 原型，相比 page-based tiering，应用减速降低 22%–84%，同时保持 fast-tier 高利用率、运行时开销可控。

⚠️ 局限
只在 JVM 上验证；CLR / V8 / Go runtime 的迁移虽然机制相通但工程量不小。Hotness profiling 的 overhead 在 abstract 里没给具体数字，📄 需读全文。

💼 对系统人的启示
给搞 JVM / runtime 的人一个非常具体的指引：不要再写新 page table allocator，去给 GC 加一个 tier-aware moving policy 就行。CXL tiering 在 managed-language 服务（Spark、Cassandra、Kafka 这种 JVM 重型负载）上落地的最快路径。

SSV: Sparse Speculative Verification for Efficient LLM Inference

Zhibin Wang, Ziyu Zhong, Nuo Shen et al. · Nanjing University · 2026-05-19

🎯 核心问题
Speculative decoding（多 query 跨步分摊 target model）和 dynamic sparse attention（NSA，每 query 局部稀疏 KV-cache）是两条独立加速路径，直接组合存在结构性冲突：speculative 依赖跨 query 的共性，而 sparse attention 给每个 query 各自的个性化稀疏布局，导致 KV-block 复用差、branch fusion 开销爆炸。

🔧 关键方法
把 dynamic sparse attention 重新塑造成 verification-oriented workload。三个组件：(1) overlap-aware grouped-query execution 增加跨 query KV 复用；(2) refresh/reuse 的 NSA kernel fusion 降低 selected-index 与 branch-fusion 开销；(3) profile-guided prompt-adaptive orchestration 在用户精度等级下选最优 draft-verification 策略。

📊 实验或论据
NVIDIA H100 上端到端吞吐相对 autoregressive NSA decoding 最高 3.49×，sparse speculative verification kernel 最快 6.86×。

⚠️ 局限
严格说更接近 LLM serving / GPU kernel 工作（cs.DC 味道更重），落到 cs.OS 主要因为牵涉调度策略。abstract 没给端到端 latency / accuracy tradeoff 在不同模型规模下的 sweep。📄 需读全文。

💼 对系统人的启示
如果你在调 vLLM / SGLang 这类 serving stack，SSV 提示了一个被忽视的方向：把 attention pattern 选择从"每 query 局部最优"改成"verification 一组 query 的联合最优"。这是 serving 调度层可以直接吸收的设计思路。

C2CServe: Leveraging NVLink-C2C for Elastic Serverless LLM Serving on MIG

Shutian Luo, Ali Zafar Sadiq, Rui Yang et al. · 2026-05-19

🎯 核心问题
Serverless LLM serving 面临两难：dedicated GPU 在长尾调用下浪费 HBM；GPU time-sharing 把权重加载放到 cold-start 关键路径；MIG 提供 spatial 隔离但每个 slice HBM 太小装不下现代 LLM 权重。

🔧 关键方法
抓 NVIDIA GH200 / GB200 上 NVLink-C2C 的高带宽 CPU↔GPU 互连：权重常驻 CPU 内存，按需流式喂给 MIG 实例，从而把 model residency 从稀缺 HBM 转移到充足 host memory。两个组件：(1) HybridGEMM kernel 自适应数据访问模式以平衡 HBM 与 C2C 带宽，单一 tuning knob；(2) 分层调度器在 model placement、input chunking、kernel selection 之间做 online feedback 协调，处理共享 C2C 通道的争用。

📊 实验或论据
GH200 上 cold-start latency dense model 降 7.1×、MoE 降 4.6×，对比 SOTA serverless LLM serving 系统；C2C 争用下保持 >95% 的 TTFT / TPOT 达成率。

⚠️ 局限
强依赖 GH200 / GB200 的 NVLink-C2C，传统 PCIe Gen4/5 平台上带宽不够、方案直接退化。MoE 路由对带宽的 burst 行为是否会导致尾延迟尖峰，abstract 未深谈。

💼 对系统人的启示
给 GPU serverless 厂商画了一条路线：CPU 内存当 LLM 的二级"权重池"。MIG + C2C 这条组合是 GH200/GB200 平台一个明显的甜蜜点，谁先做谁占位。如果在用 PCIe Gen5 平台，关注 GraceHopper 真正铺货后这套方案的可移植度。

TIDAL: Recovering Temporal Phase for Cloud Block Storage Placement from LLM-Derived Semantics

Difan Tan, Changlin Wan, Jiawen Liu, Hua Wang, Ke Zhou · 2026-05-18

🎯 核心问题
Cloud Virtual Disk (CVD) 在 Cloud Block Storage 里 placement 的本质是时间相位互补，不是空间均衡——peak 在时间上对齐就一起把 pod 拥塞。但新盘 provisioning 时无历史数据，无法推断 phase，是经典 cold-start 问题。

🔧 关键方法
挖掘一个长期被忽略的信号：tenant 自填的 project / VM / disk 名字。流程：(1) 用 LLM 从噪声 metadata 里抽出 application semantics；(2) 把 semantics 翻译成 phase-aware 的时间信号指导互补 placement。为满足 control-plane 毫秒级延迟约束，用 offline 大模型→online 小模型的 teacher-student distillation、regex 过滤、prefix-aware caching，做到 CPU-only inference。

📊 实验或论据
生产 trace 驱动评估：overload 频次降 79.1%，P95 overload 持续时间降 73.7%，对比 strongest baseline。

⚠️ 局限
强依赖 tenant 命名习惯——命名混乱或匿名化的环境下信号会大打折扣。LLM 输出的 phase 推断准确率随业务种类分布偏移可能漂移，需持续 retrain。

💼 对系统人的启示
"用 LLM 解析 metadata 来增强调度"是一类越来越多见的设计模式。本文的工程贡献在于把推理压到 CPU + 毫秒级——这条 distillation + caching 路径是公有云控制面接 LLM 的可复用模板。

PipeANN-Filter: An Efficient Filtered Vector Search System on SSD

Hao Guo, Jiwu Shu, Youyou Lu · Tsinghua THUStorage · 2026-05-18

🎯 核心问题
带属性过滤的 ANN 向量检索在 SSD 上的瓶颈是属性读取 I/O：现有系统只搜索"满足约束"的合法向量，而每次检查向量是否合法都得读盘。

🔧 关键方法
倒过来：先搜合法向量的超集（不强制每步都验证属性），等拿到 top-k 候选后再做属性 verification。超集识别用 Bloom filter 这类概率结构。容忍少量 false positive 探索，换来 SSD I/O 大幅下降。

📊 实验或论据
abstract 给的是定性结论："比 SOTA 显著改善搜索 latency 和吞吐"。具体数字要查论文。代码已开源：github.com/thustorage/PipeANN。

⚠️ 局限
Bloom filter 的 false positive 率随属性 selectivity 变化敏感——在 highly selective filter（合法向量只占 1% 不到）下，超集可能爆炸，反而退化。📄 abstract 未给 selectivity sweep。

💼 对系统人的启示
向量数据库 / RAG infra 工程师值得一看，特别是在用 DiskANN / Milvus 这类 SSD-tier 索引时。"延后属性验证"思路也可以推广到其他 I/O 密集的过滤搜索场景，比如带 tag 的 KV 查询。代码开源更增加了直接借鉴的价值。

👥 作者与机构

本周 cs.OS 的国内系统圈子表现活跃，特别是SJTU IPADS（Haibo Chen 组）一周双发，覆盖 LLM agent 沙箱与安全容器两个独立方向。下面是机构活跃度速览：

机构	论文数	关注主题
SJTU IPADS（Haibo Chen 等）	2	DeltaBox（agent 沙箱 C/R）、ParaCell（安全容器 + MPK）
UC Berkeley（Ratnasamy / Shenker 组）	1	Clove（CXL × JVM）
Tsinghua THUStorage（Jiwu Shu / Youyou Lu）	1	PipeANN-Filter（SSD 向量检索）
Nanjing University（Zhibin Wang 等）	1	SSV（speculative × sparse attention）
其他（含 cloud / serverless 团队）	2	C2CServe（GH200 serverless）、TIDAL（CBS 调度）

持续输出的组：SJTU IPADS 在过去几个季度一直在"OS × LLM workload"主线上稳定发文（agent 沙箱、tiered serving、容器虚拟化），本周再次双发。THUStorage 把存储索引方向贴到 RAG / 向量检索热点，也是值得跟踪的更新源。

🔮 趋势观察

主线只有一条：LLM / Agent workload 在重写经典 OS 抽象。7 篇论文里 6 篇都直接被 LLM 工作负载触发：

Checkpoint/Rollback：DeltaBox 把 agent tree search 从"几百 ms 一次"压到 "5–14 ms 一次"。
容器隔离：ParaCell 明确点名 "agentic workloads expose bursty memory demand"，并和 HyperAlloc 比内存。
内存分层：Clove 走 managed runtime + CXL；C2CServe 把 NVLink-C2C 当二级权重池。
调度：TIDAL 反过来用 LLM 做存储 placement 的 cold-start 推断——LLM 既是负载也是工具。
推理 kernel：SSV 把 sparse attention 与 speculative decoding 结构性融合。

唯一一篇"非 LLM 触发"的是 PipeANN-Filter，但它服务的也是 RAG/向量检索这个 LLM 邻接场景。结论：cs.OS 这一波的"问题选择权"已经被 LLM workload 接管，传统 OS 子方向（FS、scheduler、virt、tiered memory、storage placement）正在被逐个用新负载重做一次。如果你在选研究题目或工程方向，这是一个非常清晰的信号。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS OS WEEKLY 20260524