arXiv cs.OS 周报 (20260518~20260524)

arXiv cs.OS 周报 (20260518~20260524)

共 7 篇 · 主要子类:cs.OS: 7, cs.AI: 1, cs.PL: 1 · 20260518-20260524
Generated by tanar · 2026-05-25 15:46

arXiv cs.OS 周报 (20260518 ~ 20260524)

本周 cs.OS 共 7 篇新论文。主线非常清晰:LLM / Agent 工作负载正在重塑系统软件栈——从沙箱 checkpoint、安全容器、tiered memory、GPU serverless,到块存储调度,几乎每一篇都在回答"传统 OS 抽象怎么应付 LLM 时代的访问模式"。本期对 7 篇全部做工程师视角的深度解读。

📖 深度解读

DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback

Yunpeng Dong, Jingkai He, Yuze Hou et al. · SJTU IPADS(Haibo Chen 组) · 2026-05-21

🎯 核心问题
LLM agent 做 test-time tree search / RL 时要频繁对完整沙箱(文件 + 进程内存 + 上下文)做 checkpoint/rollback,现有 full duplication 方案每次几百毫秒到秒级延迟,深搜索和大 fan-out 直接被卡死。

🔧 关键方法
核心观察:连续 checkpoint 之间状态高度相似,所以只复制 delta。提出 OS 级抽象 DeltaState,由两个机制组成:(1) DeltaFS 把文件状态分层管理,checkpoint 时把可写层冻结、再插一新层,文件更新退化为 copy-on-write,rollback 就是层切换;(2) DeltaCR 用增量 dump 处理进程状态,rollback 时绕过传统恢复管线,直接从冻结的 template process fork()

📊 实验或论据
在 SWE-bench 与 RL micro-benchmark 上,checkpoint 14ms、rollback 5ms,比 full duplication 快两到三个数量级;同等时间预算下能探索更多节点。

⚠️ 局限
📄 abstract 未明确提及;从设计推测:层叠 FS 对极长 chain 的累积开销、template process 的内存常驻成本,以及与现有容器 runtime 的集成成本,需读全文确认。

💼 对系统人的启示
思路与 OverlayFS + criu 增量恢复相通,但把"agent 沙箱"作为一等公民的目标场景。如果你在做 RL training infra 或 agentic 服务,DeltaFS 的分层快照设计可以直接借鉴。

ParaCell: Paravirtualized Secure Containers with Lightweight Intra-Container Isolation and Intent-Driven Memory Management

Yiyang Wu, Xunjie Wang, Jinyu Gu, Haibo Chen · SJTU IPADS · 2026-05-20

🎯 核心问题
每容器一内核(Kata、gVisor 风格)能挡住 shared-kernel 攻击,但代价是 VM exit 频繁、嵌套页表昂贵。新兴 agent 工作负载又要求 bursty 的内存弹性,传统大页摊销 + reactive shadow page-fault 路径完全不够用。

🔧 关键方法
两个支点:(1) MPK-based XGate——把 container user / container kernel 放在同一个地址空间内用 Intel MPK 做隔离,把 user→kernel 切换从 VM exit 降级成 domain switch;(2) Pager——hook 容器内核 allocator 的 alloc/free 事件,把 GPA→HPA 绑定 batch 化、proactive 化,避免 reactive shadow page-table fault 又保住细粒度回收。本质是把 container kernel 已经知道的内存意图显式上抛给 host。

📊 实验或论据
作为 RunV 的 drop-in replacement。bare-metal 下相比 PVM 降低延迟最多 57%、相比 RunV 降 33%;嵌套云下分别降 79%、88%。Agent 负载相比 SOTA HyperAlloc 节省 35.6% 内存。

⚠️ 局限
依赖 Intel MPK(AMD / ARM 需替代原语,如 PAC / MTE)。MPK 单进程 16 个 protection key 上限对深度多 domain 场景是天花板。📄 abstract 未明确披露兼容性边界。

💼 对系统人的启示
"intra-address-space hardware protection" 这个套路(XGate)值得云原生团队关注——比起加 hypervisor exit,把保护域压进同一地址空间是这两年逐步成熟的方向。如果你在用 Kata / RunV,论文的 Pager 部分就是个具体可借鉴的内存协同接口设计。

Clove: Object-Level CXL Memory Management in Managed Runtimes

Sam Son, Zhihong Luo, Wen Zhang, Sylvia Ratnasamy, Scott Shenker · UC Berkeley · 2026-05-19

🎯 核心问题
CXL 分层内存的 page-based 管理在 4KB / 2MB 粒度上不够准;object-level 管理理论上更优但已有方案大多针对 C/C++ 等 unmanaged 语言、要 bespoke runtime 或编译器支持,落地成本高。

🔧 关键方法
关键观察:JVM / V8 / .NET 这类 managed runtime 已经天然具备 object relocation 与动态代码生成机制——只是缺 hotness tracking 和 relocation policy 这两块。Clove 在 JVM 上扩展,加入 profile-guided 对象热度追踪,并把 relocation policy 接到既有的 GC moving 路径上,把热对象迁到 fast tier、冷对象下沉到 CXL。

📊 实验或论据
JVM 原型,相比 page-based tiering,应用减速降低 22%–84%,同时保持 fast-tier 高利用率、运行时开销可控。

⚠️ 局限
只在 JVM 上验证;CLR / V8 / Go runtime 的迁移虽然机制相通但工程量不小。Hotness profiling 的 overhead 在 abstract 里没给具体数字,📄 需读全文。

💼 对系统人的启示
给搞 JVM / runtime 的人一个非常具体的指引:不要再写新 page table allocator,去给 GC 加一个 tier-aware moving policy 就行。CXL tiering 在 managed-language 服务(Spark、Cassandra、Kafka 这种 JVM 重型负载)上落地的最快路径。

SSV: Sparse Speculative Verification for Efficient LLM Inference

Zhibin Wang, Ziyu Zhong, Nuo Shen et al. · Nanjing University · 2026-05-19

🎯 核心问题
Speculative decoding(多 query 跨步分摊 target model)和 dynamic sparse attention(NSA,每 query 局部稀疏 KV-cache)是两条独立加速路径,直接组合存在结构性冲突:speculative 依赖跨 query 的共性,而 sparse attention 给每个 query 各自的个性化稀疏布局,导致 KV-block 复用差、branch fusion 开销爆炸。

🔧 关键方法
把 dynamic sparse attention 重新塑造成 verification-oriented workload。三个组件:(1) overlap-aware grouped-query execution 增加跨 query KV 复用;(2) refresh/reuse 的 NSA kernel fusion 降低 selected-index 与 branch-fusion 开销;(3) profile-guided prompt-adaptive orchestration 在用户精度等级下选最优 draft-verification 策略。

📊 实验或论据
NVIDIA H100 上端到端吞吐相对 autoregressive NSA decoding 最高 3.49×,sparse speculative verification kernel 最快 6.86×。

⚠️ 局限
严格说更接近 LLM serving / GPU kernel 工作(cs.DC 味道更重),落到 cs.OS 主要因为牵涉调度策略。abstract 没给端到端 latency / accuracy tradeoff 在不同模型规模下的 sweep。📄 需读全文。

💼 对系统人的启示
如果你在调 vLLM / SGLang 这类 serving stack,SSV 提示了一个被忽视的方向:把 attention pattern 选择从"每 query 局部最优"改成"verification 一组 query 的联合最优"。这是 serving 调度层可以直接吸收的设计思路。

C2CServe: Leveraging NVLink-C2C for Elastic Serverless LLM Serving on MIG

Shutian Luo, Ali Zafar Sadiq, Rui Yang et al. · 2026-05-19

🎯 核心问题
Serverless LLM serving 面临两难:dedicated GPU 在长尾调用下浪费 HBM;GPU time-sharing 把权重加载放到 cold-start 关键路径;MIG 提供 spatial 隔离但每个 slice HBM 太小装不下现代 LLM 权重。

🔧 关键方法
抓 NVIDIA GH200 / GB200 上 NVLink-C2C 的高带宽 CPU↔GPU 互连:权重常驻 CPU 内存,按需流式喂给 MIG 实例,从而把 model residency 从稀缺 HBM 转移到充足 host memory。两个组件:(1) HybridGEMM kernel 自适应数据访问模式以平衡 HBM 与 C2C 带宽,单一 tuning knob;(2) 分层调度器在 model placement、input chunking、kernel selection 之间做 online feedback 协调,处理共享 C2C 通道的争用。

📊 实验或论据
GH200 上 cold-start latency dense model 降 7.1×、MoE 降 4.6×,对比 SOTA serverless LLM serving 系统;C2C 争用下保持 >95% 的 TTFT / TPOT 达成率。

⚠️ 局限
强依赖 GH200 / GB200 的 NVLink-C2C,传统 PCIe Gen4/5 平台上带宽不够、方案直接退化。MoE 路由对带宽的 burst 行为是否会导致尾延迟尖峰,abstract 未深谈。

💼 对系统人的启示
给 GPU serverless 厂商画了一条路线:CPU 内存当 LLM 的二级"权重池"。MIG + C2C 这条组合是 GH200/GB200 平台一个明显的甜蜜点,谁先做谁占位。如果在用 PCIe Gen5 平台,关注 GraceHopper 真正铺货后这套方案的可移植度。

TIDAL: Recovering Temporal Phase for Cloud Block Storage Placement from LLM-Derived Semantics

Difan Tan, Changlin Wan, Jiawen Liu, Hua Wang, Ke Zhou · 2026-05-18

🎯 核心问题
Cloud Virtual Disk (CVD) 在 Cloud Block Storage 里 placement 的本质是时间相位互补,不是空间均衡——peak 在时间上对齐就一起把 pod 拥塞。但新盘 provisioning 时无历史数据,无法推断 phase,是经典 cold-start 问题。

🔧 关键方法
挖掘一个长期被忽略的信号:tenant 自填的 project / VM / disk 名字。流程:(1) 用 LLM 从噪声 metadata 里抽出 application semantics;(2) 把 semantics 翻译成 phase-aware 的时间信号指导互补 placement。为满足 control-plane 毫秒级延迟约束,用 offline 大模型→online 小模型的 teacher-student distillation、regex 过滤、prefix-aware caching,做到 CPU-only inference。

📊 实验或论据
生产 trace 驱动评估:overload 频次降 79.1%,P95 overload 持续时间降 73.7%,对比 strongest baseline。

⚠️ 局限
强依赖 tenant 命名习惯——命名混乱或匿名化的环境下信号会大打折扣。LLM 输出的 phase 推断准确率随业务种类分布偏移可能漂移,需持续 retrain。

💼 对系统人的启示
"用 LLM 解析 metadata 来增强调度"是一类越来越多见的设计模式。本文的工程贡献在于把推理压到 CPU + 毫秒级——这条 distillation + caching 路径是公有云控制面接 LLM 的可复用模板。

PipeANN-Filter: An Efficient Filtered Vector Search System on SSD

Hao Guo, Jiwu Shu, Youyou Lu · Tsinghua THUStorage · 2026-05-18

🎯 核心问题
带属性过滤的 ANN 向量检索在 SSD 上的瓶颈是属性读取 I/O:现有系统只搜索"满足约束"的合法向量,而每次检查向量是否合法都得读盘。

🔧 关键方法
倒过来:先搜合法向量的超集(不强制每步都验证属性),等拿到 top-k 候选后再做属性 verification。超集识别用 Bloom filter 这类概率结构。容忍少量 false positive 探索,换来 SSD I/O 大幅下降。

📊 实验或论据
abstract 给的是定性结论:"比 SOTA 显著改善搜索 latency 和吞吐"。具体数字要查论文。代码已开源:github.com/thustorage/PipeANN

⚠️ 局限
Bloom filter 的 false positive 率随属性 selectivity 变化敏感——在 highly selective filter(合法向量只占 1% 不到)下,超集可能爆炸,反而退化。📄 abstract 未给 selectivity sweep。

💼 对系统人的启示
向量数据库 / RAG infra 工程师值得一看,特别是在用 DiskANN / Milvus 这类 SSD-tier 索引时。"延后属性验证"思路也可以推广到其他 I/O 密集的过滤搜索场景,比如带 tag 的 KV 查询。代码开源更增加了直接借鉴的价值。

👥 作者与机构

本周 cs.OS 的国内系统圈子表现活跃,特别是SJTU IPADS(Haibo Chen 组)一周双发,覆盖 LLM agent 沙箱与安全容器两个独立方向。下面是机构活跃度速览:

机构 论文数 关注主题
SJTU IPADS(Haibo Chen 等) 2 DeltaBox(agent 沙箱 C/R)、ParaCell(安全容器 + MPK)
UC Berkeley(Ratnasamy / Shenker 组) 1 Clove(CXL × JVM)
Tsinghua THUStorage(Jiwu Shu / Youyou Lu) 1 PipeANN-Filter(SSD 向量检索)
Nanjing University(Zhibin Wang 等) 1 SSV(speculative × sparse attention)
其他(含 cloud / serverless 团队) 2 C2CServe(GH200 serverless)、TIDAL(CBS 调度)

持续输出的组:SJTU IPADS 在过去几个季度一直在"OS × LLM workload"主线上稳定发文(agent 沙箱、tiered serving、容器虚拟化),本周再次双发。THUStorage 把存储索引方向贴到 RAG / 向量检索热点,也是值得跟踪的更新源。

🔮 趋势观察

主线只有一条:LLM / Agent workload 在重写经典 OS 抽象。7 篇论文里 6 篇都直接被 LLM 工作负载触发:

  • Checkpoint/Rollback:DeltaBox 把 agent tree search 从"几百 ms 一次"压到 "5–14 ms 一次"。
  • 容器隔离:ParaCell 明确点名 "agentic workloads expose bursty memory demand",并和 HyperAlloc 比内存。
  • 内存分层:Clove 走 managed runtime + CXL;C2CServe 把 NVLink-C2C 当二级权重池。
  • 调度:TIDAL 反过来用 LLM 做存储 placement 的 cold-start 推断——LLM 既是负载也是工具。
  • 推理 kernel:SSV 把 sparse attention 与 speculative decoding 结构性融合。

唯一一篇"非 LLM 触发"的是 PipeANN-Filter,但它服务的也是 RAG/向量检索这个 LLM 邻接场景。结论:cs.OS 这一波的"问题选择权"已经被 LLM workload 接管,传统 OS 子方向(FS、scheduler、virt、tiered memory、storage placement)正在被逐个用新负载重做一次。如果你在选研究题目或工程方向,这是一个非常清晰的信号。