Bluo Blog

arXiv cs.OS 周报 (20260427~20260503)

arXiv cs.OS 周报 (20260427 ~ 20260503)

本周共 7 篇论文入选。主线集中在 AI agent / GPU 系统支撑（VUDA、SAGA、Crab）、调度与资源分配（Affinity Tailor、CvxCluster）和 嵌入式 Rust（treVM、Ariel OS 工业案例）三大方向。由于总量较少，本期跳过浅式方向汇总，直接对 7 篇做工程师视角的深度解读。

📖 深度解读

VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU

Bin Xu, Pengfei Hu, Wenxin Zheng et al. · 上交 IPADS（陈海波组）· 2026-05-02

🎯 核心问题
Embodied AI 仿真同时需要 CUDA 物理仿真和 Vulkan 渲染，但 NVIDIA 驱动把 CUDA context 与 Vulkan context 绑到不同 scheduling group，硬件上变成时分复用——GPU 一半算力闲着也不能并行跑图形。现有空分共享方案（MPS、MIG）只覆盖 CUDA 生态。

🔧 关键方法
两个底层观察：(1) CUDA stream 和 Vulkan queue 在驱动层最终都收敛到统一的 channel primitive；(2) 两者的 GPU 虚拟地址空间天然不相交。VUDA 通过 channel 重定向把 CUDA stream 注入 Vulkan 的调度域，再用 page table grafting合并地址空间，让 compute 和 graphics 内核真正并发执行，且关键路径上零拷贝。开发者只需用一个 thin API 标注哪些 stream 可与图形协同调度。

📊 实验或论据
在代表性 embodied-AI workload 上，相比时分共享 baseline 提升吞吐最高 85%，端到端延迟下降，GPU 利用率提升。论文未提具体硬件型号，但 channel/page-table 操作意味着深入 NVIDIA 驱动的逆向或 hooking。

⚠️ 局限
这种合并 page table、绕过 driver 的做法对 NVIDIA 驱动版本和硬件代际敏感；上游化路径基本封闭。📄 abstract 未明确隔离/安全保证。

💼 对系统人的启示
如果你在做仿真平台或 RL rollout 加速，VUDA 给出了 CUDA-Graphics 协同的全新打开方式；但生产部署前要评估"驱动黑魔法"的维护成本。这条思路也可启发其它异构 stack（如 OptiX、ROCm + Vulkan）的并发探索。

SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters

Dongxin Guo, Jikun Wu, Siu Ming Yiu · 港大 · 2026-05-01

🎯 核心问题
Agent 任务一次会触发数十到数百次 LLM 调用，但 GPU scheduler（如 vLLM）把每次调用当独立 request 处理，丢弃 GB 级中间 KV cache，端到端延迟被放大 3-8 倍。请求级抽象与 compound AI workload 根本不匹配。

🔧 关键方法
把"整个 agent workflow"提升为一等调度单元。三机制：(1) Agent Execution Graph建模 workflow 拓扑、跨 tool-call 预测 KV cache 复用，逼近 Bélády 离线最优 1.31x 内；(2) session-affinity batching + work stealing，相关请求共置同时维持全局负载均衡；(3) Agent Fair Share基于任务完成时间的公平度量，给出有界偏差证明。

📊 实验或论据
64-GPU 集群跑 SWE-bench coding agent + WebArena 浏览任务。相比 vLLM v0.15.1（开 prefix cache + affinity routing），任务完成时间几何均值提升 1.64x（p<0.001）；GPU 显存利用率 +1.22x；多租户干扰下 SLO 达成率 99.2%。

⚠️ 局限
作者自陈：相比吞吐最优批调度，峰值吞吐降约 30%——延迟敏感场景才划算。Agent Execution Graph 需要 workflow 结构可见，对完全黑盒的 agent 框架不适用。

💼 对系统人的启示
做 LLM serving 平台的同学要关注：prefix caching 不是终点，workflow 级别的 KV 复用 + session 亲和才是 agent serving 的下一战。SAGA 的公平性证明对多租户云厂商有直接借鉴价值。

Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes

Tianyuan Wu, Chaokun Chang, Lunxi Cao et al. · 2026-04-30

🎯 核心问题
Agent 跑在沙箱容器/microVM 里，状态散落在文件系统、进程、运行时多处。容错、抢占、RL 分支回滚都需要 C/R，但应用层只能存对话历史漏掉 OS side effects，每轮全量 checkpoint 又太贵。根因是 agent-OS 语义鸿沟：agent 框架看得见 tool call 看不见 OS 影响；OS 看得见状态变化看不出 turn 边界。

🔧 关键方法
Crab 是 host 侧透明 runtime，不改 agent 也不改 C/R 后端。三件套：(1) eBPF 探针分类每轮 OS 可见副作用，决定 checkpoint 粒度；(2) coordinator 把 checkpoint 与 turn 边界对齐，并将 C/R 与 LLM 等待时间重叠；(3) host-scoped engine 跨共置沙箱调度 checkpoint 流量。关键洞见：超过 75% 的 turn 不产生需恢复的状态，绝大多数 checkpoint 本可省。

📊 实验或论据
shell 密集 + 代码修复 workload。恢复正确率从 chat-only 的 8% 升到 100%；checkpoint 流量减少 87%；与无故障执行相比开销 1.9% 内。

⚠️ 局限
📄 abstract 未提及对 anonymous mmap、GPU 状态、网络长连接等更复杂副作用的覆盖；eBPF 分类规则在 abstract 之外是否需手工配置也未明示。

💼 对系统人的启示
做 agent 平台 / sandbox 服务的同学：把 LLM 等待时间当成"免费的 checkpoint 窗口"是个非常实用的工程哲学。eBPF 做 turn-level 副作用分类的思路也可迁移到 serverless cold-start、CI/CD cache 失效检测等场景。

Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale

Jin Xin Ng, Ori Livneh, Richard O'Grady et al. · Google · 2026-04-30

🎯 核心问题
Linux CFS 为了让 CPU 不闲，会把 workload 的线程铺满所有核。在 chiplet（多 LLC domain）系统上，这意味着 cache、分支预测器、prefetcher 的 reuse 全部丢失，租户间互相干扰。硬分区（cpuset partition）能保 locality 但 CPU 不饱和时浪费产能。

🔧 关键方法
userspace 控制器在线估算每个 workload 的 CPU 需求，给每个 workload 分配一个"按需大小、拓扑紧凑、尽量跨少 LLC、尽量与其它 workload disjoint"的偏好 CPU 集合。kernel 把这个集合当成 affinity hint 而非硬绑定——优先调度到这些核，但需要时仍可外溢，保证 work conservation。本质上是把空间局部性提升为调度器一等目标。

📊 实验或论据
Google 生产部署。相比 Linux CFS，per-CPU 吞吐几何均值在 chiplet 系统提升 12%、非 chiplet 提升 3%。执行更快也降低了内存驻留时间，per-GB 吞吐再涨 3-7%。

⚠️ 局限
需要 userspace controller 持续在线估计 demand，对接入门槛和监控基础设施有要求；具体 demand 估计算法在 abstract 未展开。📄 与现有 sched_ext/cgroup cpuset 的关系也需读全文。

💼 对系统人的启示
这是 chiplet 时代调度器的明确风向：work conservation 不再是唯一目标，spatial locality 应该上升为一等公民。该思路与 sched_ext / BPF scheduler 完美契合，国内云厂商可以直接做对标实现。

CvxCluster: Solving Large, Complex, Granular Resource Allocation Problems 100-1000x Faster

Obi Nnorom, Stephen Boyd, Philip Levis · Stanford（Stephen Boyd 是 cvxpy 之父）· 2026-05-02

🎯 核心问题
集群资源分配是高维搜索问题，主流做法是 MIP 求解器或一堆启发式。MIP 求解时间随规模指数增长，启发式难证最优。问题：能不能把它变成 convex problem，吃下凸优化几十年的高速求解器红利？

🔧 关键方法
两阶段算法：(1) 解 placement 的凸松弛，得到每台机器的资源价格（dual variable）；(2) 用这套价格驱动一个轻量贪心做实际放置。核心洞见——把离散的 placement 重新表述为连续问题——让快速凸方法替代了 MIP 分支定界。同时支持 anti-affinity、机型约束、GPU 服务器等复杂约束。

📊 实验或论据
Azure trace。可扩到 100,480 服务器，承受 500,000x baseline 到达率；相比 SOTA MIP 求解器快 100-2,500x，目标值在最优 3% 以内。

⚠️ 局限
3% 的最优性差距对成本敏感的批调度可能可接受、对面向 SLA 的在线场景需谨慎；非凸约束（如复杂亲和拓扑）能否纳入未明示。📄 abstract 未提与 Borg / K8s scheduler 的集成路径。

💼 对系统人的启示
调度领域长期被启发式占据，这篇提醒我们："凸松弛 + 取整贪心"是一个被低估的范式。如果你在维护超大规模 placement 服务，至少值得做一次 PoC 对比；价格机制本身也直接对应公平/计费。

treVM: Tiny Rust Embedded Virtual Machines with WASM on Variable Resource-Constrained Hardware

Antoine Lavandier, Bastien Buil, Chrystel Gaber, Emmanuel Baccelli · 2026-04-30

🎯 核心问题
MCU 软件栈仍是 C/C++ + 简陋固件升级机制，跟 MPU 端的高级 API 与远程动态部署能力差距巨大。能不能在 32 位 MCU 上跑安全可热更新的高级语言 capsule？

🔧 关键方法
treVM 是个通用方案，把高级 WebAssembly capsule 嵌入 Rust 通用 RTOS（Ariel OS）之上。Capsule 承载可定制业务逻辑，可经网络安全 OTA 更新；底座 Rust 提供内存安全。整套实现 Rust 开源。

📊 实验或论据
在常见 Arm Cortex-M、RISC-V、Xtensa 板上做异构基准。论文报告了可行性验证，具体延迟/footprint 数字需读全文。

⚠️ 局限
WASM 解释/JIT 在 ultra-low-power 节点的能耗代价未见 abstract 明确量化；可热更新带来的安全分发链（签名、证书）方案在 abstract 也未展开。

💼 对系统人的启示
做 IoT 平台的同学：WASM-on-MCU 已经从科研走到工业可用边缘；Rust + Ariel OS + WASM 三件套可能成为未来"安全可远程升级嵌入式"的标配组合。

Embedded Rust or C Firmware? Lessons from an Industrial Microcontroller Use Case with Ariel OS

Bipin Thapa, Daniele Alfonso, Lorenzo Bini et al. · 2026-04-28

🎯 核心问题
Rust 在系统软件圈热度高，但 MCU 固件领域到底准备好了吗？能在工程指标上正面对抗 C 吗？

🔧 关键方法
一次工业案例：两支队伍数月内并行开发同一功能，一支用 C bare-metal、一支用 Rust + Ariel OS。横向对比开发流程、迭代曲线、最终二进制 footprint 与执行速度。这是少见的"对照组级别"工业实验，而不是单方面 benchmark。

📊 实验或论据
硬件实测显示：从内存 footprint 和执行速度看，没有强理由偏好 C 而非 Rust；而 Ariel OS 提供的 Rust 系统 runtime 比传统 SOTA bare-metal C 栈 footprint 更小。

⚠️ 局限
仅一个产品功能、一类 MCU——结论未必直接外推到全部嵌入式细分。📄 abstract 未提团队 Rust 经验是否对等，可能是混淆变量。

💼 对系统人的启示
做嵌入式选型的工程主管：可以拿这篇论文回应"Rust 是不是太重"的质疑——至少在 Ariel OS 这条路径上，Rust 不再有性能/footprint 上的硬伤。

👥 作者与机构

本周 7 篇论文的作者群在三个生态系统呈现明显聚集：

机构 / 组	代表作者	论文	主题
上交 IPADS	Haibo Chen, Jinyu Gu	VUDA	GPU 异构调度 / 驱动层
Google	Josh Don, Chris Kennelly, Carlos Villavieja 等 10 人团队	Affinity Tailor	生产级 Linux 调度器
Stanford	Stephen Boyd, Philip Levis, Obi Nnorom	CvxCluster	凸优化 × 集群调度
港大 (HKU)	Siu Ming Yiu 等	SAGA	LLM agent serving
Ariel OS 圈（Inria / 工业合作）	Emmanuel Baccelli, Kaspar Schleiser	treVM, Embedded Rust 案例	Rust + WASM 嵌入式
独立团队	Tianyuan Wu, Chaokun Chang 等	Crab	eBPF + agent C/R

值得关注的持续输出组：
• Emmanuel Baccelli 一人本周参与两篇 Ariel OS 相关工作，正成为 Rust embedded 学术阵地的关键节点。
• Google scheduler 团队（Josh Don 等）继续在生产规模上推进调度研究，本期 Affinity Tailor 是 chiplet 时代的代表作。
• 上交 IPADS 维持在 GPU / 操作系统底层一线（VUDA 切入驱动 channel + page table 罕见深度）。

🔮 趋势观察

1. "Agent-aware OS" 的雏形正在成型
本周 7 篇里有 3 篇（VUDA、SAGA、Crab）服务于 AI agent / embodied AI 场景，覆盖 GPU 共享、workflow 调度、checkpoint/restore 三个层次。共同特征：把"agent workflow / turn"作为 OS 一等抽象，而非把 LLM 调用当无状态 RPC。这是对传统 request-level 抽象的系统性反思。

2. Chiplet 重写调度器规则
Google 的 Affinity Tailor 明确把 spatial locality 从次级目标提到一等目标，承认 work conservation 不再万能。这与 AMD/Intel chiplet 普及的硬件趋势完全对齐——预计未来 1-2 年会看到更多"locality-first scheduler"的工作和 sched_ext 实现。

3. Rust + WASM 在 MCU 端可能形成新栈
treVM 与 Embedded Rust 案例同周登场不是巧合，Ariel OS 正在系统性地为"Rust-based RTOS + WASM capsule"这个组合积累工业证据。如果你团队还在纯 C bare-metal，是时候关注一下了。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS OS WEEKLY 20260503