arXiv cs.OS 周报 (20260427~20260503)
arXiv cs.OS 周报 (20260427 ~ 20260503)
本周共 7 篇论文入选。主线集中在 AI agent / GPU 系统支撑(VUDA、SAGA、Crab)、调度与资源分配(Affinity Tailor、CvxCluster)和 嵌入式 Rust(treVM、Ariel OS 工业案例)三大方向。由于总量较少,本期跳过浅式方向汇总,直接对 7 篇做工程师视角的深度解读。
📖 深度解读
VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU
Bin Xu, Pengfei Hu, Wenxin Zheng et al. · 上交 IPADS(陈海波组)· 2026-05-02
🎯 核心问题
Embodied AI 仿真同时需要 CUDA 物理仿真和 Vulkan 渲染,但 NVIDIA 驱动把 CUDA context 与 Vulkan context 绑到不同 scheduling group,硬件上变成时分复用——GPU 一半算力闲着也不能并行跑图形。现有空分共享方案(MPS、MIG)只覆盖 CUDA 生态。
🔧 关键方法
两个底层观察:(1) CUDA stream 和 Vulkan queue 在驱动层最终都收敛到统一的 channel primitive;(2) 两者的 GPU 虚拟地址空间天然不相交。VUDA 通过 channel 重定向把 CUDA stream 注入 Vulkan 的调度域,再用 page table grafting合并地址空间,让 compute 和 graphics 内核真正并发执行,且关键路径上零拷贝。开发者只需用一个 thin API 标注哪些 stream 可与图形协同调度。
📊 实验或论据
在代表性 embodied-AI workload 上,相比时分共享 baseline 提升吞吐最高 85%,端到端延迟下降,GPU 利用率提升。论文未提具体硬件型号,但 channel/page-table 操作意味着深入 NVIDIA 驱动的逆向或 hooking。
⚠️ 局限
这种合并 page table、绕过 driver 的做法对 NVIDIA 驱动版本和硬件代际敏感;上游化路径基本封闭。📄 abstract 未明确隔离/安全保证。
💼 对系统人的启示
如果你在做仿真平台或 RL rollout 加速,VUDA 给出了 CUDA-Graphics 协同的全新打开方式;但生产部署前要评估"驱动黑魔法"的维护成本。这条思路也可启发其它异构 stack(如 OptiX、ROCm + Vulkan)的并发探索。
SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
Dongxin Guo, Jikun Wu, Siu Ming Yiu · 港大 · 2026-05-01
🎯 核心问题
Agent 任务一次会触发数十到数百次 LLM 调用,但 GPU scheduler(如 vLLM)把每次调用当独立 request 处理,丢弃 GB 级中间 KV cache,端到端延迟被放大 3-8 倍。请求级抽象与 compound AI workload 根本不匹配。
🔧 关键方法
把"整个 agent workflow"提升为一等调度单元。三机制:(1) Agent Execution Graph建模 workflow 拓扑、跨 tool-call 预测 KV cache 复用,逼近 Bélády 离线最优 1.31x 内;(2) session-affinity batching + work stealing,相关请求共置同时维持全局负载均衡;(3) Agent Fair Share基于任务完成时间的公平度量,给出有界偏差证明。
📊 实验或论据
64-GPU 集群跑 SWE-bench coding agent + WebArena 浏览任务。相比 vLLM v0.15.1(开 prefix cache + affinity routing),任务完成时间几何均值提升 1.64x(p<0.001);GPU 显存利用率 +1.22x;多租户干扰下 SLO 达成率 99.2%。
⚠️ 局限
作者自陈:相比吞吐最优批调度,峰值吞吐降约 30%——延迟敏感场景才划算。Agent Execution Graph 需要 workflow 结构可见,对完全黑盒的 agent 框架不适用。
💼 对系统人的启示
做 LLM serving 平台的同学要关注:prefix caching 不是终点,workflow 级别的 KV 复用 + session 亲和才是 agent serving 的下一战。SAGA 的公平性证明对多租户云厂商有直接借鉴价值。
Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes
Tianyuan Wu, Chaokun Chang, Lunxi Cao et al. · 2026-04-30
🎯 核心问题
Agent 跑在沙箱容器/microVM 里,状态散落在文件系统、进程、运行时多处。容错、抢占、RL 分支回滚都需要 C/R,但应用层只能存对话历史漏掉 OS side effects,每轮全量 checkpoint 又太贵。根因是 agent-OS 语义鸿沟:agent 框架看得见 tool call 看不见 OS 影响;OS 看得见状态变化看不出 turn 边界。
🔧 关键方法
Crab 是 host 侧透明 runtime,不改 agent 也不改 C/R 后端。三件套:(1) eBPF 探针分类每轮 OS 可见副作用,决定 checkpoint 粒度;(2) coordinator 把 checkpoint 与 turn 边界对齐,并将 C/R 与 LLM 等待时间重叠;(3) host-scoped engine 跨共置沙箱调度 checkpoint 流量。关键洞见:超过 75% 的 turn 不产生需恢复的状态,绝大多数 checkpoint 本可省。
📊 实验或论据
shell 密集 + 代码修复 workload。恢复正确率从 chat-only 的 8% 升到 100%;checkpoint 流量减少 87%;与无故障执行相比开销 1.9% 内。
⚠️ 局限
📄 abstract 未提及对 anonymous mmap、GPU 状态、网络长连接等更复杂副作用的覆盖;eBPF 分类规则在 abstract 之外是否需手工配置也未明示。
💼 对系统人的启示
做 agent 平台 / sandbox 服务的同学:把 LLM 等待时间当成"免费的 checkpoint 窗口"是个非常实用的工程哲学。eBPF 做 turn-level 副作用分类的思路也可迁移到 serverless cold-start、CI/CD cache 失效检测等场景。
Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale
Jin Xin Ng, Ori Livneh, Richard O'Grady et al. · Google · 2026-04-30
🎯 核心问题
Linux CFS 为了让 CPU 不闲,会把 workload 的线程铺满所有核。在 chiplet(多 LLC domain)系统上,这意味着 cache、分支预测器、prefetcher 的 reuse 全部丢失,租户间互相干扰。硬分区(cpuset partition)能保 locality 但 CPU 不饱和时浪费产能。
🔧 关键方法
userspace 控制器在线估算每个 workload 的 CPU 需求,给每个 workload 分配一个"按需大小、拓扑紧凑、尽量跨少 LLC、尽量与其它 workload disjoint"的偏好 CPU 集合。kernel 把这个集合当成 affinity hint 而非硬绑定——优先调度到这些核,但需要时仍可外溢,保证 work conservation。本质上是把空间局部性提升为调度器一等目标。
📊 实验或论据
Google 生产部署。相比 Linux CFS,per-CPU 吞吐几何均值在 chiplet 系统提升 12%、非 chiplet 提升 3%。执行更快也降低了内存驻留时间,per-GB 吞吐再涨 3-7%。
⚠️ 局限
需要 userspace controller 持续在线估计 demand,对接入门槛和监控基础设施有要求;具体 demand 估计算法在 abstract 未展开。📄 与现有 sched_ext/cgroup cpuset 的关系也需读全文。
💼 对系统人的启示
这是 chiplet 时代调度器的明确风向:work conservation 不再是唯一目标,spatial locality 应该上升为一等公民。该思路与 sched_ext / BPF scheduler 完美契合,国内云厂商可以直接做对标实现。
CvxCluster: Solving Large, Complex, Granular Resource Allocation Problems 100-1000x Faster
Obi Nnorom, Stephen Boyd, Philip Levis · Stanford(Stephen Boyd 是 cvxpy 之父)· 2026-05-02
🎯 核心问题
集群资源分配是高维搜索问题,主流做法是 MIP 求解器或一堆启发式。MIP 求解时间随规模指数增长,启发式难证最优。问题:能不能把它变成 convex problem,吃下凸优化几十年的高速求解器红利?
🔧 关键方法
两阶段算法:(1) 解 placement 的凸松弛,得到每台机器的资源价格(dual variable);(2) 用这套价格驱动一个轻量贪心做实际放置。核心洞见——把离散的 placement 重新表述为连续问题——让快速凸方法替代了 MIP 分支定界。同时支持 anti-affinity、机型约束、GPU 服务器等复杂约束。
📊 实验或论据
Azure trace。可扩到 100,480 服务器,承受 500,000x baseline 到达率;相比 SOTA MIP 求解器快 100-2,500x,目标值在最优 3% 以内。
⚠️ 局限
3% 的最优性差距对成本敏感的批调度可能可接受、对面向 SLA 的在线场景需谨慎;非凸约束(如复杂亲和拓扑)能否纳入未明示。📄 abstract 未提与 Borg / K8s scheduler 的集成路径。
💼 对系统人的启示
调度领域长期被启发式占据,这篇提醒我们:"凸松弛 + 取整贪心"是一个被低估的范式。如果你在维护超大规模 placement 服务,至少值得做一次 PoC 对比;价格机制本身也直接对应公平/计费。
treVM: Tiny Rust Embedded Virtual Machines with WASM on Variable Resource-Constrained Hardware
Antoine Lavandier, Bastien Buil, Chrystel Gaber, Emmanuel Baccelli · 2026-04-30
🎯 核心问题
MCU 软件栈仍是 C/C++ + 简陋固件升级机制,跟 MPU 端的高级 API 与远程动态部署能力差距巨大。能不能在 32 位 MCU 上跑安全可热更新的高级语言 capsule?
🔧 关键方法
treVM 是个通用方案,把高级 WebAssembly capsule 嵌入 Rust 通用 RTOS(Ariel OS)之上。Capsule 承载可定制业务逻辑,可经网络安全 OTA 更新;底座 Rust 提供内存安全。整套实现 Rust 开源。
📊 实验或论据
在常见 Arm Cortex-M、RISC-V、Xtensa 板上做异构基准。论文报告了可行性验证,具体延迟/footprint 数字需读全文。
⚠️ 局限
WASM 解释/JIT 在 ultra-low-power 节点的能耗代价未见 abstract 明确量化;可热更新带来的安全分发链(签名、证书)方案在 abstract 也未展开。
💼 对系统人的启示
做 IoT 平台的同学:WASM-on-MCU 已经从科研走到工业可用边缘;Rust + Ariel OS + WASM 三件套可能成为未来"安全可远程升级嵌入式"的标配组合。
Embedded Rust or C Firmware? Lessons from an Industrial Microcontroller Use Case with Ariel OS
Bipin Thapa, Daniele Alfonso, Lorenzo Bini et al. · 2026-04-28
🎯 核心问题
Rust 在系统软件圈热度高,但 MCU 固件领域到底准备好了吗?能在工程指标上正面对抗 C 吗?
🔧 关键方法
一次工业案例:两支队伍数月内并行开发同一功能,一支用 C bare-metal、一支用 Rust + Ariel OS。横向对比开发流程、迭代曲线、最终二进制 footprint 与执行速度。这是少见的"对照组级别"工业实验,而不是单方面 benchmark。
📊 实验或论据
硬件实测显示:从内存 footprint 和执行速度看,没有强理由偏好 C 而非 Rust;而 Ariel OS 提供的 Rust 系统 runtime 比传统 SOTA bare-metal C 栈 footprint 更小。
⚠️ 局限
仅一个产品功能、一类 MCU——结论未必直接外推到全部嵌入式细分。📄 abstract 未提团队 Rust 经验是否对等,可能是混淆变量。
💼 对系统人的启示
做嵌入式选型的工程主管:可以拿这篇论文回应"Rust 是不是太重"的质疑——至少在 Ariel OS 这条路径上,Rust 不再有性能/footprint 上的硬伤。
👥 作者与机构
本周 7 篇论文的作者群在三个生态系统呈现明显聚集:
| 机构 / 组 | 代表作者 | 论文 | 主题 |
|---|---|---|---|
| 上交 IPADS | Haibo Chen, Jinyu Gu | VUDA | GPU 异构调度 / 驱动层 |
| Josh Don, Chris Kennelly, Carlos Villavieja 等 10 人团队 | Affinity Tailor | 生产级 Linux 调度器 | |
| Stanford | Stephen Boyd, Philip Levis, Obi Nnorom | CvxCluster | 凸优化 × 集群调度 |
| 港大 (HKU) | Siu Ming Yiu 等 | SAGA | LLM agent serving |
| Ariel OS 圈(Inria / 工业合作) | Emmanuel Baccelli, Kaspar Schleiser | treVM, Embedded Rust 案例 | Rust + WASM 嵌入式 |
| 独立团队 | Tianyuan Wu, Chaokun Chang 等 | Crab | eBPF + agent C/R |
值得关注的持续输出组:
• Emmanuel Baccelli 一人本周参与两篇 Ariel OS 相关工作,正成为 Rust embedded 学术阵地的关键节点。
• Google scheduler 团队(Josh Don 等)继续在生产规模上推进调度研究,本期 Affinity Tailor 是 chiplet 时代的代表作。
• 上交 IPADS 维持在 GPU / 操作系统底层一线(VUDA 切入驱动 channel + page table 罕见深度)。
🔮 趋势观察
1. "Agent-aware OS" 的雏形正在成型
本周 7 篇里有 3 篇(VUDA、SAGA、Crab)服务于 AI agent / embodied AI 场景,覆盖 GPU 共享、workflow 调度、checkpoint/restore 三个层次。共同特征:把"agent workflow / turn"作为 OS 一等抽象,而非把 LLM 调用当无状态 RPC。这是对传统 request-level 抽象的系统性反思。
2. Chiplet 重写调度器规则
Google 的 Affinity Tailor 明确把 spatial locality 从次级目标提到一等目标,承认 work conservation 不再万能。这与 AMD/Intel chiplet 普及的硬件趋势完全对齐——预计未来 1-2 年会看到更多"locality-first scheduler"的工作和 sched_ext 实现。
3. Rust + WASM 在 MCU 端可能形成新栈
treVM 与 Embedded Rust 案例同周登场不是巧合,Ariel OS 正在系统性地为"Rust-based RTOS + WASM capsule"这个组合积累工业证据。如果你团队还在纯 C bare-metal,是时候关注一下了。
评论