Bluo Blog

arXiv cs.OS 月报 (2026年04月)

📊 研究方向热度分析

🔒 AI Agent 安全与治理

本月在 AI Agent 安全领域出现集中爆发，多篇论文从不同角度探讨如何在操作系统层面保障 AI Agent 的安全性和可控性。研究涵盖了文件系统保护、内核级监控、工具治理等多个层面，标志着 AI Agent 安全研究正在形成系统化的解决方案。

代表性论文：

Don't Let AI Agents YOLO Your Files - 首次系统研究 AI Agent 文件系统误用问题，提出将信息和控制权转移给文件系统的安全方案
An AI Agent Execution Environment to Safeguard User Data - 设计专门的执行环境保护用户隐私数据
AgenTEE - 利用可信执行环境（TEE）在边缘设备上安全执行 LLM Agent
ProbeLogits - 内核级 logits 探测，作为 AI 原生操作系统的安全治理原语
Governed MCP - 将工具调用视为系统调用，在内核层实现安全管控

🚀 LLM 训练与推理优化

大规模语言模型的训练和推理效率仍是研究热点。本月的研究聚焦于如何在资源受限环境下高效训练超大模型、优化推理延迟、以及实现推理服务的资源协同调度。特别是单 GPU 训练 100B+ 参数模型、CPU-Free 推理等突破性工作值得关注。

代表性论文：

MegaTrain - 内存中心架构，实现单 GPU 全精度训练 100B+ 参数模型
GPUOS - GPU 操作系统原语，通过持久内核实现透明算子融合
Blink - 将推理栈完全卸载到 GPU 和 SmartNIC，消除 CPU 瓶颈
Scheduling the Unschedulable - 黑盒 LLM API 的半预知调度策略
Valve - 生产级在线-离线推理协同，控制抢占延迟和频率
EdgeFlow - 移动设备上 LLM 快速冷启动优化

💾 CXL 与内存系统创新

CXL（Compute Express Link）技术继续推动内存系统创新。本月多篇论文探索了 CXL 下的分布式页缓存、无锁共享文件系统、计算存储等新型架构。研究重点从单纯的数据共享转向利用 CXL 的原子操作能力实现高效协同。

代表性论文：

DPC - CXL 上的分布式页缓存，消除数据冗余和重量级一致性协议
DAXFS - 利用 CXL cmpxchg 实现跨主机无锁共享文件系统
WIO - CXL SSD 上的上传式计算存储，填补 PM 和 CSD 之间的空白
TierBPF - 通过 eBPF 实现分层内存的页迁移准入控制
Hybrid Adaptive Tuning - 分层内存系统的混合自适应调优
Proxics - 远内存加速器的编程模型抽象

☁️ 无服务器计算与系统密度优化

无服务器计算的高密度部署是云服务提供商降低成本的关键。本月研究聚焦于如何在保证隔离性的前提下提升部署密度，包括透明 I/O 卸载、多内核操作系统设计等创新方案。研究趋势显示从重量级虚拟机向轻量级隔离单元的演进。

代表性论文：

Nexus - 透明 I/O 卸载，将 I/O 处理从 VM 中分离以提升密度
Nanvix - 多内核操作系统设计，实现高密度无服务器部署

⚡ 实时与嵌入式系统

实时系统和嵌入式开发迎来新进展。研究涵盖实时系统的时间行为分析、无人机飞行控制调度、以及 Rust 在嵌入式领域的工业实践。特别是 Rust 与 C 的工业对比研究为嵌入式开发者提供了重要参考。

代表性论文：

Generative Profiling - 软实时系统的生成式性能分析及其在资源分配中的应用
Scheduling Analysis of UAV Flight Control - PREEMPT_RT Linux 在树莓派5上的无人机控制调度分析
Embedded Rust or C Firmware? - Ariel OS 工业微控制器案例研究，对比 Rust 与 C 实践

🌐 网络与存储系统

网络虚拟化和存储系统优化继续演进。研究方向包括异构阵列缓存优化、云网络协议栈共享、向量存储效率提升等。这些工作为构建高性能、低成本的基础设施提供了新思路。

代表性论文：

HACache - 异构阵列中的缓存设计，利用性能差异优化读取性能
Chamelio - 快速共享云网络栈，支持租户自定义协议
Decoupling Vector Data and Index Storage - 向量数据与索引存储解耦，提升空间效率

🔬 前沿交叉领域

本月还出现了多个前沿交叉领域的研究，包括量子-经典混合工作流调度、分布式计算新范式、卫星边缘智能、隐私保护中间件等。这些工作展示了操作系统研究与新兴技术的深度融合。

代表性论文：

Qurator - 异构云提供商间的量子-经典混合工作流调度
Periodic Space of Distributed Computing - 分布式计算的周期空间理论与框架
Equinox - 卫星轨道智能的去中心化调度运行时
Hardware-Anchored Privacy Middleware - 跨异构嵌入式消费设备的硬件锚定隐私中间件

👥 作者关系图谱分析

本月 cs.OS 领域呈现多元化的研究团队分布，既有独立研究者也有紧密合作的研究小组。以下是主要研究合作网络的可视化分析：

合作网络分析

多产作者：Yiwei Yang 本月发表 3 篇论文（GPUOS、DAXFS、WIO），均聚焦于 GPU 和 CXL 存储系统优化，体现了系统软件研究的连贯性。

研究团队特征：大部分论文由 3 人左右的紧密小组完成，显示出系统研究需要高度协作。独立研究者占比约 23%，主要出现在 AI 安全和理论框架领域。

跨机构合作：论文作者来自全球多所知名机构，包括斯坦福、MIT、CMU、清华、北大等，体现了操作系统研究的国际化特征。

💡 技术创新总结

🎯 AI Agent 内核级安全管控

ProbeLogits 和 Governed MCP 两篇论文提出将 AI Agent 安全管控下沉到操作系统内核层，开创了"AI 原生操作系统安全"的新研究方向。传统安全方案依赖用户态监控，容易被绕过；而内核级方案可以：

在 token 生成前读取 logits 分布进行意图分类
将工具调用（MCP）视为系统调用，实施强制访问控制
利用零样本方法实现安全策略，无需额外训练参数

这一方向预示着操作系统正在从"管理计算资源"向"管理智能行为"演进。

💾 内存中心的大模型训练架构

MegaTrain 颠覆了传统 GPU 中心的训练范式，提出将主机内存作为参数和优化器状态的主存储，GPU 仅作为"临时计算引擎"。这一架构实现了：

单 GPU 全精度训练 100B+ 参数模型
参数逐层流入、梯度逐层流出，最小化设备驻留
突破 GPU 内存容量的传统限制

这项工作为资源受限环境下的模型训练开辟了新路径，有望降低 AI 研究门槛。

⚡ CXL 原子操作实现跨主机无锁协同

DAXFS 利用 CXL 提供的跨主机缓存一致性，将 cmpxchg 作为唯一的协同原语，实现了无锁共享文件系统。关键创新包括：

CAS-based 哈希覆盖层实现 O(1) 文件查找
无锁分配器避免传统锁协议的开销
性能随主机数扩展，而非传统共享存储的下降趋势

这标志着 CXL 从"远程内存"向"协同原语"的功能演进。

🔧 无服务器高密度的多内核范式

Nanvix 采用多内核（multikernel）架构解决无服务器高密度部署的隔离难题。核心思想是：

每个租户应用运行在独立的轻量级内核实例
跨租户严格隔离，同租户内高效共享组件
通过消息传递而非共享内存实现跨核通信

这一设计在保证安全隔离的同时实现了接近裸金属的性能。

🔮 CPU-Free LLM 推理栈

Blink 将 LLM 推理栈完全卸载到 GPU 和 SmartNIC，主机 CPU 仅负责初始请求分发。这一设计消除了：

CPU 干扰对推理延迟的影响
为预留 CPU 容量而浪费的资源
Host-GPU 同步的延迟开销

推理服务从"CPU 协调"到"GPU 自治"的转变，体现了 AI 基础设施的架构革新。

📊 半预知调度理论

"Scheduling the Unschedulable" 提出了黑盒 LLM API 的半预知调度理论。在仅知道输出 token 数先验的情况下，将调度问题分解为：

分配：类间份额通过自适应 DRR 实现
排序：类内通过预测信息优化序列
抢占：成本感知的抢占决策

这一工作为黑盒服务的调度建立了理论基础。

📄 精选重要论文（Top 10）

1. Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy

作者：Shawn Wanxiang Zhong, Junxuan Liao, Jing Liu

首次系统研究 AI Agent 文件系统误用问题，分析了 290 个公开案例。提出将安全控制权从 Agent 转移到文件系统，在不牺牲自主性的前提下防止数据损坏、文件删除和秘密泄露。这项工作开创了"文件系统中心的 Agent 安全"研究方向。

arXiv:2604.13536v2

2. MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

作者：Zhengqing Yuan, Hanchi Sun, Lichao Sun

突破性实现单 GPU 全精度训练 100B+ 参数模型。采用内存中心架构，将参数和优化器状态存储在主机内存，GPU 作为临时计算引擎。这一工作极大降低了超大模型训练的硬件门槛，具有重要的民主化意义。

arXiv:2604.05091v1

3. Governed MCP: Kernel-Level Tool Governance for AI Agents via Logit-Based Safety Primitives

作者：Daeyeon Son

提出将 AI Agent 的工具调用（MCP）视为系统调用，在内核层实施安全治理。基于 logit 的安全原语可以零参数、零训练地识别危险操作。这一工作将操作系统安全模型扩展到 AI Agent 时代。

arXiv:2604.16870v1

4. DAXFS: A Lock-Free Shared Filesystem for CXL Disaggregated Memory

作者：Cong Wang, Yiwei Yang, Yusheng Zheng 等

首个利用 CXL 跨主机原子操作实现的无锁共享文件系统。以 cmpxchg 为唯一协同原语，避免了传统锁协议的开销。性能随主机数扩展，挑战了共享存储的性能瓶颈。

arXiv:2604.01620v1

5. Nanvix: A Multikernel OS Design for High-Density Serverless Deployments

作者：Carlos Segarra, Pedro Henrique Penna, Enrique Saurez 等

采用多内核架构实现无服务器高密度部署，每个租户应用运行在独立内核实例，通过消息传递而非共享内存通信。在保证强隔离的同时实现高性能，为无服务器操作系统设计提供了新范式。

arXiv:2604.11669v1

6. Blink: CPU-Free LLM Inference by Delegating the Serving Stack to GPU and SmartNIC

作者：Mohammad Siavashi, Mariano Scazzariello, Gerald Q. Maguire 等

将 LLM 推理栈完全卸载到 GPU 和 SmartNIC，CPU 仅负责初始请求分发。消除了 CPU 干扰对延迟的影响，释放了被预留的 CPU 容量。代表推理服务从"CPU 协调"到"GPU 自治"的架构转变。

arXiv:2604.07609v1

7. GPUOS: A GPU Operating System Primitive for Transparent Operation Fusion

作者：Yiwei Yang, Xiangyu Gao, Yuan Zhou 等

提出 GPU 运行时 JIT 系统，通过持久内核架构和运行时算子内省减少内核启动开销。在推理、注意力、微批次训练等场景下显著降低延迟，展示了 GPU 操作系统原语的潜力。

arXiv:2604.17861v1

8. Scheduling the Unschedulable: Taming Black-Box LLM Inference at Scale

作者：Renzhong Yuan, Yijun Zeng, Xiaosong Gao 等

建立黑盒 LLM API 的半预知调度理论。在输出 token 数可预测的情况下，将调度分解为分配、排序、抢占三个可分离问题。为黑盒服务的优化调度提供了理论基础。

arXiv:2604.06970v1

9. ProbeLogits: Kernel-Level LLM Inference Primitives for AI-Native Operating Systems

作者：Daeyeon Son

提出内核级 logit 探测操作，在文本生成前读取 token logits 分布进行安全分类。零参数、零训练的方法为 AI 原生操作系统提供了基础治理原语。

arXiv:2604.11943v2

10. Qurator: Scheduling Hybrid Quantum-Classical Workflows Across Heterogeneous Cloud Providers

作者：Sinan Pehlivanoglu, Ulrik de Muelenaere, Peter Kogge 等

量子-经典混合工作流调度系统，解决量子云服务的队列延迟问题。3秒执行的电路可能等待数分钟到一整天。通过跨提供商调度最小化开销，展示了量子计算与 HPC 系统集成的未来方向。

arXiv:2604.05505v2

🔮 趋势展望

本月 cs.OS 研究呈现三大趋势：

1. AI 安全下沉到操作系统内核

ProbeLogits、Governed MCP、AI Agent 文件系统安全等工作标志着操作系统正在从"管理计算资源"向"管理智能行为"演进。内核级监控和管控将成为 AI 原生操作系统的基础能力。

2. 内存中心架构突破资源瓶颈

MegaTrain、DAXFS、WIO 等工作展示了内存（而非 GPU/CPU）中心的设计思路。CXL 技术的成熟正在推动从"远程内存"到"协同原语"的功能演进。

3. 推理栈向 GPU 自治演进

Blink、GPUOS 等工作消除了 CPU 在推理路径上的参与，实现了"GPU 自治"。这一趋势与无服务器高密度部署（Nexus、Nanvix）共同推动着云原生 AI 基础设施的架构革新。

总结：2026年04月的 cs.OS 研究展示了操作系统领域与 AI 的深度融合。从内核级 Agent 安全到 GPU 原生推理栈，从 CXL 协同原语到量子云调度，操作系统研究正在为 AI 时代构建基础设施。未来可期待更多"AI 原生操作系统"概念的实现与落地。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS OS 202604 SUMMARY

arXiv cs.OS 月报 (2026年04月)

📊 研究方向热度分析

🔒 AI Agent 安全与治理

🚀 LLM 训练与推理优化

💾 CXL 与内存系统创新

☁️ 无服务器计算与系统密度优化

⚡ 实时与嵌入式系统

🌐 网络与存储系统

🔬 前沿交叉领域

👥 作者关系图谱分析

合作网络分析

💡 技术创新总结

🎯 AI Agent 内核级安全管控

💾 内存中心的大模型训练架构

⚡ CXL 原子操作实现跨主机无锁协同

🔧 无服务器高密度的多内核范式

🔮 CPU-Free LLM 推理栈

📊 半预知调度理论

📄 精选重要论文（Top 10）

1. Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy

2. MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

3. Governed MCP: Kernel-Level Tool Governance for AI Agents via Logit-Based Safety Primitives

4. DAXFS: A Lock-Free Shared Filesystem for CXL Disaggregated Memory

5. Nanvix: A Multikernel OS Design for High-Density Serverless Deployments

6. Blink: CPU-Free LLM Inference by Delegating the Serving Stack to GPU and SmartNIC

7. GPUOS: A GPU Operating System Primitive for Transparent Operation Fusion

8. Scheduling the Unschedulable: Taming Black-Box LLM Inference at Scale

9. ProbeLogits: Kernel-Level LLM Inference Primitives for AI-Native Operating Systems

10. Qurator: Scheduling Hybrid Quantum-Classical Workflows Across Heterogeneous Cloud Providers

🔮 趋势展望

评论