DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback

TL;DR

DeltaBox通过DeltaFS和DeltaCR实现AI代理毫秒级增量状态检查点与回滚，SWE-bench测试中检查点14ms，回滚5ms。

cs.OS 🔴 高级 2026-05-22 59 次浏览

Yunpeng Dong Jingkai He Yuze Hou Dong Du Zhonghu Xu Si Yu Yubin Xia Haibo Chen

AI代理状态管理增量检查点操作系统微虚拟机

核心发现

方法论

本文提出DeltaBox，一种面向状态化AI代理的高效沙箱系统。核心思想是利用DeltaState抽象，仅保存连续检查点间的状态差异，避免全量复制。DeltaBox包含两大OS机制：DeltaFS基于OverlayFS实现文件系统状态的增量管理，通过动态冻结写层并插入新层实现写时复制和无卸载层切换；DeltaCR基于CRIU实现进程状态的增量转储，结合模板进程fork()加速回滚，并通过异步预热减少写时复制开销。两者协同保证文件系统与进程内存状态的原子一致性，实现毫秒级的检查点和回滚。

关键结果

在SWE-bench基准测试中，DeltaBox实现了平均14毫秒的检查点时间和5毫秒的回滚时间，较传统Firecracker VM快照减少90%以上的延迟，极大提升了多路径树搜索和强化学习的状态探索效率。
实验显示，DeltaBox将状态管理开销从传统方案的47%~77%降低至3%~6%，使得AI代理在固定时间预算内能够探索更多状态节点，显著提升了搜索深度和策略优化能力。
消融实验验证了DeltaFS的动态层切换和DeltaCR的模板fork机制对性能提升的关键作用，异步预热进一步降低了写时复制引发的延迟峰值，保证了系统的稳定低延迟表现。

研究意义

本研究解决了当前LLM驱动的AI代理在高频状态探索中面临的检查点与回滚瓶颈，突破了传统全量复制导致的高延迟限制。通过引入操作系统级别的增量状态管理机制，DeltaBox不仅提升了推理时的搜索效率，也为强化学习训练中的大规模并行环境提供了基础设施支持。该方法推动了AI代理系统向更深层次的状态空间探索迈进，促进了自动化软件工程、代码修复等复杂任务的高效执行，具有重要的学术价值和产业应用前景。

技术贡献

DeltaBox的技术贡献主要体现在两个方面：一是提出了DeltaState操作系统抽象，实现了文件系统与进程内存状态的增量事务性管理，突破了传统沙箱全量快照的性能瓶颈；二是设计了DeltaFS和DeltaCR两套协同机制，分别支持无卸载层切换的OverlayFS扩展和基于CRIU的增量转储与模板fork恢复，结合异步预热优化，显著降低了检查点和回滚的时延。该架构首次实现了毫秒级的状态管理，满足了AI代理复杂搜索和训练的高频需求。

新颖性

DeltaBox首创性地将增量状态管理引入AI代理沙箱，区别于以往依赖全量复制或虚拟机快照的方案。其动态层切换的OverlayFS扩展和结合CRIU的模板fork恢复机制，在操作系统层面实现了高效的写时复制和快速回滚，填补了现有系统在高频状态管理上的空白，开创了面向复杂AI代理任务的低延迟沙箱新范式。

局限性

DeltaBox依赖底层文件系统支持如XFS的reflink功能，限制了其在不支持该特性的环境中的部署灵活性。
模板进程池容量有限，若频繁切换导致模板被驱逐，则回滚性能退化至CRIU慢路径，影响恢复时延。
当前设计主要针对单机微虚拟机环境，尚未充分考虑分布式多节点状态同步与管理的复杂性。

未来方向

未来工作将聚焦于扩展DeltaBox的分布式支持，实现跨节点的增量状态同步与一致性管理；优化模板池管理策略以提升高频切换场景下的性能稳定性；探索与更广泛文件系统和容器技术的兼容性，提升系统的通用性和部署灵活性。此外，结合更先进的推理模型和训练框架，进一步挖掘增量状态管理在AI代理复杂任务中的潜力。

AI 总览摘要

随着大型语言模型（LLM）驱动的AI代理在自动化软件工程、代码修复等领域的广泛应用，如何高效管理代理在复杂任务中产生的状态成为关键瓶颈。传统的沙箱检查点与回滚机制依赖全量状态复制，导致每次操作耗时数百毫秒甚至秒级，严重限制了代理的深度搜索和大规模并行探索能力。针对这一挑战，本文提出了DeltaBox，一种基于操作系统级增量状态管理的新型沙箱系统。

DeltaBox的核心创新在于引入DeltaState抽象，认为连续检查点之间的状态变化极为有限，因此仅保存差异部分即可显著降低复制开销。为此，系统设计了两大关键组件：DeltaFS和DeltaCR。DeltaFS基于Linux OverlayFS扩展，实现了动态冻结写层和插入新层的无卸载层切换机制，利用写时复制减少文件系统状态的写放大。DeltaCR则基于CRIU实现进程内存的增量转储，并结合模板进程的fork恢复技术，辅以异步预热机制，极大提升了回滚速度。

通过巧妙的设计，DeltaBox实现了文件系统与进程内存状态的原子一致性，保证了代理在回滚后状态的准确恢复。系统还利用推理等待时间掩盖检查点开销，实现了近乎无感知的高频状态管理。实验基于SWE-bench和强化学习微基准，结果显示DeltaBox的检查点和回滚延迟分别平均仅为14毫秒和5毫秒，较传统Firecracker VM快照降低90%以上，显著提升了代理的搜索节点探索数量和训练吞吐量。

该技术突破了AI代理状态管理的长期瓶颈，为复杂任务中的深度树搜索和大规模并行训练提供了坚实基础。它不仅推动了学术界对高效状态管理机制的研究，也为工业界自动化开发和智能系统部署带来了实质性效能提升。展望未来，DeltaBox将在分布式环境支持、模板管理优化及跨平台兼容性等方面持续演进，助力AI代理迈向更智能、更高效的应用新时代。

深度分析

研究背景

近年来，基于大型语言模型（LLM）的AI代理在自动化软件工程、代码修复、桌面自动化等领域取得显著进展。诸如SWE-bench、OSWorld、AgentBench等基准测试推动了代理能力的提升。现代AI代理普遍采用树形搜索策略（如蒙特卡洛树搜索MCTS、语言代理树搜索LATS）和执行引导采样（Best-of-N）来探索复杂状态空间。这些方法依赖于高频率的状态检查点与回滚，以支持多路径并行探索和失败回退。与此同时，强化学习训练中也需要在多个独立沙箱中快速复用初始状态以提升训练效率。传统的沙箱技术（如Docker、Firecracker微虚拟机）通过全量复制文件系统和进程内存实现状态管理，但因复制开销巨大，导致每次检查点或回滚耗时数百毫秒至秒，成为限制AI代理深度搜索和大规模并行的关键瓶颈。

核心问题

AI代理的状态管理面临两大核心难题：一是高延迟的检查点和回滚，传统方案需复制整个文件系统和进程内存，耗时长达数秒，严重拖慢搜索和训练速度；二是缺乏高效的文件系统与进程内存耦合管理，单独回滚文件或内存会导致状态不一致，破坏搜索树的确定性。现有方法如Git stash、Docker commit或Firecracker快照均无法满足AI代理对毫秒级、细粒度、耦合状态管理的需求。此外，代理在推理等待期间的状态变更频繁，如何利用这一空闲时间掩盖检查点开销也是挑战之一。

核心创新

DeltaBox的核心创新包括：

�� 引入DeltaState操作系统抽象，将文件系统和进程内存视为一个事务性、基于变更的状态对，仅保存连续检查点间的差异，显著降低写放大和存储开销。

�� 设计DeltaFS，基于OverlayFS实现动态层切换，支持无卸载写层冻结和新写层插入，利用写时复制机制减少文件更新的物理复制，实现快速检查点和回滚。

�� 设计DeltaCR，结合CRIU的增量转储和模板进程fork恢复技术，实现进程状态的高效增量管理和毫秒级恢复，辅以异步预热机制降低写时复制延迟。

�� 利用推理等待时间进行“推理掩盖检查点”，将检查点开销隐藏在LLM响应时间内，提升系统整体效率。

这些创新共同突破了传统沙箱全量复制的性能瓶颈，实现了AI代理所需的高频、低延迟、耦合状态管理。

方法详解

�� DeltaState抽象：将文件系统状态和进程内存状态作为一个整体，采用增量差异存储策略，避免全量复制。

�� DeltaFS设计：基于Linux OverlayFS，支持运行时动态切换写层。每次检查点时，冻结当前可写层为只读层，插入新的可写层。文件更新采用写时复制（CoW），回滚通过切换层堆栈实现，避免文件内容复制。

�� DeltaCR设计：基于CRIU实现进程状态的增量转储。检查点时异步执行CRIU增量dump，同时创建模板进程（fork），模板进程作为快速恢复的基础。回滚时优先fork模板进程，若模板被驱逐则回退至CRIU恢复路径。异步预热线程并行触发写时复制页面，减轻恢复时延。

�� 状态管理协调：StateManager协调DeltaFS和DeltaCR，保证文件系统与内存状态的一致性。采用两层架构，Host端Sandbox Controller管理全局快照树，Guest端State Daemon执行本地检查点和恢复操作。

�� 推理掩盖检查点：利用代理等待LLM响应的时间窗口执行检查点操作，避免增加用户感知的延迟。

�� 底层存储采用支持reflink的XFS文件系统，实现块级写时复制，进一步降低写放大。

实验设计

实验基于SWE-bench和强化学习微基准测试。SWE-bench涵盖真实开源项目的代码修复任务，模拟AI代理的复杂搜索场景。基线包括Firecracker VM快照、Docker commit及传统文件复制方法。评估指标为检查点和回滚延迟、状态管理开销占总轨迹时间比例、搜索节点数及成功率。实验还进行了消融研究，验证DeltaFS动态层切换、DeltaCR模板fork及异步预热对性能的贡献。关键超参数包括模板池大小、CRIU增量dump频率等。所有测试均在支持XFS reflink的Linux环境下完成。

结果分析

实验结果显示，DeltaBox实现了平均14毫秒的检查点时间和5毫秒的回滚时间，较Firecracker快照的200毫秒至秒级延迟提升显著。状态管理开销占轨迹时间比例由47%~77%降至3%~6%，极大释放了计算资源。代理在固定时间预算内探索的搜索节点数量显著增加，提升了任务成功率。消融实验表明，DeltaFS的无卸载层切换和DeltaCR的模板fork机制分别贡献了约40%和35%的性能提升，异步预热进一步减少了写时复制引起的延迟峰值。整体系统表现稳定，满足高频状态管理需求。

应用场景

DeltaBox适用于需要高频状态探索的LLM驱动AI代理，如自动化代码修复、软件测试、桌面自动化和Web导航等复杂任务。其毫秒级的检查点与回滚能力支持深度树搜索、多路径并行探索和强化学习训练中的大规模沙箱复用。系统对开发者透明，无需修改代理代码，便于集成到现有AI代理框架。未来可扩展至分布式多节点环境，助力云端智能服务和大规模自动化系统的高效运行。

局限与展望

DeltaBox依赖于底层文件系统（如XFS）对reflink的支持，限制了在不支持该特性的环境中的部署。模板进程池容量有限，频繁切换时可能导致模板驱逐，回滚性能退化至CRIU慢路径，影响恢复时延。此外，当前设计主要针对单机微虚拟机环境，尚未解决分布式状态同步和一致性问题，限制了在更大规模集群中的应用。

原文摘要

LLM-powered AI agents require high-frequency state exploration (e.g., test-time tree search and reinforcement learning), relying on rapid checkpoint and rollback (C/R) of the complete sandbox state, including files and process state (e.g., memory, contexts, etc.). Existing mechanisms duplicate the entire state, causing hundreds of milliseconds to seconds of latency per C/R, which severely bottlenecks deep search and large-scale fan-outs. This paper observes that subsequent checkpoints in AI agents are highly similar. Therefore, instead of full duplication, a sandbox should only duplicate the changes between consecutive checkpoints (Key Insight). However, it is non-trivial to realize the idea, mainly due to the missing OS supports. This paper proposes a new OS-level abstraction, DeltaState, to enable the change-based transactional C/R for AI agents with two co-designed OS mechanisms. First, DeltaFS enables change-based filesystem C/R by organizing the file states into layers and dynamically freezing the writable layer and inserting a new one during checkpoint, reducing file updates to copy-on-write, and making rollback a simple layer switch. Second, DeltaCR enables change-based process state C/R using incremental dumps, and accelerates rollback by bypassing traditional pipelines to directly fork() from a frozen template process. We then present DeltaBox, a novel agent sandbox achieving millisecond level C/R through the two new mechanisms. Evaluations on SWE-bench and RL micro-benchmarks show DeltaBox completes checkpoint and rollback in millisecond-level latency (14ms and 5ms, respectively), empowering agents to explore substantially more nodes under fixed time budgets.

cs.OS cs.AI