daVinci-Env: Open SWE Environment Synthesis at Scale

TL;DR

OpenSWE通过多代理合成管道创建45,320个可执行Docker环境,提升SWE代理训练效率。

cs.SE 🔴 高级 2026-03-13 1 次浏览
Dayuan Fu Shenyu Wu Yunze Wu Zerui Peng Yaxing Huang Jie Sun Ji Zeng Mohan Jiang Lin Zhang Yukun Li Jiarui Hu Liming Liu Jinlong Hou Pengfei Liu
软件工程 环境合成 多代理系统 Docker 开源框架

核心发现

方法论

OpenSWE通过在64节点分布式集群上部署的多代理合成管道实现。该管道自动化了代码库探索、Dockerfile构建、评估脚本生成和迭代测试分析。质量过滤管道根据环境的内在难度进行筛选,剔除不可解或挑战性不足的实例,仅保留那些能最大化学习效率的环境。

关键结果

  • OpenSWE-32B和OpenSWE-72B在SWE-bench Verified上分别达到62.4%和66.0%的准确率,超越Qwen2.5系列的SOTA。
  • 在数学推理上提高了12分,在科学基准上提高了5分,没有降低事实召回。
  • 数据扩展分析显示,随着高质量环境的增加,模型性能呈现对数线性增长趋势。

研究意义

OpenSWE的推出为学术界提供了一个透明且可复现的SWE代理训练框架,打破了工业解决方案的封闭性和高成本壁垒。通过大规模的环境合成和质量过滤,OpenSWE不仅提升了代理的训练效率,还在跨领域任务中展现了显著的性能提升。

技术贡献

OpenSWE在技术上提供了一个完整的开源合成管道,涵盖从代码库探索到Docker环境构建的每一个环节。通过多代理系统的协作,OpenSWE实现了大规模环境的自动化生成,并通过难度感知的过滤机制确保数据质量。

新颖性

OpenSWE是首个在如此大规模上提供完全透明的SWE代理训练环境的框架。相比于现有的SWE-rebench和SWE-Factory,OpenSWE不仅在规模上领先,还在环境质量和多样性上进行了创新。

局限性

  • 由于依赖于Docker环境,OpenSWE在某些网络不稳定的情况下可能会遇到构建失败的问题。
  • 环境的构建和验证需要大量的计算资源,这对小型研究团队可能是一个挑战。

未来方向

未来的工作可以集中在进一步优化环境合成的效率和稳定性,同时探索更多编程语言的支持。社区可以利用OpenSWE的开源特性进行改进和扩展。

AI 总览摘要

在软件工程领域,训练能够自主进行代码编辑、测试执行和解决方案优化的代理需要大规模、可执行且可验证的环境。然而,现有的开源数据集在规模和代码库多样性上仍然有限,而工业解决方案则因基础设施未公开而不透明,给大多数学术研究团队带来了极大的障碍。

OpenSWE是一个完全透明的SWE代理训练框架,包含45,320个可执行的Docker环境,跨越12.8k个代码库,所有Dockerfile、评估脚本和基础设施均开源以确保可复现性。OpenSWE通过部署在64节点分布式集群上的多代理合成管道构建,自动化了代码库探索、Dockerfile构建、评估脚本生成和迭代测试分析。

除了规模,OpenSWE还提出了一个以质量为中心的过滤管道,根据每个环境的内在难度进行特征化,筛选出不可解或挑战性不足的实例,仅保留那些能最大化学习效率的环境。整个项目在环境构建上投入了约891K美元,轨迹采样和难度感知策划上额外投入了576K美元,总投资约为147万美元,最终从约9,000个质量保证的环境中获得了约13,000条策划轨迹。

广泛的实验验证了OpenSWE的有效性:OpenSWE-32B和OpenSWE-72B在SWE-bench Verified上分别达到62.4%和66.0%的准确率,确立了Qwen2.5系列中的SOTA。此外,SWE专注的训练在跨领域任务中表现出显著的提升,包括数学推理提高了12分,科学基准提高了5分,而没有降低事实召回。

OpenSWE的推出为学术界提供了一个透明且可复现的SWE代理训练框架,打破了工业解决方案的封闭性和高成本壁垒。通过大规模的环境合成和质量过滤,OpenSWE不仅提升了代理的训练效率,还在跨领域任务中展现了显著的性能提升。未来的工作可以集中在进一步优化环境合成的效率和稳定性,同时探索更多编程语言的支持。社区可以利用OpenSWE的开源特性进行改进和扩展。

深度分析

研究背景

近年来,随着大语言模型(LLM)的快速发展,自动化软件工程(SWE)代理的研究取得了显著进展。这些系统能够解释复杂的需求,浏览广泛的代码库,迭代编辑代码,运行测试,并在没有人工干预的情况下优化解决方案。然而,构建高质量且多样化的可执行环境仍然是一个关键瓶颈。尽管最近的开源努力如SWE-rebench、SWE-Universe和SWE-Factory在自动化方面取得了进展,但生成经过验证的环境所需的计算和基础设施成本仍然极高,这实际上排除了大多数学术研究团队,并在实现规模的工业解决方案和在规模和代码库多样性上仍然有限的开源替代方案之间造成了明显的差距。

核心问题

训练能够自主进行代码编辑、测试执行和解决方案优化的SWE代理需要大规模、可执行且可验证的环境。然而,现有的开源数据集在规模和代码库多样性上仍然有限,而工业解决方案则因基础设施未公开而不透明,给大多数学术研究团队带来了极大的障碍。除了环境构建的成本外,这些环境的质量和难度分布对于有效的代理训练同样至关重要。虽然扩大环境数量是必要条件,但仅靠这一点远远不够。

核心创新

OpenSWE的核心创新在于其完全透明的SWE代理训练框架。首先,它通过多代理合成管道实现了大规模环境的自动化生成。其次,提出了一个以质量为中心的过滤管道,根据每个环境的内在难度进行特征化,筛选出不可解或挑战性不足的实例,仅保留那些能最大化学习效率的环境。最后,OpenSWE在环境合成的规模和质量上都进行了创新,提供了一个透明且可复现的框架。

方法详解

  • �� 多代理合成管道:在64节点分布式集群上部署,实现代码库探索、Dockerfile构建、评估脚本生成和迭代测试分析的自动化。
  • �� 质量过滤管道:根据环境的内在难度进行特征化,筛选出不可解或挑战性不足的实例。
  • �� 数据扩展分析:显示随着高质量环境的增加,模型性能呈现对数线性增长趋势。
  • �� SWE专注训练:在跨领域任务中表现出显著的提升,包括数学推理和科学基准。

实验设计

实验设计包括在SWE-bench Verified上评估OpenSWE-32B和OpenSWE-72B的性能。实验使用的基准包括数学推理和科学基准,评估指标为准确率。实验结果显示,OpenSWE-32B和OpenSWE-72B分别达到62.4%和66.0%的准确率,超越Qwen2.5系列的SOTA。此外,数据扩展分析显示,随着高质量环境的增加,模型性能呈现对数线性增长趋势。

结果分析

实验结果显示,OpenSWE-32B和OpenSWE-72B在SWE-bench Verified上分别达到62.4%和66.0%的准确率,超越Qwen2.5系列的SOTA。此外,SWE专注的训练在跨领域任务中表现出显著的提升,包括数学推理提高了12分,科学基准提高了5分,而没有降低事实召回。数据扩展分析显示,随着高质量环境的增加,模型性能呈现对数线性增长趋势。

应用场景

OpenSWE的应用场景包括:

  • �� 软件工程代理的训练:通过提供大规模、可执行且可验证的环境,提升代理的训练效率。
  • �� 跨领域任务的性能提升:在数学推理和科学基准上表现出显著的提升。
  • �� 开源社区的改进和扩展:社区可以利用OpenSWE的开源特性进行改进和扩展。

局限与展望

OpenSWE的局限性包括:

  • �� 由于依赖于Docker环境,OpenSWE在某些网络不稳定的情况下可能会遇到构建失败的问题。
  • �� 环境的构建和验证需要大量的计算资源,这对小型研究团队可能是一个挑战。
  • �� 未来的工作可以集中在进一步优化环境合成的效率和稳定性,同时探索更多编程语言的支持。

通俗解读 非专业人士也能看懂

想象一下你在经营一个大型工厂,这个工厂需要处理来自不同供应商的各种原材料。为了确保生产线的顺利运行,你需要一个自动化系统来管理这些原材料的采购、存储和使用。OpenSWE就像是这个工厂的管理系统,它能够自动化地从全球各地的供应商那里获取原材料,并根据质量和需求进行筛选和存储。

在这个系统中,每个原材料供应商就像是一个代码库,而原材料则是这些代码库中的代码片段。OpenSWE通过一个多代理系统,自动化地探索这些代码库,构建可执行的环境,并生成评估脚本来验证代码的正确性。

这个系统的核心在于它不仅能够处理大量的原材料,还能根据质量和需求进行筛选,确保只有最优质的原材料被用于生产。这就像是一个智能的采购系统,能够根据市场需求和生产计划进行动态调整。

通过这种方式,OpenSWE不仅提高了工厂的生产效率,还确保了产品的质量和一致性。未来,这个系统还可以进一步扩展,支持更多类型的原材料和生产线。

简单解释 像给14岁少年讲一样

嘿,小伙伴!想象一下你在玩一个超级复杂的游戏,这个游戏需要你不断地编写代码来解决各种问题。为了让你的代码更厉害,你需要一个超大的练习场地,这个场地不仅要能运行你的代码,还要能告诉你哪里需要改进。

OpenSWE就是这样一个超级练习场地!它就像是一个巨大的游戏地图,里面有成千上万个不同的关卡,每个关卡都是一个代码挑战。你可以在这里练习编写代码,运行测试,并根据反馈不断改进。

更酷的是,OpenSWE会自动帮你挑选出最适合你练习的关卡,这样你就不会浪费时间在那些太简单或者太难的挑战上。它就像是一个聪明的游戏助手,总是能找到最适合你的挑战。

所以,如果你想成为一个编程高手,OpenSWE就是你最好的训练伙伴!它会帮助你在编程的世界里不断进步,成为真正的代码大师!

术语表

Docker环境

Docker环境是一种轻量级的虚拟化技术,允许开发者在隔离的容器中运行应用程序。它在OpenSWE中用于创建可执行的代码测试环境。

用于构建和运行可执行的代码测试环境。

多代理系统

多代理系统是一种分布式系统,多个独立的代理协同工作以完成复杂任务。在OpenSWE中用于自动化环境合成。

用于自动化代码库探索、Dockerfile构建和评估脚本生成。

质量过滤管道

质量过滤管道是一种数据处理机制,根据数据的内在属性进行筛选。在OpenSWE中用于筛选出不可解或挑战性不足的环境。

用于筛选和保留能最大化学习效率的环境。

SWE代理

SWE代理是一种能够自主进行代码编辑、测试执行和解决方案优化的软件工程代理。在OpenSWE中通过大规模环境进行训练。

通过OpenSWE提供的环境进行训练和优化。

SWE-bench Verified

SWE-bench Verified是一个用于评估SWE代理性能的基准测试。在OpenSWE的实验中用于验证模型的准确率。

用于评估OpenSWE-32B和OpenSWE-72B的性能。

Qwen2.5系列

Qwen2.5系列是一组用于SWE代理训练的模型。在OpenSWE的实验中作为基准进行对比。

用于对比OpenSWE的性能。

对数线性增长

对数线性增长是一种数据增长模式,随着输入规模的增加,输出呈现对数线性增长。在OpenSWE的实验中用于描述模型性能的增长趋势。

用于描述随着高质量环境增加,模型性能的增长趋势。

数学推理

数学推理是指在数学问题中进行逻辑推理和问题解决的能力。在OpenSWE的实验中用于评估跨领域任务的性能提升。

用于评估SWE专注训练的跨领域性能提升。

科学基准

科学基准是一组用于评估模型科学推理能力的测试。在OpenSWE的实验中用于验证模型的跨领域性能。

用于验证OpenSWE的跨领域性能。

开源框架

开源框架是一种公开源代码的软件开发框架,允许社区进行改进和扩展。在OpenSWE中所有Dockerfile、评估脚本和基础设施均开源。

用于确保OpenSWE的透明性和可复现性。

开放问题 这项研究留下的未解疑问

  • 1 尽管OpenSWE在环境合成和质量过滤上取得了显著进展,但在支持更多编程语言方面仍有待改进。当前的框架主要支持Python,未来可以探索对其他语言的支持。
  • 2 OpenSWE在某些网络不稳定的情况下可能会遇到构建失败的问题,这对环境的稳定性提出了挑战。如何提高环境合成的稳定性是未来的一个研究方向。
  • 3 环境的构建和验证需要大量的计算资源,这对小型研究团队可能是一个挑战。如何降低计算成本和提高资源利用效率是未来的一个重要课题。
  • 4 尽管OpenSWE在数学推理和科学基准上表现出显著的提升,但在其他领域任务中的性能提升仍需进一步验证。未来可以探索更多跨领域任务的性能评估。
  • 5 OpenSWE的质量过滤管道主要依赖于环境的内在难度特征,如何进一步优化过滤机制以提高数据质量是一个值得研究的问题。
  • 6 尽管OpenSWE提供了一个透明且可复现的框架,但在社区的改进和扩展方面仍需更多的参与和支持。如何激励社区参与是一个值得思考的问题。
  • 7 OpenSWE在环境合成的规模和质量上都进行了创新,但在如何进一步优化合成效率和稳定性方面仍有待探索。

应用场景

近期应用

软件工程代理训练

OpenSWE提供了一个大规模、可执行且可验证的环境,能够显著提升软件工程代理的训练效率。研究人员和开发者可以利用这些环境进行代理的训练和优化。

跨领域任务性能提升

通过在OpenSWE上进行训练,代理在数学推理和科学基准等跨领域任务中表现出显著的性能提升。

开源社区改进与扩展

OpenSWE的开源特性允许社区进行改进和扩展,研究人员可以利用这个框架进行进一步的研究和开发。

远期愿景

多语言支持

未来,OpenSWE可以扩展以支持更多编程语言,从而扩大其应用范围和影响力。

环境合成效率优化

通过进一步优化合成管道和资源利用效率,OpenSWE可以在更短的时间内生成更多高质量的环境。

原文摘要

Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With $891K spent on environment construction and an additional $576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.

cs.SE cs.AI cs.CL

参考文献 (20)

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich 等

2025 42 引用 ⭐ 高影响力 查看解读 →

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

Mandar Joshi, Eunsol Choi, Daniel S. Weld 等

2017 3528 引用 查看解读 →

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

M-A-P Team, Xinrun Du, Yifan Yao 等

2025 150 引用

Measuring

Daniel Lafrenière

2019 640 引用

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

Carlos E. Jimenez, K. Lieret, Karthik R. Narasimhan 等

2024 90 引用

Training Verifiers to Solve Math Word Problems

K. Cobbe, Vineet Kosaraju, Mo Bavarian 等

2021 7728 引用 查看解读 →

Training Software Engineering Agents and Verifiers with SWE-Gym

Jiayi Pan, Xingyao Wang, Graham Neubig 等

2024 171 引用 查看解读 →

Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents

Zonghan Yang, Shengjie Wang, Kelin Fu 等

2025 12 引用 查看解读 →

daVinci-Dev: Agent-native Mid-training for Software Engineering

Ji Zeng, Dayuan Fu, Tiantian Mi 等

2026 5 引用 查看解读 →

SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks

Lianghong Guo, Yanlin Wang, Caihua Li 等

2025 23 引用

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation

Jiawei Liu, Chun Xia, Yuyao Wang 等

2023 1556 引用 查看解读 →

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Mohan Jiang, Dayuan Fu, Junhao Shi 等

2026 1 引用 查看解读 →

Agentless: Demystifying LLM-based Software Engineering Agents

Chun Xia, Yinlin Deng, S. Dunn 等

2024 291 引用 查看解读 →

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

Chaofan Tao, Jieru Chen, Yuxin Jiang 等

2026 9 引用 查看解读 →

Evaluating Large Language Models Trained on Code

Mark Chen, Jerry Tworek, Heewoo Jun 等

2021 8665 引用 查看解读 →

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao, Jeffrey Zhao, Dian Yu 等

2022 6344 引用 查看解读 →

SWE-Universe: Scale Real-World Verifiable Environments to Millions

Mouxiang Chen, Lei Zhang, Yunlong Feng 等

2026 2 引用 查看解读 →

AgentRefine: Enhancing Agent Generalization through Refinement Tuning

Dayuan Fu, Keqing He, Yejie Wang 等

2025 35 引用 查看解读 →

SWE-Mirror: Scaling Issue-Resolving Datasets by Mirroring Issues Across Repositories

Junhao Wang, Daoguang Zan, Shulin Xin 等

2025 21 引用 查看解读 →

Context as a Tool: Context Management for Long-Horizon SWE-Agents

Shukai Liu, Jian Yang, Bo Jiang 等

2025 6 引用 查看解读 →