
0:000:00
<p>尽管用于软件工程的语言模型(LM)最近取得了进展,但收集训练数据仍然是一个重大痛点。现有的数据集规模较小,最多只有来自 11 个或更少 GitHub 代码库的数千个训练实例。整理此类数据集的流程通常很复杂,需要数百小时的人力;配套的执行环境也会占用数 TB 的存储空间,严重限制了其可扩展性和可用性。为解决这一痛点,我们推出了 SWE-smith,这是一种用于大规模生成软件工程训练数据的全新流程。给定任何 Python 代码库,SWE-smith 会构建相应的执行环境,然后自动合成数百到数千个任务实例,这些实例会破坏代码库中现有的测试。利用 SWE-smith,我们创建了一个包含 5 万个实例的数据集,这些实例来自 128 个 GitHub 代码库,比之前所有研究成果的数据量都大一个数量级。我们训练了 SWE-agent-LM-32B,在 SWE-bench Verified 基准测试中达到了 40.2%的一次通过率,在开源模型中处于领先水平。 我们开源了 SWE-smith(收集流程、任务实例、轨迹、模型),以降低自动化软件工程大语言模型系统研究的准入门槛</p><p>https://arxiv.org/abs/2504.21798</p>