SWE-smith：为软件工程智能体扩展数据 - 大模型论文天天读

<p>尽管用于软件工程的语言模型（LM）最近取得了进展，但收集训练数据仍然是一个重大痛点。现有的数据集规模较小，最多只有来自 11 个或更少 GitHub 代码库的数千个训练实例。整理此类数据集的流程通常很复杂，需要数百小时的人力；配套的执行环境也会占用数 TB 的存储空间，严重限制了其可扩展性和可用性。为解决这一痛点，我们推出了 SWE-smith，这是一种用于大规模生成软件工程训练数据的全新流程。给定任何 Python 代码库，SWE-smith 会构建相应的执行环境，然后自动合成数百到数千个任务实例，这些实例会破坏代码库中现有的测试。利用 SWE-smith，我们创建了一个包含 5 万个实例的数据集，这些实例来自 128 个 GitHub 代码库，比之前所有研究成果的数据量都大一个数量级。我们训练了 SWE-agent-LM-32B，在 SWE-bench Verified 基准测试中达到了 40.2%的一次通过率，在开源模型中处于领先水平。我们开源了 SWE-smith（收集流程、任务实例、轨迹、模型），以降低自动化软件工程大语言模型系统研究的准入门槛</p><p>https://arxiv.org/abs/2504.21798</p>