
0:000:00
<p><a href="https://huggingface.co/papers/2505.04588">本期论文:ZeroSearch: Incentivize the Search Capability of LLMs without Searching</a></p><p>ZEROSEARCH 是一个新颖的强化学习(RL)框架,旨在提升大型语言模型(LLMs)的搜索能力,而无需与真实的搜索引擎交互。该框架巧妙地结合了强化学习、监督微调(SFT)和课程学习机制来优化 LLMs 的检索和推理能力。</p><p>以下是 ZEROSEARCH 如何利用这些机制:</p><ol> <li><strong>强化学习 (RL)</strong>:ZEROSEARCH 采用强化学习来训练策略模型(policy model),以学习有效的搜索策略。<br>RL 目标函数被设计用于最大化奖励,该奖励主要基于答案的准确性(使用 F1 分数衡量),同时通过 KL 散度惩罚来保持策略模型与参考模型的接近。<br><strong>ZEROSEARCH 通过奖励信号来激励模型进行多轮交互式推理和信息检索,直至得出最终答案</strong>。<br>框架兼容多种 RL 算法,包括 Proximal Policy Optimization (PPO) 和 Group Relative Policy Optimization (GRPO)。实验表明 GRPO 在训练稳定性方面具有优势.<br>为了稳定 RL 训练过程,<strong>ZEROSEARCH 对检索到的文档 token 应用了损失掩码(loss masking)</strong>,确保梯度仅针对模型自身的输出计算,因为检索到的内容是由外部(模拟)生成而非策略模型直接控制.<br></li> <li><strong>监督微调 (SFT) 用于搜索模拟</strong>:ZEROSEARCH 的核心创新之一是<strong>使用一个经过监督微调的 LLM 来模拟真实搜索引擎</strong>。<br>通过轻量级的 SFT 过程,<strong>模拟 LLM 能够响应搜索查询并生成文档</strong>。<br>这个 SFT 过程利用了与真实搜索引擎交互收集的轨迹,根据轨迹是否产生正确答案将文档标记为有用或嘈杂。<br>通过调整提示...