![EP11 [深度答疑]听完比90%的人更了解OpenAI O1的技术](https://image.xyzcdn.net/Fm3UmWjtEkedhE2aIFcCVBilB_Ly.jpg)
0:000:00
<p>“还能看到GPT5吗?O1在推理过程中有实时搜索吗? 是否代表了一个全新的训练方向?” 收集了7个挺有意义的O1问题, 并第一次尝试录制FAQ来深入解答这些疑惑。希望通过这期播客能帮助大家更好地理解O1模型.</p><p>如果小伙伴们有任何新的问题或想法, 以及这种FAQ的形式是否有帮助, 随时可以在评论区留言告诉我们呀~</p><h2><strong>Timeline</strong></h2><ul> <li>03:20 O1模型用来做数据反哺, 是否可行</li> <li>05:00 O1是否代表了一个全新的训练方向? 是否有可能取代GPT系列? 我们还能看不到GPT5吗</li> <li>06:14 O1使用的强化学习RL与之前训练ChatGPT的RLHF有何异同, 这次有什么新创新</li> <li>07:43 O1模的出现会被prompt engineer彻底取代, 未来应用种人工设计Prompt的角色会如何变化</li> <li>08:43 O1的COT和传统的COT(思维链)有啥区别, 有很多怀疑说O1只是特化了Agent/不会是4O微调的agent吧</li> <li>11:09 O1在推理过程中是否真正实现了(inference time search)实时搜索, 如果是, 具体是如何实现的</li> <li>14:21 相比之前的模型,O1在减少幻觉方面有改进</li></ul><p><strong>相关概念以及定义:</strong></p><p>System 1 vs System 2</p><ul> <li>System 1:快速、直觉的思考方式,类似大多数语言模型的直接输出</li> <li>System 2:慢速、深度的思考方式,O1模型采用的方法,会生成内部思维链</li></ul><ol> <li>数据反哺<br> 利用模型生成的数据来增强训练数据集,从而提高模型性能的技术</li> <li>强化学习(Reinforcement Learning, RL)<br> 一种机器学习方法,通过与环...