OneRec-V2

OneRec-V2

Published on Nov 4
19分钟
大模型论文天天读
0:00
0:00
<p>该技术报告介绍了 <strong>OneRec-V2</strong>,这是一个用于推荐系统的工业级生成式框架,旨在解决其前身 <strong>OneRec-V1</strong> 的可扩展性和性能瓶颈。OneRec-V2 的主要创新在于采用了一种 <strong>Lazy Decoder-Only 架构</strong>,该架构通过消除传统编码器并简化交叉注意力机制,将计算需求降低了 <strong>90% 以上</strong>,从而实现了模型参数的有效扩展(最高可达 80 亿)。此外,该系统引入了基于 <strong>真实用户互动</strong> 的偏好对齐(Preference Alignment)机制,包括 <strong>Duration-Aware Reward Shaping</strong> 和 <strong>Gradient-Bounded Policy Optimization (GBPO)</strong>,以更好地利用用户反馈信号并增强训练稳定性。在快手和快手极速版上的 <strong>A/B 测试</strong> 表明,OneRec-V2 在显著提升 <strong>App 停留时间</strong> 等关键指标的同时,有效平衡了多目标推荐,避免了此消彼长的问题。</p><p><a href="https://arxiv.org/pdf/2508.20900">arxiv.org</a></p>
OneRec-V2 - 大模型论文天天读 - 播刻岛