EP01 论文速读 | 简单反思《语言模型的 Scaling Law》,现在还适用吗?

EP01 论文速读 | 简单反思《语言模型的 Scaling Law》,现在还适用吗?

Published on Dec 30
26分钟
脑袋尖尖
0:00
0:00
<p>概述本期主题:</p><p>深入解析 Scaling Law及其在模型性能优化中的应用。</p><p>核心问题:</p><p>Scaling Law 描述了模型性能如何随着模型参数规模、数据集大小和计算资源投入增长,展现出一定的幂律关系。</p><p>讨论内容涵盖 Scaling Law 的核心公式、应用场景,潜在局限性及未来发展的可能性。</p><p>时间轴</p><p>00:00 - 开场与节目介绍</p><p>01:02 - 什么是 Scaling Law?核心概念解析</p><p>11:48 - Scaling Law 的现实意义及限制</p><p>19:51 - 应用案例:OpenAI 的研究成果及行业观察</p><p>23:16 - Scaling Law 的限制及未来发展方向</p><p>24:16 - 结尾总结</p><p>相关资源:</p><p>OpenAI 的 Scaling Law 研究论文</p><p>https://doi.org/10.48550/arXiv.2001.08361</p><p>Hestness, Joel; Narang, Sharan; Ardalani, Newsha; Diamos, Gregory; Jun, Heewoo; Kianinejad, Hassan; Patwary, Md Mostofa Ali; Yang, Yang; Zhou, Yanqi (2017-12-01). "Deep Learning Scaling is Predictable, Empirically"</p><p>https://doi.org/10.48550/arXiv.1712.00409</p><p>Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, ...