Scaling Laws for Neural Language Models

Scaling Laws for Neural Language Models

Published on Jun 7
7分钟
大模型论文天天读
0:00
0:00
<p>https://arxiv.org/abs/2001.08361 语言模型在交叉熵损失方面性能的实证缩放定律。损失与模型大小、数据集大小以及训练所用的计算量呈幂律关系,一些趋势跨越了七个以上数量级。诸如网络宽度或深度等其他架构细节在很宽的范围内影响极小。简单的方程控制着过拟合对模型/数据集大小的依赖关系,以及训练速度对模型大小的依赖关系。这些关系使我们能够确定固定计算预算的最优分配。更大的模型在样本效率上显著更高,因此,计算效率最优的训练方式是在相对适量的数据上训练非常大的模型,并在远未收敛时就停止训练。</p>