OPENAI · SCALING LAWS · 2020
核心命题:模型越大、数据越多、算力越强——AI就越聪明。简单到像物理定律一样的结论,决定了整个行业过去五年的方向。
---
一、这篇论文回答了什么问题
2020年之前,训练语言模型有一个基本困惑:你到底应该把资源花在模型大小、数据量、还是训练时间上?
直觉上三者都要,但没人知道具体的比例。
OpenAI的Scaling Laws论文(Kaplan et al., 2020)给出了一个简洁到令人惊讶的答案:损失函数和这三个变量之间存在幂律关系。
翻译成人话:模型参数量每翻一倍,数据量每翻一倍,计算量每翻一倍——你可以精确预测损失会下降多少。
并且这个关系在几个数量级上都是成立的。不是玄学,是物理。
---
二、三条核心发现
发现一:模型越大越划算
增大模型参数量的边际收益(损失下降),远大于增大训练步数或增加数据的边际收益。换句话说:把预算花在更大的模型上,比花在更长的训练上更值。
发现二:数据要跟模型一起扩大
不是一味增大模型就够了。如果数据量不跟着增加,模型会过拟合。最佳的模型大小和训练数据量存在固定比例——大致是模型参数每增加10倍,训练数据也应增加10倍。
发现三:平滑的幂律,没有天花板
作者测试了从几百万到几十亿参数的模型,发现损失函数随规模的增大呈平滑的幂律下降。没有出现"瓶颈"或"拐点"——意味着当时看来,只要继续扩大规模,模型就会继续变好。
---
三、两个关键公式
整篇论文可以简化为两条曲线:
L(x) ∝ x^(-α)
损失与规模之间的幂律关系,α是常数
L(N, D) = a/N^α + b/D^β + c
N=模型参数,D=数据量,a,b,c,α,β均为拟合常数
第二个公式可以精确推算:给定你的算力预算(比如1000万美元),最优的模型大小和训练数据量是多少。这在工程上是极其有价值的指导——没有这个公式,你只能靠经验猜。
---
四、这篇论文的后果
Scaling Laws发表后,整个AI行业的方向被它定义了:
GPT-3(1750亿参数)是这条曲线的直接产物。OpenAI按照Scaling Laws的预测,砸出最大的模型。
Chinchilla(DeepMind 2022)修正了结论——发现以前的数据量不足,最优比例应该是模型参数每增加1倍,训练数据增加2倍。但修正也在Scaling Laws的框架内,没有推翻框架本身。
GPT-4及之后的数百亿参数模型、数万亿token的训练——都是在执行Scaling Laws给出的路线图。
甚至可以这么说:没有Scaling Laws,就不会有ChatGPT时代的"越大越好"共识。这可能是AI领域最被低估的历史转折——一个简洁的幂律公式,决定了数万亿美元的产业走向。
---
五、2026年回头看
Scaling Laws在2020年刚发表时有争议。2026年回头看,它已经被多次验证:
但2025-2026年也开始出现"Scaling天花板"的讨论。数据消耗完了(整个互联网的文本量有限),算力增速遇到能源瓶颈。三驾马车中的"数据"和"算力"都碰到了现实约束。
不过这是Scaling Laws框架内的困难,不是框架被推翻。
---
六、与你有什么关系
如果你是做AI的:这个公式决定你的工程资源配置。模型应该多大、数据应该多少、训练多久——都可以精确计算,不用猜。
如果你是投AI的:Scaling Laws是否还能继续,决定了这个行业未来几年的增长斜率。
如果你是观察者:Scaling Laws告诉你,AI的进步不是突发灵感——是一条可以用数学预测的曲线。
这就是为什么2020年的Scaling Laws比绝大多数AI论文都重要。它定义了游戏规则。
---
引用:Kaplan et al., "Scaling Laws for Neural Language Models", OpenAI, arXiv:2001.08361, 2020年1月。
免责声明:本文为AI辅助的论文解读与归纳,建议阅读原文


