推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

缩放定律:一条公式决定了AI行业的方向

日期：2026-06-23 16:01:49 来源：网络整理作者：本站编辑评论：0

缩放定律:一条公式决定了AI行业的方向

OPENAI · SCALING LAWS · 2020

核心命题：模型越大、数据越多、算力越强——AI就越聪明。简单到像物理定律一样的结论，决定了整个行业过去五年的方向。

---

一、这篇论文回答了什么问题

2020年之前，训练语言模型有一个基本困惑：你到底应该把资源花在模型大小、数据量、还是训练时间上？

直觉上三者都要，但没人知道具体的比例。

OpenAI的Scaling Laws论文（Kaplan et al., 2020）给出了一个简洁到令人惊讶的答案：损失函数和这三个变量之间存在幂律关系。

翻译成人话：模型参数量每翻一倍，数据量每翻一倍，计算量每翻一倍——你可以精确预测损失会下降多少。

并且这个关系在几个数量级上都是成立的。不是玄学，是物理。

---

二、三条核心发现

发现一：模型越大越划算

增大模型参数量的边际收益（损失下降），远大于增大训练步数或增加数据的边际收益。换句话说：把预算花在更大的模型上，比花在更长的训练上更值。

发现二：数据要跟模型一起扩大

不是一味增大模型就够了。如果数据量不跟着增加，模型会过拟合。最佳的模型大小和训练数据量存在固定比例——大致是模型参数每增加10倍，训练数据也应增加10倍。

发现三：平滑的幂律，没有天花板

作者测试了从几百万到几十亿参数的模型，发现损失函数随规模的增大呈平滑的幂律下降。没有出现"瓶颈"或"拐点"——意味着当时看来，只要继续扩大规模，模型就会继续变好。

---

三、两个关键公式

整篇论文可以简化为两条曲线：

L(x) ∝ x^(-α)

损失与规模之间的幂律关系，α是常数

L(N, D) = a/N^α + b/D^β + c

N=模型参数，D=数据量，a,b,c,α,β均为拟合常数

第二个公式可以精确推算：给定你的算力预算（比如1000万美元），最优的模型大小和训练数据量是多少。这在工程上是极其有价值的指导——没有这个公式，你只能靠经验猜。

---

四、这篇论文的后果

Scaling Laws发表后，整个AI行业的方向被它定义了：

GPT-3（1750亿参数）是这条曲线的直接产物。OpenAI按照Scaling Laws的预测，砸出最大的模型。

Chinchilla（DeepMind 2022）修正了结论——发现以前的数据量不足，最优比例应该是模型参数每增加1倍，训练数据增加2倍。但修正也在Scaling Laws的框架内，没有推翻框架本身。

GPT-4及之后的数百亿参数模型、数万亿token的训练——都是在执行Scaling Laws给出的路线图。

甚至可以这么说：没有Scaling Laws，就不会有ChatGPT时代的"越大越好"共识。这可能是AI领域最被低估的历史转折——一个简洁的幂律公式，决定了数万亿美元的产业走向。

---

五、2026年回头看

Scaling Laws在2020年刚发表时有争议。2026年回头看，它已经被多次验证：

验证者	结论	修正
DeepMind	Scaling成立，但数据更重要	模型:数据 = 1:2（非1:1）
Anthropic	Scaling在更大规模继续成立	引入"解锁收益"作为新维度

但2025-2026年也开始出现"Scaling天花板"的讨论。数据消耗完了（整个互联网的文本量有限），算力增速遇到能源瓶颈。三驾马车中的"数据"和"算力"都碰到了现实约束。

不过这是Scaling Laws框架内的困难，不是框架被推翻。

---

六、与你有什么关系

如果你是做AI的：这个公式决定你的工程资源配置。模型应该多大、数据应该多少、训练多久——都可以精确计算，不用猜。

如果你是投AI的：Scaling Laws是否还能继续，决定了这个行业未来几年的增长斜率。

如果你是观察者：Scaling Laws告诉你，AI的进步不是突发灵感——是一条可以用数学预测的曲线。

这就是为什么2020年的Scaling Laws比绝大多数AI论文都重要。它定义了游戏规则。

---

引用：Kaplan et al., "Scaling Laws for Neural Language Models", OpenAI, arXiv:2001.08361, 2020年1月。

免责声明：本文为AI辅助的论文解读与归纳，建议阅读原文

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行