
近期,Ilya在接受采访时表示,AI 正从“规模时代”重新走向“科研时代”。当前主流的“预训练 + Scaling”路线已遇瓶颈,他认为应将注意力放回“研究范式本身”的重构上。
Ilya 认为当下模型存在一个让人困惑的现象:一方面评测表现好,另一方面经济上的实际影响却落后很多。例如用模型修代码时可能会反复引入新旧 bug。他解释称,可能是 RL 训练让模型过于单一目标、过于“直线型”,在某些方面缺乏觉察力;也可能是大家在 RL 训练时从 eval 中汲取灵感,导致模型在实际场景中的表现与评测成绩有落差。
Ilya 提到预训练的优势在于数据量庞大,且不用纠结数据选择,它能捕捉“人类把世界投射到文本上的那一层”,但预训练数据利用方式难以弄清,模型犯错可能与预训练数据支持不足有关,而人类的前期“训练”与预训练存在差异,人类经过 15 年训练掌握知识远不及 AI,但理解更深刻,且不会犯 AI 那些错误,进化论可能在其中更有优势。
Ilya 还探讨了我们究竟在扩展什么的问题。过去的机器学习从依赖不断尝试方法到规模化出现,预训练是规模化下清晰的“配方”,但预训练终会遇到数据有限的硬上限,之后需寻找强化预训练方式或探索强化学习等新路径。他指出 2012—2020 是研究时代,2020—2025 是规模化时代,现在又重新回到研究时代,只不过手里多了巨型计算机。
关于 AI 的泛化能力,Ilya 认为这是最核心、最棘手的问题。人类在学习能力上比模型强,可能是因为进化为我们提供了视觉、听觉、运动等核心能力上的先验,而人类在语言、数学、编程等“近期才出现的能力”上依旧表现出强学习能力,可能源于某种更基础、更普遍的学习能力。
Ilya 还谈到科研时代的特点,他强调关键不在于算力多少,而在于如何使用算力。
在超级智能方面,Ilya 表示 SSI 的计划是直接研发超级智能,认为避免卷入市场竞争有利于专注于长期目标,但也会考虑社会逐步适应等因素。他还提出构建一个关心所有具备感知能力生命体的 AI 比构建只关心“人类生命”的 AI 更容易,因为 AI 本身也将具备感知能力。
Ilya 最后提到研究品味,他认为 AI 应具有“美学特征”,要从人类本质出发,思考大脑的结构和运作方式,以简洁、优雅的方式构建模型至关重要#小红书科技观察团 #AI便利店 #get职场新知识 @科技薯
Ilya 认为当下模型存在一个让人困惑的现象:一方面评测表现好,另一方面经济上的实际影响却落后很多。例如用模型修代码时可能会反复引入新旧 bug。他解释称,可能是 RL 训练让模型过于单一目标、过于“直线型”,在某些方面缺乏觉察力;也可能是大家在 RL 训练时从 eval 中汲取灵感,导致模型在实际场景中的表现与评测成绩有落差。
Ilya 提到预训练的优势在于数据量庞大,且不用纠结数据选择,它能捕捉“人类把世界投射到文本上的那一层”,但预训练数据利用方式难以弄清,模型犯错可能与预训练数据支持不足有关,而人类的前期“训练”与预训练存在差异,人类经过 15 年训练掌握知识远不及 AI,但理解更深刻,且不会犯 AI 那些错误,进化论可能在其中更有优势。
Ilya 还探讨了我们究竟在扩展什么的问题。过去的机器学习从依赖不断尝试方法到规模化出现,预训练是规模化下清晰的“配方”,但预训练终会遇到数据有限的硬上限,之后需寻找强化预训练方式或探索强化学习等新路径。他指出 2012—2020 是研究时代,2020—2025 是规模化时代,现在又重新回到研究时代,只不过手里多了巨型计算机。
关于 AI 的泛化能力,Ilya 认为这是最核心、最棘手的问题。人类在学习能力上比模型强,可能是因为进化为我们提供了视觉、听觉、运动等核心能力上的先验,而人类在语言、数学、编程等“近期才出现的能力”上依旧表现出强学习能力,可能源于某种更基础、更普遍的学习能力。
Ilya 还谈到科研时代的特点,他强调关键不在于算力多少,而在于如何使用算力。
在超级智能方面,Ilya 表示 SSI 的计划是直接研发超级智能,认为避免卷入市场竞争有利于专注于长期目标,但也会考虑社会逐步适应等因素。他还提出构建一个关心所有具备感知能力生命体的 AI 比构建只关心“人类生命”的 AI 更容易,因为 AI 本身也将具备感知能力。
Ilya 最后提到研究品味,他认为 AI 应具有“美学特征”,要从人类本质出发,思考大脑的结构和运作方式,以简洁、优雅的方式构建模型至关重要#小红书科技观察团 #AI便利店 #get职场新知识 @科技薯


