推广 热搜： 采购方式甲带滤芯气动隔膜泵减速机履带带式称重给煤机减速机型号链式给煤机无级变速机

OpenAI 姚顺雨：我们进入了AI的下半场

日期：2025-12-21 08:53:02 来源：网络整理作者：本站编辑评论：0

昨天，读了姚顺雨大神的新博客：The Second Half，insights非常深刻，堪称AGI时代的the bitter lesson，推荐大家去他的博客上阅读原文。以下是我的摘录：

?几十年来，AI的研究者都在重复着提出榜单(benchmark)-提出算法刷榜-提出更难的榜单的游戏。但今天，事情不一样了。我们讨论的是通用人工智能：OpenAI o3, Deepseek-R1。

?这象征着AI这场游戏，已经进入下半场。姚顺雨用三个词总结了AI的上半场：RL finally generalizes，强化学习终于泛化出了通用智能。尽管RL（强化学习）一直被视作AI的圣杯，但直到今天，我们才真正认识RL。

?RL有三个关键：1)算法，2)环境，3)先验。过去，绝大多数的研究都关注1-算法。然而，今天回头看，RL中最重要的原来不是算法或环境，而是3-先验。而获得先验的方式 - LLM的语言预训练 - 又和RL本身完全无关。

?语言先验进而改变了2-环境。通过将语言推理加入到任意RL环境的动作空间中，我们得以利用LLM在预训练中积攒的先验知识实现泛化。

?一旦我们拥有了正确的RL先验（语言预训练）和RL环境（将语言推理作为动作），人们发现RL算法就没那么重要了。我们有了Openai o1，deepseek-r1，deep research。这是多么讽刺的事实 - 长久以来，RL研究者都将注意力倾注于算法而不是环境，而先验更是无人在意。

?总结上半场，我们总是在1)开发新的训练算法和模型来刷榜，2)创造更难的榜单并重复这个循环。这样的游戏结束了，因为1)通用模型的一次迭代就会轻松超过在特定任务上刷榜的努力，2)即使我们创造了更难的榜单，他们也会像MMLU一样迅速饱和。

?最后表达一下我对姚的崇拜之情。姚对AI的认知遥遥领先于时代。他像是agent时代的Ilya，精准踩在了agent的每个关键节点上，并做出了关键的工作-ReAct、Tree of Thoughts...尽管这些工作是这样知名，但鲜有人知，他早在19年，就做了第一个基于LLM的agent - CALM - 此时离ChatGPT的出现还有三年。尽管当时它花了百万步RL也只能在单一游戏上获得提升，无法泛化。
#LLM #人工智能 #大语言模型

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行