

昨天,读了姚顺雨大神的新博客:The Second Half,insights非常深刻,堪称AGI时代的the bitter lesson,推荐大家去他的博客上阅读原文。以下是我的摘录:
?几十年来,AI的研究者都在重复着提出榜单(benchmark)-提出算法刷榜-提出更难的榜单的游戏。但今天,事情不一样了。我们讨论的是通用人工智能:OpenAI o3, Deepseek-R1。
?这象征着AI这场游戏,已经进入下半场。姚顺雨用三个词总结了AI的上半场:RL finally generalizes,强化学习终于泛化出了通用智能。尽管RL(强化学习)一直被视作AI的圣杯,但直到今天,我们才真正认识RL。
?RL有三个关键:1)算法,2)环境,3)先验。过去,绝大多数的研究都关注1-算法。然而,今天回头看,RL中最重要的原来不是算法或环境,而是3-先验。而获得先验的方式 - LLM的语言预训练 - 又和RL本身完全无关。
?语言先验进而改变了2-环境。通过将语言推理加入到任意RL环境的动作空间中,我们得以利用LLM在预训练中积攒的先验知识实现泛化。
?一旦我们拥有了正确的RL先验(语言预训练)和RL环境(将语言推理作为动作),人们发现RL算法就没那么重要了。我们有了Openai o1,deepseek-r1,deep research。这是多么讽刺的事实 - 长久以来,RL研究者都将注意力倾注于算法而不是环境,而先验更是无人在意。
?总结上半场,我们总是在1)开发新的训练算法和模型来刷榜,2)创造更难的榜单并重复这个循环。这样的游戏结束了,因为1)通用模型的一次迭代就会轻松超过在特定任务上刷榜的努力,2)即使我们创造了更难的榜单,他们也会像MMLU一样迅速饱和。
?最后表达一下我对姚的崇拜之情。姚对AI的认知遥遥领先于时代。他像是agent时代的Ilya,精准踩在了agent的每个关键节点上,并做出了关键的工作-ReAct、Tree of Thoughts...尽管这些工作是这样知名,但鲜有人知,他早在19年,就做了第一个基于LLM的agent - CALM - 此时离ChatGPT的出现还有三年。尽管当时它花了百万步RL也只能在单一游戏上获得提升,无法泛化。
#LLM #人工智能 #大语言模型
?几十年来,AI的研究者都在重复着提出榜单(benchmark)-提出算法刷榜-提出更难的榜单的游戏。但今天,事情不一样了。我们讨论的是通用人工智能:OpenAI o3, Deepseek-R1。
?这象征着AI这场游戏,已经进入下半场。姚顺雨用三个词总结了AI的上半场:RL finally generalizes,强化学习终于泛化出了通用智能。尽管RL(强化学习)一直被视作AI的圣杯,但直到今天,我们才真正认识RL。
?RL有三个关键:1)算法,2)环境,3)先验。过去,绝大多数的研究都关注1-算法。然而,今天回头看,RL中最重要的原来不是算法或环境,而是3-先验。而获得先验的方式 - LLM的语言预训练 - 又和RL本身完全无关。
?语言先验进而改变了2-环境。通过将语言推理加入到任意RL环境的动作空间中,我们得以利用LLM在预训练中积攒的先验知识实现泛化。
?一旦我们拥有了正确的RL先验(语言预训练)和RL环境(将语言推理作为动作),人们发现RL算法就没那么重要了。我们有了Openai o1,deepseek-r1,deep research。这是多么讽刺的事实 - 长久以来,RL研究者都将注意力倾注于算法而不是环境,而先验更是无人在意。
?总结上半场,我们总是在1)开发新的训练算法和模型来刷榜,2)创造更难的榜单并重复这个循环。这样的游戏结束了,因为1)通用模型的一次迭代就会轻松超过在特定任务上刷榜的努力,2)即使我们创造了更难的榜单,他们也会像MMLU一样迅速饱和。
?最后表达一下我对姚的崇拜之情。姚对AI的认知遥遥领先于时代。他像是agent时代的Ilya,精准踩在了agent的每个关键节点上,并做出了关键的工作-ReAct、Tree of Thoughts...尽管这些工作是这样知名,但鲜有人知,他早在19年,就做了第一个基于LLM的agent - CALM - 此时离ChatGPT的出现还有三年。尽管当时它花了百万步RL也只能在单一游戏上获得提升,无法泛化。
#LLM #人工智能 #大语言模型


