推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  履带  带式称重给煤机  减速机型号  链式给煤机  无级变速机 

OpenAI 姚顺雨:我们进入了AI的下半场

   日期:2025-12-21 08:53:02     来源:网络整理    作者:本站编辑    评论:0    
OpenAI 姚顺雨:我们进入了AI的下半场

OpenAI 姚顺雨:我们进入了AI的下半场

OpenAI 姚顺雨:我们进入了AI的下半场

昨天,读了姚顺雨大神的新博客:The Second Half,insights非常深刻,堪称AGI时代的the bitter lesson,推荐大家去他的博客上阅读原文。以下是我的摘录:

?几十年来,AI的研究者都在重复着提出榜单(benchmark)-提出算法刷榜-提出更难的榜单的游戏。但今天,事情不一样了。我们讨论的是通用人工智能:OpenAI o3, Deepseek-R1。

?这象征着AI这场游戏,已经进入下半场。姚顺雨用三个词总结了AI的上半场:RL finally generalizes,强化学习终于泛化出了通用智能。尽管RL(强化学习)一直被视作AI的圣杯,但直到今天,我们才真正认识RL。

?RL有三个关键:1)算法,2)环境,3)先验。过去,绝大多数的研究都关注1-算法。然而,今天回头看,RL中最重要的原来不是算法或环境,而是3-先验。而获得先验的方式 - LLM的语言预训练 - 又和RL本身完全无关。

?语言先验进而改变了2-环境。通过将语言推理加入到任意RL环境的动作空间中,我们得以利用LLM在预训练中积攒的先验知识实现泛化。

?一旦我们拥有了正确的RL先验(语言预训练)和RL环境(将语言推理作为动作),人们发现RL算法就没那么重要了。我们有了Openai o1,deepseek-r1,deep research。这是多么讽刺的事实 - 长久以来,RL研究者都将注意力倾注于算法而不是环境,而先验更是无人在意。

?总结上半场,我们总是在1)开发新的训练算法和模型来刷榜,2)创造更难的榜单并重复这个循环。这样的游戏结束了,因为1)通用模型的一次迭代就会轻松超过在特定任务上刷榜的努力,2)即使我们创造了更难的榜单,他们也会像MMLU一样迅速饱和。

?最后表达一下我对姚的崇拜之情。姚对AI的认知遥遥领先于时代。他像是agent时代的Ilya,精准踩在了agent的每个关键节点上,并做出了关键的工作-ReAct、Tree of Thoughts...尽管这些工作是这样知名,但鲜有人知,他早在19年,就做了第一个基于LLM的agent - CALM - 此时离ChatGPT的出现还有三年。尽管当时它花了百万步RL也只能在单一游戏上获得提升,无法泛化。
#LLM #人工智能 #大语言模型
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON