推广 热搜： 采购方式甲带滤芯气动隔膜泵减速机带式称重给煤机减速机型号履带链式给煤机无级变速机

AI 上半场结束了？- “The Second Half”

日期：2025-11-22 16:15:56 来源：网络整理作者：本站编辑评论：0

作为一个没有学术研究背景，但在字节折腾了四年的人，我天然觉得：业务是第一位的，模型和算法是为业务服务的。而在我印象里，学术界更看重模型与方法的创新。

直到读了Yao的文章——The Second Half，我才意识到：这种偏见其实反映了AI“上半场”的真实状况。

??? 1. 上半场：算法为王，却走了弯路

过去的AI研究故事大多是这样的：
a. 提出一个新模型、新方法，在某个数据集上拿到SOTA；
b. 如果成绩太好，就造一个更难的数据集。
? 如此循环往复

AI上半场极度侧重于算法与模型的提出，评测的重视度明显更低，这一点从文章的引用度可见一般

但是侧重于算法优化让强化学习走了“弯路”——虽然强化学习在游戏（如AlphaGo、Dota2）等领域强化学习大放异彩，即在Computer use 和web navigation 的更聚焦人类日常任务上，研究者以为算法不够新（PPO、GRPO等等），但其实是缺乏人类知识的先验知识（Prior）

一直到GPT3等推出后，强化学习的引入才让Agent在人类关键任务上取得比较好的成绩。从现在来复盘才发现一个关键结论：语言能泛化Agent推理

? 回头看，这正是“只盯着算法优化”带来的弯路。

??? 2. 下半场：评估和实用性才是主角

以Transformer架构为核心，Pre-Train、Post-Train通用方法已经成为通用的“Recipe”。没有新idea，只加数据、加算力，Benchmark 也能被更快、更轻松的刷完

那下半场的AI 故事怎么写呢？

Yao给出的答案是：重构评估，直面实用问题（Utility Problem）

大家过于自然的认为当前的评估方式就是天然的，但其实有很多问题，比如：自动评估并不符合人类习惯等

基于这个畅想下，下半场AI故事讲述方式新循环是：
a. 基于真实的“实用问题”去设计新的评估任务；
b.再用现成的Recipe（或再加一点增强）把任务真正解决
? 重复循环

换句话说，上半场的参与者在解决“游戏和考试”的问题，下半场的参与者才有机会通过创造真正的AI产品，建立千亿级公司。

???3. 未来：真正改变生活的AI

三年前，GPT已经达到亿级DAU。但直到今天，大高频场景也只是在对话和Code，大多数人的生活并没有显著改变。
? 大模型现在能轻松考上清华，但是却还不能帮助你快速、安全的处理表格。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行