
作为一个没有学术研究背景,但在字节折腾了四年的人,我天然觉得:业务是第一位的,模型和算法是为业务服务的。而在我印象里,学术界更看重模型与方法的创新。
直到读了Yao的文章——The Second Half,我才意识到:这种偏见其实反映了AI“上半场”的真实状况。
??? 1. 上半场:算法为王,却走了弯路
过去的AI研究故事大多是这样的:
a. 提出一个新模型、新方法,在某个数据集上拿到SOTA;
b. 如果成绩太好,就造一个更难的数据集。
? 如此循环往复
AI上半场极度侧重于算法与模型的提出,评测的重视度明显更低,这一点从文章的引用度可见一般
但是侧重于算法优化让强化学习走了“弯路”——虽然强化学习在游戏(如AlphaGo、Dota2)等领域强化学习大放异彩,即在Computer use 和web navigation 的更聚焦人类日常任务上,研究者以为算法不够新(PPO、GRPO等等),但其实是缺乏人类知识的先验知识(Prior)
一直到GPT3等推出后,强化学习的引入才让Agent在人类关键任务上取得比较好的成绩。从现在来复盘才发现一个关键结论:语言能泛化Agent推理
? 回头看,这正是“只盯着算法优化”带来的弯路。
??? 2. 下半场:评估和实用性才是主角
以Transformer架构为核心,Pre-Train、Post-Train通用方法已经成为通用的“Recipe”。没有新idea,只加数据、加算力,Benchmark 也能被更快、更轻松的刷完
那下半场的AI 故事怎么写呢?
Yao给出的答案是:重构评估,直面实用问题(Utility Problem)
大家过于自然的认为当前的评估方式就是天然的,但其实有很多问题,比如:自动评估并不符合人类习惯等
基于这个畅想下,下半场AI故事讲述方式新循环是:
a. 基于真实的“实用问题”去设计新的评估任务;
b.再用现成的Recipe(或再加一点增强)把任务真正解决
? 重复循环
换句话说,上半场的参与者在解决“游戏和考试”的问题,下半场的参与者才有机会通过创造真正的AI产品,建立千亿级公司。
???3. 未来:真正改变生活的AI
三年前,GPT已经达到亿级DAU。但直到今天,大高频场景也只是在对话和Code,大多数人的生活并没有显著改变。
? 大模型现在能轻松考上清华,但是却还不能帮助你快速、安全的处理表格。
直到读了Yao的文章——The Second Half,我才意识到:这种偏见其实反映了AI“上半场”的真实状况。
??? 1. 上半场:算法为王,却走了弯路
过去的AI研究故事大多是这样的:
a. 提出一个新模型、新方法,在某个数据集上拿到SOTA;
b. 如果成绩太好,就造一个更难的数据集。
? 如此循环往复
AI上半场极度侧重于算法与模型的提出,评测的重视度明显更低,这一点从文章的引用度可见一般
但是侧重于算法优化让强化学习走了“弯路”——虽然强化学习在游戏(如AlphaGo、Dota2)等领域强化学习大放异彩,即在Computer use 和web navigation 的更聚焦人类日常任务上,研究者以为算法不够新(PPO、GRPO等等),但其实是缺乏人类知识的先验知识(Prior)
一直到GPT3等推出后,强化学习的引入才让Agent在人类关键任务上取得比较好的成绩。从现在来复盘才发现一个关键结论:语言能泛化Agent推理
? 回头看,这正是“只盯着算法优化”带来的弯路。
??? 2. 下半场:评估和实用性才是主角
以Transformer架构为核心,Pre-Train、Post-Train通用方法已经成为通用的“Recipe”。没有新idea,只加数据、加算力,Benchmark 也能被更快、更轻松的刷完
那下半场的AI 故事怎么写呢?
Yao给出的答案是:重构评估,直面实用问题(Utility Problem)
大家过于自然的认为当前的评估方式就是天然的,但其实有很多问题,比如:自动评估并不符合人类习惯等
基于这个畅想下,下半场AI故事讲述方式新循环是:
a. 基于真实的“实用问题”去设计新的评估任务;
b.再用现成的Recipe(或再加一点增强)把任务真正解决
? 重复循环
换句话说,上半场的参与者在解决“游戏和考试”的问题,下半场的参与者才有机会通过创造真正的AI产品,建立千亿级公司。
???3. 未来:真正改变生活的AI
三年前,GPT已经达到亿级DAU。但直到今天,大高频场景也只是在对话和Code,大多数人的生活并没有显著改变。
? 大模型现在能轻松考上清华,但是却还不能帮助你快速、安全的处理表格。


