




清华姚班出身、现任 OpenAI 研究科学家的姚顺雨在《The Second Half》一文中提出:AI 的下半场,不再只是追求模型分数,而要像产品经理一样思考——AI 应该为谁解决什么问题,又该如何评估“解决得好不好”。谁能解决这个问题,谁就能真正释放万亿级的经济价值。 过去几十年,AI 的进步主要靠“造新模型”。从深度学习、卷积网络,到 Transformer、GPT 系列,再到 AlphaGo 的强化学习突破,研究者不断发明新方法。结果显而易见:AI 能在围棋击败世界冠军,考试超过大多数人类,甚至赢得国际奥赛金牌。逻辑很简单:谁能造出更强的模型,谁就在 benchmark 上胜出。这就是 AI 的“上半场”。
但游戏规则正在改变。转折点在于——强化学习终于“泛化”了。以往 RL 在特定环境中有效,但一换场景就不行。而今天,借助大规模语言预训练与推理能力,AI 不仅能写作、编程、解数学题,还能操作电脑、回答复杂问题。它不再只是“专用工具”,而是形成了一个通用“配方”。这意味着,单纯追求更大更强的模型已意义不大:你的新方法提升 5%,下代通用模型可能直接提升 30%。
因此,下半场的核心从“训练”转向“评测”。问题不再是“能否训练一个模型解决 X”,而是“AI 应该解决哪些问题?如何评估它真的有用?”换句话说,评测比训练更重要。
对比来看:
过去的评测关注分数:AI 考试能考几分?能否打败棋手?翻译更准吗?
现在的评测要看实用性:AI 能否帮程序员高效写代码?能否像客服一样解决复杂对话?能否在长期任务中越做越熟?
为什么评测如此关键?因为虽然 AI 已经能赢棋赛、考试和竞赛,但经济和社会并未因此发生巨大变化。根本原因在于,这些评测结果不等于真实价值。如果继续只追求“更难的考试”或“更高的分数”,AI 可能不断破纪录,却难以真正创造经济效益。
下半场的游戏规则是:
设计新的评测标准,衡量 AI 在真实场景中的价值。
用现有通用模型去挑战这些新标准。
在评测压力下倒逼新方法和创新出现。
总结来看:
上半场:核心是训练与新模型(造轮子)。
下半场:核心是评测与问题定义(判断轮子是否跑得稳、跑得远)。
#产品经理 #产品知识 #产品经理入门 #AI #大模型 #AI评测 #人工智能 #人工智能快讯 #人工智能评测
但游戏规则正在改变。转折点在于——强化学习终于“泛化”了。以往 RL 在特定环境中有效,但一换场景就不行。而今天,借助大规模语言预训练与推理能力,AI 不仅能写作、编程、解数学题,还能操作电脑、回答复杂问题。它不再只是“专用工具”,而是形成了一个通用“配方”。这意味着,单纯追求更大更强的模型已意义不大:你的新方法提升 5%,下代通用模型可能直接提升 30%。
因此,下半场的核心从“训练”转向“评测”。问题不再是“能否训练一个模型解决 X”,而是“AI 应该解决哪些问题?如何评估它真的有用?”换句话说,评测比训练更重要。
对比来看:
过去的评测关注分数:AI 考试能考几分?能否打败棋手?翻译更准吗?
现在的评测要看实用性:AI 能否帮程序员高效写代码?能否像客服一样解决复杂对话?能否在长期任务中越做越熟?
为什么评测如此关键?因为虽然 AI 已经能赢棋赛、考试和竞赛,但经济和社会并未因此发生巨大变化。根本原因在于,这些评测结果不等于真实价值。如果继续只追求“更难的考试”或“更高的分数”,AI 可能不断破纪录,却难以真正创造经济效益。
下半场的游戏规则是:
设计新的评测标准,衡量 AI 在真实场景中的价值。
用现有通用模型去挑战这些新标准。
在评测压力下倒逼新方法和创新出现。
总结来看:
上半场:核心是训练与新模型(造轮子)。
下半场:核心是评测与问题定义(判断轮子是否跑得稳、跑得远)。
#产品经理 #产品知识 #产品经理入门 #AI #大模型 #AI评测 #人工智能 #人工智能快讯 #人工智能评测


