








一个只有 1.5B 参数的小模型 VibeThinker,在数学推理任务中表现超过了 671B 的 DeepSeek R1。
而整个训练流程的成本只有 7800 美元。
作为一名长期做多模态 / 大模型推理的算法工程师,我觉得这项研究的意义不是“谁打败了谁”,而是:
它重新定义了“小模型能否拥有强推理能力”这个问题。
? 二、这个工作带来的关键启发
以下是我从工程角度受到的几个启发。
---
✨启发 1:推理能力可以被“组件化”构建
谱阶段用到的 checkpoint 融合,本质是在做:
- 子领域能力拆解
- 最优能力片段的拼接
- 最终融合成完整推理能力
这意味着:
推理模型未来可能走向“技能拼装”而非“参数堆叠”。
不依赖 MoE,也能让小模型拥有不同领域的推理“模块”。
---
✨启发 2:推理能力不是靠规模,而是靠“多路径探索 + 正确信号放大”
传统观念是“模型越大 → 推理越强”。
但 SSP 的结构告诉我们:
推理能力更像在构建一个“可搜索的推理空间”。
谱阶段提高“空间的多样性密度”
信号阶段强化“正确路径权重”
小模型也可以拥有这种推理空间,只是过去没有被这样训练。
---
✨启发 3:最大熵训练可能是推理模型的下一代 RL 方法
MGPO 的做法非常符合直觉:
- 简单题:提升有限
- 难到完全不会:学不到
- 模糊边界:提升最大
这是信息论视角下的“学习价值最大化”。
我认为最大熵方法未来在推理模型中会越来越重要,
甚至可能取代部分 RLHF 的应用场景。
---
✨启发 4:推理模型的训练成本门槛正在被重新定义
7800 美元意味着——
推理级模型不再是“大厂专属”。
可能会发生:
- 小团队训练自己的推理模型
- 开源社区快速迭代小型推理专模
- 边缘设备具备本地推理能力
- 行业开始出现“定制推理模型服务”
这是一个更“民主化”的未来。
-----------------------------------------
以上就是本期我要分享的内容啦,主页还有很多有意义的好论文,欢迎关注,后续会继续带来更多有意义的论文的分享和个人见解,也欢迎大家看到有意思的论文请打在评论区,我看到后也会找机会进行分享。下次见啦~
#人工智能发展 #大模型 #小模型 #推理模型 #VibeThinker #人工智能未来
而整个训练流程的成本只有 7800 美元。
作为一名长期做多模态 / 大模型推理的算法工程师,我觉得这项研究的意义不是“谁打败了谁”,而是:
它重新定义了“小模型能否拥有强推理能力”这个问题。
? 二、这个工作带来的关键启发
以下是我从工程角度受到的几个启发。
---
✨启发 1:推理能力可以被“组件化”构建
谱阶段用到的 checkpoint 融合,本质是在做:
- 子领域能力拆解
- 最优能力片段的拼接
- 最终融合成完整推理能力
这意味着:
推理模型未来可能走向“技能拼装”而非“参数堆叠”。
不依赖 MoE,也能让小模型拥有不同领域的推理“模块”。
---
✨启发 2:推理能力不是靠规模,而是靠“多路径探索 + 正确信号放大”
传统观念是“模型越大 → 推理越强”。
但 SSP 的结构告诉我们:
推理能力更像在构建一个“可搜索的推理空间”。
谱阶段提高“空间的多样性密度”
信号阶段强化“正确路径权重”
小模型也可以拥有这种推理空间,只是过去没有被这样训练。
---
✨启发 3:最大熵训练可能是推理模型的下一代 RL 方法
MGPO 的做法非常符合直觉:
- 简单题:提升有限
- 难到完全不会:学不到
- 模糊边界:提升最大
这是信息论视角下的“学习价值最大化”。
我认为最大熵方法未来在推理模型中会越来越重要,
甚至可能取代部分 RLHF 的应用场景。
---
✨启发 4:推理模型的训练成本门槛正在被重新定义
7800 美元意味着——
推理级模型不再是“大厂专属”。
可能会发生:
- 小团队训练自己的推理模型
- 开源社区快速迭代小型推理专模
- 边缘设备具备本地推理能力
- 行业开始出现“定制推理模型服务”
这是一个更“民主化”的未来。
-----------------------------------------
以上就是本期我要分享的内容啦,主页还有很多有意义的好论文,欢迎关注,后续会继续带来更多有意义的论文的分享和个人见解,也欢迎大家看到有意思的论文请打在评论区,我看到后也会找机会进行分享。下次见啦~
#人工智能发展 #大模型 #小模型 #推理模型 #VibeThinker #人工智能未来


