
发布日期:2025年12月20日 · 星期六
期号|第17期
本期主题:【企业为何正在从“大模型优先”转向“推理架构优先”?】
出品机构|易术研究
定位说明
易术研究专注 AI 技术黑盒拆解与前沿论文精读。我们逐层剖开大模型原理、微调技巧与产业落地陷阱;每月更新顶会论文速读、开源项目复盘与技术白皮书,帮算法、产品与投资人第一时间看懂 AI、用上 AI。


背景概述
在最初一波大模型浪潮中,许多企业的部署路径非常相似:确定云厂商或模型供应商,开通一个能力尽可能“大的”通用大模型接口,然后把尽可能多的业务场景接到同一个模型上。从对话问答到代码生成、从市场内容到客户服务,所有需求都试图通过提示词工程和少量微调,交给一个统一模型解决。这一阶段的主旋律是“模型能力展示”:只要模型在演示中表现足够惊艳,就可以为项目赢得预算和内部支持。
但在落地过程中,一些共性问题开始暴露。首先是成本与延迟:随着调用量从每天几百次增长到几十万次,按 token 计费的大模型推理成本迅速累积,大量长文本、多轮会话场景使账单呈指数型上升;在高并发场景下,响应延迟也难以保持稳定,这直接影响用户体验。其次是场景异质性:通用大模型在开放式对话和创意生成上表现突出,但面对结构化表单填报、固定格式报告生成、规则清晰的审批流程时,其“聪明”反而转化为不必要的复杂和不确定。第三是系统集成与合规:一个拥有广泛能力的大模型接入多套业务系统后,权限边界、审计需求、数据隔离都变得更难处理,很多组织不得不在模型前后叠加额外的网关和规则逻辑。
与此同时,模型和工具生态本身也在发生变化。一方面,越来越多的中小规模模型开始涌现,通过精调、蒸馏和量化,在特定任务上接近甚至超越通用大模型的表现;另一方面,围绕函数调用、工具调用、知识检索和多 Agent 协作的框架逐渐成熟,为“一个请求在内部被拆解成若干步骤,由不同组件完成”的架构提供了工程化基础。再加上企业原有的微服务、消息总线、数据仓库等设施,本就习惯于通过“架构”而不是“单体系统”解决问题。
机制原理
所谓“推理架构优先”,并不是否定模型本身,而是将模型放入一个更大的系统视角中来看待。一个典型的推理架构,通常包含四个关键层次:意图与任务识别层、推理与规划层、执行与工具层、记忆与观测层。
意图与任务识别层的职责,是将用户的自然语言请求、系统事件或数据变化,转换为结构化的“任务描述”。大模型在这一层扮演的角色,主要是语义理解和归类:识别用户真正想解决的问题、涉及的数据范围、是否需要访问外部系统、对时效性的要求等。与简单的“问答对话”不同,这一步的输出是供后续程序使用的任务对象,而不是直接展示给用户的自然语言答案。
推理与规划层负责回答“接下来应该做什么”。在大模型优先的旧范式中,整个推理过程往往被塞进一次或少数几次模型调用,由模型在上下文中“自我对话”完成;而在推理架构中,这一层更倾向于显式建模:把复杂问题拆解为多个子任务,确定执行顺序、并发结构和决策节点。大模型可以被用来执行链式思考和计划生成,但计划本身通常会被转化为一个可以被系统执行的工作流描述,必要时再交由其他模型或规则引擎进行校验。
执行与工具层是与企业现有 IT 系统连接最紧密的部分。这里不仅包括调用不同规模、不同能力的模型服务,还包括调用数据库查询、搜索引擎、业务 API、第三方 SaaS 等各类工具。函数调用协议、工具调用接口、多 Agent 编排框架等,都是围绕这一层展开:它们让模型不再只在“语言空间”里推理,而是可以通过函数去读写真实世界中的数据和系统。推理架构在这里做的工作,是把“语言中的意图”映射到“稳定可执行的调用组合”,在安全边界内驱动实际动作。
记忆与观测层则为整个系统提供上下文持久化与运行时反馈。它包括对话历史、用户画像、知识库索引、日志与指标等,既为前面的意图理解与规划层提供长期上下文,也为后续的监控、审计、评估和迭代提供数据基础。推理架构强调“可观测性”:每一次任务拆解、每一次工具调用、每一次模型决策都可以被记录和重放,以便分析哪些路径高效、哪些策略需要调整。
问题本质
从“大模型优先”到“推理架构优先”,表面上看是技术选型的调整,本质上是企业在实践中重新认识到三个核心矛盾:资源与需求的不匹配,黑盒智能与工程治理的冲突,以及单次交互与长期系统演化之间的张力。
资源与需求的不匹配体现在两个层面。一方面,通用大模型的训练和推理成本与其能力上限挂钩,但企业日常任务的难度分布并不是“人人都需要最强模型”,而是大量请求集中在模式相对固定、结构化程度较高的区域。例如简单问答、表格填报、流程引导、固定格式总结等,往往并不需要全局最强的推理能力,却为整个系统贡献了绝大部分调用量。继续坚持单一大模型方案,相当于在大量不必要的请求上持续投入昂贵算力。另一方面,不同业务线对延迟和可用性的要求也不一样,一刀切的模型选择难以兼顾,例如客服需要实时响应,而后台分析可以接受更长等待时间。
黑盒智能与工程治理的冲突,则在项目规模扩大后尤为明显。单一大模型的行为难以被精确拆解:一个输出中同时掺杂了理解错误、知识缺失、推理偏差,很难追踪到底是哪一步产生了问题;即使通过提示词工程或微调修正表现,也缺少针对具体子问题的干预手段。这与企业在合规、风控和审计上的基本要求相矛盾。推理架构之所以被推到台前,很大程度上是因为它支持把复杂过程拆成可以分别监控与审计的步骤,每个步骤都可以采用不同的技术方案:有些用规则,有些用小模型,有些用检索,有些才需要调用大模型。这样一来,即便出现异常,也可以在局部回滚和修复,而不必“整体换模型”。
单次交互与长期系统演化之间的张力,则决定了架构层是否可持续。以“大模型优先”为中心的系统,往往把大量业务逻辑压缩在提示词和少数几个调用模板中,一旦业务规则变更、合规要求更新或用户行为迁移,就需要重新梳理提示词、重新评估效果。这种演化方式既不透明,也难以复用已有的软件工程与运维体系。推理架构则强调“让变化集中发生在架构层”:当业务发生变化时,优先调整任务拆解和工具编排策略,而不是频繁更换底层模型。模型可以迭代,但它被放在一个相对稳定的框架内;系统的演化主要通过增减组件、调整路由、修改数据接口来完成,从而继承了企业在微服务、API 管理等领域已有的经验。
总结与启发
综上所述,企业从“大模型优先”转向“推理架构优先”,既是对算力与成本现实的回应,也是对工程治理与长期演化的主动选择。这个转向至少提供了三点值得明确记住的启发。
第一,在规划 AI 能力时,优先问清楚“我们需要怎样的推理流程”,而不是“我们用哪一个模型”。架构视角要求从业务问题出发,将复杂需求拆解为一系列可定义的任务,再考虑每个任务适合用什么技术手段解决。大模型、小模型、检索系统、规则引擎和传统程序,都只是工具箱中的选项。只有先把任务结构想清楚,模型选型的讨论才有足够具体的参照系。
第二,把“可观测”当作推理架构的硬指标,而不是锦上添花的附加功能。无论采用何种框架和工具,只要系统中存在多步推理、多模型协同、多工具调用,就必须在设计之初考虑好日志、指标、回放与审计机制。没有这些基础设施,“推理架构”很容易退化成“看起来很复杂的黑盒”。可观测性不仅是合规要求,也是持续优化和故障处置的前提。
第三,用渐进式方式推动从模型优先到架构优先的迁移,而不是一次性推倒重来。对于已投入大量资源建设单一大模型方案的企业,可以先从边缘场景开始重构推理链路:例如在客服、内部问答或运营分析中引入多模型路由和工具编排,然后逐步将经验扩展到核心流程。每一次扩展都带来新的反馈和教训,反过来完善架构层的抽象。这样既避免了大规模重构带来的风险,也能让组织内部对“架构优先”的价值形成逐步共识。
易术观点

本期内容由 易术研究 独家出品
观点仅供参考,不构成任何建议。
您的转发与点赞,是对我们的郑重;
留言与指正,则为我们校准航向。
加入我们 · 获取更多内容
官网入口:? www.yishuos.com
加入「E计划」成员社群:扫码添加助手微信,备注【日报】,即可进群参与内测体验与行业交流。

来源:公开数据平台
编辑:秦悬
排版:陈盐水
商务合作:Bd@Yishuos.Com图文授权:Pr@Yishuos.Com
媒体转载请注明出处:易术科技官方公众号
©2025 易术科技YISHUOS



获取更多信息






