
注:以下所有提及“研究对象”处,皆指“大语言模型微调(Large Language Model Fine-tuning)”。
当我们谈论大语言模型时,往往惊叹于GPT-4、Claude或DeepSeek那仿佛拥有“智慧”的磅礴参数。但真正让这些冰冷的“数字大脑”长出特定的“人格”和“专业技能”的,往往不是那个花费数千万美元、消耗上万张GPU进行预训练的宏大工程,而是一个名为“微调”的后端环节。
如果说预训练是让一个婴儿学会说话和走路,那么微调就是让他考取律师执照、学会编程或者成为你的专属客服。在过去三年里,微调技术从只有科技巨头才能染指的“贵族游戏”,迅速演变为了任何个人开发者只需一张消费级显卡、一杯咖啡钱就能玩转的“平民工具”。这种转变之剧烈、速度之快,在计算机科学史上都极为罕见。
下面,让我们沿着时间的河流,还原这场变革的每一个关键转折。
一、纵向分析(Diachronic):微调技术演进史
1. 起源:2018-2019年——“预训练-微调”范式的确立
背景设定:从零训练的奢侈与无力
在2018年之前,自然语言处理(NLP)领域的从业者面对每一项新任务(如情感分析、命名实体识别、问答系统),几乎都要从零开始设计和训练神经网络模型。这种方式不仅对计算资源和标注数据有着巨大需求,而且各个任务之间的知识无法共享,导致大量重复劳动。每个团队都在自己的“孤岛”上各自为战,整个领域的发展效率极为低下。
转机出现在2018年。Google推出了BERT(Bidirectional Encoder Representations from Transformers)模型。BERT并非为解决某个具体任务而生,它的创新之处在于:先在大规模无标注文本上进行预训练,让模型学会通用语言规律——比如理解句子的语义关系、词与词之间的依赖结构;再针对具体任务进行微调,用少量标注数据就能快速适配到情感分析、问答系统等多个下游场景。
这套“预训练-微调”范式的诞生,打破了NLP领域的壁垒,其影响堪比工业革命中标准化零件对制造业的颠覆。从业者不再需要从零开始训练模型,只需在BERT等基座模型上进行轻量级微调,即可获得SOTA(State of the Art,最先进)效果。BERT的论文在学术界的引用量迅速突破数万次,成为NLP领域当之无愧的“圣经级”作品。
这一年,微调技术首次以标准化的身份登场。它的核心逻辑很简单:下载别人训练好的大模型,用自己的小数据“点拨”一下,它就为你所用了。当时,这种“点拨”采用的是全参数微调(Full Fine-tuning)。对于BERT-Large这种3.4亿参数的模型,尚且算负担不大,但变革的暗流已经在地下涌动。
与此同时,OpenAI也在沿着另一条路线前进。2018年,OpenAI发布了GPT-1,展示了生成式预训练在语言理解任务上的潜力。但真正震撼世界的,是2020年GPT-3的横空出世。
BERT vs. GPT-3的路线分野
如果把BERT和GPT-3放在一起对比,二者代表了两种截然不同的微调哲学:
·BERT路线(双向编码器):BERT的设计目标是“理解”。它通过MLM(Masked Language Model,掩码语言模型)任务进行预训练——遮住一句话中的某个词,让模型预测出来。这使得BERT对上下文的双向关系极为敏感,因此在分类、信息抽取等判别式任务上表现出色。微调BERT时,通常只需要在顶部添加一个任务特定的输出层,然后对全模型进行参数更新。
·GPT路线(单向自回归):GPT的设计目标是“生成”。它通过预测下一个词的方式进行预训练,从左到右逐词生成。这使得GPT在文本生成、对话、代码编写等生成式任务上独树一帜。微调GPT时,需要让模型学会在给定指令或上下文的情况下,生成符合预期的内容。
两条路线的分野,埋下了后续微调技术演化的伏笔。BERT的微调更注重“适配”,GPT的微调更注重“对齐”。而2022年底ChatGPT的爆发,则彻底将聚光灯打在了GPT路线上,微调技术的重心也随之从“判别式微调”转向了“生成式对齐”。
2. 2019-2020年:规模爆炸与算力鸿沟
一个残酷的数学问题
进入2019年,大模型领域出现了一个令人震惊的现象:模型的参数规模开始呈现指数级增长。OpenAI的GPT-2(15亿参数)还只是前奏,真正引爆“军备竞赛”的是2020年GPT-3的发布——1750亿参数,是BERT-Large的500多倍。
一个简单的数学问题开始困扰整个行业:如何微调一个1750亿参数的庞然大物?
我们来做一道算术题。在FP16混合精度训练下,微调一个1750亿参数的模型:
·模型权重存储需要约350GB;
·梯度存储需要约350GB;
·优化器状态(以Adam优化器为例)需要约700GB;
·再加上激活值等额外开销,总显存需求超过1.5TB。
这还只是单次训练所需的内存。对于当时主流的单卡NVIDIA V100(32GB显存)来说,微调GPT-3简直是天方夜谭。即使是拥有A100(80GB显存)的机构,也需要数十张卡组成的集群才能完成一次全参数微调。
这张表格直观地展示了全参数微调面临的严峻现实:
模型规模 | 全参数微调所需显存(估算) | 所需GPU配置 |
7B(如LLaMA-7B) | 约60GB | 1×A100(80GB)勉强可跑 |
13B(如LLaMA-13B) | 约110GB | 2×A100 |
70B(如LLaMA-2-70B) | 约560GB | 7×A100 |
175B(如GPT-3) | 超过1.5TB | 19×A100以上 |
结果就是:全参数微调变成了极少数机构才能玩得起的“贵族游戏”。
与此同时,另一个问题也随之浮现:存储爆炸。如果你需要为10个不同的下游任务微调模型,就需要保存10个完整的模型副本。对于1750亿参数的GPT-3来说,这意味着超过3.5TB的存储空间——这还只是模型权重,不包括训练日志、检查点等附加文件。
现实是残酷的:绝大多数企业和研究者根本无法触及这种规模的模型定制。
微软DeepSpeed的破局(2020年2月)
就在业界对算力鸿沟感到绝望时,微软研究院亮出了一把利器。2020年2月,微软正式开源了DeepSpeed训练框架,并公布了其核心技术——ZeRO(Zero Redundancy Optimizer,零冗余优化器)。
ZeRO的核心思想极其巧妙:既然单卡装不下整个模型,那就把优化器状态、梯度和模型参数分片到多个GPU上,每个GPU只负责自己那部分,通过通信协议在需要时交换数据。这就像把一幅巨大的拼图分成若干小块,每个人只负责自己手中的小块,需要看全图时再互相传递——大大降低了对单卡显存的需求。
ZeRO-3 Offload更进一步,将部分数据卸载到CPU内存甚至NVMe硬盘上,实现了单卡微调百亿级模型的可能性。虽然速度有所牺牲,但让更多人“跑得动”大模型了。
同年,NVIDIA也推出了Megatron-LM框架,专注于张量并行策略。这些分布式训练框架的出现,为后续微调技术的爆发扫清了部分基础设施障碍。但DeepSpeed和Megatron-LM本质上仍然是面向全参数微调优化的方案——它们解决的是“怎么把大象塞进冰箱”的问题,却没有解决“为什么一定要用大象”的问题。
真正的范式革命,还需要等到2021年。
3. 2021年:LoRA诞生——微调技术的“iPhone时刻”
参数高效微调(PEFT)思潮的萌芽
在DeepSpeed等技术试图通过分布式策略“硬扛”大模型微调的同时,另一批研究者开始思考一个根本性的问题:我们真的需要更新模型的所有参数吗?
这个想法并非凭空产生。2020年,Aghajanyan等人的研究发现了一个关键现象:预训练语言模型具有很低的“本征维度”(Intrinsic Dimension)。也就是说,尽管模型的参数空间维度极高(动辄数十亿甚至数千亿),但真正影响模型行为的有效自由度却非常小——用一个极低维度的子空间,就能捕捉模型在特定任务上的绝大部分表现。
这就像一个人的性格虽然由无数因素塑造,但决定他在某个特定场景下反应的,往往只是少数几个核心特质。既然如此,为什么要去调整那些无关紧要的“背景参数”呢?
基于这一洞察,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)的思潮开始萌芽。2019年,Houlsby等人提出了Adapter方法——在Transformer层之间插入小型可训练模块。2021年,清华大学的P-Tuning和Li等人的Prefix-Tuning相继出现,尝试通过优化连续提示向量来实现参数高效的适配。
但这些方法都存在各自的局限:Adapter会增加推理延迟(因为需要额外的前向传播路径),P-Tuning和Prefix-Tuning的效果对初始化和超参数极为敏感。真正的突破,来自微软研究院的一个小团队。
LoRA的横空出世
2021年6月17日,微软研究院的Edward Hu、Yelong Shen、Phillip Wallis等八位研究者将一篇论文上传到了arXiv,标题是《LoRA: Low-Rank Adaptation of Large Language Models》。这篇只有9页的论文,即将彻底改变微调技术的面貌。
LoRA的核心思想极为简洁且优雅:
在传统微调中,权重矩阵W的更新ΔW需要学习d×k个参数。而LoRA发现,ΔW可以分解为两个低秩矩阵的乘积:ΔW = B× A,其中B ∈ ℝ{d×r},A ∈ ℝ{r×k},且秩r远小于d和k(通常取4~64)。
这意味着什么?原本需要学习d×k个参数,现在只需要学习d×r + r×k个参数。对于一个7B参数的LLM,若在所有注意力层应用LoRA(r=8),总可训练参数仅约100万,不到原模型的0.015%。
更妙的是,LoRA的“可插拔”设计:训练过程中,原始权重W被冻结不动,只有A和B两个小矩阵在更新。训练完成后,只需将B×A加回W,就能生成一个完整的模型。这样一来,多个任务可以共享同一个基础模型,只保存各自的LoRA适配器文件(通常只有几MB到几十MB),部署时按需加载即可。
可读性比喻:想象一本已经印刷好的百科全书(预训练模型)。LoRA不是在百科全书上直接涂改,而是为每个特定问题制作一张透明的“幻灯片”,上面只记录修改意见。当你需要回答化学问题时,把化学幻灯片盖在百科全书上读;需要回答历史问题时,换成历史幻灯片。百科全书本身从未被修改,你却获得了针对每个领域的专业知识。
LoRA的意义:从“驯象”到“骑马”
LoRA的出现,在学术界和工业界都引发了巨大震动。它告诉世界:微调大模型,不一定需要动用整个模型。
如果说全参数微调是“驯服一头大象”(需要巨大的资源和力量),那么LoRA就是“学会骑马”——只需要训练很小一部分参数,就能获得接近全参数微调的效果。微软研究院的论文显示,LoRA在多项基准测试中不仅追平了全参数微调的效果,甚至在部分任务上有所超越,同时将GPU显存占用降低了约三分之二。
学术界迅速跟进。在LoRA的基础上,一系列变体技术如雨后春笋般涌现:
·AdaLoRA(2023年):通过动态调整每一层的秩(rank)大小,让模型自己决定哪些层需要更多参数、哪些层可以更“轻量化”。这在资源有限的环境下表现尤为优异。
·LoHA(2022年):通过层次化的低秩分解,增强了模型在多任务学习和复杂上下文中的适应性。
·LoKr(2023年):结合核方法,让模型更好地捕捉复杂的非线性关系,在高级NLP和CV任务中表现突出。
·Delta-LoRA和Prefix-Tuning(2021-2022年):通过引入前缀或序列信息,提升了生成任务(如对话、故事生成)中的上下文捕捉能力。
每个变体都试图解决LoRA的一个特定局限,但核心思想一脉相承:用尽可能少的参数变化,撬动尽可能大的模型行为改变。
4. 2022年:RLHF登场——让模型学会“做人”
从“能回答问题”到“会回答问题”
如果说LoRA解决了微调“能不能跑得动”的问题,那么2022年,业界开始思考另一个更本质的问题:微调到底应该让模型学会什么?
2018到2021年间的监督微调(Supervised Fine-Tuning, SFT),本质上是一种“模仿学习”。给模型大量的“问题-答案”对,让它模仿这些答案的风格和内容。这种方法虽然能让模型在特定任务上表现良好,但存在两个致命缺陷:
1.数据质量决定一切。如果训练数据中的答案质量参差不齐,模型学到的也就参差不齐。
2.缺乏“好坏”的判断能力。模型只知道“怎么答”,不知道“什么是好的回答”。给定一个问题,它可能会输出多个合理的答案,但无法判断哪一个对人类用户来说最有用、最安全、最符合偏好。
这就好比教一个孩子写字——你只给他字帖让他临摹,却从不告诉他“哪个字写得好、为什么好”。他确实学会了写字,但永远无法成为书法家。
RLHF的突破
2022年,OpenAI在InstructGPT和后续ChatGPT的训练中,正式向世界展示了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的巨大威力。
RLHF的流程比SFT复杂得多,它涉及三个关键步骤:
第一步:监督微调(SFT)——先用高质量的人类标注数据对模型进行常规的监督微调,让模型初步学会按照人类期望的格式回答问题。这是RLHF的起点。
第二步:训练奖励模型(Reward Modeling)——让人类标注者对模型生成的多条回答进行偏好排序(比如:回答A优于回答B,B优于C)。然后用这些偏好数据训练一个“奖励模型”——一个专门用来给模型回答打分的评判者。
第三步:强化学习优化——用奖励模型的评分作为反馈信号,通过强化学习算法(通常使用PPO,Proximal Policy Optimization)进一步优化模型的行为,使其生成更符合人类偏好的回答。
整个过程的核心洞察在于:与其教模型“应该说什么”,不如教它“什么叫做得好”。通过奖励模型,RLHF让模型学会了“好坏”的判断标准,而不仅仅是内容本身。
效果是立竿见影的。经过RLHF训练的InstructGPT模型,在用户满意度上显著优于未经对齐的原始GPT-3——尽管二者的基础能力(如知识广度、推理能力)几乎相同。区别只在于:一个“会说话”,一个“会好好说话”。
RLHF的问题:算力黑洞与数据鸿沟
但RLHF并非银弹。它的代价同样高昂:
·数据构造的巨大开销:需要对每条指令采集多条回复数据,并让人类对这些数据进行质量排序。以OpenAI的InstructGPT为例,他们雇用了数十名专业标注员,花了数月时间标注了数万条偏好对比数据。
·计算资源的天文数字:训练过程中需要实时让LLM生成回复,并用奖励模型进行打分。PPO算法的训练往往需要4-8倍于SFT的计算资源。
·训练的不稳定性:RLHF的强化学习过程容易出现“奖励破解”(reward hacking)——模型学会钻奖励模型的空子,生成表面上高分但实际无意义甚至有害的内容。
RLHF让微调从“能不能跑”的技术问题,上升到了“如何对齐人类价值观”的战略问题。但它的高昂成本,也让绝大多数企业和研究者望而却步。
5. 2023年:QLoRA与DPO——“平民微调”的双重突破
QLoRA:将LoRA进行到底
进入2023年,大模型领域出现了两个标志性事件。
第一件事:Meta在2023年初发布了LLaMA(Large Language Model Meta AI)系列模型,包括7B、13B、30B和65B四个参数版本。与GPT-3、PaLM等闭源模型不同,LLaMA虽然最初只面向学术研究机构开放(2023年7月LLaMA 2才开放商用),但其架构和权重的泄露引发了开源社区的巨大热情。无数开发者开始在LLaMA的基础上进行微调和改进,一个庞大的开源LLM生态迅速形成。
第二件事:华盛顿大学和Hugging Face的研究者联合提出了QLoRA(Quantized LoRA),将LoRA的技术推向了极致。
QLoRA的核心创新在于:在LoRA的基础上,引入4-bit量化技术。
量化的概念并不新鲜——把模型权重从FP16(16位浮点数)压缩到INT8或INT4,可以有效减少显存占用。但传统方法通常要求在量化之后进行微调,而微调本身又需要将权重恢复为高精度,这导致了“量化-微调-再量化”的循环损耗。
QLoRA的创新在于:直接在4-bit量化的预训练模型上进行LoRA微调。通过三个关键技术——NF4(4-bit NormalFloat,一种为神经网络权重分布优化的量化格式)、双量化(对量化常数再次量化,进一步压缩存储开销)和分页内存管理(避免显存碎片,提升加载效率)——QLoRA实现了惊人的资源效率。
可读性比喻:如果说LoRA是把整本百科全书换成了幻灯片,那么QLoRA就是把幻灯片的内容也“压扁”——用更小的空间存放同样的信息,还能随时“展开”阅读。
实际测试中,QLoRA微调LLaMA-2-70B模型仅需48GB显存(单张A100),而传统全参数微调需要超过800GB。更重要的是,QLoRA在MMLU、GSM8K等多个基准测试中的表现与全参数微调相当,甚至在部分任务中略有提升。
这意味着什么?以前你需要一个价值数十万美元的A100集群才能微调的模型,现在只需一张几千美元的消费级显卡就能搞定。微调的门槛,从“企业级”降到了“个人开发者级”。
DPO:绕开RLHF的复杂管线
如果说QLoRA解决了“跑不跑得动”的问题,那么2023年底由斯坦福大学研究者提出的DPO(Direct Preference Optimization)则解决了“怎么跑更简单”的问题。
RLHF虽然效果好,但其“训练奖励模型→用强化学习优化”的两阶段流程极其复杂,超参数调优难度极高,训练过程还容易不稳定。DPO的核心洞察是:把偏好优化问题从“两阶段强化学习”简化为“单阶段分类问题”。DPO直接从人类偏好数据中推导出最优策略的闭式解,无需单独训练奖励模型,也无需运行PPO等复杂的强化学习算法。
简单来说,DPO做到了:用SFT的简单程度,实现了接近RLHF的对齐效果。这极大地降低了偏好对齐的技术门槛,让中小企业和研究者也能对模型进行“价值观塑造”。
QLoRA + DPO的组合拳
2023年,QLoRA和DPO的组合,让微调技术完成了从“贵族游戏”到“平民工具”的关键一跃。
·QLoRA解决了“钱”的问题:只需要单张消费级显卡、几十GB显存,就能微调百亿级大模型。
·DPO解决了“技术”的问题:只需要准备偏好数据,几行代码就能完成对齐训练,无需复杂的强化学习管线。
这一年,全球LLM微调编排市场的规模达到了32亿美元,预计到2034年将增长至248亿美元,年复合增长率高达25.4%。PEFT技术已经成为LLM微调的主流选择。
与此同时,开源社区也在快速跟进。Hugging Face在2023年2月将LoRA集成到其PEFT库中,让数百万开发者可以轻松使用这项技术。截至2024-2025年,包括Apple、Meta在内的多家大厂都在生产环境中部署了LoRA,研究社区则生成了数十个变体来解决特定的局限性。
微调技术的下半场,正式拉开帷幕。
6. 2024-2025年:商业化和工具链的爆发
LoRA生态的成熟:超过60,000个适配器
到2024年,LoRA已成为微调技术的绝对主流。一个惊人的数字可以说明一切:Hugging Face和CivitAI等平台上,公开的LoRA适配器数量超过了60,000个,覆盖文本生成、图像生成、多模态等多个类别。
这意味着什么?平均每天有超过50个新的LoRA适配器被上传到这些平台。开发者不再需要自己从零开始训练——可以直接下载别人训练好的LoRA适配器,几MB的小文件就能让一个基础大模型获得新的能力。
微调技术的“共享经济”时代已经到来。
云服务商的全面入局
2024-2025年,各大云服务商和AI平台纷纷推出了自己的微调服务:
·OpenAI(2024年8月):首次为GPT-4o和GPT-4提供了微调功能。在此之前,GPT-4系列从未开放过微调——用户只能通过prompt工程或RAG来定制模型行为。微调功能的推出,标志着OpenAI开始正面回应企业客户对模型定制的迫切需求。
·Together AI(2024-2025年):从2024年开始推出微调服务,到2025年4月发布了重大升级,支持浏览器零代码操作、直接偏好优化,以及训练超过1000亿参数的超大模型。其定价极具竞争力——16B参数以内模型的LoRA训练低至每百万tokens 0.48美元。
·亚马逊Bedrock(2024年11月):正式推出了Anthropic Claude 3 Haiku的微调功能。Amazon Bedrock成为唯一可以微调Claude模型的完全托管服务。Anthropic的数据显示,通过微调,模型在论坛评论分类任务中的准确率从81.5%提升到了99.6%,同时每查询的token消耗减少了85%。
·百度千帆(2024-2025年):截至2024年8月,千帆平台已支持6款文心大模型进行精调,累计精调出2.1万个模型,服务超过千家企业核心业务场景。2025年又上线了Qianfan-Agent-Intent-32K等专用版模型,并支持多模态大模型微调。
·阿里云百炼(2024-2025年):阿里云的大模型服务平台,支持基于通义系列模型的微调训练,已应用于月球专业大模型等垂直场景。
微调从一项“技术能力”变成了一种“商品服务”。企业不再需要自己搭建微调基础设施,只需在云平台上点击几下、上传数据、支付费用,几小时后就能拿到定制化的模型。
微调工具链的成熟
与此同时,开源社区也在积极构建更易用的微调工具:
·Unsloth:一个专注于加速微调的开源工具包,号称能将训练时间减半而不走捷径。它的GitHub页面醒目地标注着:支持完整微调和低精度技巧(4-bit、8-bit、16-bit),支持多种模型系列。Unsloth于2024年获得了Y Combinator等机构的投资,总融资额约50万美元。截至2026年4月,Unsloth的总下载量已超过1.5亿次,并成为Hugging Face平台上下载量第四大的项目。
·LLaMA-Factory:一个“一站式、零代码”的微调站点,支持100多种大语言模型的微调和评估。它提供了Web UI和CLI两种使用方式,封装了LoRA/QLoRA、SFT、DPO、ORPO等多种训练方法。使用者包括Amazon、NVIDIA、阿里云等多家大厂。相比ChatGLM的P-Tuning,LLaMA-Factory的LoRA微调在广告文案生成任务上实现了3.7倍的训练速度提升。
·Replicate:一个以API为中心的云平台,让开发者可以通过一行代码运行、微调和部署开源AI模型。截至2025年,Replicate拥有约3万家付费组织和200万注册用户。2025年11月,Cloudflare宣布收购Replicate,将其AI能力整合进Cloudflare的全球边缘网络。
微调工具链已经从“碎片化”走向“集成化”。数据准备、模型加载、训练配置、效果评估、模型导出和部署,整个流程被封装成开箱即用的工具,极大地降低了技术门槛。
RLHF vs. DPO vs. 新范式的竞争
2024-2025年,偏好对齐领域也进入了白热化竞争阶段。
RLHF虽然在大型科技公司(如OpenAI、Anthropic、Google)内部仍然是主力方案,但DPO的崛起正在改变格局。DPO稳定、高效、计算负担轻的特点,使其成为中小企业和研究者的首选。
2025年下半年,GRPO(Group Relative Policy Optimization)开始崭露头角,逐渐取代纯监督微调成为热门技术。GRPO在RLHF和DPO之间找到了一个新的平衡点,同时引起了学术界和工业界的广泛关注。
而在2025年底到2026年初,一个更为激进的方案开始浮出水面:进化策略(Evolution Strategies, ES)。Cognizant AI Lab的研究表明,ES作为一种无梯度(gradient-free)的微调方法,可以在不进行反向传播的情况下高效优化数百亿参数的大模型。实验结果显示,ES在样本效率、长期奖励处理能力和训练稳定性方面,甚至超越了最先进的RL方法。
这意味着什么?未来的微调可能不再依赖反向传播——这条自深度学习诞生以来就未曾动摇的技术路线,第一次出现了真正的替代方案。如果ES被大规模验证和应用,整个微调技术的底层逻辑都可能被改写。
7. 2026年至今:从“技术成熟”到“范式辩论”
2026年的微调:发生了什么变化?
2026年的微调,与三年前已经完全不同。
第一个变化是入门门槛的崩溃。2023年,微调一个70亿参数的模型需要深度学习专业知识、强大的硬件配置和让CFO紧张的预算。如今,你可以在单个GPU上用不到5美元微调同样的模型,并在几小时内看到结果。入门门槛已经从“企业级”降到了“学生级”。
第二个变化是商业重心从训练转向推理。2025年,企业的重心已从模型的训练微调转向模型推理,这标志着一个重要的阶段性转折。API支出从35亿美元跃升至84亿美元,翻了一倍多。这意味着市场对微调的认知正在成熟——从“要不要微调”的探索阶段,进入了“如何高效微调”的优化阶段。
第三个变化是微调技术的价值辩论。随着大模型基座能力的持续强化,部分观点开始质疑:微调技术是否还有存在的必要?
“微调已死”论与反驳
“通用大模型已能覆盖多数场景需求,微调技术将逐步退出历史舞台”——这种观点在2025-2026年颇有市场。
支持者认为,随着模型规模的增长和多模态能力的提升,大模型的通用泛化能力已经强大到可以通过prompt工程或RAG来解决大部分垂直领域问题,微调变得不再必要。
但技术落地的实际需求给出了不同的答案。大模型的通用能力与垂直场景的个性化、专业化要求之间仍存在显著鸿沟。
微调技术的五个核心刚需场景:
1.垂直领域知识的精准注入:医疗、金融、法律、工业制造等强专业领域,通用模型存在明显的知识盲区,表现为术语精度不足、专业逻辑偏差、合规要求不符等问题。微调可将垂直领域的专业知识、行业规范快速注入模型,实现“全科状元向专科专家的转型”。
2.特定行为与偏好的精准对齐:企业需要模型统一话术风格、契合品牌调性、严守合规边界。个人用户需要适配方言表达逻辑或特定创作风格。这些需求无法通过通用模型直接满足,必须借助微调。
3.长尾任务的优化:通用模型在主流任务上表现优异,但在边缘场景和长尾任务上往往表现不佳。微调可以用少量特定数据精准优化这些短板。
4.成本与延迟的优化:通过微调小参数模型在特定任务上超越大模型,可以大幅降低推理成本和延迟。例如,一个经过微调的27B开源模型在真实医疗任务上,性能甚至超过了OpenAI、Anthropic和Google的旗舰模型。
5.数据隐私与合规:在金融、政务等强监管领域,敏感数据不能离开本地。微调允许企业在私有环境中完成模型定制,无需将数据上传到第三方API。
核心结论:微调技术不会消失,只是形态在变化。它正在从传统全量微调向轻量级、低成本、高适配性的形态转型,持续为大模型的垂直领域落地提供核心支撑。
GRPO与下一代微调方法
2026年,GRPO已经超越了纯监督微调,成为最受关注的对齐技术。GRPO通过组内相对策略优化,在训练稳定性和样本效率之间取得了更好的平衡。
与此同时,研究者开始探索一些更具颠覆性的方向。2026年4月,一篇题为“Beyond End-to-End”的论文提出了ChainFed——一种针对边缘设备的分层微调范式,放弃端到端更新,转而采用逐层、顺序的方式进行模型适配,有望突破边缘设备的内存限制。
预训练-微调范式本身的动摇
更具革命性的是,一些研究者开始质疑“预训练-微调”这一持续了近十年的基础范式。
OpenAI、亚马逊等科技巨头正在探索一种新的训练路径:放弃“先广泛预训练、再针对性微调”的传统模式,转向在训练早期就为特定目标引入精选数据。
其核心观点在于:目前的通用训练路径——即先让模型学习诗歌、园艺等广泛的世界知识,再针对代码编写或客户服务等特定任务进行微调——在逻辑上并不总是合理的。如果最终目标是做一个“编程专家”,为什么一开始要花90%的算力让它学习莎士比亚?
如果这条新路径被证明有效,那将从根本上改写“微调”的定义——微调可能不再是“预训练之后的补充步骤”,而是“预训练的一部分”。这一变革的影响,或许比LoRA的诞生更为深远。
二、横向分析(Synchronic):当前微调生态的全景对比
截至2026年4月,大语言模型微调已经形成了一个庞大而多元的生态系统。它不是单一技术路线的“独角戏”,而是多条路径、多个玩家、多种哲学竞相角逐的“百鸟争鸣”。
根据竞品分析,当前微调生态属于“场景C:竞品充分”。我们将选取最具代表性的几个维度进行深入对比:
·技术路径维度:PEFT(参数高效微调)内部各派系(LoRA派 vs. 适配器派 vs. 提示派)
·服务模式维度:API微调服务商(闭源模型提供商 vs. 开源模型平台)
·工具链维度:开源微调工具(Unsloth vs. LLaMA-Factory)
·行业应用维度:垂直领域的微调实践
每个竞品的发展轨迹和“活法”各不相同,它们不是在简单地竞争“谁的技术更好”,而是在争夺“谁来定义微调的标准”。
竞品一:LoRA及其衍生技术——微调生态的“绝对主角”
活成了什么样?
如果把微调技术比作一个江湖,那么LoRA就是这个江湖的“武林盟主”。自2021年诞生以来,LoRA迅速从一项学术研究成果成长为工业界的事实标准。超过60,000个公开的LoRA适配器、被集成到Hugging Face PEFT等主流库中、被Apple和Meta等大厂在生产环境部署——这些数据足以说明LoRA的统治地位。
用户为什么选它?
开发者选择LoRA的理由极其充分:
1.极致的参数效率:可训练参数压缩到全量微调的0.1%-1%,7B模型只需训练约100万个参数。
2.零推理延迟:训练完成后可以合并回原始权重,推理时没有任何额外开销。
3.可插拔性:一个基础模型可以搭配N个LoRA适配器,按需加载,极大节省存储和部署成本。
4.效果可匹敌全量微调:多项基准测试表明,LoRA在大部分任务上可以追平甚至超越全量微调的效果。
用户抱怨什么?
但LoRA并非完美。用户吐槽最多的点包括:
1.固定秩的限制:标准LoRA对所有层使用相同的秩(rank),这限制了在复杂多任务或多层次任务中的表现力。
2.选择秩大小缺乏理论指导:r=4、8还是16?目前主要靠经验和试错。
3.在极度复杂的推理任务上可能力不从心:部分研究指出,对于需要模型进行深层推理的任务,全量微调可能仍有优势。
生态位的演变:从“方法”到“生态”
LoRA已经从一项技术演变为一个生态。围绕LoRA,研究社区已经生成了数十个变体:
·QLoRA:加入4-bit量化,将显存需求压缩到极致
·AdaLoRA:自适应分配各层的秩,提升资源利用效率
·LoHA:层次化低秩分解,增强多任务学习能力
·LoKr:结合核方法,捕捉非线性特征
·Delta-LoRA:增强生成任务的上下文捕捉能力
每个变体都在试图解决LoRA的一个特定局限。一个有趣的趋势是:LoRA生态正在从“大一统”走向“多元化”,不同变体适用于不同类型的任务和场景。但对于绝大多数普通用户来说,标准LoRA+QLoRA的组合已经足够满足日常微调需求。
竞品二:Adapter/P-Tuning/Prefix-Tuning——先行者们的“再出发”
活成了什么样?
在LoRA之前,Adapter、P-Tuning、Prefix-Tuning等参数高效微调方法已经存在。但在LoRA的冲击下,这些“先行者”的光芒被掩盖了不少。不过,它们并未消失,而是在特定的细分场景中找到了自己的位置。
Adapter(2019年提出):通过在Transformer层之间插入小型可训练模块实现微调。Adapter的优势在于可以串联使用多个适配器,适合多任务学习场景。但其最大劣势是推理时会产生额外延迟(因为增加了额外的前向传播路径),这使得它在实时性要求高的场景中不如LoRA受欢迎。
P-Tuning(2021年,清华大学提出):通过在输入层添加可训练的连续提示向量进行微调。P-Tuning的优势是参数量极小(通常只有几十万),但效果对初始化和超参数极为敏感,稳定性不如LoRA。
Prefix-Tuning(2021年):在Transformer的每一层都添加可训练的前缀向量,相比P-Tuning效果更稳定,但参数量也更大。
用户为什么选它们?
这些“先行者”虽然在市场份额上被LoRA压制,但在特定场景中仍有不可替代的价值:
·多任务学习的极端轻量场景:Adapter的串联能力让它适合需要同时处理数十个任务的场景。
·对参数效率要求极高、但可接受推理延迟的场景:P-Tuning的参数量比LoRA还小,适合在极端资源受限的环境中使用。
现状:从“主流”到“补充”
这些先行者的生态位已经从“主流”转变为“补充”。在绝大多数标准微调场景中,开发者优先选择LoRA/QLoRA。但在LoRA不适用的极少数场景(如超多任务并行、极端低资源环境)中,这些方法仍然有发挥空间。
竞品三:OpenAI/Anthropic等闭源模型微调——巨头的“防守战”
活成了什么样?
长期以来,OpenAI的GPT-4系列一直是“不可微调”的代名词——企业客户只能通过prompt工程或RAG来定制行为,无法真正调整模型权重。
这一局面在2024年8月被打破。OpenAI宣布正式为GPT-4o和GPT-4提供微调功能。这标志着OpenAI开始正面回应企业客户对模型定制的迫切需求。OpenAI产品主管Olivier Godement表示,希望“让客户更容易调整其最强大的模型,而不是使用外部服务或功能较弱的产品”。
Anthropic走了一条不同的路。2024年11月,Anthropic通过Amazon Bedrock正式推出Claude 3 Haiku的微调功能。Amazon Bedrock成为唯一可以微调Claude模型的完全托管服务。效果令人印象深刻:微调后的模型在分类任务中的准确率从81.5%提升到了99.6%,同时每查询token消耗减少了85%。
用户为什么选它们?
企业选择闭源模型微调,理由非常实际:
1.无基础设施负担:不需要自己搭建GPU集群、配置分布式训练环境。一切都在云端完成。
2.基座模型的性能天花板更高:GPT-4o和Claude 3的基础能力目前仍优于绝大多数开源模型。微调后可以同时享受顶级基础能力和定制化效果。
3.安全和合规的承诺:闭源提供商通常提供数据隔离和隐私保护承诺,这对金融、医疗等强监管行业至关重要。
用户抱怨什么?
但闭源微调也有明显短板:
1.成本不透明且可能高昂:按照token计费的微调模式,对于大数据集来说可能非常昂贵。
2.缺乏透明度和可控性:用户无法看到模型内部的变化,也无法导出微调后的权重文件。
3.供应商锁定风险:一旦在一个平台上投入大量资源进行微调,迁移到其他平台的成本极高。
战略意义:防守而非进攻
闭源模型的微调功能,更多是一种防守性策略。当越来越多的企业客户转向开源自托管方案(如Llama 3 + QLoRA)时,OpenAI和Anthropic必须提供类似的能力来留住客户。但在微调体验的灵活性和成本控制上,闭源方案暂时还无法与开源方案竞争。
竞品四:Together AI/Replicate等开源模型微调平台——生态的“赋能者”
活成了什么样?
如果说LoRA是微调技术的“发动机”,那么Together AI、Replicate这类平台就是“整车制造商”——它们把各种微调技术封装成易于使用的服务,让开发者不必关心底层的GPU调度、分布式训练、模型加载等技术细节。
Together AI:2024年开始推出微调服务,2025年4月发布重大升级,支持浏览器零代码操作、直接偏好优化,以及训练超过1000亿参数的模型。其定价极具竞争力:16B参数以内模型的LoRA训练低至每百万tokens 0.48美元。2025年9月又进行了升级,支持与Hugging Face Hub的增强集成。
Replicate:以API为核心的云平台,让开发者通过一行代码就能运行和微调开源AI模型。其核心理念是“消除机器学习基础设施管理的巨大复杂性”。截至2025年,Replicate拥有约3万家付费组织和200万注册用户。2025年11月,Cloudflare宣布收购Replicate,将微调能力整合进其全球边缘网络。
用户为什么选它们?
这些平台的价值主张非常清晰:
1.极低的技术门槛:无需深度学习专业知识,甚至无需写代码(Together AI支持浏览器零代码操作)。
2.按需付费的成本模型:只为实际使用的计算资源付费,不需要预先投资GPU基础设施。
3.广泛的开源模型支持:支持Llama、Mistral、Qwen等数十种开源模型,不受供应商锁定限制。
4.持续迭代的支持:这些平台会持续更新底层的微调算法(LoRA、QLoRA、DPO等),用户无需关注技术演进就能享受最新技术。
生态位:开源生态的基础设施
Together AI和Replicate的定位是开源LLM生态的“赋能者”。它们不生产模型,而是提供让模型“变得更好用”的基础设施。随着开源模型能力越来越接近闭源模型,这类平台的价值将越来越大。
Cloudflare对Replicate的收购是一个重要信号:微调能力正在从“独立服务”变为“云基础设施的标配功能”。未来,主流云厂商可能都会将微调作为其AI产品线的核心组成部分。
竞品五:Unsloth vs. LLaMA-Factory——开源工具链的“双雄争霸”
活成了什么样?
在开源微调工具领域,Unsloth和LLaMA-Factory形成了“双雄争霸”的格局。有趣的是,两者并非纯粹的竞争对手,而是从不同角度切入同一问题。
Unsloth:训练的“涡轮增压器”
Unsloth专注于一件事:让微调更快、更便宜。它通过优化的GPU kernel实现,将训练速度提升2-5倍,同时降低显存占用。
Unsloth的GitHub页面非常“硬核”:支持完整微调和低精度技巧(4-bit、8-bit、16-bit),支持多种模型系列,并提供配套的“Studio”存储库,包含适合初学者的Jupyter笔记本。
截至2026年4月,Unsloth的总下载量已超过1.5亿次,成为Hugging Face平台上第四大下载量的项目。Unsloth于2024年获得Y Combinator等机构的投资,总融资额约50万美元。其客户包括Canva、NASA等知名机构。
LLaMA-Factory:一站式“零代码”微调站
LLaMA-Factory走了一条完全不同的路:降低门槛,而非提升速度。
它提供Web UI和CLI两种使用方式,封装了LoRA/QLoRA、SFT、DPO、ORPO等多种训练方法,支持100多种大语言模型。用户不需要写一行代码,只需要在网页上上传数据、点击按钮,就能完成微调。
LLaMA-Factory的性能同样不俗。在广告文案生成任务上,相比ChatGLM的P-Tuning,LLaMA-Factory的LoRA微调实现了3.7倍的训练速度提升。使用者包括Amazon、NVIDIA、阿里云等多家大厂。
用户怎么选?
选择Unsloth还是LLaMA-Factory,取决于你的身份:
·如果你是开发者,追求最快的训练速度和最低的资源消耗,Unsloth是更好的选择。
·如果你是产品经理或业务人员,希望快速验证微调效果但不想写代码,LLaMA-Factory更适合你。
·两者可以互补:LLaMA-Factory的某些版本集成了加速工具,而不是试图超越它们,这暗示了两个生态系统的互补性。
生态位:从“小众工具”到“必装套件”
Unsloth和LLaMA-Factory的崛起,标志着微调工具链从“小众开发者的玩具”变成了“AI从业者的必装套件”。如果说LoRA是微调技术的“引擎”,那么这些工具就是让引擎“易于驾驶”的“方向盘和油门踏板”。
竞品六:垂直领域微调——从“通用能力”到“行业专业”
活成了什么样?
2024-2026年,微调技术的一个重要趋势是从“通用能力竞争”转向“垂直场景落地”。
在金融领域,微调被用于精准解析复杂衍生品交易规则和合规审核。在医疗领域,微调模型被用于辅助诊断,需要精准匹配临床指南内容。在制造业,微调模型需要掌握特定设备的运维手册与故障诊断逻辑。
一个标志性案例是微博发布的VibeThinker-1.5B——一个从阿里Qwen2.5-Math-1.5B微调而来的1.5B参数模型,在特定任务上甚至超越了DeepSeek-R1的表现。这证明了“小模型+高质量微调”可以匹敌甚至超越大模型的威力。
另一个案例是27B的开源模型通过微调,在真实医疗任务上超越OpenAI、Anthropic和Google的旗舰模型,性能提升高达60%。
为什么垂直领域微调正在爆发?
1.数据隐私需求:金融、医疗、政务等强监管行业,敏感数据不能离开本地,必须在私有环境中完成微调。
2.成本和延迟优化:在特定领域,一个小型微调模型可以以极低的成本和延迟,达到甚至超越通用大模型的效果。
3.专业知识的门槛:通用模型在专业领域的术语精度、逻辑规范上存在明显短板,必须通过领域数据微调来弥补。
竞争格局:百花齐放,而非一家独大
垂直领域微调目前没有绝对的赢家。这是一个高度碎片化的市场——医疗行业的微调方案很难直接迁移到金融行业,制造业的知识体系也与法律领域格格不入。
这意味着,微调技术将催生一批“行业AI服务商”——它们不是在做通用的微调平台,而是在特定垂直领域深耕,将微调技术与行业知识结合,提供端到端的解决方案。
横向对比总结表
对比维度 | LoRA(及其生态) | Adapter等先行者 | 闭源模型微调 | 开源微调平台 | Unsloth/LLaMA-Factory |
技术门槛 | 中等 | 中高 | 极低(API调用) | 极低(零代码) | 低(有文档) |
成本 | 极低 | 极低 | 中高(按token计费) | 低(按需付费) | 免费(开源) |
可控性 | 极高 | 极高 | 低(黑盒) | 中(依赖平台) | 极高(完全掌控) |
推理延迟 | 零额外延迟 | 有额外延迟 | 取决于API | 取决于部署 | 无额外延迟 |
适用场景 | 绝大多数微调任务 | 多任务/超低资源 | 企业不愿自建基础设施 | 快速原型验证 | 开发者的日常工作流 |
代表玩家 | 微软研究院、Hugging Face | Google、清华大学 | OpenAI、Anthropic | Together AI、Replicate | Unsloth、LLaMA-Factory |
当前市场份额 | 最高(60%+) | 低 | 中 | 中 | 快速上升 |
三、横纵交汇:从发展史看竞争格局,从竞争格局看未来走向
从纵向看横向:历史如何塑造了今天的格局
回顾微调技术的发展史,我们不难发现一个清晰的脉络:每一次技术突破,都是对前一阶段瓶颈的回应。
2018-2020年,全参数微调遇到“算力鸿沟”,催生了分布式训练框架(DeepSpeed等),但这些方案只是“硬扛”,没有改变问题的本质。
2021年,LoRA的出现是一次“范式革命”——不再追求“训练所有参数”,而是通过低秩分解实现参数高效微调。这个思想转变,让微调从“贵族游戏”变成了“中产阶级玩具”。
2022年,RLHF的登场将问题从“怎么微调”提升到了“微调什么”——模型不仅要会回答问题,还要“好好回答问题”。这让微调技术第一次进入了“价值观对齐”的维度。
2023年,QLoRA+DPO的组合拳完成了“平民化”的最后一跃——成本降至消费级显卡、复杂度降至几行代码。微调终于成为“人人可用”的工具。
2024-2026年,商业化和工具链的爆发,让微调从“技术能力”变成了“商品服务”。云平台提供一键微调,开源工具让开发者的效率倍增。
这个演进过程揭示了一个核心规律:微调技术的发展,始终围绕着“降低成本”和“降低门槛”两条主线。
而今天的竞争格局,正是这一演进过程的自然结果:
·LoRA站在“成本最低”的位置,成为绝大多数场景的首选。
·闭源微调站在“门槛最低”的位置,吸引了那些不想碰任何基础设施的企业。
·开源微调平台站在“性价比最优”的位置,在成本和门槛之间找到了平衡。
·垂直领域微调站在“价值最深”的位置,在特定行业建立了无法被通用方案替代的护城河。
三条线索预测未来走向
线索一:微调技术会“消失”吗?
“微调已死”论近年来颇有市场。但深入分析后,我们认为微调技术不会消失,只会从“主角”变为“标配”。
就像今天没有人会问“数据库还有用吗”——数据库已经成为软件的标配组件。同样,微调也将成为AI应用开发的标配环节。未来的AI工程师,不会把“我会微调”作为核心竞争力,就像今天的后端工程师不会把“我会用SQL”作为核心竞争力。
微调技术的形态将发生变革:
·从“训练后补充”变为“训练前规划”——未来的预训练可能会在早期就引入目标任务的数据,让微调不再是“事后补救”。
·从“全量参数更新”变为“轻量级适配”——QLoRA和DPO已经指明了方向,未来会涌现更多极低成本的适配方法。
·从“通用微调”变为“行业专用微调”——医疗、金融、法律等垂直领域会沉淀出自己的微调最佳实践和工具链。
线索二:谁将赢得微调市场的“价值分配”?
微调市场的价值分配正在发生转移:
·底层技术层(LoRA、QLoRA等算法):已经高度成熟和商品化,价值空间有限。就像CPU指令集架构虽然至关重要,但绝大多数开发者不会直接为它付费。
·基础设施层(云平台、微调服务):价值正在快速增长。Together AI、Replicate等平台的崛起,以及Cloudflare对Replicate的收购,都指向这一趋势。微调能力正在成为云基础设施的标配功能。
·工具链层(Unsloth、LLaMA-Factory等):价值稳定但市场规模有限。这些工具虽然不可或缺,但商业模式(开源免费+服务付费)的变现效率仍需验证。
·垂直应用层(行业微调解决方案):价值空间最大,但高度碎片化。这里将催生一批“行业AI服务商”,将微调技术与行业知识结合,提供端到端解决方案。
我们认为,未来3-5年,最大的价值增长将发生在垂直应用层和基础设施层。
线索三:下一代微调范式正在敲门
微调技术仍在快速演进,以下几个方向值得密切关注:
方向一:无梯度微调(ES等):Cognizant AI Lab的研究表明,进化策略可以在不进行反向传播的情况下高效微调大模型。如果这一技术被大规模验证,将彻底改变微调的技术路线。
方向二:预训练-微调范式的重构:OpenAI、亚马逊等正在探索在训练早期就为特定目标引入精选数据,而非先广泛预训练再针对性微调。如果此路径普及,微调将从“后处理步骤”变为“预训练的一部分”。
方向三:边缘微调(ChainFed等):随着AI应用向边缘设备迁移,如何在资源受限的设备上完成微调成为一个关键挑战。ChainFed提出的分层微调范式,放弃端到端更新,转而采用逐层顺序适配,有望突破边缘设备的内存限制。
方向四:微调与RAG的融合:随着大模型能力的增强,微调与RAG(检索增强生成)的边界正在模糊。未来可能会出现“检索式微调”——通过动态检索和注入适配器参数,实现“按需微调”,兼具RAG的灵活性和微调的深度适配能力。
结语:微调的下一个十年
站在2026年回望,微调技术走过了从2018年BERT时代的“雏形”,到2021年LoRA革命的“蜕变”,再到2023年QLoRA平民化的“普及”,如今已经成为一个庞大而成熟的生态系统。
但故事远未结束。如果说过去八年是微调技术的“成人礼”——解决了“能不能做”和“能不能做得起”的问题——那么未来十年,微调将进入“成年期”:它要回答的是“做什么”和“为什么这么做”的问题。
从“微调是什么”到“微调为什么”,这是一个从技术问题到价值问题的跃迁。
当微调的成本趋近于零、门槛趋近于零时,决定胜负的不再是谁的算法更精妙,而是谁更理解特定行业的需求、谁能为用户创造真正的价值。
未来的微调,将不再是“模型微调”,而是“业务微调”。能够将微调技术与垂直行业深度结合的玩家,将成为这场竞赛的最终赢家。