1.1行业整体发展现状
中国AI 大模型市场正从"技术爆发期" 进入规模化应用深化期,呈现出以下核心特征:
•市场规模高速增长:2025 年中国AI 大模型市场规模达495.39 亿元,同比增长49.1%;预计2026 年将突破700 亿元,2023-2026 年三年复合增长率超40%
•调用量爆发式增长:2025 年中国企业级MaaS 市场Token 调用量达到1944 万亿,同比暴涨16 倍,预测2026 年将直冲40000 万亿Tokens 大关
•企业部署加速:截至2025 年底,已有超8 万家中国企业完成大模型试点或生产部署;预计2026 年将突破10 万家,覆盖金融、政务、制造等核心领域
•行业大模型领跑:金融、政务、制造三大行业应用率分别达到68%、54% 和43%,成为大模型落地的主战场
1.2大模型行业核心特性
1.数据驱动的竞争逻辑
•大模型竞争已从"拼参数、拼榜单" 转向"拼数据、拼场景、拼效果"
•Token 已成为AI 时代的"结算单位",谁能稳定承接海量真实Token 调用,谁就是赢家
•高质量数据成为核心竞争壁垒,"数据墙" 危机日益凸显,高质量公开通用文本预计在2027 年前耗尽
2.分层化的市场结构
•基座大模型:参数量大、训练成本极高,集中于少数顶尖机构(如百度、阿里、腾讯、华为、字节跳动等)
•行业大模型:基于通用基座注入行业专属数据,解决"广而不专" 的痛点
•垂类应用模型:聚焦特定业务场景,通过小样本微调实现精准能力
•MaaS 服务:成为主流交付模式,企业无需私有化部署即可按需调用模型能力
3.合规与安全成为硬性前提
•2026 年4 月,工信部与国家数据局联合发布《关于联合实施2026 年"模数共振" 行动的通知》,将推动大模型与高质量数据集的协同发展列为年度核心任务
•数据来源合法性、个人信息保护、版权确权成为企业必须面对的合规挑战
•Anthropic 与出版商的15 亿美元和解案,重新定义了"原矿" 的采购底价(平均每部作品约3000 美元)
1.3大模型数据供应链全景
大模型数据供应链可分为五层结构,从原始数据到最终应用形成完整的价值链条:
层级 | 核心活动 | 主要参与者 | 价值贡献 | 市场特征 |
采集层 | 原始数据获取、版权授权 | 视频与图文平台、版权方、公开数据抓取方、合规数据经纪商 | 提供"原材料" | 面临"数据孤岛+ 版权不清" 困境,合规成本持续上升 |
清洗层 | 数据清洗、脱敏、去重、标注 | 海天瑞声、云测数据、百度智能云数据众包、字节火山引擎数据服务、数据堂、星尘数据 | 提升数据质量,使其可用于训练 | 从劳动密集型向知识密集型转变,专家标注时薪从100 美元起跳 |
产品层 | 数据集打包、标准化、资产化 | 专业数据服务商、行业龙头自建团队、合成数据公司 | 将数据转化为可交易的产品 | 通用语料供给过剩,垂类语料供给稀缺,合成数据快速崛起 |
渠道层 | 数据交易、分发、合规出口 | 上海/ 北京/ 深圳/ 贵阳数据交易所、API 分发平台、IP 授权平台 | 提供交易基础设施和合规通道 | 交易机制不成熟,数据资产入表带来会计层面重大变革 |
应用层 | 模型训练、微调、推理 | 大模型厂商、互联网巨头AI 业务线、出海平台、垂直Agent 创业公司 | 实现数据的最终价值 | 采购缺乏基准,效果难量化,复购依赖信任 |
价值分布规律:真正获得高毛利、高议价权和高估值的,是第三层产品层与第四层渠道层的复合卡位者。纯人力密集型的标注厂PE 估值往往失效,只能拿到1-2 倍的PS;而产品化、专家化的公司,则可以享受到10 倍甚至20 倍以上的收入倍数。


