■ 算力深度研究
数据墙来了:2026全球大模型数据市场白皮书核心解读
算力还能堆,数据却快用完了——这是2026年AI圈最值得警惕的信号
算
算力租售 ·AI算力量虾 | 2026.06.29
艺恩数据刚发布了《全球大模型数据市场白皮书2026》,35页报告信息量极大。作为持续追踪GPU算力市场的从业者,我第一反应是:数据这个变量,正在成为比算力更硬的瓶颈。读完这份报告,梳理了几个对算力从业者、AI投资者最直接的判断。
01
公开语料,快用完了
Epoch AI 的中位预测:2028年
Epoch AI(经ICML 2024同行评审)的测算数据很直接:
核心数据
指标 数值
可用人类公开文本存量 约300万亿 token
训练数据集规模持平窗口 2026 — 2032年
中位数预测耗尽时间 约2028年
多轮训练可放大有效存量 3 — 15倍(但难以根本解决)
三位行业领袖的判断更直白:
"人类知识的累积总和,已基本在AI训练中被耗尽——大体上去年就发生了。"
—— Elon Musk,2025年1月(via The Guardian)
"如果训练模型的最佳方式是生成一千万亿token合成数据再喂回去,那会很奇怪——核心是'如何从更少的数据中学到更多'。"
—— Sam Altman,2024年6月
⚡ 对算力从业者的信号:
堆卡就能涨能力的时代正在过去;数据质量(而非单纯规模)成为模型能力上界的关键;合成数据、多模态数据、专家级数据三条出路,将决定下一阶段算力需求的结构。
02
市场规模:你看到的"28亿",严重低估了
狭义口径失真,真实市场是2-5倍
报告明确指出,常被引用的"AI训练数据集"狭义口径(约28-32亿美元,2024-25年)显著低估真实市场。
口径 2024年 2025年 说明
狭义(数据集打包) ~28亿美元 ~32亿美元 只统计打包数据集+标注软件
广义(白皮书测算) 60-90亿美元 100-160亿美元 数据集+采集标注+RLHF+合成数据
为什么狭义口径失真?
钱在服务里:真实支出多在标注与RLHF/专家数据服务,而非打包数据集
三家头部公司(Scale约20亿 + Surge约14亿 + Mercor约7.6亿)2025年毛收入合计约42亿美元,已超过"训练数据集"狭义全球值
03
资本用真金白银投票
数据公司估值狂飙,已达软件级
这组数据,值得所有AI投资者细看:
公司 估值/交易额 关键事件
Scale AI 290亿美元 2025/6 Meta投资143亿美元入股
Surge AI ≈250亿美元 零融资自举至超10亿营收(洽谈中)
Mercor 100亿美元 管理3万+专家,日付150万美元
Turing ≈22亿美元 2025/3 E轮1.11亿美元
Snorkel AI ≈13亿美元 2025/5 D轮1亿美元
? 一条连锁反应尤其值得注意:
Meta入股Scale AI后,因数据机密性顾虑,Google、OpenAI、xAI等削减或暂停与Scale的合作,为Surge、Mercor让出空间——"中立性"本身即是数据行业的核心资产。
对国内算力服务商的信号:未来如果有"数据+算力"一体化服务商出现,中立性(不站队大厂)会是重要竞争壁垒。
04
价值链:越往上,越值钱
八层结构,价值层层递进
白皮书把数据价值链分成八层,规律非常清晰——越靠近"专家级、多模态、可验证"的一端,单位价值越高。
层级 数据类型 价值特征
① 预训练语料 规模化基础,边际价值随枯竭下降
② SFT指令微调 对齐任务格式,塑造可用性
③ RLHF/偏好数据 决定"好用"程度
④ RLAIF/AI反馈 降低人工成本的规模化对齐
⑤ 专家/领域数据(PhD级) 溢价最高的人工数据
⑥ 评测/基准数据 能力度量标尺,数据中心化AI趋势
⑦ 合成数据 增速最快的新供给,缓解数据墙
⑧ 多模态数据(图像/视频/4D) 最稀缺、溢价最高
质量溢价的数字更直观——同一份标注,价差可达数十倍:
标注类型 单价
一般偏好标注 $0.10 - 0.50 / 每对比
领域专家标注 $1.50 - 8.0+ / 每任务
高质量RLHF专家 ~$100 / 每对比
PhD/工程师专家 $100 - 350 / 小时
医生/资深专家 $200 - 500 / 小时
05
中国市场的独特逻辑
两套逻辑,两种数据生态
中国已发布大模型1509个,数量居全球首位(占全球约40%),AI企业超5300家。但中美两套逻辑差异显著:
维度 ?? 美国 ?? 中国
驱动力量 前沿实验室 + VC催化 "数据要素"国家战略
头部数据公司估值 290亿美元(Scale AI) 约数亿人民币
数据标注市场规模 ~60亿美元(2025) 120亿人民币(2024)
Token消耗(2026) — 140万亿/日(较2024初增千倍)
竞争优势 软件级估值、专家溢价 国家战略、7大标注基地
?
三大政策支柱正在加速中国市场
"数据要素×"三年行动(2024-2026):聚焦12行业,2026年底打造300+示范场景
数据资源入表:财政部《暂行规定》2024年施行,数据从费用化转为资产负债表内显性化
数据标注产业专项:国家发改委2024年实施意见,2027年产业规模大幅跃升
06
对算力从业者的实际影响
结合GPU现货/期货价格与采购实务
结合这份白皮书,以及近期持续追踪的GPU市场(H100/H200/B300现货与期货价格、国内智算中心建设节奏),几点判断直接关联采购决策。
① B300的采购逻辑:卡等数据,还是数据等卡?
目前B300(NVIDIA Blackwell Ultra架构)正处于合约谈判关键期,市场价格区间约547-920万/台,8.3亿级采购正在推进。
白皮书的核心信号是:训练数据即将成为瓶颈,这意味着B300的采购假设需要重新审视。
传统假设 数据墙后的修正假设
堆卡 = 模型能力线性提升 数据质量决定算力边际收益递减的拐点
预训练是算力消耗主力 推理 + 合成数据生成成为持续算力消耗主力
大批次训练效率最优 高质量小批次+课程学习,对显存带宽要求更高
直接结论:B300的高显存(288GB HBM3e)和带宽优势,在"数据效率优先"的训练范式下,ROI不一定优于继续摊薄H200机队——前提是H200的采购价格已回落到合理区间(目前约352-390万)。
② 视频生成算力需求:为什么H200×8是当前最紧张的现货
白皮书指出:当文本语料见顶,竞争前沿转向视频与多模态。这部分直接解释了为什么H200 8卡SXM服务器(约400万报价)在市场上有真实需求支撑。
模型 训练算力需求 推理算力需求
Sora 2 万卡级集群 × 数月 单帧推理仍需A100级以上
Veo 3 Google TPU集群 实时生成需高显存
可灵(Kling) 国产GPU + 部分H100 已在商业化推理阶段
对算力租赁的影响:
视频生成推理的显存占用远高于文本大模型(帧序列 + 时空注意力)
H200 141GB显存相对H100 80GB的优势在视频生成场景下被放大,而不仅仅是量变
如果正在评估400万报价的H200 8卡SXM服务器,视频生成工作负载应作为核心评估场景之一,而非仅看LLM训练
③ 合成数据:被低估的新增算力需求
NVIDIA 2025年以约3.2亿美元收购合成数据公司Gretel.ai,这个信号比很多人意识到的更重要。
真实数据枯竭 ↓ 用教师模型生成合成数据(需要大量推理算力) ↓ 用合成数据训练学生模型(需要训练算力) ↓ 迭代验证合成数据质量(需要评测算力) ↓ 循环(数据飞轮)
这意味着:合成数据不是"省算力",而是把一次性训练算力转化为持续的数据生成+验证算力消耗。对于拥有大规模GPU机队的投资方:合成数据生成可以填补充斥训练空窗期的算力利用率。
Gartner预测:合成数据占比将于2030年全面超越真实数据。
④ 具身智能/世界模型:下一个B300级需求爆发点
白皮书专门提到:具身数据"稀缺、采集困难、高维",被视为机器人达到"GPT时刻"的关键瓶颈。
阶段 算力需求特征 硬件偏好
当前(2026) 真机数据采集 + 小规模训练 H100/H200,分布式小集群
2027-2028 合成引擎+真机精调,世界模型训练 B300/B400,高显存+高带宽
2029+ 端到端VLA模型大规模部署 推理专用卡
⚠
⑤ 合规成本正在改变算力采购的总成本结构
Anthropic 15亿美元版权和解的案例,以及欧盟AI法案2026年8月的全面适用,正在把"合规"从法律问题变成算力采购的总成本(TCO)的一部分。
不合规路径 合规路径 算力影响
爬取互联网数据训练 购买授权数据训练 合规数据更贵 → 对算力优化要求更高
数据来源不可追溯 可审计数据链路 TCO上升 5-15%
忽略欧盟透明度义务 按EU AI Act模板披露 存储成本显著增加
?
⑥ 国产替代的时间窗口:数据比芯片更紧迫
白皮书指出中国大模型数量全球第一(1509个,占40%),但高质量中文标注数据稀缺。
国产算力替代的真正瓶颈可能不在芯片,而在高质量中文多模态数据——这也是为什么数据要素国家战略与国产算力推进需要同步看待。
▍ 总结:胜负手正在转移
白皮书最后一句话:
"胜负手正从'更多算力'转向'更优质、更合规的数据';公开语料枯竭非终点,而是价值化的起点。"
短期(2026):算力需求仍在,但结构在变——视频生成推理、合成数据生成正在成为新增量,H200 8卡现货的紧张有真实需求支撑。
中期(2027-2028):B300机队到位时,数据瓶颈会逐渐显现——提前布局合规数据渠道的玩家,算力利用率会显著高于同行。
长期(2029+):具身智能/世界模型若迎来"GPT时刻",数据-算力飞轮会再次放大算力需求,但"算力+数据+合规"三位一体才是竞争壁垒。
? 一句话判断:
如果你正在谈B300的采购合同,除了支付条款和交付保障,数据配套方案应该成为技术验收标准的一部分——卡到位了,数据没到位,机器就是昂贵的铁。
#B300采购
#数据墙
#算力租赁
#合成数据
#视频生成
#合规算力
? 《全球大模型数据市场白皮书2026》35页完整PDF下载
https://pdf.dfcfw.com/pdf/H3_AP202606051823271560_1.pdf
AI算力量虾.算力租售 · 抖音
聚焦GPU算力市场 · AI基础设施 · 大模型数据
原创内容,转载请注明出处
数据墙来了:2026全球大模型数据市场白皮书核心解读
2026-06-29 12:30
数据墙来了:2026全球大模型数据市场白皮书核心解读