2026年5月8日,国家数据局副局长余英在苏州2026移动云大会上披露,截至2026年3月底,国内AI日均Token调用量突破140万亿,较2024年底增长超千倍。这一惊人数字背后,数据作为AI模型训练与智能体运行的核心支撑,其战略价值正被提升至前所未有的高度。本文聚焦高质量数据集建设,探讨其对银行业数据要素资产化进程的深远影响。
01 Token爆发:重新审视数据要素的战略价值
2026年以来,AI应用落地呈指数级加速。Token作为大模型处理文本、代码、图像描述等信息的基本单元,其调用量已成为衡量AI服务价值的核心标尺。
140万亿的深层含义
日均140万亿的Token调用量,意味着每天有海量数据被"投喂"给AI模型进行推理与学习。这一规模的背后,折射出两个关键趋势:
维度 | 传统模式 | 新型模式 |
价值衡量 | 算力FLOPS、GPU数量 | Token调用量与运营效率 |
服务交付 | "卖裸算力" | "卖服务、卖能力" |
资源配置 | 固定配额分配 | 按需服务、精准匹配 |
国家数据局明确指出,Token应用效果直接取决于高质量数据集的支撑程度。这一判断将数据要素从"辅助角色"推升至"决定性因素"的战略定位。
02 国家数据局四大推进方向:高质量数据集建设升维
余英副局长在会上透露,国家数据局将深入贯彻数据要素市场化配置改革"5+3+1"工作部署,重点推进四方面工作,其中高质量数据集建设尤为值得关注。
2.1 六大行动构建闭环生态
国家数据局明确将实施高质量数据集建设六大行动:
• 强基扩容:扩大高质量数据资源供给规模
• 标注攻坚:攻克数据标注的质量与效率瓶颈
• 提质增效:提升数据集精度与可用性
• 应用赋能:推动数据集在AI场景落地
• 管理服务:建立数据集全生命周期管理体系
• 价值释放:打通数据-模型-应用-价值的商业闭环
2.2 隐私保护与合规并重
针对高频词元数据面临的个人隐私、商业秘密、重要数据保护难题,国家数据局将明确分类分级的保护要求,破解数据安全与流通之间的张力。
03 DAMA视角:高质量数据集的质量维度解析
国际数据管理协会(DAMA)在《DMBOK数据管理知识体系指南》中定义的数据质量六大核心维度,为高质量数据集建设提供了系统化的评估框架:
质量维度 | 内涵 | 在AI数据集建设中的体现 |
准确性 | 数据正确反映客观实体 | 标注准确率、信息真实性 |
完整性 | 必需数据不存在缺失 | 字段完整率、样本覆盖率 |
一致性 | 不同来源数据表述统一 | 跨系统数据口径对齐 |
时效性 | 数据在需要时可获取且最新 | 数据更新频率、版本管理 |
唯一性 | 数据不重复记录同一实体 | 去重处理、主数据管理 |
有效性 | 数据符合预定义规则 | 格式校验、值域控制 |
实践提示:DAMA研究显示,数据质量问题约80%源于业务流程和系统设计,真正由"数据录入错误"导致的脏数据仅占少数。这意味着高质量数据集建设必须与业务流程优化同步推进。
04 银行业的机遇与挑战
4.1 战略共识已成
工商银行软件开发中心明确指出:"在算法趋同、算力普惠的竞争环境下,银行的核心竞争力正加速向高质量数据集迁移。数据质量与治理能力已成为银行未来竞争的决定性因素。"
建设银行副行长雷鸣也在2025年10月公开表示,数据治理已演变成为商业银行竞争的重要组成部分。
4.2 头部银行实践扫描
工商银行:企业知识工程体系
工行依托企业级数据中台实现结构化数据的规模化沉淀与共享应用,同时围绕非结构化数据打造集数据采集、清洗、标注、质量评估、运营为一体的企业知识工程体系,形成面向高质量数据集的知识运营能力。
光大银行:多源融合+数字孪生
光大银行确定两大数据要素实践方向:
• 多源数据融合:整合业务数据、"脏"数据、元数据等结构化与非结构化数据
• 数字孪生:构建业务仿真分析、对象建模、数据连接与可视化交互,支撑AI决策
南京银行:AI赋能数据分级分类
南京银行联合阿里云,仅用6000条训练数据实现94.6%的数据安全分级分类准确率。核心在于"模型飞轮"范式——以大模型生成高置信度伪标签,实现"以AI造AI"的数据瓶颈突破。
4.3 银行业发展高质量数据集面临三大挑战
尽管共识已成,银行业在高质量数据集建设仍面临系统性挑战:
挑战类型 | 具体表现 | 潜在影响 |
标准缺失 | 业务与技术对多模态数据处理标准理解偏差 | 数据应用衔接不畅 |
知识壁垒 | 金融专业知识积累难度大,制约模型稳定性 | 训练效果受限 |
合规压力 | 结果可解释性、审计溯源性要求高 | 监管合规风险 |
05 从业者应对建议:四步构建高质量数据集能力
基于政策导向与行业实践,建议银行业数据从业者从以下四方面构建能力:
5.1 建立数据质量评估体系
参照DAMA六大质量维度,建立覆盖准确性、完整性、一致性、时效性、唯一性、有效性的量化评估标准,设置质量阈值并实施自动监控。
5.2 构建企业级知识工程体系
借鉴工商银行实践,打通数据采集-清洗-标注-评估-运营全链路,形成标准化、可复用的数据集生产工坊。
5.3 探索AI赋能数据治理
引入机器学习、知识图谱等技术,实现:
• 数据质量问题的智能识别与预警
• 数据分类分级的自动化标注
• 数据血缘的可视化追踪
5.4 筑牢数据安全合规底座
在高价值数据集建设全流程中嵌入隐私计算、数据脱敏、分类分级保护机制,确保数据要素流通的合规性。
06 结语
140万亿Token调用量的背后,是AI时代对高质量数据的海量渴求。当算力如水、电般普惠供应时,高质量数据集将成为决定AI应用深度的核心变量。
对于银行业而言,这既是数据要素资产化进程的重要契机,也是数据治理能力升维的关键战场。从DAMA框架的质量维度审视,到头部银行的实践探索,再到从业者的能力构建——每一步都在为迎接"数据为王"的AI时代积蓄力量。
往期推荐:


