数据产业集团 | CAICT中国信通院:中央企业高质量数据集建设研究
来源:中电数据产业集团有 限公司、中国信息通信研究院在新一轮科技革命和产业变革深入推进的背景下,高质量数据集 已成为支撑人工智能发展和行业智能化转型的关键基础。近年来,国 务院国资委围绕实施央企“人工智能+”行动和产业焕新行动,将高 质量数据集建设作为提升中央企业智能化能力和核心竞争力的重要 抓手,通过专题部署、示范发布和平台建设等方式,持续推动数据资 源向可用、可管、可共享的数据资产转化。与此同时,随着能源、制 造、交通、通信等重点行业的智能化转型不断深化,对高质量、多模 态、可持续迭代的数据集需求日益凸显,数据集建设正从单点建设应 用,转向体系化建设和加速行业支撑。在产业需求与政策引导的双重 驱动下,央企高质量数据集建设逐步进入系统性推进时期。当前,人工智能正加速向各行业核心业务环节渗透,推动生产方 式、管理模式和决策机制发生深刻变化。行业智能化转型已不再停留 在应用辅助分析,而是逐步向生产运行优化、风险预测预警和系统协 同等方向拓展。这一趋势对数据的规模、质量提出了更高要求,单纯 依赖零散数据或业务系统数据已难以支撑复杂模型训练和规模化应 用,高质量、可复用、可持续迭代的数据集正成为行业智能化发展的 关键基础。从应用实践来看,高质量数据集正在逐步成为承载行业知识、支 撑模型训练、提升人工智能应用能力的重要载体。通过围绕典型业务 场景构建结构清晰、标签明确、质量可控的数据集,企业能够将隐含 在长期运行过程中的经验、规则和模式转化为模型可学习、可泛化的 输入要素,从而显著提升智能应用的落地效果和稳定性。高质量数据 集已从支撑性资源转变为基础性能力,企业高质量数据集建设能力已 经在很大程度上决定了央企智能化转型的深度和质量。内外部制度待细化,制约数据集系统化建设。当前,央企在高质 量数据集建设中普遍缺乏制度规范的约束,既包括跨主体的数据基础 制度,也包括企业内部的配套制度和细则。一是数据所有权、使用权 和收益分配等关键制度不清晰,缺乏明确的定价与利益分配机制,导 致各央企对数据共享、流通交易普遍持审慎态度,数据资源获取和高 质量数据集流通存在障碍。二是数据汇聚机制缺失,尤其是涉及行业 基础性、共性数据时,因行业缺乏统一的汇聚共享机制导致部分数据 集重复建设。另外,在央企内部,由于高质量数据集建设处于起步阶 段,企业以项目化方式推进数据集建设,尚未形成覆盖全环节的制度 体系,影响高质量数据集的持续建设。技术支撑能力不足,影响建设效率和效果。技术架构方面,尽管 部分央企已搭建数据平台,具备数据标注、质量评估等工具,但数据 采集、处理、标注、评估、应用全过程不打通,容易造成开发、标注 等过程难以追溯、验证和迭代。数据处理方面,缺乏面向非结构化、 多模态数据的智能数据处理工具,导致多模态数据的结构和特征提取 能力不足,非结构化数据的联合建模可用性较差。数据标注方面,部 分数据标注工具对BIM模型、影像等非结构化数据的标注效率较低, 影响构建效率。质量评估方面,质量评估常作为事后环节开展,而非 贯穿于采集、处理、标注等各阶段,导致系统无法实现对采集偏差、 标注错误、样本分布失衡等问题的即时发现与修正。