

标准体系不完善,数据获取与共享困难。行业尚未形成数据采集、格式、标注和质量评估的标准体系,造成数据的互通、标注结果和质量结果互认存在困难
技术支撑能力不足,影响建设效率和效果。数据采集、处理、标注、评估、应用全过程不打通,过程难以追溯、验证和迭代,缺乏面向非结构化、多模态数据的智能数据处理工具,非结构化数据的标注效率较低,质量评估未贯穿于采集、处理、标注等各阶段
协同生态未建立,阻碍数据集流通应用。企业或行业可信数据空间尚未形成成熟落地的运行模式,数据提供方、服务方与使用方之间缺乏以“数据即服务”为核心的商业模式
各方面实践进展
数据集建设方面
数据需求方面,需求正由以部门单点提出为主,逐步转向结合企业智能化应用规划进行集中判断和统筹安排
数据采集方面,采集来源较为广泛,既包括业务系统内的各类模态的数据资源,也包括采买的数据产品、公开网站或开源社区的数据集、合成数据等,逐步形成“面向场景取数”“内部资源汇聚”“多源多模态”等特点
数据处理方面,央企在数据处理环节正逐步优化平台架构、完善工具体系,但在多模态协同处理、复杂场景适配和处理结果可解释性等方面仍需持续完善
数据标注方面,逐步形成业务规则、技术工具与人工校验相结合的模式。
质量管理方面,不再只是建设完成后的检查环节,而是逐步前移并融入数据采集、处理和标注等各个阶段
数据交付方面,当前数据交付仍以企业内部使用为主,部分央企已开始探索面向外部协作的交付方式。
数据集运营方面
应用服务方面,正逐步从零散调用走向相对体系化的服务体系,如为数据集提供统一的访问接口、调用规范和使用说明。随着央企 AI 应用场景不断扩展,数据集服务将呈现出“按场景供给”的特征
运营监控方面,指标体系较为缺失,当前以资源监控、任务状态监控为重点,还未扩展到数据集使用效果、质量变化和潜在风险的综合感知
生态运营方面,央企正依托自身在行业中的组织和资源优势,将数据集运营从内部团队拓展至子公司、产业链上下游、科研机构、专业服务方等主体
基础保障体系方面
组织管理方面,高质量数据集建设已不再局限于单个团队,而是逐步向集团统筹、分级协同的组织形态演进,形成“集团统筹规划、企业分工建设”的协同格局。
制度规范方面,部分央企开始搭建制度框架,逐步探索建立职责划分、建设流程、质量评估等制度和机制,增强数据集建设安全合规和可复用性
资源管理方面,数据集建设对资源的需求呈现出明显的阶段性和结构性特征,部分央企在算力和存储资源配置上仍以业务系统为主,数据集建设与运营过程存在资源分散、调度不灵活、建设与使用脱节等问题
安全合规方面,央企的数据安全工作通常围绕数据分类分级、敏感信息识别与处置、访问控制与权限管理、使用留痕与审计追溯、风险评估与持续整改等关键要素展开,以确保数据在采集、汇聚、加工处理、存储管理、共享使用等环节均可控
建设案例
报告从智慧能源、工业制造、绿色低碳、交通物流、医疗卫生、现代农业、移动通信和应急管理8个重点行业,列举了一系列案例,并从案例背景,建设方案,应用成效方面详细介绍了各个案例的具体建设情况。

其中能源和制造行业的包括:
中国石油天然气集团有限公司的中国石油油气地震勘探大模型高质量数据集
国家石油天然气管网集团有限公司的油气管道保护高质量数据集
中国南方电网有限责任公司的配电网智能规划多模态数据集
中国第一汽车集团有限公司的乘用车产品智能数据集
中国铝业集团有限公司的铝合金材料金相组织图片数据集
略为遗憾的是,各具体案例介绍部分没有提及数据集的数据规模和行业通用性等问题,更多侧重强调了企业自用的应用成效。以下是一个完整的案例集内容,更多具体信息可以参阅原报告。




总结
央企建设高质量数据集的关键要素
一是坚持“业务-数据-模型”闭环驱动,业务牵引效应显著,成功案例均始于明确的业务痛点,
二是构建“专家知识+智能工具”人机协同,在能源、工业等强专业领域,纯自动化标注无法满足业务需求,必须将领域专家(如工程师、医生、研究员)的知识,通过标注规则、质检标准、预训练模型等方式固化到工具链中
三是形成“集团统筹+一线创新”协同组织,集团重点承担顶层制度设计、共性能力建设和运行机制的统筹,一线业务单元或专业公司作为创新主体,负责具体场景的数据集构建。


