报告 | 中国信通院《中央企业高质量数据集建设研究报告》(免费下载PDF版本)
本报告《中央企业高质量数据集建设研究报告》由中电数据产业集团有限公司与中国信息通信研究院联合编制,参编单位包括中国石油、南方电网、中国移动等多家中央企业。报告主题聚焦于中央企业高质量数据集建设的背景、问题、实践案例及未来展望,旨在支撑人工智能发展和行业智能化转型。核心内容显示,在政策驱动和产业需求双重作用下,央企数据集建设已从散点探索进入规模化推进阶段,在能源、制造、交通等领域取得初步成效,但仍面临制度、标准、技术和生态等方面的深层次挑战。总体结论强调,央企需从项目制转向体系化建设,夯实自身作为行业数据供给者、标准制定者和生态组织者的角色,以发挥“压舱石”作用。PDF版本下载方式见文末。
在新一轮科技革命和产业变革背景下,高质量数据集成为人工智能发展和行业智能化转型的关键基础。国务院国资委通过“人工智能+”行动等政策推动数据资源向数据资产转化。发展趋势方面,行业智能化转型深化,对高质量、多模态、可持续迭代数据集需求凸显,数据集正从单点建设转向体系化支撑。政策驱动方面,国家数据局等部门陆续出台《“数据要素×”三年行动计划》等文件,明确支持企业开发高质量数据集,推动行业专项建设。产业需求与政策引导共同驱动央企数据集建设进入系统性推进时期。当前央企高质量数据集建设仍处于起步阶段,存在四类主要问题。制度层面,数据所有权、收益分配等基础制度不清晰,缺乏跨主体数据汇聚机制,企业内部制度体系不完善,制约数据集系统化建设。标准层面,行业数据采集、格式、标注和质量评估标准体系缺失,导致数据互通和互认困难,如工业设备协议不统一、交通数据标注规则差异。技术层面,数据处理工具链不完整,多模态数据智能处理能力不足,标注效率低,质量评估未贯穿全流程。生态层面,可信数据空间运行模式未成熟,缺乏“数据即服务”商业模式,阻碍数据集流通和应用迭代。实践分析涵盖数据集建设、运营和基础保障三大维度。数据集建设包括需求管理、数据采集、数据处理、数据标注、质量管理和数据交付六环节:需求管理以业务场景为牵引,逐步转向集中统筹;数据采集来源广泛,涵盖内部系统、公开数据等,但跨系统协同存在挑战;数据处理通过工具链实现规范化,但多模态协同能力待提升;数据标注形成业务规则与智能工具结合模式,专家标注用于复杂场景;质量管理从事后检查转向过程约束,关注全面性等维度;数据交付以内部使用为主,逐步探索外部共享。数据集运营包括应用服务、运营监控和生态运营:应用服务从零散调用转向体系化,按场景供给;运营监控指标缺失,重点在资源状态跟踪;生态运营通过共建共用扩展至产业链,但以内部协同为主。基础保障体系涉及组织管理、制度规范、资源管理和安全合规:组织管理向集团统筹、分级协同演进;制度规范框架初建,覆盖建设流程;资源管理需优化算力存储配置;安全合规贯穿全生命周期,影响数据集可用范围。实践表明,央企需通过场景牵引、工程化推进和协同化扩展,提升数据集建设能力。报告选取八个行业共13个案例展示建设经验。智慧能源行业案例包括中国石油的地震勘探数据集,通过多模态数据整合提升勘探精度,应用后符合率达90%以上;国家管网油气管道保护数据集实现数据驱动风险管控,年节约成本超千万元;南方电网配电网规划数据集缩短规划周期95%。工业制造行业案例如一汽乘用车智能数据集支撑自动驾驶算法优化;中铝集团铝合金金相数据集提升材料研发效率。绿色低碳案例如中节能企业远程执法数据集增强环境监管效能。交通物流案例如中国交建三维构件数据集促进数字孪生应用。医疗卫生案例如联通肺结核影像数据集提升诊断效率。现代农业案例如国机农机数据集赋能智能作业。移动通信案例如移动人时空三元组数据集赋能出行大模型;电信网络大模型数据集支撑自智网络;联通信息通信数据集优化运营效率。应急管理案例如新兴际华火灾救援数据集提升灭火决策能力。案例显示,数据集建设以业务痛点为导向,通过专家知识与智能工具结合,实现经济效益和社会效益双提升。现状评估指出,央企数据集建设取得场景化落地、行业共识形成和技术工程化初步成效,但深层次矛盾突出,如制度瓶颈导致数据共享困难、工程化能力不足致成本偏高、项目制思维阻碍持续运营、生态位角色模糊影响协同。核心发现强调关键要素:坚持“业务-数据-模型”闭环驱动,构建“专家知识+智能工具”人机协同,形成“集团统筹+一线创新”组织模式。未来建议提出三方面方向:制度突破与标准先行,央企应内部探索数据资产确权机制,牵头行业标准研制;技术攻坚与平台赋能,加大数据工程技术投入,建设集团级运营平台;生态构建与价值释放,牵头可信数据空间,将数据优势转化为生态领导力。最终,央企需通过系统化努力,夯实国家数字竞争力基础,支撑“人工智能+”行动和新质生产力发展。关注本公众号后并台回复:
CAICT
即可领取完整版资料。
你可能还想看这些内容: