推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  履带  带式称重给煤机  链式给煤机  无级变速机 

报告快读:信通院《中央企业高质量数据集建设研究报告》

   日期:2026-01-28 10:21:39     来源:网络整理    作者:本站编辑    评论:0    
报告快读:信通院《中央企业高质量数据集建设研究报告》
近日,中电数据产业集团有限公司联合中国信通院发布了《中央企业高质量数据集建设研究报告》,分析了目前央企建设高质量数据集的进展和面临的挑战等,并列举了能源、制造在内多个行业的建设案例。
报告目录如下,下文是报告部分要点内容摘要。略有遗憾的是,报告更多关注建设方式方法层面,没有对当前总共多少企业在建,建设了多少等市场全貌进行描绘。后面也附上AIE对于央企建设高质量数据集建设的一些看法。
问题和挑战
内外部制度待细化,制约数据集系统化建设跨主体数据基础制度、企业内部配套制度和细则还比较缺乏,数据所有权、使用权和收益分配等制度不清晰,数据汇聚制度不清晰,出现重复建设。

标准体系不完善,数据获取与共享困难。行业尚未形成数据采集、格式、标注和质量评估的标准体系,造成数据的互通、标注结果和质量结果互认存在困难

技术支撑能力不足,影响建设效率和效果。数据采集、处理、标注、评估、应用全过程不打通,过程难以追溯、验证和迭代,缺乏面向非结构化、多模态数据的智能数据处理工具,非结构化数据的标注效率较低,质量评估未贯穿于采集、处理、标注等各阶段

协同生态未建立,阻碍数据集流通应用企业或行业可信数据空间尚未形成成熟落地的运行模式,数据提供方、服务方与使用方之间缺乏以“数据即服务”为核心的商业模式

各方面实践进展

数据集建设方面

  • 数据需求方面,需求正由以部门单点提出为主,逐步转向结合企业智能化应用规划进行集中判断和统筹安排

  • 数据采集方面,采集来源较为广泛,既包括业务系统内的各类模态的数据资源,也包括采买的数据产品、公开网站或开源社区的数据集、合成数据等,逐步形成“面向场景取数”“内部资源汇聚”“多源多模态”等特点

  • 数据处理方面,央企在数据处理环节正逐步优化平台架构、完善工具体系,但在多模态协同处理、复杂场景适配和处理结果可解释性等方面仍需持续完善

  • 数据标注方面,逐步形成业务规则、技术工具与人工校验相结合的模式。

  • 质量管理方面,不再只是建设完成后的检查环节,而是逐步前移并融入数据采集、处理和标注等各个阶段

  • 数据交付方面当前数据交付仍以企业内部使用为主,部分央企已开始探索面向外部协作的交付方式。

数据集运营方面

  • 应用服务方面,正逐步从零散调用走向相对体系化的服务体系,如为数据集提供统一的访问接口、调用规范和使用说明。随着央企 AI 应用场景不断扩展,数据集服务将呈现出“按场景供给”的特征

  • 运营监控方面,指标体系较为缺失,当前以资源监控、任务状态监控为重点,还未扩展到数据集使用效果、质量变化和潜在风险的综合感知

  • 生态运营方面,央企正依托自身在行业中的组织和资源优势,将数据集运营从内部团队拓展至子公司、产业链上下游、科研机构、专业服务方等主体

基础保障体系方面

  • 组织管理方面,高质量数据集建设已不再局限于单个团队,而是逐步向集团统筹、分级协同的组织形态演进,形成“集团统筹规划、企业分工建设”的协同格局。

  • 制度规范方面,部分央企开始搭建制度框架,逐步探索建立职责划分、建设流程、质量评估等制度和机制,增强数据集建设安全合规和可复用性

  • 资源管理方面,数据集建设对资源的需求呈现出明显的阶段性和结构性特征,部分央企在算力和存储资源配置上仍以业务系统为主,数据集建设与运营过程存在资源分散、调度不灵活、建设与使用脱节等问题

  • 安全合规方面,央企的数据安全工作通常围绕数据分类分级、敏感信息识别与处置、访问控制与权限管理、使用留痕与审计追溯、风险评估与持续整改等关键要素展开,以确保数据在采集、汇聚、加工处理、存储管理、共享使用等环节均可控

建设案例

报告从智慧能源、工业制造、绿色低碳、交通物流、医疗卫生、现代农业、移动通信和应急管理8个重点行业,列举了一系列案例,并从案例背景,建设方案,应用成效方面详细介绍了各个案例的具体建设情况。

其中能源和制造行业的包括:

  • 中国石油天然气集团有限公司的中国石油油气地震勘探大模型高质量数据集

  • 国家石油天然气管网集团有限公司的油气管道保护高质量数据集

  • 中国南方电网有限责任公司的配电网智能规划多模态数据集

  • 中国第一汽车集团有限公司的乘用车产品智能数据集

  • 中国铝业集团有限公司的铝合金材料金相组织图片数据集

略为遗憾的是,各具体案例介绍部分没有提及数据集的数据规模和行业通用性等问题,更多侧重强调了企业自用的应用成效。以下是一个完整的案例集内容,更多具体信息可以参阅原报告。

总结

央企建设高质量数据集的关键要素

  • 一是坚持“业务-数据-模型”闭环驱动,业务牵引效应显著,成功案例均始于明确的业务痛点,

  • 二是构建“专家知识+智能工具”人机协同,在能源、工业等强专业领域,纯自动化标注无法满足业务需求,必须将领域专家(如工程师、医生、研究员)的知识,通过标注规则、质检标准、预训练模型等方式固化到工具链中

  • 三是形成“集团统筹+一线创新”协同组织,集团重点承担顶层制度设计、共性能力建设和运行机制的统筹,一线业务单元或专业公司作为创新主体,负责具体场景的数据集构建。

AIE看法
AI时代,高质量数据集的重要性无须多言,然而目前报告中也能看出,市场并未建立起合理的,能够商业正循环的高质量数据集建设和运营生态,尤其是如果主要依靠央企,而非广泛的各行各业工业企业参与,容易陷入运动式建设而无法持久。
AIE看来,高质量数据集建设首先是需将建设目标转向构建半开放的行业集大规模数据集。当前很多数据集建设面向数据流转和交易,然而很多数据集天然市场化价值就并不高,潜在客户受众很窄,建设投资回报并不高,企业建设的动力并不足。
实际对于企业而言,更有价值的可能是大规模行业数据集,如果将模式设置为让每个企业贡献自身的部分数据集,能获得合并后的行业大规模数据集,且合并的数据集也暂不向未贡献企业公开,企业的实际获得价值可能更大,意愿可能也更高。
当然,朝这个方面开展建设,也就意味着牵头建设主体、运营方式等方面的变化。
首当其中的是需要专业第三方来牵头数据集的建设。具体模式为第三方联合行业主流企业,梳理共性场景的数据集需求,挑选需求迫切的场景,先构建统一标准,之后引导行业企业共同梳理各自数据集,并由第三方脱敏、汇总和整理合并为行业集大规模数据集,最后反馈给贡献了数据集的各企业去使用。整个过程数据短期不向外公开销售或向其他方开放。在数据集建成后,后续有条件的情况下或许也可以开展一些商业化试点。
此模式对专业第三方的要求较高,既要有能力协调行业内各企业,也要具备一定的技术和数据知识能力,同时还需要一定的资源投入,因此可能适合一些行业协会、专业机构来承担。同时,因为此过程具备公益性质,而非纯商业化运营,也需要政府适当的资金或政策扶持。
此模式能够绕开不少当前建设模式面临的问题,减轻很多企业建设的负担,当然也仍然会面临一些基础的数据主权、工具体系不完善、企业间协调、安全管控等问题,也需要在过程中持续探索。
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON