4月29日下午,第九届数字中国峰会“高质量数据集和数据标注主题交流活动”在福州举办。本场活动由国家数据局主办,国家数据发展研究院、中国电信集团有限公司、中国电子信息产业集团有限公司联合承办的,聚焦 “推建设高质量数据集 赋能人工智能创新发展” 主题。
国家数据局局长刘烈宏出席本场活动,并对近期发布的“推进行业高质量数据集建设”六大行动作出系统阐述。

国家发展和改革委员会党组成员,国家数据局党组书记、局长 刘烈宏
(2026年4月29日)
各位领导,各位专家,各位嘉宾、朋友们,
大家下午好!
非常高兴与大家相聚在美丽的福州,参加“高质量数据集和数据标注主题交流活动”。在此,我代表国家数据局,对参加今天活动的各位来宾表示诚挚的欢迎,向长期以来关心、支持国家数据事业发展的各位领导、专家和企业家朋友们,致以诚挚的谢意!
党中央、国务院高度重视人工智能的发展和数据要素价值的发挥,习近平总书记多次就人工智能相关工作做出重要指示,强调“加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题”。3月30日,世界数据组织正式成立,习近平总书记专门致贺信,指出:“当今世界正在加速迈入智能时代,数据的基础资源作用和创新引擎作用日渐显现”。
当前,人工智能技术发展日新月异,实现着对产业全方位、全链条、全周期的渗透和赋能,推动了生产、生活和生态的深刻变革。在各方的共同努力下,数据赋能人工智能成效显著。2025年,全国年度数据生产总量达52.26泽字节(ZB),同比增长27.28%。我国数据生产总量占全球约27.44%。截至2026年3月底,全国已建成高质量数据集超过11.6万个,总体量超过了960PB,相当于中国国家图书馆数字资源总量的336倍。
国家数据局将2026年明确为“数据要素价值释放年”。在高质量数据集建设方面,编制了《关于推进行业高质量数据集建设行动的实施方案》,向全社会公开征求意见,大家对于《实施方案》反响热烈,我们修改完善后将尽快印发。
《实施方案》中提出了六大行动。
行动一:强基扩容行动,主要解决“有什么”的问题。
人工智能正从大语言模型向多模态模型、从基础模型向行业模型、从内容生成向智能体自主决策、从数字智能向具身智能演进,对数据集的供给规模、质量和形态提出了更高要求。
强基扩容行动提出:一是聚焦科学研究、工业制造、医疗卫生等重点领域,以及低空经济、具身智能等创新领域,持续拓展行业资源。
二是通过先行先试、链主带动、公共数据授权运营等方式,扩大供给规模。
三是顺应人工智能发展范式,围绕智能体、具身智能、世界模型等领域,布局前沿领域数据集建设。
四是强化与数据基础设施的有机联动,推动数据集安全存储、可信流通、高效应用。
实施强基扩容行动,将持续为人工智能发展和应用提供充足“燃料”。
行动二:标注攻坚行动,主要解决“怎么加工”的问题。
数据标注就是对未经处理的原始数据进行添加说明、解释、分类或编码的过程,是推动建设行业高质量数据集的关键环节,呈现出“技术密集型”和“知识密集型”的趋势。
标注攻坚行动提出:一是发展人机协同的智能化标注和专家型标注服务,全面提升数据标注水平。
二是梯次布局数据标注创新试验区,因地制宜引导创新能力强、发展基础好、产业特色优的地区开展建设。
三是建设专职与兼职相结合的专业标注人才队伍,扩大数据标注人才供给。
实施标注攻坚行动,将推动数据标注向专业化、智能化、体系化跃升。
行动三:提质增效行动,主要解决“好不好用”的问题。
2025年,用于人工智能训练和推理的数据总量为199.48艾字节(EB),同比增长42.86%,推理数据首超训练数据量,数据赋能人工智能迈入规模化应用的新阶段。
提质增效行动提出:一是加强数据清洗、增强、标注、对齐、质检等关键技术攻关,以智能化手段重塑数据加工链路。
二是加快推进高质量数据集格式、类型、标注、质量测评等相关国家标准研制和应用落地。
三是持续完善“数据质量验证+模型应用反馈”的测评方法,推动高质量数据集质量测评结果互认,着力打造技术可行、实用便捷、质量保障的AI-Ready高质量数据集。
实施提质增效行动,将有效降低训练推理成本,提升模型性能。
行动四:应用赋能行动,主要解决“怎么用”的问题。
我们一直推动全社会,人工智能发展到哪里,我们就把高质量数据集建设到哪里;“人工智能+”行动到哪里,行业高质量数据集的建设和推广就要到哪里。
应用赋能行动提出:一是以模型应用牵引数据供给、以数据驱动模型迭代,推动形成“数据飞轮”应用闭环。
二是打造一批集“数据集生产加工和流通利用、支撑模型训练应用”于一体的数据赋能工厂,和一批“数据×智能体”示范工程,加速推动人工智能应用落地。
三是强化与各行业领域的有效衔接,推动建设特色鲜明的数据集,持续繁荣数据集协同发展的生态。
实施应用赋能行动,将助力数据集建设与实际应用深度融合,以模引数、用数赋模。
行动五:管理服务行动,主要解决“怎么管”的问题。
强化覆盖数据采集、处理、标注、质检、测评、迭代、审计等全生命周期的数据集管理服务能力建设,是提升数据集质量与可用性,打破“数据孤岛”“数据烟囱”,充分释放数据要素乘数效应的重要支撑。
管理服务行动提出:一是建立健全数据集全生命周期管理体系,打造国家数据集管理服务平台,实现数据集目录、供需等信息互联互通。一会儿,国家数据集管理服务平台将在本场活动发布,正式开始上线试运行。
二是进一步探索面向人工智能发展的数据权益相关制度,打造权责清晰、合规包容的制度环境。
三是坚持伦理先行与公平普惠,防范数据偏见与歧视等风险。
实施管理服务行动,将推进数据集建设体系更加规范有序。
行动六:价值释放行动,主要解决“如何流通交易”的问题。
数据集的价值包含要素价值和应用价值,是数据集真正流通起来、用起来,深度赋能千行百业最直接、最根本的价值。
价值释放行动提出:一是鼓励“以数换数”、“数模互换”等多种应用模式,推动行业高质量数据集跨行业、跨领域、跨场景融合利用。
二是推动数据集在数据交易所等平台挂牌交易,探索词元交易等新型交易模式,打造可量化、可定价的数据集价值体系。
三是探索行业高质量数据集资产化创新路径,拓宽数据价值转化渠道。
四是培育为高质量数据付费的市场共识,支持数据等无形资产投资(4月21日,《国务院关于推进服务业扩能提质的意见》提出),构建健康可持续的数据市场生态。
实施价值释放行动,将进一步实现数据集有偿使用的价值闭环。
同时,数据安全是底线,我们要持续防范数据投毒、数据篡改、数据泄露等安全风险,强化数据安全、模型安全、交易安全与供应链安全的防护。
以上六大行动就是要从供给端、需求端、流通端和价值端发力,加快构建数据要素与人工智能协同演进的共生生态。
面向未来,推动数据赋能人工智能创新发展是我们全国数据系统工作的重中之重。
我们将继续推进行业高质量数据集建设,通过“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”,打造“数据—模型—应用—价值”的闭环生态,推动形成一批更好满足人工智能就绪度要求,有效提升模型、智能体、智能终端等应用效能的高质量数据集,赋能人工智能与实体经济深度融合。
我们期待在大家的共同努力下,加快推动高质量数据集建设和数据标注产业发展,促进数据要素价值的持续释放,开拓智能经济的新生态。
最后,预祝本次活动圆满成功!
谢谢大家!
(来源:数据要素社)
华仁财税服务范围:会计报表审计、企业合并、分立及清算审计、高企专审、经济责任审计、司法鉴证、投入资本验证、企业上市辅导咨询、涉税鉴证、税务咨询筹划、财税顾问、财税培训、工商登记代理、代理记账、资产评估、工程造价及招投标代理等经济鉴证与咨询服务、知识产权申请与转让代理咨询、高新技术企业认定的申报代理咨询、科技项目申报咨询。
咨询热线:0710-3578718
15071527988
公司QQ交流群:457072031
微信公众账号:HRCS3578718
华仁财税,为您提供专业的财税鉴证及咨询服务,助力您的稳健成长与企业共同成长的综合商业顾问!



