一、 总体基调与核心发现
报告指出,科学数据与人工智能的深度融合已成为科研创新的关键驱动力。高质量、可被AI高效利用的数据(即“AI-Ready”数据)是未来科学研究的“新能源”。
根据2025年对中国学者的调研(772份有效问卷),核心发现如下:

- 支持度高:近八成受访者支持将研究数据开放获取作为学术惯例。
- 实践遇阻:支持意愿与实践之间存在巨大鸿沟,主要障碍是对成果被抢发的担忧(40%)、担心数据滥用(38%)以及贡献得不到足够认可(近半学者认为如此)。
- 实践有进展:超过87%的学者已在实际共享数据中遵循FAIR原则,超过82%有数据整理习惯。AI工具在数据处理阶段的应用尤为普遍。
- 政策支持不足:近三成学者缺乏共享数据所需的专门资金,且普遍需要数据版权、基金管理等方面的帮助。
二、 各重点领域的开放共享实践与展望
报告展示了多个国家级科学数据中心在各自领域的实践成果:
- 高能物理(国家高能物理科学数据中心)
- 特点:数据规模达EB级,高度依赖国际合作。
- 实践:参与全球数据网格(如WLCG),构建“数据+软件+环境”三位一体的共享模式。作为亚洲唯一的LHCb实验国际一级站点,为全球协作提供支撑。
- 未来:依据FAIR原则建立全流程管理规范,制定分级开放策略。
- 气象科学(国家气象科学数据中心)
- 特点:观测体系全、时间序列长、更新速度快、融合价值大。
- 实践:通过中国气象数据网向社会免费开放12类106种数据和产品,服务全球153个国家,支撑超2.5万项科研项目。
- 未来:构建“可信管控、合规运营、价值共创”的生态体系,计划孵化30个认证数据服务。
- 地震科学(国家地震科学数据中心)
- 特点:数据资源超1.48PB,支撑全球最大地震预警网络。
- 实践:产出“谛听”、“震典”等高质量AI数据集,服务国家重大工程抗震设计与科学研究。
- 未来:构建高质量数据资源体系,发展“可用不可见”等数据安全技术,推进智能化数据共享。
- 冰冻圈科学(国家冰川冻土沙漠科学数据中心)
- 特点:整合全球多源观测数据(约500TB产品数据),服务气候变化研究。
- 实践:遵循FAIR原则开放共享,构建了全球冰冻圈研究引擎,探索“大数据+AI+模型”的新研究范式。
- 未来:推动物理机理与AI深度融合,构建“冰冻圈数字孪生”。
- 医学领域
- 现状:政策框架完善,建成多个大型人群队列和国家健康医疗大数据中心。
- AI赋能:AI可用于提升数据质量、通过隐私计算实现安全共享、智能匹配数据供需。
- 挑战:数据安全、标准互操作性、算法偏见、复合型人才短缺。
三、 高质量科学数据的建设、应用与评价
- 建设内涵:高质量数据不仅是“可获取”,更需具备真实性、结构化、可计算性和可解释性,实现从“FAIR”到“FAIR+AI-Ready”的演进。
- 典型案例:scCompass单细胞数据集,通过标准化和语义建模,支撑了亿级参数生命科学大模型的训练。
- 应用实践:
- 催化科学:构建专业知识图谱、开发可解释模型辅助反应器设计、发展“全流程机器人化学家”,实现新材料的高效筛选。
- 化学化工:建设大规模物质基础数据库,通过流程化工具构建AI-Ready专题数据集,驱动分离萃取剂等材料的智能设计。
- 评价体系:
- 由科学地平线平台构建了国际首个面向“数据+模型”的AI就绪度综合评价框架,涵盖规范性、可用性、可解释性、合规性四个维度。
- 该平台通过“人机协同”方式,形成了地球科学、生命科学、材料科学等领域的高质量数据推荐榜单。
四、 国际合作与出版视角
- 施普林格·自然的实践:
- 工具:开发AI驱动的“开放科学助手”,帮助作者完善数据可用性声明。
- 基础设施:推行期刊与数据存储库的集成投稿流程,使数据共享更便捷。
- 认可机制:推广数据论文出版,为数据集提供正式引用路径,弥补“学术认可缺口”。
- 中国合作:与中国科学院计算机网络信息中心合作,推广其通用数据存储库ScienceDB。
五、 核心建议与未来展望
报告提出了系统性建议:
- 加强政策落实:提供具体的数据共享全流程服务、资金支持和激励措施。
- 消解共享阻碍:完善数据引用规范以保障贡献者权益,加强数据管理人才队伍建设。
- 采用可信平台:鼓励科研人员使用如ScienceDB等公益性可信平台,低成本实现FAIR化共享。
- 合理利用AI:拥抱AI工具提升数据管理效率,同时关注其透明性与伦理风险。
未来展望:需要深化跨领域协同与国际合作,推动数据标准化与AI技术融合,构建安全可信、价值共创的数据生态,使高质量科学数据真正成为驱动科研范式变革的核心引擎。


