读完需要
速读仅需 2 分钟
近日,由Digital Science, Springer Nature与Figshare联合发布了一份《开放数据现状2025》报告,详细追踪了学术界从2016年到2025年间在 开放数据领域的转型历程。报告显示,FAIR原则意识显著提升,但对强制政策的热情下降。核心障碍在于激励不足导致的认可鸿沟。同时,AI工具正加速改变数据处理方式。未来需通过评估体系改革与技术赋能,推动开放数据由理念向实践深度跨越。#开放科学#开放数据#人工智能#
《开放数据现状报告》(The State of Open Data 2025)作为追踪全球研究人员对开放数据态度的重要年度研究,在2025年迎来了其发布的十周年。这份由Digital Science, Springer Nature和Figshare联合发布的报告,不仅是对过去十年开放科学运动的深度回顾,更是对未来十年研究生态系统演变的战略展望。通过对全球151个国家和地区、超过4,700名研究人员的调查,报告揭示了开放数据如何从一种"倡议"演变为"常态",同时也点出了依然制约其发展的深层结构性障碍。
FAIR 原则:从知道到参与
报告中最显著的趋势之一是研究界对 FAIR 原则(可发现、可访问、可互操作和可重用)认知度的飞跃。
1. 普及率的跃升: 自 2018 年引入相关问题以来,从未听说过 FAIR 原则的受访者比例从 59.6%锐减至 2025 年的 20.4%。目前,近 80%的研究人员至少对其有所了解,而熟悉该原则的比例已从 15.2%上升至 40.6%。
2. 学科间的协同进化: 尽管 STEM(科学、技术、工程、数学)领域在采用率上处于领先地位,但人文学科和社会科学也表现出了显著的进步。例如,工程学研究人员对 FAIR 的熟悉度从13.6%激增至45.6%,生物学从14.9%增至41.8%。商业与投资领域甚至见证了不熟悉率从80%下降到20%的巨大转变。
3. 实践的深化: 这种认知的提升标志着研究人员正从对原则的"被动承认"转向"主动参与",这为更广泛的开放科学实践奠定了基础。
政策执行的现实挑战
报告揭示了一个看似矛盾的现象:尽管研究人员对开放科学的总体支持依然强劲,但对国家层面强制令(Mandates)的热情却在显著下降。
全球范围的支持率下滑: 调查涵盖的10个主要国家中,对国家强制令的强烈支持比例自2016年以来均有所回落。澳大利亚的降幅最为剧烈,从63.2%降至27.4%;美国也从52.9%降至29.7%。
理想与现实的博弈: 专家认为,这种现象反映了研究人员在面对具体的执行压力和合规成本时,态度变得更加谨慎和务实。强制政策虽然能驱动初期增长,但如果缺乏配套的资金、工具和基础设施,往往会导致数据堆放而非高质量的共享。
内在意愿依然高涨: 值得关注的是,对开放科学实践本身的原则性支持依然稳固:88.1%的受访者支持开放获取,80.9%支持开放数据。这表明研究人员并非反对开放,而是更关注开放的方式和支持条件。

持续的"认可鸿沟":激励机制的滞后
报告直言不讳地指出,认可鸿沟(Credit Gap)是目前阻碍开放数据普及的最核心结构性障碍。
付出与回报的不匹配: 2025年的数据显示,69.2%的研究人员认为他们在分享数据方面获得的专业认可太少。虽然这一比例较2020年的 77.9%有所改善,但这种"付出巨大努力却无法体现在职业晋升和基金申请中"的普遍感受依然普遍存在。
评价体系亟待转型: 目前的科研评价体系仍高度依赖论文发表、作者身份和引用指标,往往忽略了数据集作为独立科研成果的价值。专家建议,必须将开放数据纳入正式的考核标准,甚至引入"微贡献"或"纳米属性" (Nano-attributions)来认可那些对数据本体和标准做出贡献的人员。
AI 的崛起:开放数据的新引擎
2024至2025年间,人工智能(AI)工具在研究流程中的应用经历了爆发式增长,从好奇转变为核心工具。
1. 全生命周期的渗透: AI在数据处理方面的活跃使用率从22.1%飙升至31.9%;在元数据创建方面的应用从16.1%增至25.1%。甚至在相对保守的数据采集环节,活跃使用率也达到了 23.5%。
2. 助力FAIR化进程: AI被视为提升数据互操作性的关键手段。专家预见,未来 AI 可以自动识别数据不一致、修正错误并自动生成符合标准的元数据,从而极大降低研究人员的负担。
3. 协同互惠: 开放数据为AI训练提供了高质量的燃料,而 AI 则反过来提升了数据的可用性和可重用性,两者呈现出明显的互惠关系。

区域差异与因地制宜的必要性
报告强调,开放科学不是一个"一刀切"的过程,不同地区和学科面临着截然不同的语境。
全球南方的崛起: 报告提到了非洲和拉丁美洲在发展适合本地的研究基础设施方面的努力。例如,非洲 PID 联盟利用现有的开源基础设施进行本土化创新,以保护和传播当地的知识遗产。
基础设施的演进: 在中国,国家材料腐蚀与防护科学数据中心等20 个国家级数据中心的建立,展示了政府主导的基础设施建设如何通过标准扩散推动 FAIR 原则的落地。
数据主权与安全: 随着开放程度的提高,研究安全和数据保护变得愈发重要。研究人员需要在开放合作与保护敏感信息(如珍稀物种、原住民知识或个人健康数据)之间寻找精细的平衡。
未来十年的行动建议
基于调查结果和专家访谈,报告提出了三项核心建议,旨在将开放数据从负担转化为研究的"默认路径":
改革研究评估体系: 确保数据分享在科研资助和职业晋升决策中获得应有的权重。数据集必须是可引用的、被机器读取的,并能衡量其影响力。
投资于实用的 AI 赋能方案: 推动期刊与存储库的深度集成,利用负责任的 AI 技术自动化处理元数据创建和质量检查,让共享变得更简单、更快速。
加强区域与学科的协同: 建立符合特定学科规范和本地文化需求的存储库及支持系统,避免盲目照搬通用标准。
结语
《开放数据现状报告2025》传达了一个明确的信息:过去十年是"意识觉醒"的十年,而接下来的十年必须是"操作落地"的十年。开放数据已经不仅仅是关于"为什么要开放",更是关于"如何高效、负责任且可持续地开放"。当研究评估能够认可数据贡献,AI 能够辅助数据处理,且基础设施能够支持多样化需求时,开放科学将真正释放其加速人类发现、提升科研诚信和驱动社会福利的全部潜力。
相关链接:
https://doi.org/10.6084/m9.figshare.30823079
版权声明:本公众号所有内容遵循CC BY-NC协议
内容声明:所有文章均为个人学习随笔,仅做学习交流使用,不代表任何立场


