中国科研学术评价体系研究报告

——历史演进、现实结构、国际比较、制度成因与改革路径

摘要

科研学术评价体系是国家创新体系与高等教育治理体系的重要制度支柱。它不仅影响科研资源的配置方式，也深刻塑造学术共同体的行为逻辑、知识生产方式、组织治理结构、人才流动路径和科研伦理环境。改革开放以来，中国科研学术评价体系伴随科技体制改革、高等教育扩张、国际学术体系接轨和国家创新战略升级而迅速发展，逐步形成以论文、项目、经费、奖项、人才称号、职称、平台、学科评估和机构排名等为主要构成要素的复合评价结构。这一体系在推动科研规模扩张、提升国际论文产出、增强组织竞争能力和支撑国家重大科技任务方面发挥了重要作用，但也在实践中暴露出一系列结构性问题：评价目标多元而评价工具单一，质量判断被标签化指标替代，短周期考核与长周期创新之间矛盾突出，行政逻辑、组织绩效逻辑与学术逻辑之间边界模糊，青年科研人员面临显著的职业不稳定和高压竞争，人文社会科学、本土问题研究和应用研究的独特价值未能得到充分制度承认，科研诚信风险与评价激励扭曲彼此耦合。

本报告在系统梳理中国科研学术评价体系历史演进的基础上，从委托—代理理论、科学社会学、组织治理理论、创新经济学和公共政策评估等多重视角出发，对中国现行科研评价的结构、机制、矛盾与改革路径进行了综合研究。报告首先对科研评价、学术评价、人才评价、机构评价、代表作评价和同行评议等核心概念进行了界定；其次对国内外文献进行了梳理，指出当前研究已形成关于分类评价、代表作制度、负责任指标和同行评议核心地位等若干共识，但在历史解释、制度耦合分析和可操作改革设计方面仍存在不足；随后从论文评价、项目评价、人才评价、机构评价、学科评估、大学排名、哲学社会科学评价、应用研究评价、青年科研人员评价和研究生评价等多个维度，对中国现行评价体系的运行特征和现实困境进行了深入分析；在国际比较部分，重点考察美国、英国、德国和日本科研评价体系的制度特点、优势、争议和适用边界，进而识别出中国问题的普遍性因素与本土制度放大机制；最后，本报告提出以“使命导向、分类评价、代表作制度、长周期考核、同行评议优化、数智化支撑、诚信底线与容错机制并重”为核心的新型科研学术评价框架，并从基础研究、应用研究、人文社会科学、青年人才、机构评价和配套治理等方面提出具体改革方案。

本报告的基本结论是：中国科研学术评价体系下一阶段改革的关键，不是简单减少若干指标、替换若干数据库或改写若干政策口号，而是要推动评价治理现代化，即从“以指标替代判断”转向“以证据支持判断”，从“统一模板竞争”转向“分类赛道发展”，从“短期显绩驱动”转向“长期价值导向”，从“身份标签主导”转向“岗位职责与真实贡献导向”，从“行政性评价压倒专业评价”转向“公共问责、组织治理与学术共同体协同”。只有在制度设计上真正承认科研活动的复杂性、长期性和多样性，才能建立既符合中国国家战略需求、又尊重学术规律、兼顾效率与公正的新型科研学术评价体系。

关键词：科研评价；学术评价；科技体制改革；破四唯；分类评价；代表作制度；同行评议；科研诚信；青年人才；机构评价

Abstract

The research and academic evaluation system constitutes a foundational institutional pillar of a nation’s innovation system and higher education governance. It not only determines how research resources are allocated, but also profoundly shapes the behavioral logic of academic communities, the mode of knowledge production, organizational governance structures, talent mobility, and the ethical environment of scientific research. Since the reform and opening-up era, China’s research evaluation system has evolved rapidly alongside science and technology reform, the expansion of higher education, integration into the global academic system, and the upgrading of national innovation strategy. It has gradually formed a composite structure centered on publications, research grants, funding volume, awards, talent titles, academic ranks, research platforms, disciplinary assessment, and institutional rankings. This system has played a significant role in expanding research scale, increasing international publication output, strengthening organizational competitiveness, and supporting major national scientific missions. However, it has also generated a range of structural problems: multiple evaluation goals constrained by overly simplified tools, substitution of substantive quality judgment by label-based metrics, tensions between short-term assessment cycles and long-term innovation, blurred boundaries between administrative logic, organizational performance logic, and academic logic, heavy pressure on early-career researchers, insufficient institutional recognition of the distinctive value of humanities and social sciences, local problem-oriented studies, and applied research, as well as a coupling between distorted incentives and academic integrity risks.

Based on a systematic review of the historical evolution of China’s research evaluation system, this report adopts a multi-theoretical perspective drawing on principal-agent theory, sociology of science, organizational governance theory, innovation economics, and public policy evaluation. It examines the structure, mechanisms, contradictions, and reform pathways of the current system. The report first defines key concepts such as research evaluation, academic evaluation, talent evaluation, institutional evaluation, representative works evaluation, and peer review. It then reviews the domestic and international literature, showing that a broad consensus has emerged around issues such as differentiated evaluation, representative works, responsible metrics, and the central role of peer review, while significant gaps remain in historical explanation, analysis of institutional coupling, and operational reform design. The report further analyzes China’s current evaluation practices from multiple dimensions, including publication evaluation, project assessment, talent evaluation, institutional evaluation, disciplinary assessment, university rankings, evaluation in the humanities and social sciences, evaluation of applied research, evaluation of early-career researchers, and graduate education assessment. In the comparative section, it examines the systems of the United States, the United Kingdom, Germany, and Japan, identifying both universal problems and China-specific amplification mechanisms. Finally, the report proposes a new framework centered on mission orientation, differentiated evaluation, representative works, long-term assessment cycles, peer review optimization, digital-intelligent support, and the combination of integrity constraints with tolerance for exploratory failure.

The report argues that the next stage of reform in China should not be limited to deleting a few indicators, replacing some databases, or adjusting policy rhetoric. Rather, it should advance toward modernization of evaluation governance: shifting from “metrics replacing judgment” to “evidence supporting judgment,” from “uniform competition” to “differentiated development tracks,” from “short-term visible performance” to “long-term value orientation,” from “label-dominated evaluation” to “position responsibility and real contribution,” and from “administrative dominance” to coordinated governance among public accountability, organizational management, and academic communities. Only by institutionally recognizing the complexity, long-term nature, and diversity of scientific and scholarly work can China establish a research evaluation system that both serves national strategic needs and respects academic laws of development.

Keywords: research evaluation; academic evaluation; China; differentiated evaluation; representative works; peer review; responsible metrics; research integrity; talent evaluation; institutional assessment

第一章绪论

1.1 研究背景

科研学术评价体系是现代国家创新体系中最具基础性、导向性和结构性意义的制度安排之一。科研活动并非在制度真空中发生，而是始终嵌入一套围绕资源配置、绩效问责、声誉形成、人才流动和组织治理构建起来的评价体系之中。评价标准决定什么样的成果被认为重要，什么样的人才更容易获得机会，什么样的研究方向能够得到持续支持，也决定高校、科研院所、医院和社会科学研究机构如何制定内部规则、分配有限资源并组织研究活动。换言之，评价并不是对科研活动的“事后裁判”，而是深度介入科研过程、塑造科研行为和重构学术生态的制度力量。

改革开放以来，中国科技事业和高等教育事业实现了跨越式发展。国家科研投入持续增长，科研人员规模快速扩大，高水平大学和科研机构加快建设，科研论文总量、国际合作水平和学科布局都发生了深刻变化。伴随这一过程，中国逐步建立起一套覆盖论文成果、竞争性项目、人才计划、学科评估、机构考核、职称晋升、科技奖励和各类排名的科研学术评价体系。应当承认，这套体系并非没有积极作用。它在特定历史时期有效促进了科研活动规范化、推动了国际发表能力提升、增强了组织竞争意识、改善了资源配置效率，并在相当程度上推动中国快速融入全球知识生产体系。

然而，随着中国科技发展阶段从“规模扩张”逐步转向“质量提升”，原有评价体系中若干长期积累的问题开始集中显现。尤其是在国家提出高水平科技自立自强、强化基础研究、加强原始创新和推动教育科技人才一体化发展的新背景下，评价制度与科研规律之间的结构性不适配问题越来越突出。科研评价实践中普遍存在的“重数量轻质量、重短期轻长期、重形式轻内容、重身份轻贡献、重标签轻判断、重管理便利轻学术规律”等倾向，不仅影响高质量科研成果的产生，也深刻影响学术生态、青年人才成长环境和科研诚信治理。

近年来，国家连续出台关于深化项目评审、人才评价、机构评估改革的文件，明确提出破除“唯论文、唯职称、唯学历、唯奖项”，反对在科技评价中简单使用SCI等指标，强调分类评价、代表作评价和以创新质量、贡献、绩效为核心的新导向。这意味着，中国科研学术评价体系已经进入一个从“问题识别阶段”迈向“制度重构阶段”的关键时期。当前真正需要回答的，不再只是“旧评价体系出了什么问题”，而是“如何建立一种既能够满足公共问责与治理效率要求，又能够尊重学术规律和科研长期性的评价新体系”。

因此，对中国科研学术评价体系进行系统研究，既具有明显的理论价值，也具有突出的现实政策意义。

1.2 问题提出

围绕中国科研学术评价体系，可以提出以下几个核心问题。

第一，中国科研学术评价体系是如何形成今天这种结构的？任何现实中的制度都不可能脱离其形成历史。今天广泛存在的论文导向、项目导向、帽子导向、排名导向和绩效导向，都不是凭空出现的，而是特定历史时期国家治理逻辑、科技体制改革、高校竞争格局和国际学术体系共同作用的结果。若不追溯制度形成过程，就很难判断哪些问题属于历史阶段性现象，哪些问题已经成为结构性障碍。

第二，当前中国科研评价体系的核心结构是什么？现实中，人们经常分别讨论“唯论文”“唯帽子”“SCI崇拜”“项目依赖”“大学排名”等现象，但这些问题往往并非孤立存在，而是共同嵌入一个由论文、项目、人才称号、平台、机构声誉和资源配置相互强化的复合结构中。因此，有必要从系统角度揭示这些子制度之间的耦合关系。

第三，当前评价体系的主要问题和深层成因是什么？评价异化并不只是少数管理规定不合理，也不仅仅是科研人员“功利化”造成的。更深层的原因可能涉及公共资源配置中的信息不对称、行政层级结构中的层层加码、组织治理对可视化绩效的偏好、学术共同体发展不平衡以及国际评价工具在本土环境中的行政化使用。只有识别制度根源，改革才可能真正触及问题核心。

第四，面向未来，中国应当建立什么样的科研学术评价体系？“破四唯”只是改革的起点，而不是终点。问题的关键在于：在减少单一指标依赖之后，新的评价标准如何设计？不同学科和不同研究类型应如何分类？代表作制度如何防止流于形式？同行评议如何提高公信力？数据指标如何从“替代判断”转为“支持判断”？这些都是制度设计层面必须回答的问题。

1.3 研究目的与意义

1.3.1 理论意义

科研评价问题横跨高等教育学、科学学、公共管理学、社会学、创新政策研究和组织理论等多个领域。中国科研学术评价体系兼具全球化影响与本土制度特征，是研究现代国家如何治理知识生产活动的重要窗口。对其展开深入分析，有助于推进对以下问题的理解：

·国家治理与学术自治的关系

·绩效制度如何影响知识生产

·学术共同体与组织治理如何相互作用

·指标、排名与声誉结构如何重塑科研行为

·公共资源配置中的公平、效率与质量如何平衡

1.3.2 政策意义

当前中国科研评价改革已进入政策密集出台阶段，但基层执行仍面临较大困难。系统研究有助于：

·梳理政策之间的逻辑关联；

·识别改革落地中的主要堵点；

·为科技、教育、人事、财政和组织治理政策提供协同建议；

·为高校、科研院所、医院和智库机构提供制度设计参考。

1.3.3 实践意义

对科研机构而言，评价制度直接影响内部资源分配、岗位竞争和学术生态。合理的评价制度能够激励原创研究、稳定青年人才、减轻无效行政负担并促进科研诚信建设；不合理的评价制度则会加剧形式主义、制造短期行为并损害组织长期创新能力。因此，本研究对于科研组织内部治理优化也具有直接实践价值。

1.4 研究思路、研究方法与报告结构

本报告总体采用“历史演进—现实结构—国际比较—制度成因—改革方案”的研究路径。

在研究方法上，主要使用以下几种方法：

政策文本分析法对改革开放以来尤其是近年来关于科技评价、教育评价、人才评价和科研诚信的政策文件进行系统梳理。
制度分析法从制度结构、治理逻辑和组织行为三个层面分析科研评价的运行机制。
比较研究法对美国、英国、德国和日本科研评价体系进行比较，识别可借鉴经验及其适用边界。
规范分析法结合中国现实和国际趋势，提出具有可操作性的改革框架与政策建议。
综合归纳法对国内外文献、政策导向和现实问题进行整合，形成系统性判断。

在报告结构上，全文共分二十一章。前五章为理论与历史基础部分，第六章至第十二章为现实结构分析部分，第十三章至第十五章为国际比较与制度成因部分，第十六章至第二十章为改革方案部分，第二十一章为总体结论。

第二章核心概念界定与分析边界

科研学术评价研究涉及多个相近概念，如果不加区分，容易导致分析层次混乱和论证对象漂移。因此，本章对核心概念进行界定，并明确本报告的分析边界。

2.1 科研评价与学术评价

“科研评价”通常指对科学研究活动及其投入、过程、产出、绩效和影响所进行的系统判断。它强调的是科研活动在治理、资源配置和公共责任层面的可评价性，因此常常与项目管理、经费使用、组织绩效和政策执行联系在一起。

“学术评价”则更强调对知识创新质量、理论贡献、方法创新、学术原创性和学术共同体认可程度的判断。相较于科研评价，学术评价更接近知识生产活动本身，更多体现专业标准和学术自治逻辑。

两者既有重合，又不完全相同。科研评价偏向治理和分配，学术评价偏向质量和价值。中国现实中的一个重要问题，正是科研管理逻辑不断进入学术判断领域，导致学术评价被管理绩效化。

2.2 科研绩效评价与学术质量评价

“科研绩效评价”通常强调效率、目标完成度和可见产出，如论文数、项目数、经费额、专利量、转化收入等。它在组织管理中有其必要性，但问题在于，若绩效评价被直接等同于学术质量评价，就会发生目标错配。学术质量评价应更多关注：

·问题是否重要

·研究设计是否严谨

·创新是否真实

·证据是否可靠

·贡献是否具有持续价值

因此，绩效与质量之间并非完全一致。

2.3 人才评价、成果评价、项目评价与机构评价

本报告将科研学术评价体系中的核心对象划分为四类：

1.人才评价：针对科研人员和教师的招聘、晋升、职称、人才计划和岗位考核。

2.成果评价：针对论文、专著、专利、软件、标准、报告、临床指南和艺术作品等成果形式。

3.项目评价：针对科研项目的立项、中期、结题和后评估。

4.机构评价：针对大学、科研院所、学科、实验室、医院科研平台等组织单元。

这四类评价彼此嵌套：成果影响人才，人才影响项目，项目影响机构，机构又反过来塑造人才和成果评价标准。

2.4 代表作评价、分类评价与同行评议

“代表作评价”是相对于成果总量考核提出的制度理念，强调以少量最具代表性的成果体现研究者或机构的真实水平和贡献。

“分类评价”是指根据研究类型、岗位属性、机构定位和职业阶段，对评价标准进行差异化设计。其核心不是降低标准，而是提高标准与对象之间的适配性。

“同行评议”是指由具有相近专业背景和判断能力的专家对研究成果、项目、人才或机构进行评价。同行评议是现代科研评价的核心机制之一，但在具体实践中也存在利益冲突、保守偏好和责任不足等问题。

2.5 本报告的分析对象与边界

本报告讨论的是“科研学术评价体系”，主要聚焦中国高校、科研院所、医院和哲学社会科学研究机构中的正式评价制度及其衍生实践。虽然相关问题也与中小学教育评价、产业绩效考核和科技成果转化政策有关，但这些领域不作为本报告的重点展开对象。报告主要关注：

·评价制度如何形成

·如何运行

·有何问题

·问题为何产生

·如何改革

第三章文献综述

3.1国外相关研究综述

国外关于科研评价的研究大致可以归纳为四类：科学社会学与学术规范研究、科学计量与指标研究、绩效治理与大学管理研究、负责任研究评价与改革研究。

3.1.1 科学社会学与学术规范研究

默顿关于科学规范的研究指出，科学共同体建立在普遍主义、公有主义、无私利性和有组织怀疑等规范之上。学术评价若偏离这些规范，就可能损害科学活动的真实性和公共性。布迪厄则从学术场域和资本竞争角度说明，学术评价不仅是知识判断，也是一种声誉和象征资本分配机制。Lamont 等关于学术评审的研究表明，不同学科在判断标准和评审文化上差异显著，同行评议并非单一尺度的机械过程。

3.1.2 科学计量与指标研究

Garfield建立引文索引后，科学计量学为科研评价提供了大量工具，包括论文数量、被引次数、影响因子、h指数和学科归一化指标等。此类研究的贡献在于，能够从宏观层面描述科研产出结构、知识传播路径和合作网络。然而，随着指标越来越多地被用于管理，相关研究也强调其局限性。Seglen指出期刊影响因子不适合直接用于评价个体研究质量。Leiden Manifesto 和 The Metric Tide 报告都强调，指标只能支持而不能替代专业判断。

3.1.3 绩效治理与大学管理研究

新公共管理影响下，大学和科研机构越来越多地被纳入绩效治理体系。Hicks关于绩效导向科研拨款制度的研究表明，评价方式会深刻影响大学组织行为。Gläser、Laudel等则指出，外部绩效控制改变了研究者选题结构和科研时间分配，使研究更趋保守和短期化。Stephan从经济学角度分析科学研究，说明科研人员会理性回应制度激励，从而导致“为发表而研究”或“为基金而研究”等行为。

3.1.4 负责任研究评价研究

近年来，DORA 宣言、开放科学改革、responsible metrics 和 responsible research assessment 等理念不断发展。Moher等人主张在招聘、晋升和终身教职评价中更加重视数据共享、可重复性、团队合作和社会贡献，而非单一依赖发表数量和期刊影响因子。Muller 的《指标暴政》则从更广泛角度批评了现代组织中过度依赖指标的问题。

3.2 国内相关研究综述

国内研究主要集中在以下几个领域：

3.2.1 科技评价改革研究

围绕“破四唯”“分类评价”“代表作制度”“科技评价改革”等议题，国内学界已进行了大量讨论。多数研究认为，中国科研评价存在指标化、短期化、行政化和同质化问题，亟需建立多元分类的新评价体系。

3.2.2 论文评价与SCI研究

大量研究关注SCI崇拜、期刊分区、论文奖励和高水平论文考核问题，指出SCI指标在中国被过度行政化和利益化，导致本土议题研究弱化、中文期刊边缘化和学术不端风险增加。

3.2.3 人才评价与“帽子化”研究

研究者普遍指出，人才计划和各类高层次人才称号在实践中演变为身份标签和资源分配依据，形成“帽子化”问题，进而扭曲人才流动和组织行为。

3.2.4 大学治理与学科评估研究

关于大学排名、学科评估和双一流建设的研究表明，外部评价标准会被高校内部治理内化为刚性考核规则，从而加剧教师的论文和项目压力。

3.2.5 哲学社会科学评价研究

相关研究指出，人文社科成果形式多样、影响周期长、语言文化嵌入性强，不能简单套用自然科学的索引和项目指标评价体系。

3.3 现有研究的主要共识

综合国内外研究，可以提炼出若干共识：

1.科研评价不可取消，但不能简单化。

2.同行评议仍是高质量评价的核心机制。

3.指标应作为辅助证据，而非唯一标准。

4.分类评价是解决统一模板失配问题的关键。

5.评价制度会反向塑造科研行为，因此改革评价就是改革科研生态。

3.4 现有研究的不足与本报告的切入点

现有研究虽然丰富，但仍存在若干不足：一是对中国评价体系历史形成逻辑的系统梳理不足；二是对论文、项目、人才、机构等子系统之间的耦合分析不足；三是对政策传导到组织执行层面的“层层加码”机制分析不足；四是国际比较往往停留在制度表象借鉴层面；五是可操作改革方案仍需更细化。

因此，本报告的切入点在于：将科研学术评价作为一个完整制度系统加以分析，并在历史、结构、比较和改革设计之间建立连续逻辑。

第四章理论基础与分析框架

4.1 委托—代理理论

科研治理中存在多重委托—代理关系：国家是公共资金的最终委托者，资助机构和高校管理者是中间代理者，科研人员是具体执行者。由于信息不对称，委托方往往依赖量化指标和标准化程序来监督代理方。但代理指标一旦过度强化，就会发生“指标替代目标”现象。例如，本来用来间接反映研究水平的论文数量，可能逐渐变成被直接追求的目标。

4.2 新公共管理与绩效治理理论

新公共管理强调绩效、竞争、问责和量化管理。高校和科研机构在这一治理逻辑下，越来越多地被要求用可见数据证明成效。中国科研评价中的大量积分制、排名制、绩效考核制度，可以在这一理论框架下得到解释。

4.3 科学社会学与学术场域理论

科学社会学提醒我们，学术共同体具有专业自治和独特规范。布迪厄的学术场域理论则说明，学术世界并非纯粹去利益化，而是存在声誉、资本和权力竞争。评价制度既是质量判断机制，也是场域权力分配机制。

4.4 组织治理理论

高校和科研院所是典型的多目标组织，既要追求科研成果，也要承担人才培养、社会服务、行政任务和组织稳定。面对多重目标，组织管理者会偏好可比较、可统计、可汇报的指标。因此，很多评价问题并不只是政策问题，也是复杂组织内部治理的结果。

4.5 创新经济学与知识生产理论

基础研究、应用研究和试验开发的时间尺度、风险结构和成果形式不同。基础研究更强调原创性和长期价值，应用研究更强调场景验证和产业协同，社会科学更强调理论解释力和现实回应能力。因此，创新经济学为分类评价提供了理论支持。

4.6 本报告的综合分析框架

本报告采用“三层—四维”框架：

三层结构

1.宏观治理层：国家政策、财政制度和评价改革导向

2.组织实施层：高校、院所、医院等机构内部规则

3.学术行为层：研究者选题、发表、申报和合作行为

四个维度

1.评价目标

2.评价工具

3.评价周期

4.评价后果

基本分析命题是：当评价目标复杂而工具单一、周期过短且后果过强时，科研行为将趋于短期化和策略化。

第五章中国科研学术评价体系的历史演进

5.1 恢复重建阶段（1978—1991年）

改革开放初期，中国科研和高等教育体系处于恢复重建阶段。此时评价制度的主要目标是恢复学术秩序、重建人才制度、恢复职称和科技奖励机制。其特点是：

·职称评审制度恢复

·科技奖励制度重建

·重点学科和实验室建设起步

·专家鉴定和行政组织在评价中占主导

·量化程度相对有限

这一时期奠定了现代科研评价的基本制度基础，但总体仍以恢复性、资格性评价为主。

5.2扩张与项目化阶段（1992—2005年）

随着社会主义市场经济体制建立、高校扩招和科技体制改革推进，科研资源配置逐渐走向竞争化和项目化。国家自然科学基金、863计划、973计划等资助体系不断成熟，“211工程”“985工程”等政策推动高校竞争加剧，国际论文发表逐渐成为重要评价依据。量化管理开始普及，科研评价逐步从资格认定转向竞争筛选。

5.3指标强化与全球接轨阶段（2006—2017年）

这一阶段是中国科研评价指标化最显著的时期。SCI、SSCI、EI、CSSCI、JCR分区、ESI、影响因子、高被引、国家项目数量、经费总量、人才计划和奖项等级等广泛进入机构和个人评价。其积极作用在于提升了中国科研国际可见度和组织竞争意识，但也带来了论文崇拜、帽子化、短期化和学术不端风险上升等问题。

5.4“破四唯”与分类评价改革阶段（2018年至今）

近年来，中央密集出台一系列关于科技评价和教育评价改革的政策，强调破除“唯论文、唯职称、唯学历、唯奖项”，明确反对简单以SCI相关指标作为直接依据，推动代表作制度和分类评价。尽管改革方向已较清晰，但基层实践中仍存在执行惯性强、替代机制不足和组织层面重新量化的问题。

5.5 历史演进的总体特征

中国科研学术评价体系的演进大致表现为：

·从恢复秩序到组织竞争

·从专家判断到指标治理

·从单纯学术判断到治理工具复合化

·从国际接轨到本土适配反思

·从局部修补走向系统重构

第六章中国现行科研学术评价体系的总体结构

6.1 评价体系的基本构成

现行中国科研学术评价体系可划分为五个子系统：

1.成果评价子系统

2.项目评价子系统

3.人才评价子系统

4.机构与学科评价子系统

5.学术共同体与第三方评价子系统

这些子系统共同构成一个多层级、强耦合的复合结构。

6.2 评价主体结构

主要参与主体包括：

·政府与主管部门

·资助机构

·高校、科研院所、医院等组织

·学术共同体与专家群体

·第三方数据库、排名机构和评价平台

不同主体在评价中承担不同角色，但在现实中经常相互叠加。

6.3 评价运行机制

6.3.1指标嵌套机制

论文影响人才评价，人才影响项目获取，项目影响机构声誉，机构声誉进一步提升人才吸引力和资源配置能力。

6.3.2层层传导机制

上级政策通过地方、机构、院系逐级分解，在每一级都可能被更刚性地量化和硬化。

6.3.3锦标赛竞争机制

项目、帽子、排名和平台都具有明显的相对排序特征，形成高压竞争环境。

6.3.4声誉累积机制

既有成果、头衔和平台优势在后续评价中不断发挥累积效应，形成马太效应。

6.4 现行体系的基本特征

·多层级治理与高耦合运行并存

·管理目标多元而评价工具趋同

·组织实施层具有决定性影响

·评价结果与岗位、经费和声誉高度绑定，具有强后果性

6.5 结构性分析判断

可以将中国现行科研评价概括为：以国家政策和公共资源配置为上游驱动、以组织内部绩效治理为中介、以论文—项目—人才—平台—机构声誉耦合结构为核心链条、并以量化指标与同行评议混合为技术路径的复杂治理系统。

第七章论文、期刊与科研成果评价

7.1 论文成为核心评价载体的原因

论文在中国科研评价中占据中心位置，主要因为：

1.论文高度标准化、可见性强；

2.便于跨机构、跨时期比较；

3.与国际学术体系有直接接口；

4.管理成本相对较低。

因此，论文成为大规模科研治理中的低成本代理变量。

7.2 论文评价的积极作用与历史贡献

必须承认，论文评价在中国科研发展中发挥过重要作用：

·推动科研活动规范化

·提升国际发表能力和国际可见度

·为资源配置提供基础证据

·倒逼机构加强平台建设和科研训练

问题不在于“有没有论文评价”，而在于“如何使用论文”。

7.3 从论文评价到期刊替代的简化逻辑

现实中，许多组织并不真正阅读论文，而是通过期刊级别、分区、影响因子等代理论文质量，形成如下简化链条：

这一逻辑方便管理，却不断累积失真。

7.4 SCI中心化、分区崇拜及其后果

SCI在中国被高度行政化使用，产生以下后果：

·研究选题趋向国际热点而非本土重大问题

·中文学术共同体建设被削弱

·分区等级成为硬门槛

·科研行为风险规避加剧

·学术不端诱因增强

7.5 论文数量导向与碎片化生产

当论文数量与奖金、职称和岗位直接挂钩时，研究者会采取切片发表、分散投稿等策略，导致研究系统性下降、重复劳动增加和知识生产碎片化。

7.6 引用指标、高被引与影响力评价的局限

引用和高被引数据可以反映传播范围，但并不等于学术质量。不同学科引用规律差异巨大，短期高被引更容易偏向热门方向，难以识别长期价值。

7.7 代表性成果多样性不足

现实中，专著、数据库、软件、标准、临床指南、装置平台和政策报告等多种成果形式常常得不到与论文相当的制度承认，导致成果评价形式单一化。

7.8 论文评价改革的关键问题

未来改革的关键，不是取消论文，而是改变其制度位置：

·从总量清单转向代表作

·从期刊标签转向内容判断

·从唯一标准转向重要证据之一

·从统一门槛转向分类使用

第八章项目评审与经费配置评价

8.1 项目制在科研治理中的中心地位

项目制是中国科研治理的核心组织形式。通过项目申报、立项、执行、验收和后评估，国家将科研任务切分为可管理单元。项目制增强了资源配置的竞争性和针对性，但也使科研活动高度项目化。

8.2 项目评价的主要环节

项目评价通常包括：

·立项评审

·过程评价

·中期检查

·结题验收

·后评估

其中，立项评审和结题验收最受关注，但后评估往往较弱。

8.3 项目评价中的关键问题

8.3.1 前期基础权重过高

已有资源和头衔者更容易持续获批项目，形成马太效应。

8.3.2 高风险研究难获支持

评审通常偏好前期基础充分、技术路线清晰、结果可预期的申请，高风险高价值研究天然处于不利位置。

8.3.3 申请书竞争替代真实能力竞争

包装能力、叙事技巧和材料美观性有时对评审结果产生不成比例影响。

8.3.4 过程管理形式化

重复填报、材料检查和节点考核常常占用大量时间，却不一定提升研究质量。

8.3.5 结题重完成轻贡献

很多结题验收看重是否完成承诺数量指标，而不是真实科研贡献和长期影响。

8.4 经费评价与科研行为之间的关系

竞争性经费比例过高，会使科研人员长期处于“申请—执行—结题—再申请”的循环中。到账经费在许多单位还被视为能力代理变量，但经费规模并不直接等同于学术质量。

8.5 项目评价改革方向

·区分不同类型项目的评价逻辑

·降低对既有头衔和资源的隐性依赖

·增加高风险探索项目比例

·改进结题与后评估机制

·减少无效管理负担

第九章人才评价、职称评价与“帽子化”现象

9.1 人才评价的制度位置

人才评价贯穿招聘、岗位聘任、职称晋升、人才计划、绩效分配和导师资格认定等关键环节，直接决定科研人员的职业命运和资源获取能力。

9.2 人才评价的典型指标结构

现实中常用指标包括：

·论文数量与等级

·项目数量与级别

·奖项等级

·经费总额

·海外经历

·学术兼职

·专利与转化

·教学与培养成果

在很多机构，这些指标进一步被刚性化为门槛条件。

9.3 职称评价：从专业认定到绩效竞争

职称评价原本是专业资格认定制度，但在实践中承担了薪酬、岗位、声誉和人才计划前置条件等多重功能，因此压力被显著放大。主要问题包括：

·指标门槛刚性化

·岗位差异区分不足

·过程成长难以体现

·评价周期与科研规律错配

9.4 “帽子化”现象及其制度后果

各类高层次人才称号逐渐演变为身份标签，并与额外薪酬、团队名额、平台资源、组织声誉深度绑定，形成“帽子化”。其后果包括：

·身份替代能力

·资源进一步向头部集中

·人才流动市场扭曲

·青年学者焦虑加剧

9.5 预聘—长聘制度的中国实践

预聘—长聘制度在提升竞争和透明度方面有积极作用，但也带来短期高压、青年回避高风险研究、教学与科研双重挤压等问题。制度本身不是问题，关键在于是否与合理的评价周期和稳定支持相匹配。

9.6 人才评价中的结构性矛盾

·能力识别与身份标签之间的矛盾

·公平竞争与累积优势之间的矛盾

·短期筛选与长期成长之间的矛盾

·统一标准与岗位差异之间的矛盾

9.7 人才评价改革方向

·从身份导向转向岗位职责导向

·从数量积累转向代表作与真实贡献

·从单次筛选转向过程支持

·从帽子竞争转向资源支持制度化

第十章机构评价、学科评估与大学排名

10.1 机构评价的类型与作用

中国的机构评价包括高校整体科研评价、学科评估、双一流建设考核、重点实验室评估、科研院所绩效评价和医院科研排名等。其结果不仅影响资源配置，也深刻塑造组织内部治理。

10.2 学科评估的制度功能

学科评估有助于高校了解优势与短板、优化资源布局和服务双一流建设，但若过度标签化，也可能诱发“冲指标”“短期突击”和同质化竞争。

10.3 排名逻辑对高校行为的塑造

排名不仅是信息工具，更是组织竞争坐标。它影响引才、招生、声誉和资源争取。为改善排名，高校常常重金引进高被引人才、集中资源投入高产出领域，进而影响内部学科结构和平衡。

10.4 机构评价中的主要问题

·总量指标忽视规模差异

·研究型标准泛化至所有高校

·学科均质化

·外部评价被内部刚性化为个体考核标准

10.5 机构评价中的组织理性问题

对组织管理者而言，论文数、经费数、人才数和排名是可展示、可比较、可问责的绩效资产。这种组织理性与学术理性并不总是一致，由此构成评价失真的深层来源。

10.6 机构评价改革方向

·强化分类定位

·弱化简单排序

·提高学术生态和治理质量权重

·延长评价周期

·强化外部评估与内部改进联动

第十一章哲学社会科学评价、应用研究评价与医学科研评价

11.1 哲学社会科学评价的特殊性

哲学社会科学成果形式多样，包括专著、论文、译著、文献整理、田野资料、数据库、政策咨询报告、教材和公共传播成果等。其影响周期较长，语言文化嵌入性强，不能简单套用自然科学的索引与论文数量逻辑。

11.2当前哲学社会科学评价的主要问题

·索引化倾向过强

·专著评价机制不成熟

·决策咨询评价过于粗糙

·理论原创性识别能力不足

11.3应用研究评价的特殊性与现实困境

应用研究关注技术成熟度、工程实现、产业协同和场景应用，但现实中常被专利数量、横向经费和技术合同金额等简化指标替代。这样容易低估关键链条贡献和中长期技术价值。

11.4 医学科研与临床研究评价问题

医学科研兼具基础、临床与转化特征。单纯以SCI分区评价临床医生科研，会忽视临床指南、真实世界证据、路径优化和患者获益等关键贡献。

11.5 分类评价的必要性

人文社科、应用研究和医学研究的共同问题是：被统一模板化评价，成果多样性难以得到制度承认，长期影响和链条贡献难以被短期指标识别。这进一步证明分类评价不是可选项，而是必要条件。

第十二章青年科研人员、博士后与研究生评价困境

12.1 青年科研人员的结构性位置

青年科研人员通常面临资源不足、岗位不稳、平台较弱和多重任务叠加等处境，是最容易受到高压评价结构影响的群体。

12.2 青年科研人员的主要评价压力

·快速发表压力

·项目获取压力

·教学、行政与科研多任务叠加

·“起跑线不平等”问题

12.3 博士后评价困境

博士后本应是独立科研能力形成阶段，但现实中常被作为高强度科研劳动力使用，评价过于强调论文和基金，独立性培养不足。

12.4 研究生评价困境

部分高校将博士毕业与核心期刊或SCI发表刚性绑定，导致学位评价被外部期刊审稿节奏左右，研究训练目标被论文发表目标替代。

12.5 制度后果与改革方向

这种评价环境会：

·抑制长期原创研究

·加剧青年职业焦虑

·增加学术不端风险

·损害学术共同体代际再生产质量

改革方向应包括：发展性评价、延长关键考核周期、降低毕业与发表刚性绑定、提供制度弹性与支持。

第十三章国际比较：美国科研评价体系

国际比较的意义，不在于为中国科研评价改革寻找可以机械移植的“标准答案”，而在于通过对不同国家制度结构、评价工具、组织文化和资源配置方式的考察，识别科研评价的一般规律与中国问题的特殊形成机制。美国科研评价体系因其学术影响力、制度复杂性和国际示范效应，常被视为重要参照对象。然而，必须强调，美国并不存在一个统一的、中央集权式的科研评价总框架，而是由联邦资助机构、大学自治制度、学术共同体、基金会、市场声誉机制和排名体系共同构成的分散化评价生态。

13.1 美国科研评价体系的总体特征

13.1.1 分散治理而非统一行政评价

美国科研评价体系的首要特征是分散化。联邦政府虽然通过国家科学基金会（NSF）、国立卫生研究院（NIH）、能源部、国防部等机构向科研投入大量资源，但并不通过统一的全国性行政评价制度对所有高校和科研机构实施标准化考核。不同资助机构、不同大学、不同学科和不同研究组织拥有较大的制度差异。

这种分散治理的结果是：美国科研评价并不表现为一种由单一行政权威统一施加的指标体系，而更像一个由多元行动者构成的竞争性声誉场域。评价标准并非完全一致，但学术共同体内部存在广泛共享的高质量研究标准。

13.1.2 同行评议始终居于核心地位

无论是项目评审、期刊审稿、终身教职评审还是学术奖项遴选，美国科研评价始终将同行评议置于中心位置。数据指标可以作为背景信息，但通常并不直接作为唯一标准。研究问题的重要性、研究设计的严谨性、原创性、潜力和同行认可，往往比简单的数量统计更为关键。

13.1.3 大学自主权与学术职业制度结合紧密

美国大学在人员聘任、终身教职评审、学科布局和内部科研考核方面拥有较强自主权。不同高校之间评价文化差异较大：顶尖研究型大学往往更重视原创性和外部同行评价，一些教学导向型院校则更强调教学表现与岗位匹配。这种差异化制度环境，为分类评价提供了组织基础。

13.1.4 声誉竞争具有极强驱动力

虽然美国没有全国统一科研考核制度，但这并不意味着其科研评价压力小。相反，美国的大学排名、学术声誉、基金获取能力、顶尖期刊发表和学术网络具有极强的分层效应。换言之，美国科研体系不是“无评价”，而是“强竞争、弱统一行政”的评价生态。

13.1.5 多元经费来源减弱单一标准垄断

美国科研经费来源多元，除联邦经费外，还有州政府投入、慈善基金会资助、企业合作经费、校内支持和社会捐赠等。这种多元化经费结构，在一定程度上避免了单一资助方通过单一评价逻辑全面支配科研活动。

13.2 联邦资助机构与项目评审机制

美国科研评价中最重要的组成部分之一，是联邦资助机构的项目评审制度。

13.2.1 NSF评审机制及其逻辑

NSF长期强调两个核心评价维度：

1.Intellectual Merit（学术价值）

2.Broader Impacts（更广泛影响）

“学术价值”强调研究问题的重要性、研究设计的创新性与严谨性、研究团队能力等；“更广泛影响”则要求研究者说明研究对教育、人才培养、社会发展、公众理解科学、数据共享等方面的潜在贡献。这一制度安排说明，美国高水平项目评审并不满足于只判断“能否出论文”，而是试图在保持学术卓越的同时，将科研活动与更广泛公共价值联系起来。

13.2.2 NIH评审机制及其特点

NIH项目评审更集中于生物医学研究，其常见评价维度包括：

·Significance（重要性）

·Investigator(s)（申请者能力）

·Innovation（创新性）

·Approach（研究方案）

·Environment（研究环境）

这种结构有较强的操作性，但也经常被批评对“前期基础”和“成熟方案”偏好较强，不利于高风险、颠覆性创新。

13.2.3 美国项目评审的优势

美国项目评审的优势主要在于：

·专业同行深度参与；

·评审规则与利益回避较为成熟；

·不同资助机构评价维度相对清晰；

·对研究内容本身的讨论相对充分。

13.2.4 美国项目评审的局限

美国项目评审也并非没有问题：

·强者恒强现象明显；

·成熟团队和名校背景常有隐性优势；

·同行评议存在保守性；

·成功率降低后，申请材料竞争与叙事包装问题同样存在；

·青年学者尤其在高竞争领域面临巨大压力。

因此，美国并不是没有“项目依赖”问题，而是在分散竞争环境中以另一种形式表现出来。

13.3 高校人才评价：招聘、终身教职与晋升

13.3.1 招聘评价中的潜力导向

美国高校招聘通常综合考虑：

·博士培养背景

·论文与代表性成果质量

·推荐信

·研究计划

·学术报告表现

·教学潜力

·与本系发展方向的契合程度

在这一过程中，未来潜力与学术独立性往往受到重视。相比于纯粹的数量门槛，美国招聘更强调对候选人“未来会做成什么”的判断。

13.3.2 终身教职评价的核心逻辑

终身教职制度是美国学术职业体系的重要节点。尽管各校标准不一，但通常会综合考察：

·是否形成独立研究方向

·是否产出有影响力的代表性成果

·是否获得外部同行认可

·是否具备长期持续发展能力

·教学和服务是否达到基本标准

终身教职评价中，校外同行函评通常非常关键。其制度逻辑是：让外部学术共同体而不仅是校内行政层面对候选人的学术地位作出判断。

13.3.3 美国人才评价的问题与争议

美国模式的主要争议包括：

·名校与核心学术网络优势显著；

·终身教职岗位相对缩减，非终身轨岗位增加；

·软经费研究岗位对项目依赖严重；

·女性和少数群体在职业晋升中仍面临结构性障碍；

·指标虽然不总是硬性写入制度，但期刊声誉和基金情况在实际判断中仍有很大影响。

这说明，美国的人才评价更依赖专业判断，但并未摆脱声誉结构和资源不平等问题。

13.4 排名、声誉与机构竞争

美国没有统一国家科研机构绩效评价制度，但大学之间的排名竞争极其激烈。US News、QS、Times Higher Education 等排名，尽管不具正式行政权力，却对大学行为产生巨大影响。大学会围绕以下方面展开竞争：

·高水平教师引进

·顶尖学生吸引

·经费总量与捐赠能力

·学科声誉

·顶刊发表和获奖情况

·校友网络和社会影响

这说明，即使不存在集中行政考核，市场化声誉机制也足以形成强大评价压力。

13.5 美国经验对中国的启示

13.5.1可借鉴之处

1.坚持同行评议中心地位

2.在人才评价中更加重视代表性成果与学术潜力

3.增强大学和机构的分类自主权

4.通过多元资助方式缓解单一评价标准的支配

13.5.2 不可简单照搬之处

1.美国制度建立在成熟学术共同体和大学自治传统之上；

2.分散治理并不等于没有不平等和压力；

3.中国公共资源配置方式与大学治理结构不同；

4.若简单移植形式，可能导致表面去行政化、实际关系化。

因此，中国对美国经验的借鉴，应聚焦“专业判断、机构差异、自主与责任平衡”的原则，而非模仿其表面形式。

第十四章国际比较：英国、德国与日本

14.1 英国科研评价体系及REF机制

英国科研评价体系最具代表性的制度安排是研究卓越框架（REF）。与美国分散化治理不同，英国采用国家层面周期性组织的大规模机构研究评价，并将结果与部分拨款直接挂钩。

14.1.1 REF的基本结构

REF通常围绕三个维度进行评价：

1.研究成果（Outputs）

2.研究影响（Impact）

3.研究环境（Environment）

其中，“研究成果”并非要求提交全部成果，而是强调少量代表作；“研究影响”要求高校通过案例展示研究对社会、文化、经济、政策或公共服务产生的实际影响；“研究环境”则关注机构支持条件、人才培养和组织战略。

14.1.2 REF的代表作逻辑

REF强调代表性成果而非总量堆积，这一点对中国有很强启发。通过限制提交数量，REF在制度上抑制了单纯以论文数量取胜的路径，并鼓励机构挑选真正高质量、有代表性的研究成果。

14.1.3 影响案例评价的创新与争议

英国将研究影响纳入正式科研评价，是国际上具有标志性的做法。其优点在于：

·强调科研与社会的联系；

·为人文社科和应用研究提供更多价值表达渠道；

·扩展科研评价的维度。

但其问题也很明显：

·案例准备成本高；

·归因困难；

·容易出现包装化叙事；

·机构可能偏向容易展示外部影响的研究。

14.1.4 REF的经验启示

REF说明，代表作评价和多维度评价是可行的，但也提示我们：一旦评价与大规模资源竞争强绑定，任何制度都可能引发新的策略化行为。

14.2 德国科研评价体系与机构分类分工

德国科研体系以组织分工清晰著称。大学、马克斯·普朗克学会、弗劳恩霍兹联合会、弗劳恩霍夫协会、莱布尼茨协会等承担不同类型科研任务，因此评价制度也体现出明显的分类导向。

14.2.1 德国科研组织分工

·大学：科研与人才培养并重

·马克斯·普朗克学会：高水平基础研究

·弗劳恩霍夫协会：面向应用和产业合作

·亥姆霍兹联合会：国家战略和大科学装置

·莱布尼茨协会：兼顾基础与应用的综合研究机构

这一分工本身就为分类评价提供了前提。

14.2.2 稳定支持与竞争支持并存

德国科研经费中，稳定支持经费占较重要地位，竞争性项目并非唯一生存基础。这使机构和研究人员能在较大程度上开展长期布局，而不完全依赖频繁申报。

14.2.3 机构使命导向评价

德国评价更强调机构是否实现其使命，而不是用完全统一的总量指标进行跨机构简单排序。基础研究机构强调原创性和长期积累，应用研究机构强调技术实现与产业价值。

14.2.4 德国经验的启示

德国最重要的启示在于：

·分类评价必须建立在组织定位清晰基础之上；

·若稳定支持严重不足，长周期创新难以实现；

·应用研究必须拥有独立于论文逻辑之外的评价体系。

14.3 日本科研评价体系与大学法人化改革

日本科研评价体系与中国具有一定可比性。两国都经历了国家主导现代化、高校改革、国际化压力增强和竞争性经费扩张的过程。

14.3.1 日本科研评价的演变背景

日本在20世纪90年代以后，面对财政压力、国际竞争和大学改革需求，逐步强化绩效评价和竞争性经费管理。2004年国立大学法人化改革是其中重要节点。

14.3.2 日本科研评价的主要特征

·政府引导色彩较强

·竞争性经费地位提升

·国际发表和大学排名压力增强

·青年学者岗位稳定性下降

14.3.3 日本面临的主要问题

·短期绩效导向削弱基础研究生态

·大学行政负担增加

·本土研究与国际化指标之间张力突出

·青年研究者职业不稳定问题较为明显

14.3.4 日本经验对中国的启示

日本经验提醒中国：如果国家目标、大学绩效和国际竞争三重压力叠加，而稳定支持和长期激励不足，那么科研体系很容易陷入短期化和青年流失困境。

14.4 三国比较及其启示

英国、德国、日本三国的差异说明：

·英国重在周期性国家评估与代表作制度；

·德国重在分类组织与稳定支持；

·日本展示了绩效管理扩张对科研生态的双重影响。

对中国而言，最值得借鉴的不是某一具体程序，而是以下原则：

1.分类评价必须有组织定位支撑；

2.代表作制度必须与同行评议质量同步建设；

3.稳定支持与竞争支持必须平衡；

4.社会影响评价可以探索，但要防止案例包装化；

5.青年科研稳定性是创新体系可持续性的关键变量。

第十五章国际比较的共性规律与中国问题的制度成因

15.1 国际科研评价的共性规律

通过前述比较，可以提炼出若干国际共性规律。

15.1.1 同行评议是高质量评价的核心机制

无论美国、英国、德国还是日本，高质量科研评价都离不开同行评议。量化指标只能辅助，不能替代专业判断。

15.1.2 分类评价是科研评价的一般规律

不同类型研究和不同类型机构不可能用统一标准进行完全公平有效的评价。分类不是特殊安排，而是符合科研规律的基本要求。

15.1.3 代表作评价优于单纯数量堆积

在关键评价节点，国际上越来越强调代表性成果而非总量。这与中国当前改革方向高度契合。

15.1.4 评价结果与资源绑定越强，策略行为越突出

科研评价无论在哪个国家，只要与资源分配、组织声誉和岗位命运高度绑定，就会出现策略化、包装化和短期化倾向。

15.1.5 青年科研稳定性是各国共同难题

无论制度模式如何，青年研究者的岗位不稳定、竞争加剧和评价压力都是全球性问题。

15.2 国际制度差异的逻辑

15.2.1 分散治理与集中治理的差异

美国偏分散，英国偏集中，德国偏组织分类，日本介于政府引导与大学管理改革之间。中国整体上属于治理集中度较高、层级传导较强的体系。

15.2.2 稳定支持与竞争支持的比例差异

德国稳定支持较强，美国经费来源多元，英国和日本在绩效拨款和竞争性经费上各有侧重。中国若竞争性经费和绩效要求过强而稳定支持不足，便更容易激化短期行为。

15.2.3 大学自治传统和学术共同体能力差异

同行评议和代表作评价要有效运行，离不开成熟共同体和较高自治能力。中国若只学形式、不补能力建设，就可能陷入“去量化表面化、主观评价关系化”的陷阱。

15.3 中国科研评价困境的深层制度成因

15.3.1 公共资源集中配置与低成本监督需求

中国科研资源大量来自公共财政。公共资金配置要求可解释、可问责、可比较，由此促使管理体系偏好量化指标。这种偏好本身有其治理合理性，但一旦过度强化，就会使指标替代真实目标。

15.3.2 行政层级结构与层层加码

宏观政策在向下传导过程中，往往被逐级刚性化。上级说“提高质量”，下级可能转化为“必须多少篇高水平论文”；上级说“分类评价”，下级可能转化为“不同表格下仍是统一分值”。这是一种典型的责任防御性治理逻辑。

15.3.3 组织治理对可视化绩效的偏好

高校和科研院所是多目标组织，为降低管理复杂度，管理者会自然偏好可量化、可排名、可汇报的数据。于是，论文、项目、经费、人才、平台等成为最便利的治理抓手。

15.3.4 学术共同体发展不平衡与同行评议能力约束

中国科研共同体规模扩张很快，但高质量同行评议所需的专业文化、责任机制和利益回避规则仍在完善中。于是，指标替代判断在一定程度上成为现实主义选择。

15.3.5 国际化压力与本土评价基础设施不足

国际数据库和排名工具为中国科研治理提供了现成参照，但本土高质量评价基础设施、中文学术出版体系和长期影响追踪机制建设相对滞后，导致国际工具被行政化滥用。

15.3.6 强后果性激励与科研诚信风险耦合

评价结果与岗位、收入、职称、毕业和声誉高度绑定时，评价压力急剧上升，机会主义和学术不端诱因同步增加。由此，科研诚信问题不只是道德问题，也与评价制度结构直接相关。

15.4 综合成因模型

中国科研评价困境可以概括为以下因果链条：

这说明，改革必须面向系统结构，而不是只做局部删改。

第十六章中国科研学术评价体系改革的原则与总体目标

16.1 改革的基本原则

16.1.1 质量优先原则

评价要回归研究质量、创新贡献和真实影响，而不是由标签和数量主导。

16.1.2 分类评价原则

依据研究类型、机构定位、岗位属性和职业阶段差异设计不同标准。

16.1.3 代表性成果原则

减少成果总量竞争，突出最能体现真实水平和贡献的代表作。

16.1.4 长周期原则

为基础研究、交叉研究、重大理论研究和长期平台建设保留制度空间。

16.1.5 多元证据原则

综合同行评议、数据证据、影响案例和研究过程规范性信息。

16.1.6 程序公正与结果可解释原则

评价规则公开、评审回避明确、反馈机制健全、申诉机制可用。

16.1.7 容错与诚信并重原则

既鼓励高风险探索，允许合理失败，也要严守科研诚信底线。

16.2 改革的总体目标

中国科研评价改革应实现以下总体转换：

16.3 评价治理现代化的基本方向

评价治理现代化，意味着：

·行政部门负责规则、监督和公共责任；

·专家共同体负责专业判断；

·组织负责分类实施和发展性支持；

·数据系统负责信息支撑和异常识别。

也就是说，未来不是“弱化评价”，而是“重构评价权力结构和运行逻辑”。

第十七章分类评价改革框架与制度设计

17.1 分类评价的基本逻辑

分类评价不是将同一套标准换几种说法，而是要承认科研活动在目标、周期、成果形式和价值表达上的差异。分类应至少依据四个维度展开：

1.研究类型

2.评价对象

3.职业阶段

4.机构定位

17.2 “4×5”分类评价矩阵

四类评价对象

1.人员

2.成果

3.项目

4.机构

五类评价维度

1.原创性/创新性

2.质量与规范性

3.实际贡献与影响

4.发展潜力或可持续能力

5.组织协同与公共责任

这一矩阵可以作为统一框架，不同类别根据自身规律调整权重。

17.3 权重设计原则

17.3.1不搞全国统一一刀切比例

不同学科、不同机构和不同岗位不应被要求适用完全一致的权重。

17.3.2设定底线维度与弹性维度

科研诚信、基本质量和规范性应为底线维度；原创性、社会影响、产业价值和国际传播等可以分类赋权。

17.3.3防止一般性硬门槛泛化

除诚信和伦理等底线事项外，论文数量、分区和项目级别不宜再被广泛作为一票否决门槛。

17.4 制度载体与操作模板

17.4.1分类评价指导目录

由主管部门发布原则框架与负面清单。

17.4.2代表作申报模板

统一包括：

·成果信息

·本人贡献说明

·创新点

·影响证据

·规范性说明

17.4.3 分类专家库

建立分学科、分研究类型、分岗位性质的专家库，提升评审适配性。

17.4.4 机构内部分类岗位体系

高校和院所应同步完善教学科研并重岗、科研主导岗、临床科研岗、智库服务岗、技术支撑岗等岗位分类。

17.5 实施难点与应对

难点一：标准复杂、基层执行难

应通过统一模板和数字平台降低操作成本。

难点二：担心主观性上升

应通过规则公开、回避制度、复核程序和专家责任机制增强公信力。

难点三：担心分类被理解为降标准

应明确不同赛道都必须坚持高质量，只是价值表达形式不同。

第十八章代表作制度、同行评议优化与数据辅助评价

18.1 代表作制度的功能定位

代表作制度的核心作用在于：

1.抑制数量崇拜

2.引导评审关注内容

3.承认多样成果形式

4.改变科研人员围绕总量堆积的激励结构

18.2 代表作制度的基本设计

18.2.1提交数量控制

根据场景不同，可限定为项，避免大规模清单化罗列。

18.2.2贡献说明制度

每项代表作均附本人贡献、创新点、影响和规范性说明。

18.2.3 证据链支持

鼓励提供：

·同行评价

·采用证明

·数据共享记录

·标准制定材料

·软件使用情况

·临床或工程验证证据

18.2.4 成果类型开放

论文、专著、数据库、软件、标准、决策咨询、装置平台等都应能成为代表作。

18.3 同行评议的不可替代性

对于原创性、理论深度、技术突破和发展潜力的判断，同行评议仍然不可替代。任何“完全算法化”的评价都不适合高质量学术判断。

18.4 同行评议的主要问题与优化方向

18.4.1 利益冲突与熟人网络

需强化回避规则、扩大跨机构评审、增加必要的外部专家参与。

18.4.2保守偏好

高风险研究应设专门通道和专门评审逻辑。

18.4.3 评审责任不足

建立评审质量记录、专家激励与约束机制，提升意见实质性。

18.4.4 透明性不足

逐步提高评审规则透明度和结果可解释性，并完善申诉机制。

18.5 数据指标的合理位置

数据指标的合理作用是：

·提供背景信息

·支持影响判断

·识别异常情况

·帮助专家理解传播和使用情况

数据指标不应：

·直接生成唯一总分

·成为刚性门槛

·取代内容判断

因此，理想关系是：

第十九章分类型改革方案

19.1 基础研究评价改革

基础研究评价应强调：

·科学问题的重要性

·原创性和潜在突破性

·方法与证据质量

·长期学术价值

·数据、平台和样本共享贡献

改革重点包括：

1.提高稳定支持比例；

2.对探索性研究给予更高容错；

3.延长考核周期；

4.对长期数据积累、开放共享、方法工具建设给予制度承认；

5.减少短期论文指标在基础研究评价中的权重。

19.2 应用研究与工程技术评价改革

应用研究评价应突出：

·技术成熟度

·工程实现与可部署性

·链条贡献度

·标准、工艺、样机和软件价值

·用户评价与产业协同

·中长期社会经济效益

改革重点包括：

1.不以专利数量代替技术价值；

2.不以横向经费规模代替研究水平；

3.引入工程专家、产业专家和用户共同评价；

4.允许工艺、平台、样机和标准作为代表作；

5.建立长期追踪机制。

19.3 哲学社会科学评价改革

哲学社会科学评价应重点关注：

·理论原创性与解释力

·对中国问题和现实问题的回应能力

·学术共同体认可

·公共政策和文化传播影响

·研究方法与论证严谨性

改革重点包括：

1.提高专著、译著、史料整理和数据库建设的制度地位；

2.减少索引崇拜；

3.防止“被批示崇拜”替代学术判断；

4.强化中文高水平期刊和出版体系建设；

5.为长期理论研究设置更长评价窗口。

19.4 医学科研与临床研究评价改革

医学科研评价应区分：

·基础医学研究

·临床研究

·转化医学研究

·公共卫生与流行病研究

临床研究评价尤其应看：

·是否解决重要临床问题

·是否改善诊疗效果

·是否形成指南、路径或真实世界证据

·是否提升患者获益和公共健康水平

改革重点在于：避免简单以SCI分区和论文数评价临床医生科研。

19.5 青年人才评价改革

青年人才评价要从“快证明自己”转向“支持成长”，重点看：

·研究计划质量

·学术独立性

·代表作潜力

·成长速度

·规范性与合作能力

改革建议包括：

1.降低青年阶段硬性数量门槛；

2.延长预聘考核窗口；

3.提供启动经费和过渡支持；

4.对育儿、疾病等情况提供制度弹性；

5.减少“帽子”在青年评价中的过度作用。

19.6 机构评价与学科评估改革

机构评价应首先以使命定位为前提。建议将机构评价维度设定为：

1.人才培养质量

2.科研创新质量

3.学术生态与组织治理

4.社会服务与战略贡献

5.可持续发展能力

学科评估应从简单排序转向发展诊断，减少短期冲刺型竞争，并鼓励不同机构形成特色赛道而非同质化追逐。

第二十章数智化治理、科研诚信与风险防控

20.1 数智化治理的合理角色

数字化和智能化工具能够提高信息整合效率、减少重复填报、辅助异常识别，但不能替代专业判断。其合理角色是“增强评价信息能力”，而不是“决定评价结论”。

20.2 数字平台与信息底座建设

建议建设统一可信的科研信息底座，整合：

·论文与专著

·项目

·专利、软件与标准

·平台和团队信息

·人才和职称信息

·数据共享与开放科学记录

·科研诚信记录

这将显著减少基层反复填表和材料堆砌。

20.3 科研诚信与评价制度联动

20.3.1 诚信作为底线条件

严重学术不端行为应在项目、职称、奖励、人才计划等环节联动约束。

20.3.2 对良好科研实践给出正向激励

包括：

·数据开放

·代码共享

·预注册

·复现实验

·负结果报告

·规范署名与合作管理

若这些行为得不到评价承认，科研诚信治理就缺乏制度基础。

20.4 改革风险识别与防控

风险一：去量化后主观性过强

通过规则公开、回避制度、复核机制和结果反馈加以控制。

风险二：代表作制度被包装化

通过控制材料篇幅、强化证据链和提高专家实质阅读要求来防止。

风险三：分类评价演变为标准模糊

应建立指导目录、负面清单和分类细则。

风险四：基层单位变相维持旧指标体系

要通过监督抽查和第三方评估防止“旧瓶装新酒”。

风险五：新制度增加行政负担

必须严控材料总量，借助数字平台减少重复流程。

20.5 实施路径建议

第一阶段：清理与纠偏

清理与改革精神冲突的硬性门槛和积分制条款。

第二阶段：试点与模板建设

在不同类型机构开展分类评价试点，形成模板和操作规程。

第三阶段：制度嵌入

将新评价规则嵌入人事、项目、岗位、财务和组织治理制度。

第四阶段：再评价与动态修正

对改革成效本身进行持续评估，根据反馈调整。

第二十一章结论

本报告围绕中国科研学术评价体系展开了历史、结构、比较和制度设计层面的系统研究。通过前文分析，可以形成如下总体结论。

第一，中国科研学术评价体系在过去几十年中对科研规模扩张、国际接轨和组织竞争具有重要推动作用，具有不可忽视的历史合理性。但随着中国创新发展阶段转换，其原有的量化导向、统一模板、短周期和强标签特征已越来越难以适应高质量创新要求。

第二，中国科研评价的核心问题并不只是“指标太多”，而是“评价逻辑错配”。复杂而长期的知识生产活动，被压缩进少数短期、可见、易统计的指标体系中，从而导致目标错位、行为扭曲和生态失衡。

第三，现行评价体系的主要弊端具有系统性：论文评价、项目评价、人才评价、机构评价和学科评估彼此耦合，共同构成一个以标签和可视化绩效为中心的累积优势系统。任何单项修补若不触动这一结构，都难以取得根本效果。

第四，国际比较表明，中国所面临的很多问题并非孤立存在，指标滥用、青年不稳定、排名压力和策略化行为在全球科研体系中具有普遍性。但中国的公共资源集中配置、行政层级传导和组织绩效硬化，使这些问题更容易被放大并制度化。

第五，中国科研评价改革的方向应当明确：从数量导向转向质量导向，从统一标准转向分类标准，从成果清单转向代表作，从短期冲刺转向长期发展，从身份标签转向岗位贡献，从指标替代判断转向多元证据支持判断。

第六，真正有效的科研评价改革，不能只停留在“破四唯”口号或个别门槛删除上，而必须走向评价治理现代化。所谓评价治理现代化，就是在公共问责、组织管理和学术共同体之间建立新的分工与平衡：让行政负责规则和监督，让专家负责质量判断，让机构负责分类实施，让数据负责证据支持。

第七，未来中国科研学术评价体系应构建为一种“使命导向、分类实施、代表作为主、同行评议为核、数据辅助判断、诚信底线与探索容错并重”的新型制度。这种制度的最终目标，不是让科研更容易被管理，而是让高质量知识生产更容易发生，让青年人才更有可能成长，让科研生态更加健康，让国家创新体系更具长期能力。

概言之，中国科研评价改革的核心不是“减少评价”，而是“让评价回到促进科学、学术与创新发展的正确位置”。

参考文献

一、中文参考文献

1.中共中央办公厅，国务院办公厅.《关于深化项目评审、人才评价、机构评估改革的意见》. 2018.

2.中共中央办公厅，国务院办公厅.《关于进一步弘扬科学家精神加强作风和学风建设的意见》. 2019.

3.中共中央办公厅，国务院办公厅.《关于破除科技评价中“唯论文”不良导向的若干措施（试行）》. 2020.

4.国务院.《深化新时代教育评价改革总体方案》. 2020.

5.教育部，科技部.《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》. 2020.

6.科技部等部门.《关于开展科技人才评价改革试点的工作方案》. 2022.

7.教育部学位与研究生教育发展中心.关于学科评估工作的相关公开说明材料.

8.国家自然科学基金委员会.关于科学基金项目评审、科研诚信与改革进展的系列文件.

9.中国科学院学部.关于科技评价改革与创新生态建设的咨询报告.

10.中国科学院院刊编辑部编.《科技评价改革与学术生态建设》专题论文集. 北京：科学出版社，相关年份.

11.李侠.《学术评价制度的逻辑、困境与改革》. 相关论文与评论文集.

12.周光礼.《高等教育评价与大学治理》. 北京：教育科学出版社.

13.闫凤桥.《学术职业、大学组织与评价制度》. 北京大学教育评论，相关年份论文.

14.别敦荣.《大学排名、学科评估与高等教育治理》. 教育研究，相关年份论文.

15.陈洪捷.《大学教师评价制度研究》. 高等教育研究，相关年份论文.

16.王建华.《“破五唯”“破四唯”背景下高校评价改革研究》. 现代大学教育，相关年份论文.

17.刘尧.《高校教师评价制度改革研究》. 高等教育研究，相关年份论文.

18.韩启德.《科技评价与创新生态》. 中国科学院院刊，相关年份论文.

19.杨卫.《基础研究评价改革与原创导向》. 科技导报，相关年份论文.

20.苏竣，等.《创新政策评估与科技评价转型》. 科学学与科学技术管理，相关年份论文.

21.金兼斌，等.《科研绩效评价中的量化指标反思》. 科学学研究，相关年份论文.

22.樊秀娣，等.《科研评价中SCI崇拜的成因与治理》. 中国科技论坛，相关年份论文.

23.黄宝印，等.《研究生教育评价改革的理论与实践》. 学位与研究生教育，相关年份论文.

24.刘海峰.《高校分类评价与分层发展》. 教育发展研究，相关年份论文.

25.徐飞.《大学治理现代化与评价改革》. 中国高教研究，相关年份论文.

26.张炜，等.《哲学社会科学评价体系改革研究》. 社会科学战线，相关年份论文.

27.吴晓求，等.《人文社会科学研究评价的中国问题》. 中国社会科学评价，相关年份论文.

28.叶继元.《学术期刊评价及其反思》. 编辑学报，相关年份论文.

29.王孙禺，等.《科技评价理论与方法》. 北京：科学出版社.

30.路风.《中国创新模式与科技治理》. 北京：生活·读书·新知三联书店.

31.中国科协.《科技工作者状况调查报告》历年版.

32.中国科学院文献情报中心.《科研评价与学术影响力测度年度报告》相关系列.

33.中国社会科学院科研局.关于哲学社会科学评价改革的研究报告.

34.清华大学教育研究院、北京大学教育学院、复旦大学高等教育研究所等机构关于大学评价改革、教师发展和科研治理的系列成果.

35.教育部、科技部、人力资源社会保障部等关于职称制度、人才评价和科研诚信建设的有关规范性文件.

36.中国科协科技工作者调查站点相关报告.

37.中国高等教育学会有关高校教师评价改革专题研究报告.

38.相关省市教育厅、科技厅关于科研评价改革试点的制度文件和总结材料.

39.各高校公开发布的教师聘任、职称评审、科研绩效与人才计划管理办法.

40.各类中文核心期刊关于“破四唯”“科技评价改革”“大学治理”专题论文.

二、英文参考文献

1.Merton, R. K. The Sociology of Science: Theoretical and Empirical Investigations. Chicago: University of Chicago Press, 1973.

2.Bourdieu, P. Homo Academicus. Stanford: Stanford University Press, English edition.

3.Whitley, R. The Intellectual and Social Organization of the Sciences. Oxford: Clarendon Press, 1984.

4.Garfield, E. “Citation Indexes for Science.” Science, 122(3159), 1955, pp. 108–111.

5.Seglen, P. O. “Why the Impact Factor of Journals Should Not Be Used for Evaluating Research.” BMJ, 314, 1997, pp. 498–502.

6.Hicks, D. “Performance-Based University Research Funding Systems.” Research Policy, 41(2), 2012, pp. 251–261.

7.Hicks, D., Wouters, P., Waltman, L., de Rijcke, S., & Rafols, I. “Bibliometrics: The Leiden Manifesto for Research Metrics.” Nature, 520, 2015, pp. 429–431.

8.Wilsdon, J., Allen, L., Belfiore, E., et al. The Metric Tide: Report of the Independent Review of the Role of Metrics in Research Assessment and Management. HEFCE, 2015.

9.San Francisco Declaration on Research Assessment (DORA). 2012.

10.Muller, J. Z. The Tyranny of Metrics. Princeton: Princeton University Press, 2018.

11.Lamont, M. How Professors Think: Inside the Curious World of Academic Judgment. Cambridge, MA: Harvard University Press, 2009.

12.Stephan, P. How Economics Shapes Science. Cambridge, MA: Harvard University Press, 2012.

13.Musselin, C. The Market for Academics. New York: Routledge, 2010.

14.Espeland, W. N., & Sauder, M. Engines of Anxiety: Academic Rankings, Reputation, and Accountability. New York: Russell Sage Foundation, 2016.

15.de Rijcke, S., Wouters, P. F., Rushforth, A. D., Franssen, T. P., & Hammarfelt, B. “Evaluation Practices and Effects of Indicator Use—A Literature Review.” Research Evaluation, 25(2), 2016, pp. 161–169.

16.Aksnes, D. W., Langfeldt, L., & Wouters, P. “Citations, Citation Indicators, and Research Quality: An Overview of Basic Concepts and Theories.” SAGE Open, 9(1), 2019.

17.Bornmann, L. “Measuring Impact in Research Evaluations: A Thorough Discussion of Methods for, Effects of and Problems with Impact Measurements.” Higher Education, 73, 2017, pp. 775–787.

18.Moher, D., Naudet, F., Cristea, I. A., et al. “Assessing Scientists for Hiring, Promotion, and Tenure.” PLoS Biology, 16(3), 2018.

19.Biagioli, M., & Lippman, A. (Eds.). Gaming the Metrics: Misconduct and Manipulation in Academic Research. Cambridge, MA: MIT Press, 2020.

20.Martin, B. R. “The Research Excellence Framework and the ‘Impact Agenda’: Are We Creating a Frankenstein Monster?” Research Evaluation, 20(3), 2011, pp. 247–254.

21.Gläser, J., & Laudel, G. “The Effects of New Public Management on Academic Research.” In works on changing governance of the sciences. Springer, 2016.

22.Oancea, A. “Research Assessment as Governance in Higher Education.” In relevant higher education policy studies.

23.Laudel, G., & Gläser, J. Works on research funding, evaluation, and epistemic properties of research.

24.OECD. Science, Technology and Innovation Outlook. Various editions. Paris: OECD Publishing.

25.OECD. Research and Innovation Careers: Challenges and Policy Options. Paris: OECD Publishing.

26.National Academies of Sciences, Engineering, and Medicine. The Next Generation of Biomedical and Behavioral Sciences Researchers: Breaking Through. Washington, DC: The National Academies Press, 2018.

27.European Commission. Reports on responsible metrics, open science, and research evaluation reform.

28.British Academy. Reports on research assessment in the humanities and social sciences.

29.Franzoni, C., Scellato, G., & Stephan, P. Relevant studies on publication incentives and academic careers.

30.Hicks, D. Related works on bibliometrics, evaluation and disciplinary diversity.

31.Nature Editorials on research assessment reform and responsible metrics, various years.

32.UNESCO. Reports on science governance, open science and research evaluation.

33.National Science Foundation. Merit Review Process and Proposal & Award Policies & Procedures Guides, various editions.

34.National Institutes of Health. Peer Review and Grants Policy Statements, various editions.

35.UK Research and Innovation (UKRI). REF guidance documents and related policy materials.

36.European University Association. Reports on academic careers, research assessment and institutional autonomy.

37.The Royal Society. Policy statements on research culture and assessment reform.

38.Declaration on Research Assessment and related implementation reports.

39.Reports from Wellcome Trust and other research funders on research culture and evaluation reform.

40.Relevant journal literature in Research Policy, Research Evaluation, Higher Education, Minerva,Studies in Higher Education, and Science and Public Policy.

中国科研学术评价体系研究报告

——历史演进、现实结构、国际比较、制度成因与改革路径

摘要

Abstract

目录

第一章绪论

1.1 研究背景

1.2 问题提出

1.3 研究目的与意义

1.4 研究思路、研究方法与报告结构

第二章核心概念界定与分析边界

2.1 科研评价与学术评价

2.2 科研绩效评价与学术质量评价

2.3 人才评价、成果评价、项目评价与机构评价

2.4 代表作评价、分类评价与同行评议

2.5 本报告的分析对象与边界

第三章文献综述

3.1 国外相关研究综述

3.2 国内相关研究综述

3.3 现有研究的主要共识

3.4 现有研究的不足与本报告的切入点

第四章理论基础与分析框架

4.1 委托—代理理论

4.2 新公共管理与绩效治理理论

4.3 科学社会学与学术场域理论

4.4 组织治理理论

4.5 创新经济学与知识生产理论

4.6 本报告的综合分析框架

第五章中国科研学术评价体系的历史演进

5.1 恢复重建阶段（1978—1991年）

5.2 扩张与项目化阶段（1992—2005年）

5.3指标强化与全球接轨阶段（2006—2017年）

5.4“破四唯”与分类评价改革阶段（2018年至今）

5.5 历史演进的总体特征

第六章中国现行科研学术评价体系的总体结构

6.1 评价体系的基本构成

6.2 评价主体结构

6.3 评价运行机制

6.4 现行体系的基本特征

6.5 结构性分析判断

第七章论文、期刊与科研成果评价

7.1 论文成为核心评价载体的原因

7.2 论文评价的积极作用与历史贡献

7.3 从论文评价到期刊替代的简化逻辑

7.4 SCI中心化、分区崇拜及其后果

7.5 论文数量导向与碎片化生产

7.6 引用指标、高被引与影响力评价的局限

7.7 代表性成果多样性不足

7.8 论文评价改革的关键问题

第八章项目评审与经费配置评价

8.1 项目制在科研治理中的中心地位

8.2 项目评价的主要环节

8.3 项目评价中的关键问题

8.4 经费评价与科研行为之间的关系

8.5 项目评价改革方向

第九章人才评价、职称评价与“帽子化”现象

9.1 人才评价的制度位置

9.2 人才评价的典型指标结构

9.3 职称评价：从专业认定到绩效竞争

9.4 “帽子化”现象及其制度后果

9.5 预聘—长聘制度的中国实践

9.6 人才评价中的结构性矛盾

9.7 人才评价改革方向

第十章机构评价、学科评估与大学排名

10.1 机构评价的类型与作用

10.2 学科评估的制度功能

10.3 排名逻辑对高校行为的塑造

10.4 机构评价中的主要问题

10.5 机构评价中的组织理性问题

10.6 机构评价改革方向

第十一章哲学社会科学评价、应用研究评价与医学科研评价

11.1 哲学社会科学评价的特殊性

11.2 当前哲学社会科学评价的主要问题

11.3 应用研究评价的特殊性与现实困境

11.4 医学科研与临床研究评价问题

11.5 分类评价的必要性

第十二章青年科研人员、博士后与研究生评价困境

12.1 青年科研人员的结构性位置

12.2 青年科研人员的主要评价压力

12.3 博士后评价困境