【研究方法与报告】医学人工智能方法学工具:技术演进、规范适配与多维评估【2026年2月第1期】_展会资讯_资讯

【研究方法与报告】医学人工智能方法学工具:技术演进、规范适配与多维评估【2026年2月第1期】

点击标题下「蓝色微信名」可快速关注

摘要

随着人工智能（AI）在医学领域应用的不断拓展，提升其可靠性成为关键任务。文章基于“技术演进-规范成熟度-政策强度”三维互动框架，系统梳理了医学AI方法学工具的发展历程，将其划分为萌芽探索期（2016—2018年）、标准化爆发期（2019—2021年）、系统整合期（2022—2024年）和动态演进期（2025年至今）4个阶段。研究发现，从传统机器学习到生成式AI的技术迭代持续驱动规范升级，政策角色亦从滞后跟随转向主动引领，最终形成“技术-规范-政策”动态适配闭环。通过对21个已发表的AI方法学工具的内容分析，发现其在透明度、可重复性、伦理和有效性方面覆盖较好，但在参与度、经济性和安全性方面仍存在不足。未来需构建“临床AI整合框架”，推动规范整合与互认，加速发展动态监管机制，深化关键维度要求，并创新AI评估方法，以应对生成式AI等新技术带来的挑战，促进医学AI的可持续发展。

徐彩花¹周泳佳¹崔雅婷¹王俊斐¹李腾飞²田金徽¹

¹兰州大学基础医学院循证医学中心，兰州 730000；²甘肃中医药大学护理学院，兰州 730000

通信作者：田金徽，Email： tjh996@163.com

人工智能（artificial intelligence，AI）正成为推动人类进入智能时代的核心力量^［1］。1956年John McCarthy等学者在达特茅斯会议上首次提出现代AI概念，将其定义为计算机通过信息处理展现类似人类的思维与行为模式，标志着这一学科的诞生^［2-3］。作为计算机科学分支，AI的定义因技术发展与应用场景呈现多元视角：2024年，欧盟《人工智能法案》将其定义为通过机器学习等技术在特定环境中自主运行的软件系统，侧重自主决策能力^［4］；与Russell和Norvig^［5］在经典教材《人工智能：一种现代方法》（ Artificial intelligence：a modern approach）（2020年第4版）中提出的“理性行动系统”概念相呼应。我国《人工智能标准化白皮书（2018）》则定义为模拟、延伸人类智能的理论与应用系统^［6］。在医学领域，AI特指通过算法处理生物医学数据以辅助临床决策或自动化执行医疗任务的智能系统^［7］，具备数据依赖性、临床可解释性和监管合规性三大特征^［8］。近年来“AI plus”推动技术与传统行业融合，在医疗场景中，AI正重塑诊疗模式。预计2026年，全球医疗AI支出将突破450亿美元，其已广泛应用于疾病筛查/分诊、诊断、预后、决策支持及治疗方案推荐等临床医学多个阶段^［9-10］。

医学AI的决策支持、疾病预测及个性化治疗等应用直接关系患者生命安全，但当前面临数据质量（样本不足、分布偏差）、算法可靠性（可解释性差、验证标准缺失）和伦理合规（算法偏见、隐私保护）等挑战^［11］。为此，标准方案项目：干预试验建议-AI（Standard protocol items：recommendations for interventional trials-artificial intelligence，SPIRIT-AI）等标准化报告规范通过强制披露关键信息提升透明度，为构建可信医疗AI生态奠定基础。然而，这些规范存在碎片化、适用性有限等问题，多针对特定场景且难适应技术快速演进^［12］。本文将系统梳理医学AI方法学工具的适用范围、核心特点及演进过程，为构建完整的医学AI研究规范体系提供参考。本研究中的医学AI方法学工具包含4类工具：开发指南、报告规范、评估工具和支持性工具。

一、AI方法学工具在医学领域的历史沿革

本研究构建并应用“技术演进-规范成熟度-政策强度三维互动框架”以系统解析医学AI方法学工具的发展逻辑。该框架的核心内涵在于：技术演进维度聚焦AI核心技术迭代（如从机器学习➝深度学习/多模态/生成式AI），驱动新能力、场景与挑战，构成变革的原始动力；规范成熟度维度考察各类方法学工具（指南、规范、评估工具等）在覆盖范围、精细度与体系化整合方面的成熟水平，作为保障研究质量与可信度的核心机制，反映领域共识；政策强度维度评估监管法规与行业标准（如从学术自律到欧盟《人工智能法案》）的约束力、引领性与执行力，是塑造技术方向、推动规范落地的关键外力。这3个维度并非孤立存在，而是构成“技术催生规范、规范支撑政策、政策反塑技术”的动态互动闭环。基于此框架，本文将医学AI方法学工具的发展历程系统划分为4个阶段，深入分析其演进脉络。

（一）萌芽探索期（2016—2018年）

本阶段以传统机器学习技术（如随机森林、支持向量机）在医学预测模型中的初步应用为驱动^［13］。面对AI研究方法学透明度缺失的问题，学术界提出基础报告框架^［13］，侧重数据描述与验证流程披露。此时期规范体系尚未成型，政策层面主要依赖学术自律，呈现“技术可行性验证与基础规范披露”的初始生态。

（二）标准化爆发期（2019—2021年）

深度学习技术的临床突破催生规范化需求井喷。为应对多机构协作与监管审批要求，领域内密集涌现场景专用标准：影像领域诞生医学成像AI检查清单（checklist for artificial intelligence in medical imaging，CLAIM）^［14］，临床试验确立SPIRIT-AI/试验报告统一标准-AI（consolidated standards of reporting trials-artificial intelligence，CONSORT-AI）国际共识，并首次纳入伦理评估框架^［15-16］，形成“技术范式革新-监管驱动-协作标准化”范式成型。

（三）系统整合期（2022—2024年）

多模态AI实现诊疗全流程整合，推动报告体系与传统临床研究范式深度融合。个体预后或诊断的多变量预测模型的透明报告-AI（transparent reporting of a multivariable prediction model for individual prognosis or diagnosis-artificial intelligence，TRIPOD-AI）^［17］扩展预测模型透明报告条目；AI干预措施的综合健康经济评价报告标准（consolidated health economic evaluation reporting standards for interventions that use artificial intelligence，CHEERS-AI）^［18］新增算法运维成本评估，并响应世界卫生组织（World Health Organization，WHO）伦理框架开发预测模型偏倚风险评估工具-AI（prediction model risk of bias assessment tool-artificial intelligence，PROBAST-AI）^［19］等偏倚评估工具。此阶段以“技术融合-跨范式整合-国际标准联动”为标志，构建覆盖临床价值链条的规范网络。

（四）动态演进期（2025年至今）

生成式AI在医疗领域的风险显现，加之欧盟《人工智能法案》的立法约束，正在推动相关规范体系从静态管理转向动态监管。生成式建模研究的临床AI最低限度信息清单（minimum information about clinical artificial intelligence checklist for generative modeling research，MI-CLAIM-GEN）^［20］首创模型更新实时验证规则，诊断准确性研究质量评估-AI（quality assessment of diagnostic accuracy studies-artificial intelligence，QUADAS-AI）^［21］开发嵌入式伦理监测模块，推动报告机制从静态清单升级为覆盖“研发-应用-监测”全生命周期的动态合规体系，实现“高风险技术-弹性规范-持续监管”的闭环适配。

上述发展阶段表明，医学领域中AI方法学工具的技术迭代（传统机器学习➝深度学习➝多模态➝生成式AI）持续驱动规范升级，政策角色亦从滞后跟随转向主动引领，最终形成“技术-规范-政策”动态适配闭环，推动医学AI方法学从碎片化披露迈向全周期治理（见附件图1，扫描文章首页二维码可获取）。

二、AI方法学工具在医学领域的应用现状

当前医学AI方法学工具的应用呈现多维度渗透与动态演进的特征。基于24个AI方法学工具（21个已经开发和3个开发中）的分析表明，其发展主要体现在三方面：

（一）工具类型多元化且功能互补

目前开发的医学AI方法学工具已形成覆盖全链条的4类体系。（1）开发指南：如TRIPOD-AI^［17］规范预测模型开发流程，强调数据预处理与算法验证标准；（2）报告规范：如CONSORT-AI^［16］统一临床试验报告结构，新增AI特有的算法参数披露要求；（3）评估工具：预测模型偏倚风险评估工具-AI（prediction model risk of bias assessment tool-artificial intelligence，PROBAST-AI）^［19］聚焦偏倚风险评估，涵盖数据代表性与模型泛化能力指标；（4）支持性工具（user′s guides和ethical considerations）：为AI系统临床应用提供关键辅助，如帮助临床医生理解评估基于机器学习的医学文献^［22］，或系统识别医疗AI应用中的伦理冲突^［23］。

（二）技术融合驱动规范升级

多模态AI等技术的演进正推动方法学工具向全流程覆盖和精细化发展。在诊断环节中，诊断准确性研究报告标准-AI（standards for reporting of diagnostic accuracy studies-artificial intelligence，STARD-AI）^［24］确保诊断研究的严谨性和数据标注一致性；在治疗决策中，CHEERS-AI^［18］评估AI干预措施的经济价值和成本效益；针对生成式AI特性，MI-CLAIM-GEN^［20］专门用于规范生成式AI（如大语言模型、多模态模型）在临床医疗研究中的使用和报告。

（三）国际标准呈现区域化实施路径

欧盟《人工智能法案》强制嵌入伦理监测模块推动QUADAS-AI开发具备隐私侵犯实时扫描功能的工具^［4］；美国食品药品监督管理局（Food and Drug Administration，FDA）计划聚焦上市后性能衰减，引导CHEERS-AI构建错误率阈值预警系统^［18］；我国《人工智能标准化白皮书》强化医疗数据主权与算法自主可控，正在开发的GB/T框架强化本地化安全审计要求（如医疗数据出境限制与国产算法认证）^［6］。

三、医学AI方法学工具的内容分析

针对21个已发表的AI方法学工具进行分析，显示其内容主要涵盖7个关键领域：透明度、可重复性、伦理、有效性、参与度、经济性和安全性。表1描述了每个AI方法学工具对内容领域的覆盖情况。

（一）透明度

要求公开研究流程关键信息（如数据来源、算法参数），确保结果可理解、可验证，并为临床决策提供合理解释依据。作为研究可验证性的基石，该领域支撑临床可信度与监管审查效率。21个工具均涉及透明度，强调研究信息的公开与清晰性，以利他人理解、评估和复现结果。其中有76.2%（16个）完全覆盖；有23.8%（5个）部分覆盖（如未强制要求代码开源或数据溯源），可能降低结果可复现性，阻碍临床信任建立。

（二）可重复性

强调翔实记录方法、数据及分析步骤，保障其他研究者能复现试验过程与结果。有95.2%（20个）的工具涉及可重复性，其中有66.7%（14个）完全覆盖，有28.6%（6个）部分覆盖，仅1个工具未涉及。值得注意的是，有33.3%的工具未完全要求关键步骤，可能导致跨机构复现失败率升高。

（三）伦理

涵盖伦理审批、知情同意、数据隐私及算法公平性。有95.2%（20个）的工具涉及伦理，其中有47.6%（10个）完全覆盖，有47.6%（10个）部分覆盖，仅MINIMAR未涉及。近半数工具缺失算法偏见评估标准，增加歧视性决策风险。在医学中实施AI的伦理实践需依赖于伦理学家、社会科学家及监管机构的合作。

（四）有效性

评估AI模型或干预的实际临床价值，聚焦数据质量、模型性能及真实场景效果。21个工具均系统性要求验证临床效能，体现研究的核心目标，为AI落地提供核心证据支持。但部分工具未明确区分开发环境与真实场景效果，可能导致性能高估。

（五）参与度

关注患者与公众参与研究设计、实施及结果解读，确保解决方案符合临床需求。这有助于提升数据质量、研究设计与实施的相关性，并确保结果更好地满足患者和公众需求。仅有38.1%（8个）部分覆盖；有61.9%（13个）完全未涉及。超过60.0%的工具忽视患者视角，易导致AI脱离实际需求。

（六）经济性

评估AI干预的成本效益与资源效率。仅CHEERS-AI完全覆盖，有14.3%（3个）的工具部分涉及，有81.0%（17个）的工具完全未提及。经济可行性分析严重缺失，影响技术推广。

（七）安全性

要求模型在全生命周期中具备避免对患者造成伤害的能力，措施包括错误率实时监控、失效应急预案制定及数据安全保障。有81.0%（17个）的工具涉及安全性，其中有47.6%（10个）完全覆盖，有33.3%（7个）部分覆盖。有19.0%（4个）完全未涉及。当前动态风险监控机制普遍薄弱，可能延误临床风险响应。

当前AI方法学工具在有效性上表现最优（100%完全覆盖），但经济性与参与度覆盖严重不足。未来开发需优先构建动态监管机制（如MI-CLAIM-GEN提出的实时验证规则），并强化患者参与及成本效益分析，以应对生成式AI等新技术带来的独特风险。

四、小结

医学领域AI方法学工具的演进与应用显著提升了相关研究的透明度、可重复性与伦理合规性，为构建可信赖的医疗AI生态奠定了基础。然而，当前应用仍面临诸多挑战：规范碎片化与兼容性问题持续存在，多种场景化规范并存增加了研究者的遵循难度；面对生成式AI等快速迭代技术，现有静态报告规范和新兴动态监管工具（如MI-CLAIM-GEN、QUADAS-AI）的成熟度、普适性及临床验证仍需加强；关键维度覆盖不均，患者与公众参与在多数工具中仍显不足，经济性评估和安全性风险管理的系统性与深度有待提升。同时，针对大语言模型、生成式AI等新型应用的专用评估方法和伦理框架尚未完善。

未来发展的核心是构建“临床AI整合框架”，其关键路径包括：推动规范整合与互认，通过建立“核心通用模块+领域专用扩展”框架体系降低技术碎片化；加速发展与验证动态监管机制，促使实时验证、嵌入式伦理监测等成熟工具临床落地并深度整合入监管流程；深化关键维度要求，强制将患者与公众参与纳入框架制订过程，广泛融入借鉴CHEERS-AI的经济性评估，并系统性强化借鉴DECIDE-AI、CONSORT-AI的安全性条款；创新新型AI评估方法，特别是研发专门用于评估大型语言模型和生成式AI在可靠性、安全性、公平性及临床价值方面的工具；同时大力促进政策-标准-研究的协同联动，确保方法学工具发展与欧盟《人工智能法案》、美国FDA监管政策及WHO伦理指南等全球性规范紧密衔接，最终形成技术发展、标准制订、监管实践与伦理治理相互支撑、闭环运行的有机整体。

参考文献见本刊网站

引用本文：徐彩花, 周泳佳, 崔雅婷, 等. 医学人工智能方法学工具：技术演进、规范适配与多维评估[J]. 数字医学与健康, 2026, 4(1): 67-72. DOI: 10.3760/cma.j.cn101909-20250408-00058.

杂志介绍

《数字医学与健康》（CN 10-1909/R，ISSN 2097-3349）是由中国科协主管、中华医学会主办的多学科交叉性学术期刊。本刊已被中国学术期刊数据库（万方数据）、《中国科技期刊引证报告（扩刊版）》、中国生物医学文献数据库、中文科技期刊数据库(维普网)、中华医学期刊全文数据库全文收录。

办刊宗旨：聚焦国内外数字医学和健康领域的最新发展方向，刊载数字医学和健康领域的新理论、新技术、新方法，打造学术与技术的交流与合作平台，助力“健康中国”战略。

报道范围：国内外数字医学和健康领域前沿进展；数字和信息技术在公共卫生、疾病预防、健康管理、精准医疗、辅助决策、药物研发、临床科研、行业治理、医院管理、医学教育、医疗保险、数据管理及安全等领域的应用；医学和健康与现代信息学等相关学科交叉领域的新理论、新技术、新观点等；数字医学和健康领域的国家政策和法规、行业标准和共识、循证指南、伦理要求及产业信息。

主要栏目：述评、专家笔谈、指南与共识、标准与规范、论著、研究方法与报告、综述、产业研究、医学科幻、技术介绍与评估、医学人文、伦理与监管、讲座、文献速览等。

总编辑：王振常

编辑部主任：齐文安

编辑部地址：北京市西城区东河沿街69号405室，邮政编码：100052。

联系电话：010-51322158，Email：dmh@cmaph.org。

更多阅读：

《数字医学与健康》投稿方式及说明