行业洞见|斯坦福2026AI医疗报告:人工智能全面加速下的能力跃迁、治理滞后与医学重构_展会资讯_资讯

行业洞见|斯坦福2026AI医疗报告:人工智能全面加速下的能力跃迁、治理滞后与医学重构

2026-04-22 09:54

行业洞见|斯坦福2026AI医疗报告:人工智能全面加速下的能力跃迁、治理滞后与医学重构

由于近期公众号推送机制改变，欢迎您在公众号首页将Boom Health设为?“星标”?，第一时间获取数字医疗行业的最新趋势和专家洞见！

本文约5300字，阅读需要13分钟

本报告翻译自斯坦福HAI研究院发布的《The 2026 AI Index Report》（2026年AI指数报告) “第六章-医学”部分，聚焦全球人工智能在生物医药领域能力提升、产业竞争、治理评估、教育适应与医学应用等方面的最新进展。报告通过拆解模型性能、采用率、基础设施、资本流向、科研突破及临床落地等关键维度，揭示出人工智能正以远超以往技术扩散的速度进入社会核心系统，但与之配套的评估工具、治理机制、教育体系和责任框架明显滞后。

01 人工智能加速扩张与全球竞争格局重塑

人工智能的发展速度仍在持续加快，而围绕它建立的治理、评估和数据基础设施却明显滞后。过去一年，人工智能的能力不仅持续跃升，而且以前所未有的速度进入社会运行的核心环节：进入企业、课堂、医院、科研机构和公共治理体系。报告指出，生成式人工智能在三年内的人口层面采用率已接近53%，扩散速度快于个人电脑和互联网；组织层面的采用率升至88%，五分之四的大学生已经在学习相关任务中使用生成式人工智能。与此同时，产业界在2025年产出了超过90%的重要前沿模型，若干模型在博士水平科学问题、多模态推理和竞赛数学上已达到或超过人类基线。人工智能并未如前所想进入平台期，而是在能力、普及率和经济影响上同步加速。

然而，技术扩张并未带来同等程度的可测量性和可治理性。随着领先模型之间的差距缩小，评估工具反而越来越难以保持有效。开放权重模型的竞争力显著增强，美国与中国在模型性能上的差距也已缩小到几乎消失。自2025年初以来，两国模型多次交替领先：2025年2月，DeepSeek-R1曾短暂追平美国顶尖模型；到2026年3月，Anthropic的顶尖模型也仅领先2.7%。美国仍在顶级模型数量和高影响力专利方面占优，中国则在论文发表量、被引量、专利总量和工业机器人安装量上领先。与此同时，模型趋同使传统基准测试逐渐饱和，前沿实验室披露的信息减少，独立测试也并不总能复现开发者公布的结果。报告因此强调，人工智能能力增长与管理准备不足之间的落差，已成为这一轮技术扩张最突出的结构性问题。

从基础设施和产业格局看，人工智能的全球竞争正在进一步深化。美国拥有5,427个数据中心，数量超过其他任何国家的10倍以上，能源消耗也居全球首位。投资方面，美国在2025年的私人AI投资达到2859亿美元，超过中国124亿美元的23倍；但如果考虑中国的政府引导基金，仅看私人投资会低估其总支出。美国在创业活跃度上同样领先，2025年新获融资的AI公司达到1,953家，超过排名第二国家的10倍以上。不过，美国吸引全球人工智能人才的能力正在下降，迁往美国的AI研究人员和开发者数量自2017年以来已下降89%，仅过去一年就下降了80%。这意味着，资本、算力和企业生态仍高度集中于美国，但人才流动的长期优势正在削弱。

同时，人工智能的经济价值已经开始以更直接的方式显现。到2026年初，生成式人工智能工具为美国消费者带来的估计价值已达到每年1720亿美元，过去一年间每位用户的价值中位数增长了三倍。研究显示，在客户支持和软件开发等领域，人工智能带来的生产率提升约为14%至26%；但在需要更多判断力和复杂情境理解的任务中，效果较弱，甚至可能为负。值得注意的是，生产率提升最明确的领域，恰恰也是入门级岗位开始下降的领域。美国22岁至25岁的软件开发者就业人数自2024年以来下降了近20%，而年龄更大的开发者人数仍在增长。人工智能正在改变劳动市场的结构，尤其是对初级岗位和标准化认知劳动的影响已经开始显现。

在科学领域，人工智能的角色正在从加速单个研究步骤，转向尝试替代整个研究工作流。面向科学的模型在一些任务上已经超过人类科学家，但更大体量的模型并不总是更好。前沿模型在ChemBench上的平均表现优于人类化学家，但在天体物理学复现实验中的得分低于20%，在地球观测问题上的得分仅为33%。而一个仅有1.11亿参数的蛋白质语言模型MSAPairformer，在ProteinGym上击败了此前领先的方法；一个2亿参数的基因组学模型GPN-Star，也优于一个规模几乎大200倍的模型。这些结果表明，在科学人工智能中，数据质量、任务专门化和训练方法往往比单纯扩大参数规模更关键。与通用人工智能主要由产业主导不同，大多数面向科学的基础模型来自跨部门合作，这种合作结构也反映了科学研究对数据、实验和验证链条的特殊要求。

02 医学人工智能上游突破：从蛋白质模型到虚拟细胞

医学是人工智能影响最迅速扩大的领域之一。2025年，人工智能在医学中的进展十分显著。在分子生物学层面，人工智能模型已经覆盖从基因序列到蛋白质结构再到治疗设计的完整路径。2024年至2025年间，人工智能驱动的蛋白质研究增长约71%，相关论文总数从2,259篇增至3,855篇。其中，蛋白质—药物相互作用始终占据最大份额，同时蛋白质结构预测的相对份额则持续下降，反映出结构预测方法逐渐成熟，而研究重心正更多转向治疗应用。

随着模型在生物学中的应用加深，训练数据正成为更关键的瓶颈。到2025年，生物AI模型越来越多地在多个数据集上联合训练，整合结构数据、小分子结合亲和力、基因序列和单细胞观测等实验信息。多种共折叠方法开始同时利用蛋白质数据库中的结构数据和实验测量数据，合成生成数据也被广泛采用。与此同时，大规模数据资源快速扩展，训练集规模已从数十万条记录提升至数千万条，生物模型开发也越来越受制于数据而非架构。

蛋白质语言模型的发展趋势也发生了明显变化。2024年该方向一度走向超大规模，形成了980亿参数的ESM3；到2025年，重点转向在精选数据上训练的小型架构，以及通过检索增强提升性能。多个结果表明，小模型结合高质量数据、物理约束和检索增强，已能以更低成本达到甚至超过以往大模型的效果。这说明蛋白质模型的发展重点，正从单纯扩张参数规模转向更高效的数据与任务设计。

结构预测与共折叠模型在2025年同样快速发展。多个受AlphaFold3启发的开源模型相继发布，用于预测蛋白质、核酸、药物及其他生物分子组合形成的三维结构。尽管AlphaFold3在部分任务上仍保持优势，但多数共折叠模型在蛋白质结构和复合体建模上已表现出相近性能。随着模型逐步覆盖主要结构类型，进一步提升性能越来越依赖新的数据来源，或从现有数据中提取更深层信号。这再次说明，在蛋白质结构预测中，数据而非模型规模，才是更关键的瓶颈。

在治疗用途的蛋白质设计方面，进展同样显著，但现实难度亦十分清楚。共折叠技术催生了新一代生成模型，包括设计抗体、纳米抗体和肽的方法。然而，部分设计虽能够实现目标结合，但并未直接转化为中和能力，表现最好的仍是结合多种工具并经过专家调优的专用方法。这说明，生成能力的提升并不等于治疗有效性，实验验证仍然不可替代。

“虚拟细胞”模型则成为2025年的新前沿。Arc Institute发布了Evo2和STATE，DeepMind推出了AlphaGenome，这些系统试图在不进行湿实验的情况下预测细胞对药物和遗传扰动的反应。但当前模型在若干基准上的表现仍落后于更小、更专门的系统。与此同时，自动化与智能体驱动的生物医学发现持续推进，相关系统已能够整合文献、数据、工具和数据库，提出候选假设与分子设计方案，但这些成果同样仍需要实验验证。

03 医学人工智能临床落地：影像、推理、病历与预警系统

如果说分子与细胞层面的进展构成了医学人工智能的上游，那么临床应用则更直接检验其现实价值。医学影像仍是人工智能最成熟的临床领域，但与通用人工智能相比，数据规模依然偏小。MAIRA-2使用约140万张胸部X线片训练，而DINOv3使用17亿张未标注自然图像；多模态医学模型RadFM使用约1600万份二维和三维混合医学扫描及其配对文本，而OpenCLIP使用的LAION-5B包含约58.5亿组图文对。尤其在CT和MRI等三维模态中，数据稀缺和跨机构碎片化仍严重限制大规模医学基础模型的发展。

验证医学影像人工智能的前瞻性试验也在增加。2025年相关试验同比增长28.5%，从417项增至536项，说明该领域正从回顾性研究转向真实临床环境中的验证。近期试验包括MASAI，以及NOTIFY-1和NOTIFY-EXTEND，它们检验人工智能识别结果是否会进一步改变医生行为，而不再只停留在“能不能识别”的层面。

大语言模型在临床推理上的表现则更具冲击力。在多项评估中，OpenAI的o1-preview对《新英格兰医学杂志》中78%的病例做出了正确的诊断判断，top-1准确率为52%；在NEJMHealer病例中，其表现也明显优于GPT-4、主治医师和住院医师；在管理推理任务中，中位得分达到86%，亦显著高于医生与传统工具基线。在真实急诊病例中，o1在多个诊断阶段均超过主治医师。微软的AIDiagnosticOrchestrator与OpenAI的o3配合，在高难度已发表病例研究中得分达到85.5%，而未借助辅助工具的医生仅为20%。

但值得注意的是，这些结果主要来自结构化评估，而非完全真实的临床检验。临床AI最成功的应用，往往不是替代医生判断，而是嵌入现有工作流程、减轻负担并提高效率。2025年最典型的例子是环境式AI病历记录工具。这类系统可根据患者与医生对话自动生成临床文档，已成为采用最广泛的临床AI类别之一。Abridge的覆盖范围已从约100个卫生系统扩大到150多个，在使用Epic电子健康记录系统的医院中，采用率达到63%。多个机构报告了相对一致的收益，包括病历记录工作量明显下降、认知负荷减轻、文书耗时缩短、接诊量上升以及医生职业倦怠下降。

脓毒症预测系统是另一类已显示明确临床价值的工具。约翰斯·霍普金斯大学和BayesianHealth开发的的实时预警系统已部署于克利夫兰诊所13家医院，报告显示脓毒症死亡率相对下降18.7%，首次开具抗生素医嘱的中位时间缩短1.85小时，正确识别82%的脓毒症病例，临床医生采用率达到89%，重症监护病房使用率下降10%。

UCSanDiegoHealth的深度学习模型COMPOSER对每位患者监测150多个变量，在6217例住院病例中报告脓毒症死亡率下降17%，绝对下降1.9%，脓毒症诊疗集束措施依从性提高5%，每年估计可挽救50条生命。这些案例说明，临床AI最有可能率先大规模落地的方向是任务边界清晰、流程可控、且始终处于临床监督之下的领域。

04 监管、患者与伦理：医学人工智能的制度挑战

监管层面，FDA对人工智能赋能医疗器械的授权继续快速增长。2025年，FDA批准了258款AI医疗器械；截至2025年12月，已在17个临床专科中批准来自693家公司的1,357款AI/ML赋能医疗器械，其中放射学占1,039款，占比76.6%，心血管领域130款，神经学61款。非放射学领域的授权数量已从2016年的7个增至2025年的60个，显示AI正从影像中心应用扩展到更广泛的临床场景。

市场格局上，GE Healthcare以93款设备居首，西门子医疗82款，上海联影38款，飞利浦36款；但在626家至少拥有一款获批设备的公司中，绝大多数仅持有一到两款设备，说明市场既头部集中，也村庄大量新进入者。

不过，监管授权并不等于临床证据充分。绝大多数产品通过器械修改路径进入市场，依赖现有安全性和有效性证据，而不是新的随机试验。对截至2024年12月全部1,016项授权的分析发现，在具有临床研究支持的器械中，只有2.4%由随机对照试验数据支持。斯坦福—哈佛ARISE网络对500多项临床AI研究的审查也发现，近一半研究依赖考试式问题而非真实患者数据，只有5%使用了真实临床数据。领先大语言模型在每100个临床病例中会给出11.8至14.6条严重有害建议，其中76.6%属于遗漏性错误，例如未建议进行关键检测。因此，人工智能可能在支持而非替代临床医生判断时效果最佳，而大规模落地仍需要更扎实的临床证据、治理机制和伦理框架。

患者端的变化同样值得关注。人工智能生成的健康信息已经成为许多人接触医学知识的第一入口。谷歌的AI Overviews如今出现在84%至92%的健康相关搜索结果顶部，其中症状和常见健康问题类查询有92%的概率触发AI摘要，治疗类查询为90%，疾病类查询为84%至88%。这意味着，患者往往在与医生交谈之前，就已经通过人工智能生成内容形成了对自身问题的初步理解。

与此同时，关于患者如何看待医疗AI的研究在2020年至2025年间增长了十倍。文献显示，患者普遍接受人工智能承担辅助性角色，但对其自主决策持谨慎态度，尤其是在高风险临床情境中。患者担心富有同理心的医疗照护会因技术介入而流失。对人工智能的信任更多由临床医生介导，而不是建立在对技术本身的理解之上，因此医疗服务提供者的认可成为患者接受度的关键决定因素。透明度和告知义务也被广泛视为优先事项。

伦理讨论的增长，反映了医学人工智能正在从技术问题转向制度问题。2025年，43.4%的医疗人工智能出版物讨论了伦理议题，高于2024年的37.1%，绝对数量在两年间增长了一倍以上。增长主要集中在治理层面，2025年与治理相关的出版物达到1,228篇，高于算法关切的896篇和社会关切的874篇。欧洲在这一方向的发表量最多，其后是东亚和北美。

05 从能力竞赛走向治理与整合能力的考验

总体来看，人工智能正在以前所未有的速度扩张，能力持续增强，应用迅速渗透，经济价值不断显现；但与此同时，评估工具趋于失效，治理体系反应迟缓，教育和劳动力市场准备不足，安全与责任框架明显落后。在医学领域，这种张力表现得尤为集中：从蛋白质语言模型、虚拟细胞和自动化生物医学发现，到临床推理、病历记录、脓毒症预警和患者搜索入口，人工智能已经深度介入医学知识生产和医疗服务流程，但真正决定其长期影响的，仍将是证据质量、制度设计、伦理边界和临床整合能力。换言之，人工智能的未来不再只取决于模型还能变得多强，也取决于社会能否建立起与之相匹配的测量、治理和应用体系。

整理：宋依然但誉乐

点分享

点点赞

点在看

打赏