人工智能+医疗年度研究报告(2025)_展会资讯_资讯

人工智能+医疗年度研究报告(2025)

出品 | 陈博观察 (ID: Drchenobservation)

编辑 | Will Chan

2025 年是医疗人工智能行业实现质变跃迁的关键一年，技术层面，AI Agent 技术逐步成熟推动医疗 AI 从辅助工具向临床协作者转型，实现了从 L2 平台化向 L3 闭环管理的核心跨越；市场层面，中国医疗 AI 市场规模突破 1157 亿元，AI 技术在临床场景的落地从 “锦上添花” 的事后辅助，转向 “雪中送炭” 的工作流深度嵌入；政策层面，国家层面连续出台专项文件，明确了医疗 AI 的应用方向与合规边界，监管框架从限制观望转向赋能与分类管理。本文基于卫宁健康人工智能实验室与市场部发布的《2025 医疗人工智能年度报告》，从行业洞察、技术创新、深度研究、落地案例、未来展望五大维度，全面拆解 2025 年医疗 AI 行业的发展逻辑、技术突破与实践路径，厘清行业从技术可行到临床可信的核心演进规律。

来源：卫宁健康, 医疗人工智能年度报告2025

一、2025 年医疗 AI 行业发展核心洞察

2025 年，人工智能技术从大模型时代正式迈入智能体时代，技术迭代的浪潮不再局限于单点效率提升，而是深度参与到医疗场景的全流程之中。行业发展的核心逻辑发生根本性转变，从单一的模型参数军备竞赛，转向技术与临床业务的深度融合，AI 原生应用正在重构医疗行业的核心秩序。

1.1 AI 原生应用正在重构 2025 年医疗秩序

过去两年，医疗 AI 赛道的产品迭代多以功能堆砌为核心，通过叠加各类算法模型应对复杂临床场景，但这种模式在实际应用中效果有限。2025 年，随着《关于促进和规范 “人工智能 + 医疗卫生” 应用发展的实施意见》的发布，行业竞争焦点从单一技术性能转向与核心医疗业务的结合，底层技术架构完成范式升级，AI 原生应用开始全面重塑医疗格局。

行业应用的核心焦点完成了从 “锦上添花” 到 “雪中送炭” 的关键转变。2024 年是医疗大语言模型场景化落地的元年，彼时的应用多集中在智能导诊、报告解读、病历质控等事后辅助环节，本质是对既有结果的再加工，虽易落地、风险可控，但对一线医务人员的即时价值有限，甚至被视为单纯的 “监管工具”。进入 2025 年，行业关注点从 “模型懂多少医学知识” 转向 “模型能省多少时间”，市场需求与政策导向高度契合，AI 应用开始嵌入临床工作流的核心环节，实现医生书写病历时的实时辅助、护士护理评估时的表单自动录入，医疗大语言模型的定位从 “监管工具” 全面转向 “效率引擎”。从 11 家 WiNGPT（康宁人工智能大模型）核心用户的应用数据来看，2025 年与临床效率直接相关的场景使用量呈现爆发式增长，报告质控、病历生成等核心场景的使用规模持续攀升，验证了场景驱动策略的有效性。

DeepSeek 现象引发了行业对临床场景适配性的深度反思，形成了技术先进性与临床实用性的适配逻辑。2025 年初 DeepSeek-R1 模型的发布，证明了效率和算法创新可以打破算力军备竞赛，深度推理模型的崛起曾让行业对其攻克复杂长链路临床问题寄予厚望，但在真实临床场景中，其理论优势并未转化为实际生产力。核心掣肘在于临床场景对响应时延的极高要求，深度推理模型动辄数十秒的 “思维链” 延迟，难以融入高通量门诊、住院管理、医技检查等需要高效协同的临床流程，同时大参数模型高昂的算力与推理成本，也难以实现规模化部署。这一现象形成了明确的行业共识：深度推理模型短期内难以成为高频临床场景的标配，其更适用于科研探索、疑难病例多学科会诊或教学场景；而在高频、通用的临床业务中，响应更快、针对性更强的轻量化模型将成为主流。

RAG 与 Agentic AI 完成了从创新焦点到核心基础设施的身份蜕变。2024 年，检索增强生成（RAG）和代理式 AI（Agentic AI）还是行业发布会上的创新亮点，2025 年二者已逐步成为医疗 AI 产品的核心基础设施。其中，RAG 从 “加分项” 变成了行业准入的 “入场券”，通过挂载权威中医古籍、临床诊疗指南等专业内容，大语言模型不仅能提供有据可依的诊疗建议，还能有效规避 “幻觉” 问题，满足政策对医疗 AI 安全、可靠、可控的核心要求。Agentic AI 则完成了从 “概念” 到 “实战” 的跨越，过去的大语言模型仅能实现 “问答式” 交互，2025 年已逐步具备复杂的任务规划能力，实现从 “被动响应” 到 “主动执行” 的转变，在科研场景可自动规划文献检索路径、提取数据并生成综述，在临床场景可打通系统孤岛、综合分析病历并主动抓取异常指标生成趋势研判，真正具备了 “数字助手” 的核心能力。

行业生态重塑过程中，仍面临三大核心挑战。其一，“赋能不替代” 的责任边界仍不清晰，尽管政策明确了 AI 赋能而非替代的核心原则，但当 AI 介入临床决策、处方审核环节发生医疗纠纷时，技术提供方与使用方的责任划分仍缺乏明确的司法解释；其二，数据孤岛与全流程智能的博弈仍在持续，多数医疗机构的临床数据中心仅解决了数据 “汇聚” 问题，并未实现实时互通，异构系统接口壁垒、语义差异依然存在，成为 Agentic AI 实现全流程智能的核心阻碍；其三，模板化病历背后的 “真实性危机” 日益凸显，过度模板化的病历会形成 “数字滤镜”，出现克隆病历、信息颗粒度缺失等问题，不仅会掩盖患者真实临床特征，还会导致 AI 模型训练出现 “垃圾进、垃圾出” 的系统性偏差。基于此，行业未来的竞争焦点将从 “模型参数的军备竞赛” 转向 “场景颗粒度的深耕”，能否以更低成本、更高效率打通基层医疗与临床应用场景，将成为企业核心竞争力的关键。

1.2 数据中心与边端设备迎来全面建设浪潮

硬件基础设施是大语言模型训练和部署的核心底座，2025 年，医疗 AI 算力基础设施建设迎来全面爆发，算力供给从集中式走向普惠式，国产化算力实现关键突破，云边端协同的算力体系逐步成型，为医疗大语言模型的规模化落地奠定了基础。

全国化算力基建布局持续完善，智算规模位居全球前列。2024-2025 年，全球 AI 算力需求暴涨，中国依托 “东数西算” 工程实现了算力网络的全国化布局，八大国家枢纽节点集聚了全国 60% 以上的新增算力，智能算力规模约占全国的 80%。截至 2025 年 6 月底，中国智算总规模已达 788EFLOPS，位居全球第二，行业建设重点聚焦 “万卡集群” 的加速推进，通过高速网络实现成千上万加速计算卡的互联，形成强大的规模化算力支撑。

国产化算力实现关键突破，适配医疗场景的部署形态持续创新。华为昇腾正加快技术迭代，通过 “超节点 + 集群” 的技术路径突破算力瓶颈，公布了未来三年芯片演进路线图，计划在 2026 至 2028 年陆续推出 950、960 和 970 三个系列芯片；海光信息的深算三号已实现量产并全面适配主流大语言模型，新一代深算四号研发进展顺利；天数智芯在通用 GPU 领域实现量产，行业生态持续完善。同时，小型推训一体设备正在快速进入医院场景，这类设备体积紧凑、部署灵活，既能满足日常临床的推理需求，又能在院内完成一定规模的模型训练，相比传统集中式数据中心部署模式，更贴近临床一线，能有效保障数据安全，提升垂类模型训练速度、降低训练成本。

算力供给模式完成核心转变，从集中式走向普惠式。大语言模型的训练阶段高度依赖集中式算力，但落地应用阶段的核心瓶颈，是算力能否被广泛、低成本地获取。2025 年，算力结构发生根本性转移，集中式算力仍负责高强度的模型训练，而应用侧算力供给开始转向更分散、更低门槛的模式，形成云、边缘和终端协同运行的整体形态。随着桌面级 AI 计算设备的出现、国产 GPU 服务器价格下降与软件生态的逐步稳定，本地推理和小规模参数调整的门槛大幅降低，相关能力从少数大型机构扩散到更广泛的医疗机构与开发者群体。与此同时，AI 正加速进入工业化阶段，模型训练流程实现标准化优化，算力资源实现统一调度，数据管理逐步资产化，行业重心从单点技术突破转向规模化、可复制的生产体系建设。

院内算力资源的高效利用方案逐步成熟，实现普惠式算力落地。针对医院算力有限、数据隐私敏感的核心约束，行业依托国产化硬件适配与轻量化微调方案，形成了院内算力高效利用的成熟路径。卫宁健康研发的 WiNGPT Factory 训练平台，深度适配华为昇腾 910B、英伟达 A800 等国产化及主流算力设备，可充分利用院内有限算力与小样本数据开展模型本地化微调。平台支持全流程可视化操作，涵盖标注数据上传、模型与训练参数可视化配置、训练过程实时监控、模型合并导出与院内系统部署等全流程功能，无需复杂代码开发，即可让模型快速适配医院诊疗规范与质控需求，在保障数据隐私安全的同时，实现医疗大语言模型的个性化优化与临床落地。

1.3 人工智能正式迈入 “智能体” 时代

2025 年，智能体不再只是实验室里的概念验证，已全面进入企业实际业务流程，AI 正从 “被动响应工具” 转向 “可执行、可调度的系统组件”，智能体成为这一转变的核心载体，医疗行业也迎来了从工具到协作者的范式升级。

智能体在 2025 年成为行业主流，核心源于技术与经济条件的双重成熟。技术层面，截至 2025 年 5 月，国内累计发布医疗大语言模型 288 个，其中 2025 年新增 133 个，占比接近半数；截至 2025 年 11 月，国家互联网信息办公室共通过了 2261 个深度合成服务算法的备案，技术供给与合规体系持续完善。经济层面，大模型推理成本在过去一年出现暴跌，H100 GPU 云租赁价格从 2024 年底的约 8 美元 / 小时降到 2025 年底的 2.85-3.50 美元 / 小时，降幅超过 60%；DeepSeek 的稀疏注意力架构让长上下文推理成本降低 6-7 倍，32K token 的输入成本从 0.60 美元 / 百万 token 降到 0.10 美元。综合来看，算法效率每年提升约 3 倍，叠加硬件降价，综合推理成本正以每年 5-10 倍的速度下降，高能力模型已可实现持续、低成本运行。应用层面，企业对 AI 的使用已从试水转向常态化，根据麦肯锡 2025 年全球 AI 调研报告，78-88% 的组织已在至少一个业务领域使用 AI，38% 已将 AI 从试点扩展到生产环境，企业已具备支撑复杂智能体系统部署的数据、流程与工程经验。

编程领域成为智能体规模化落地的标杆，验证了智能体落地的核心规律。2025 年，编程领域成为智能体规模化落地最成熟的场景，GitHub Copilot 在 2025 年 7 月突破 2000 万用户，90% 的财富 100 强企业均有使用，活跃用户平均 46% 的代码由 AI 生成；Claude Code 在 2025 年 5 月正式发布后，6 个月年化收入便达到 10 亿美元，创下 AI 产品收入增长的历史纪录；Cursor 也实现了 100 万日活用户，年度经常性收入超过 5 亿美元。编程领域率先跑通的核心原因，在于其完美符合 “可回滚错误” 的核心条件：代码错误可快速修改、测试与回滚，整个反馈周期以秒计算，开发者可立刻验证 AI 输出的正确性，同时任务规则清晰、错误成本可控、结果可人工复核，让企业愿意快速采用。

医疗领域智能体落地呈现 “讨论很热、落地很慢” 的反差，核心规律在于落地速度取决于错误的可逆性，而非技术的先进性。2025 年，医疗领域智能体试点数量持续上升，但规模化应用仍有明显差距，企业整体 AI 采用率已达 78-88%，而医疗领域特定 AI 工具的部署率仅 22%，虽较 2024 年增长 7 倍，但绝对值仍然偏低。阻碍医疗智能体规模化应用的核心因素，并非模型准确率，而是可解释性、责任归属、长期临床证据和合规路径，美国医学委员会联合会 2024 年已明确表态，AI 辅助医疗决策出错时，临床医生仍需承担法律责任，这让医生在使用 AI 时格外谨慎。这一反差揭示了行业核心规律：AI 智能体的落地速度，取决于错误的可逆性，而非技术的先进性。医疗领域的谨慎并非落后，而是对 “不可逆错误” 的合理敬畏，短期内医疗智能体的突破，不在于模型更大、准确率更高，而在于解决出错责任归属、决策过程可解释、长期效果验证三大核心问题，将合规、验证和责任机制设计进系统中，才是医疗 AI 真正的护城河。

1.4 行业动向：技术、场景与策略的三重演进

2025 年，医疗 AI 行业的发展不再局限于单点技术突破，而是在应用场景、技术底座、落地策略三个维度实现了系统性演进，行业发展逻辑从 “追求技术性能” 转向 “实现临床价值”。

应用场景从 “单点临床辅助” 向 “全链条产业赋能” 系统扩张。行业内企业的价值定位实现了系统性拓展，不再局限于提升诊断环节的效率，而是让产品深度融入医生的日常工作流程。发展路径呈现双向延伸的特征：纵向维度，覆盖预防、诊断、治疗、康复及慢病管理的全生命周期健康管理；横向维度，融入医保、保险、医药研发等更广阔的医疗产业生态，产品设计理念从 “更快、更强” 转变为 “更好用”。这一变化意味着医疗 AI 正从提升单一场景效率的工具，演变为重构医疗健康服务价值链的重要推动力。

技术底座从 “专用工具” 向 “多模态领域大模型” 全面跃迁。行业技术发展的主线，已从开发解决特定任务的孤立模型，转变为构建能够深度理解与融合文本、影像、检验报告等多维信息的自主领域大模型。这一根本性转变，旨在让 AI 能够适配临床全场景的使用需求，使其从特定任务的专用工具，转变为嵌入工作全流程的通用能力。行业内企业通过采用混合专家模型（MoE）、思维链、检索增强生成（RAG）等先进架构与训练方法，持续提升模型的效率、精准度与可解释性，为全场景落地奠定了技术基础。

落地策略从 “中心化标杆” 向 “可信普惠化落地” 深度演进。2025 年，医疗 AI 实现规模化应用的关键，已转变为同时攻克 “建立信任” 与 “实现普惠” 两大瓶颈。在可信层面，行业通过技术创新确保诊断过程可追溯、可解释，同时积极获取权威医疗器械认证，构建临床与监管信任的基础；在普惠层面，借助模型轻量化、边缘计算等技术降低部署门槛，推动 AI 能力下沉至医疗资源稀缺的基层场景，成为行业的共同发展路径。蚂蚁阿福的实践正是这一趋势的典型体现，其通过 “AI + 专业医疗资源” 的协同架构，构建了 “AI 辅助、人工保障” 的安全机制，同时服务覆盖全国超 1500 万月活用户，其中 55% 来自三线及以下城市，充分体现了技术普惠的核心价值。

尽管行业实现了全方位演进，但信任仍旧是现阶段医疗 AI 落地最大的挑战。无论是医生还是患者，都对 AI 存在不同程度的担忧，核心集中在结论错误与数据安全两大问题。结论错误方面，风险主要源于训练数据的质量缺陷与 AI 的 “黑箱” 特性，训练数据的偏见或不足会导致 AI 生成不准确甚至误导性的诊断，而无法解释的复杂决策过程，让医生难以复核和信任输出结果。数据安全方面，医疗 AI 系统处理着大量患者敏感健康信息，极易成为网络攻击和数据泄露的目标，一旦安全失守，不仅会侵害患者隐私，被污染的数据还会进一步导致 AI 模型出现更多错误结论。目前行业正在尝试通过多方协同治理、技术改进和人机协同模式解决这些问题，但最终效果仍需时间与临床实践的验证。

二、医疗 AI 落地的深度研究与量化分析

2025 年，医疗 AI 行业的研究重点从单一的模型性能评测，转向了落地场景中的系统工程能力、成本效益、临床适配性等核心问题，通过多维度的深度研究与量化分析，为医院 AI 建设、模型选型、场景落地提供了科学的决策依据。

2.1 医院 AI 建设成熟度模型研究

当前行业普遍存在一个核心误区：将模型的基准测试高分等同于真实业务可用性。但在真实的医疗环境中，医院管理者关心的不是模型考试能得多少分，而是能不能在真实业务里稳定跑起来。基于此，行业将研究重点从单一的模型性能评测，转向了医疗场景下的系统工程能力构建，参考 HIMSS 在医院信息化领域提出的成熟度分级思想，构建了一套面向医院 AI 建设的成熟度模型，用以刻画医疗机构引入生成式 AI 从探索应用到体系化落地的整体发展水平。

该模型将医疗机构 AI 建设进程划分为七个层级，形成了完整的演进路线，每个层级都有明确的核心特征与建设目标：

来源：卫宁健康, 医疗人工智能年度报告2025

L0 为基础设施就绪层，核心是实现本地化与私有化部署，确保数据不出院，搭建起安全可控的 AI 底座；
L1 为单点工具试点层，核心是实现场景化落地，通过独立工具在特定科室解决局部痛点，完成 AI 应用的初步探索；
L2 为平台化与中台化层，核心是实现全院 AI 能力的统一调度，通过建设全院 AI 中台，实现算力池化与标准 API 输出，形成规模化应用的基础；
L3 为闭环管理与质控层，核心是构建质控闭环，通过规则引擎与安全护栏，拦截模型幻觉、规范 AI 运行，实现业务流程的闭环管理，这也是 2025 年行业实现的核心跨越；
L4 为高级决策支持层，核心是复刻专家思维，通过深度推理与综合研判，为临床决策提供专业辅助；
L5 为自进化学习层，核心是形成数据飞轮，基于人类反馈的持续微调，让模型能力随业务沉淀持续攀升；
L6 为全场景泛在智能层，核心是实现 AI 的无感融入，通过边缘计算让 AI 渗透到医疗物理空间的各个环节，像水电一样无处不在。

基于该成熟度模型，行业选取了目前市场主流的支持私有化部署的模型，将其映射到 L0 至 L4 级业务场景中，完成了实效性测试，得出了三大对医院 AI 选型具有指导意义的关键结论。

第一，参数效率呈现非线性回报特征，中等模型可实现 “越级挑战”。参数规模并非决定医疗任务表现的唯一指标，尽管在表单填写等任务上，235B 的大语言模型仍具备统治力，但在执业医考、术语补全等纯医学知识任务中，中等规模模型展现出极高的参数效率，得分可与 235B 级别的超大模型持平。这意味着在受限于算力成本的私有化部署场景下，精选架构的中型模型完全可以胜任高频知识类服务。

第二，模型存在逻辑能力的隐性断层，记忆不等于推理。部分模型存在严重的 “偏科” 现象，部分模型在常规知识任务中得分接近，但在时间逻辑校验、规则质控等强逻辑任务中，得分差距显著。这一发现警示行业，模型的知识储备不代表其逻辑能力，在涉及医疗质控与流程核查的关键环节，必须优先考量模型的逻辑稳健性。

第三，垂直微调存在双刃剑效应，需警惕 “灾难性遗忘”。过度的医疗垂直微调会让模型的通用能力变差，对比通用基座模型及其医疗微调版本，后者虽然在知识问答上略有提升，但在表单填写、报告生成等需要严格遵循格式的任务中，分数出现显著下降。这提示行业，未来的模型训练策略需在 “专业深度” 与 “通用广度” 之间寻求更佳平衡。

该研究最终形成明确结论：医院 AI 建设已进入规模化落地阶段，基座模型是前提，但光有模型远远不够。未来行业的竞争核心，不是谁的模型更大，而是谁的模型与产品结合得更紧密。医院 AI 建设应从单点的算法引进，转向全栈式的体系打磨，以体系建设的确定性，解决医疗场景落地的复杂性。

2.2 超越基准：大语言模型推理的经济学分析框架

在大语言模型的商业落地过程中，行业普遍面临一个核心困境：那些在基准测试排行榜上排名领先的大模型，一到落地场景就面临极高的使用成本。随着大语言模型进入规模化落地的 2025 年，工程部署始终面临模型质量、推理性能与经济成本的 “不可能三角”。为此，行业提出了量化的 “推理经济学” 分析框架，将推理视为算力驱动的生产活动，为医院 AI 建设中的模型选型与资源配置提供了科学的决策依据。

该框架首先构建了标准化的成本量化模型，确定了 GPU 小时成本基准：基于 A800 80G×2 卡的裸金属环境，综合折旧、能耗与维保，将基准成本定为每小时 11.2 元。同时，构建了 WiNEval-3.0 医疗场景专属评估基准，该基准围绕医疗领域核心需求设计，包含 2993 条评估数据，涵盖执业医师资格考试、医疗质量控制、临床诊断生成等 10 项具体任务，既关注模型的专业知识水平，也校验其在临床实操中的表现，打破了传统评测仅侧重理论、与真实医疗需求脱节的局限。在测试集构建过程中，引入了心理与教育测量学方法，通过经典测验理论与项目反应理论，完成了测试题目的双重筛选，确保评测结果的精准性与有效性。

基于统一的硬件环境与评估基准，行业完成了主流模型的性能 - 成本测试，得出了四大核心发现。

其一，提升并发是降低单位推理成本的关键，但受限于显存与带宽瓶颈，每个模型都存在一个 “最优效费并发值”，超过该数值后，模型响应延迟会出现明显恶化，如 WiNGPT-3.5 的最优效费并发值为 48。

其二，模型存在明确的效费比 “甜点区”，WiNGPT-3.5 在 WiNEval-3.0 评测中跑出了 76.2 的最高分，而完成全部测试任务的推理成本仅 2.41 元，在所有测试模型中性价比最高，是通用临床场景的首选。

其三，分词效率是重要的隐性成本动因，部分模型虽然单位推理单价低，但中文分词效率低下，导致完成相同任务的 Token 总量远超平均水平，最终实际成本并未出现显著下降。

其四，推理深度直接决定成本水平，WiNGPT-3.0 因采用了 “思维链” 策略，输出长度是其他模型的 4 倍以上，完成测试的总成本达到 24.63 元，虽更适合需要完整推理过程的复杂任务，但不适用于高并发的简单问答场景。

该研究最终形成核心结论：没有 “最好的模型”，只有 “特定场景下性价比最高的配置”。这套推理经济学分析框架，能够帮助医疗机构在预算有限的情况下，基于真实业务负载做出量化的选型决策，不再仅以参数大小作为模型选择的唯一标准，而是聚焦真实业务场景中的效费比。

2.3 基于视觉 - 语言模型的全身肌肉骨骼病变辅助诊断研究

视觉 - 语言模型是整合计算机视觉与自然语言处理两大核心能力的多模态人工智能模型，其核心价值在于实现视觉信息与文本信息的精准对齐、双向理解及协同推理，复刻人类 “观察 - 理解 - 表达” 的固有认知逻辑。在医疗领域，视觉 - 语言模型正逐步成为智能诊断与医疗数据分析的核心技术支撑，但在全身肌肉骨骼放射领域的深度应用仍处于探索期。

肌肉骨骼疾病是全球首要致残原因之一，覆盖全年龄段，不仅会引发疼痛、行动受限，还会诱发多重并发症，带来沉重的社会负担。在临床端，医疗机构面临海量影像阅片压力大、偏远地区专科资源缺口大的核心痛点，传统单一模态视觉模型仅能适配单一诊疗任务，难以应对多层级诊断需求，AI 辅助诊断成为行业破局的关键。基于此，行业构建了基于真实世界数据的骨骼肌肉疾病全域 AI 视觉语言大模型 WiNGPT-BONE，并开展了多中心临床效能验证研究，为肌肉骨骼疾病精准诊疗提供了可靠的技术支撑与临床证据。

WiNGPT-BONE 模型构建了 “多中心临床数据 + 公开数据集二次开发 + 大模型生成问答对” 的完整数据体系，其中院内临床数据全面覆盖肌肉骨骼关键解剖部位，所有数据标注均经过资深放射科医师的严格审核与校验，保障了数据的精准性、完整性与临床契合度。在模型训练过程中，采用了分层级数据处理策略与双阶段精准训练范式，第一阶段完成医疗知识注入，第二阶段开展专项任务优化，成功实现了模型表征从通用域向肌肉骨骼医疗专业域的深度迁移，确保模型能够精准适配临床诊疗场景的实际需求。

在性能表现上，WiNGPT-BONE 模型在多个类 ICD 诊断独立测试集的验证场景中，各项核心性能指标均处于行业 Top 梯队。与 Hulu-Med-7B、Lingshu-7B 等主流参比模型相比，该模型在院内特定分布数据下的拟合能力与泛化能力更具优势，在骨折二分类、骨肿瘤二分类、膝关节炎二分类等核心诊疗任务上均实现了最优表现。同时，通过可视化热力图，研究团队进一步揭示了模型的诊断逻辑与核心依据，证明了模型诊断结果的可解释性，为临床应用提供了可靠的信任支撑。

为推动行业协同发展，研究团队计划逐步开源相关数据集与 WiNGPT-BONE 模型核心资源，为行业提供高质量的研究基础与技术支撑。该模型的研发与验证，有效缓解了放射科医师的阅片压力，弥补了基层医疗专科资源的缺口，未来将持续优化模型性能、拓展应用场景，助力肌肉骨骼疾病诊疗的智能化升级。

2.4 内镜 AI 应用的新演化研究

胃镜和肠镜是筛查胃癌、肠癌等消化道肿瘤的关键手段，临床日常检查量大、患者等待时间长，内镜技师和医师面临繁重的工作负担。内镜操作过程中，需要一名医师操作内镜，另一名医师同步记录可疑病灶和异常表现，尤其在胃早癌诊断中，还需对图像所见进行规范化、结构化的描述，重复且复杂的文书工作消耗了大量人力，制约了内镜科整体效率的提升。因此，引入医疗 AI 辅助记录、结构化信息抽取及报告生成，已成为提升内镜工作效率与质量的重要方向。

行业针对内镜临床场景的核心痛点，构建了融合语音识别技术与大语言模型的内镜 AI 解决方案。系统通过脚踏板触发录音模块，可在医生操作内镜时实现无接触语音采集，采集的音频首先进入前端语音处理链路，完成降噪与语音增强，确保在嘈杂的内镜室环境中仍能获得高质量的语音信号；随后，音频被送入端到端的语音识别模型，生成高精度逐字文本；再由 WiNGPT 3.5 对转写内容进行临床语义解析、实体抽取和结构化填充，将医生口述内容自动映射到标准化内镜报告模板中，涵盖病灶位置、大小、形态、操作步骤、取材情况等关键字段，最终自动生成符合医院规范的结构化内镜报告，医生只需在终端进行快速校对，即可完成整个文书流程。

同时，基于日本消化内窥镜学会制定的胃早癌内窥镜诊断指南，系统构建了覆盖核心临床评价要素的内镜胃早癌结构化信息体系，包括病灶位置、大小、镜下状态、巴黎分型等关键字段。系统以医生口述或文本输入为起点，通过大语言模型完成语义理解、临床实体识别、关系抽取与字段映射，自动填充到标准化报告模板中，无需人工逐项查找和录入，显著减少了信息抽取的重复性劳动。

实验结果显示，在胃镜报告的结构化信息抽取任务中，WiNGPT 3.5 表现稳定，成功处理了 96% 的报告并完整提取所有关键特征。在效率方面，使用大语言模型辅助书写的医师组，完成一份胃镜报告的平均时间为 6.53 分钟，显著短于传统手动书写组的 15.51 分钟。在参与试用的 7 位内镜医师中，有 6 位认为大语言模型辅助书写系统 “高效”，所有医师均认为该系统对于规范化书写胃早癌相关胃镜报告 “有帮助” 或 “非常有帮助”。

该内镜 AI 系统通过语音 AI 技术全面提升了医疗文书工作的效率与质量，针对医技科室报告记录岗位紧缺、人工录入成本高等现状，以语音识别替代手动输入，实时记录并生成报告内容，大幅减少了专职记录人员的投入，实现了降本增效。同时，依托精准的医疗术语识别能力，系统能够完整捕捉术中关键操作和病理特征，减少漏记、错记，显著提升了报告的准确性与规范性，推动了临床文书的智能化水平升级。

三、医疗 AI 临床落地典型案例与实效验证

2025 年，医疗大语言模型正加速落地，深度融入并重构医疗核心业务场景。行业通过多个典型案例的试点与落地，验证了医疗 AI 从 “能用” 到 “被采纳” 的核心逻辑，证明了技术创新能够切实解决临床一线的真实痛点，实现了临床效率与医疗质量的双重提升。

3.1 MedEvidence 循证医疗智能体系统

2023-2024 年，医疗 AI 行业经历了以 “医学问答”“指南解读” 为核心的探索期，以 OpenEvidence 为代表的循证问答产品，验证了大语言模型在医学知识整合与证据溯源方面的潜力。但在深入医疗实践的过程中，行业发现 “会回答医学问题的模型”，并不等同于 “能胜任临床工作的系统”。通用或轻量化的循证问答工具往往停留在 “信息供给” 层面，面对高复杂度的真实医疗场景，存在四大核心限制：无法嵌入医生日常工作流，回答结果与临床操作脱节；难以结合院内私有制度、知识、路径、历史经验或临床经典案例；缺乏可解释、可追溯的推理过程，难以满足合规与质控要求；无法承担跨任务、多步骤的复杂医疗协作工作。在此背景下，MedEvidence 循证医疗智能体系统应运而生。

MedEvidence 的核心设计逻辑，是将循证医学从 “被动查询” 升级为 “主动执行”。与传统医学问答或单一智能体产品不同，其关注的是完整的临床任务链条，包括疾病诊疗方案的结构化拆解与合理性校验、指南共识药品说明书与院内规范的综合比对、多信息源证据的自动检索整合与引用、在明确规则边界下辅助医生完成分析决策与操作支持。因此，MedEvidence 被设计为一套可部署于院内、以循证逻辑为核心、具备任务规划与执行能力的医疗智能体系统，而非单纯的模型能力前端展示。系统采用了基于 WiNGPT 的多智能体协同架构，通过一个调度中心分配任务，各专业智能体负责具体执行，背后连接检索系统和院内知识库，结果可实时展示，完美适配真实临床场景多步骤、多约束、多数据源的核心特征。

以 “HR 阳性 HER2 阴性晚期乳腺癌合并内脏危象的一线治疗方案选择” 这一真实临床问题为例，MedEvidence 的工作流程分为四个核心环节。第一，临床意图精准拆解，系统接收用户需求后，快速拆解肿瘤分型、疾病分期、核心特征、治疗层级等核心要素，锁定检索核心方向，避免冗余分析。第二，多源权威证据获取，系统分渠道调用不同工具完成精准检索，包括调用本地医学指南文档检索工具获取相关指南文件，调用 PubMed 英文医学文献检索工具获取高质量国际临床研究与综述，调用中文互联网医学文献检索工具获取国内权威共识解读与真实世界研究，实现全渠道权威证据的全覆盖。第三，循证质量智能过滤，系统启动 WiNGPT 自动化过滤机制，保留最新版临床指南、专家共识、Ⅲ 期随机对照试验、国际权威综述、真实世界高质量研究，过滤低质量、不相关的文献内容，最终留存核心有效权威证据，为后续输出提供唯一依据。第四，结构化临床决策建议输出，系统基于留存的权威证据，完成关键信息萃取、同质化内容合并、证据优先级排序，结合肿瘤临床诊疗逻辑，形成结构化的临床决策建议，同时标注所有引用来源，确保输出内容可追溯、可复核。

MedEvidence 的核心价值，并非替代医生进行临床决策，而是作为循证决策的 “增强层”，系统性缓解了临床实践中指南碎片化、证据检索成本高、决策一致性不足等长期痛点。通过将指南、共识、高质量临床研究案例和私有知识结构化嵌入诊疗流程，MedEvidence 能显著压缩从问题提出到循证结论形成的时间成本，使医生能够将更多精力回归于患者评估与个体化判断本身。从行业角度看，这套模式让循证医学从 “事后查” 变成 “随时用”，可广泛推广到肿瘤治疗、复杂疾病管理等多个临床场景。

3.2 智能化护理评估

长期以来，医院护理评估环节面临评估表种类众多、信息分散、流程冗长及易遗漏等核心挑战。护理评估需整合患者检查报告、医嘱及病史等多源数据，传统模式下，信息分散于不同系统，规则引擎无法识别自由文本中的临床信息，护士只能手动跨系统查阅资料、填报表单，不仅耗时费力，还容易出现漏填、错填的问题。针对这一行业痛点，行业在上海市同济医院开展了基于 WiNGPT 大语言模型的 AI 辅助护理评估试点，取得了显著的临床实效。

该试点项目依托大语言模型在非结构化病历理解及跨文档因果推理方面的核心优势，将传统的 “人工检索填报” 模式，重构为 “AI 智能预填 + 人工复核” 的新模式。系统采用 “无感嵌入” 策略，将 WiNGPT 深度融入现有护理系统，避免给护士带来额外的学习成本，同时构建了三步标准化工作流：第一步自动感知，当护士打开评估表单时，模型在后台自动阅读患者电子病历、检验报告及医嘱信息；第二步智能预填，模型基于语义分析输出判断结果，自动勾选建议选项并提供完整的溯源依据；第三步人工复核，护士从原本的信息录入员转变为审核者，仅需对系统预填内容进行确认或微调即可完成工作，在不改变现有操作习惯的前提下，实现了智能化与安全性的平衡。

针对传统信息化手段难以解决的临床痛点，WiNGPT 通过深度语义推理，攻克了三类核心难题。一是复杂时空逻辑识别，模型可精准识别病程记录中的时间状语，自动计算事件与入院日的间隔，支持 “住院前 6 个月内跌倒≥2 次” 等复合条件判断，而非简单的关键词计数；二是药理知识自动归纳，模型内置完善的药理知识库，可自动识别并统计精神类、降糖类等高风险药物类别，无需人工逐一核对患者医嘱用药及其分类；三是跨文档线索整合，模型具备多源语义理解能力，可自动关联分散在医嘱、药品知识、检验报告、电子病历等数据中的隐性线索，无需人工在不同文档与系统间反复跳转比对。

从上海市同济医院的真实运行数据来看，该系统在准确性、效率、采纳率三个维度均取得了优异表现。准确性方面，19 项核心护理指标在所有记录中均实现了 100% 的识别准确率，气管切开、慢性阻塞性肺疾病、全肠外营养等 10 项代表性指标的准确率集中在 90% 至 99.7% 之间，模型结论与资深护士评估结果高度一致，显著降低了误报与漏报。效率方面，WiNGPT 模型升级后，系统响应速度显著提升，医院获得性肺炎风险评估表的平均响应时间由 15 秒缩短至 5 秒，导管护理风险评估表的响应时间由 11 秒缩短至 4 秒。采纳率方面，随着模型精度与响应速度的提升，AI 评估的临床采纳率实现快速增长，肝功能 Child-Pugh 分级与消化道出血风险评估，在 5 个月内采纳率分别从 0 提升至 52% 和 40%。

此次试点充分验证了两件事：一是 AI 的语义理解能力，能够有效补上传统规则引擎的短板，把非结构化的临床文本转化为可用数据；二是高准确率、快响应速度，是一线护士愿意使用 AI 系统的核心前提。该案例充分证明了 AI 技术能够有效减轻护士的文书工作负担，其核心模式可复制推广至其他医院与病区，未来将逐步覆盖更多护理场景与临床科室。

3.3 AI 驱动的患者病程速览

在复杂疾病的诊疗周期中，患者病程往往跨越多个阶段，涉及大量动态变化的临床资料。但受限于传统信息系统功能模块化的设计理念，电子病历、检验报告、影像资料等数据被割裂在独立的业务工作站或标签页中，缺乏深层的逻辑关联，形成了 “物理集成而逻辑分散” 的行业现状。这导致医生在病例讨论、交班及多学科会诊前，必须耗费大量精力跨系统检索并人工拼凑信息，病情变化趋势难以直观呈现，病历整理效果高度依赖个人经验，严重制约了高难度诊疗决策的效率与质量。

针对这一痛点，行业在试点医院落地了 WiNGPT 驱动的 AI 病程速览产品，核心定位是成为医生的 “病程阅读助手”，通过对患者住院期间的多源数据进行自动感知、语义理解与结构化重组，实现病例信息准备方式的范式转变。整个过程分为三个核心环节：一是自动抽取，即从病历、检验、医嘱、影像报告中提取关键临床信息；二是智能重组，即以 “时间轴 + 主题模块” 的方式，重构患者诊疗全景；三是标准输出，即生成可直接用于病例讨论与汇报的结构化内容。整个过程不再依赖医生逐条查阅和复制粘贴，而是由 AI 在后台完成复杂的信息整合，显著降低了信息准备成本，提升了病例呈现的完整性与一致性。

AI 病程速览的核心功能，是实现患者全周期诊疗数据的整合与全景呈现，主要分为四大模块。其一，梳理患者背景信息，自动整合患者基本信息、提炼主诉核心内容，同时汇总既往史、个人史、家族史中的关键信息，形成完整的患者背景视图，避免病例讨论中因背景信息缺失或表述不一致导致的沟通障碍。其二，重构病史时间轴，将非结构化的病程记录转化为可视化时间轴，自动标注关键诊疗节点，明确重要诊疗决策、病情变化节点以及治疗调整与疗效评估的关键环节，让医生可在数秒内快速掌握患者从入院至当前的完整诊疗脉络。其三，聚合检验诊断要点，自动识别并汇总多类关键临床指标，按诊断逻辑形成结构化视图，将复杂的 “多次检查、多时间点变化” 信息，转化为直观、可对比的视图，方便医生快速把握指标变化规律与诊断核心要点。其四，可视化核心治疗过程，自动识别核心治疗相关信息并进行结构化呈现，通过用药甘特图清晰展示各类药物的起止时间、剂量调整节点，同时汇总非药物治疗措施及关键支持治疗内容，帮助医生快速回顾患者完整治疗路径，为后续诊疗方案优化提供清晰参考。

AI 病程速览的核心价值，并非简单的信息抽取，而是实现了对复杂临床语义与时序逻辑的病程级深度理解，构建了四大核心能力：多源语义关联能力，可同步理解病历、检验结果、医嘱记录、影像报告等多源文档间的内在关联，打破信息孤岛；时序逻辑建模能力，自动梳理诊疗事件的时间脉络，明确事件间的关联关系，避免形成孤立事件的简单堆叠；医学知识内化能力，内置完整的医学知识体系，可精准理解药物类别、检查项目临床意义、指标变化背后的病理生理逻辑；结构化重组输出能力，将零散的非结构化临床文本，转化为标准化、可直接复用的信息模块。

从真实医院场景的落地数据来看，AI 病程速览已展现出明确的临床应用价值：显著缩短了病例讨论、交班汇报、多学科会诊前的资料整理时间；提升了病例材料的标准化水平，确保了信息的完整性与一致性；为低年资医生提供了逻辑清晰的病程导航，显著提升了其对复杂病例的认知效率；消除了院内外会诊时的信息不对称，极大降低了跨机构、跨科室的沟通成本。此次试点实践，标志着医疗 AI 正式突破了 “辅助生成临床文书” 的功能工具阶段，迈向了 “辅助理解患者全貌” 的深度认知阶段，让医生能够少花时间整理资料，多花时间诊疗患者、制定临床决策。

四、医疗 AI 行业发展展望与未来趋势

2025 年，医疗 AI 行业完成了三大核心转折：一是从实验室走进正式收费项目，获得了制度层面的全面认可；二是从被动响应工具变成主动决策的智能代理，医生的角色从操作者转变为审核者；三是监管从观望等待转向体系化立规矩，明确了 AI 可以辅助但不能替代医生的最终判断和责任的核心原则。但同时，2025 年医疗 AI 技术迭代速度过快，应用落地与治理体系建设仍未完全跟上技术发展的步伐，这也是行业以 “智行有度” 作为年度主题的核心原因 —— 当 AI 开始独立做出临床相关决定，安全边界与责任划分必须比技术本身更清晰。

4.1 2026 年医疗 AI 行业的核心发展方向

2026 年，医疗 AI 行业将沿着自主化、专精化、数据策展化、有序监管的核心方向持续发展，行业的核心突破点，将从技术创新转向技术与临床、监管的深度融合。

第一，能力分级化发展，明确不同层级应用的安全边界。医疗 AI 的能力演进，正沿着从行政后台任务，向监督下独立诊断，再到独立诊疗决策的路径逐步推进，能力等级越高，出错的代价越大。2026 年，L3 级闭环管理与质控应用要实现真正的规模化落地，必须先明确责任归属和安全边界，行业将形成标准化的能力分级体系，针对不同层级的 AI 应用，制定差异化的监管规则、准入标准与责任划分机制，确保技术创新与风险防控同步推进。

第二，模型专精化发展，打造专科化的医疗 AI 能力矩阵。行业将逐步摒弃 “训练一个什么都懂一点的通用模型” 的发展思路，转向组建一支各有专长的 “虚拟多学科会诊团队”。未来的医疗 AI 不会是一个全能的 “全科医生”，而是由数百个专科模型组成的协同团队，每个模型只专注于一个细分专科或场景，把该领域的能力做到极致。同时，随着大模型推理成本的持续下降，中小医疗机构、基层医院也能低成本接入多个专科模型，实现优质医疗能力的普惠化。

第三，数据策展化发展，构建高质量、可追溯的医疗数据体系。随着行业的持续发展，高质量医疗数据的稀缺性将日益凸显，“数据策展” 能力将成为企业的核心竞争力。这一能力并非简单的 “数据积累”，而是实现医疗数据的全流程可追溯、可验证，能够回答 “模型出错时，能追溯到是哪条数据导致的问题”。医疗数据具备敏感性强、结果不可逆、责任主体复杂的特征，2026 年，行业将更加注重每一条训练数据的临床意义，构建标准化、高质量、可追溯的医疗数据体系，从源头保障模型的可靠性与安全性。

第四，监管体系化发展，实现全生命周期的合规治理。2026 年，医疗 AI 的治理体系将从宏观政策文件，走向具体的落地执行细则，研发阶段的伦理审查、测试阶段的样本补充、部署后的召回机制等全流程环节，将形成标准化的执行规范。行业将形成 “分类管理、分级监管” 的治理体系，针对不同风险等级的医疗 AI 应用，制定差异化的监管要求，既为低风险应用的创新预留空间，也为高风险应用筑牢安全底线。

4.2 医疗 AI 行业面临的特殊挑战

医疗行业的特殊性，决定了其 AI 应用将率先面临通用 AI 领域尚未解决的核心挑战，这些挑战也是 2026 年行业必须攻克的核心难题。

其一，AI 辅助甚至独立诊断时的责任归属问题。当 AI 智能体能够独立完成诊断、给出治疗建议时，一旦出现误诊引发医疗纠纷，责任该如何划分，技术提供方、医疗机构、使用医生之间的责任边界该如何界定，目前仍缺乏明确的法律与制度规范，这也是制约医疗 AI 规模化落地的核心瓶颈。

其二，多模型协同工作时的系统性风险防控问题。未来的医疗 AI 体系将由数百个专科模型协同工作，多智能体之间的信息交互、决策协同，可能会出现误差传导、知识冲突等问题，如何构建完善的安全护栏与风险防控机制，避免出现系统性风险，是行业必须解决的技术与管理难题。

其三，算力与数据向少数巨头集中时，基层医疗的技术普惠问题。当前，优质医疗数据、高端算力资源正逐步向少数头部企业集中，如何避免出现技术垄断，让基层医疗机构、偏远地区也能平等地获得先进的 AI 技术能力，实现医疗资源的均衡化发展，是行业需要长期关注的核心问题。

这些挑战并非医疗行业独有，其他 AI 应用领域也会逐步面临，但医疗行业因试错成本最高、对安全性的要求最严苛，成为了最先直面这些问题的领域。行业必须形成共识：严格的治理与监管，并非技术创新的对立面，反而是行业健康发展的核心保障。只有规则清晰，才能实现快速审批；只有过程可追溯，才能建立临床与患者的信任。

4.3 行业核心启示

“智行有度，行稳致远”，是 2025 年医疗 AI 行业发展留给行业的最重要启示，也是 2026 年行业继续前行的核心方向。医疗 AI 的核心价值，从来不是替代医生，而是通过技术创新赋能医者，让优质医疗资源触达更多患者。技术的迭代永无止境，但医疗行业的核心使命始终不变 —— 技术服务于生命，AI 成就医者仁心。

2026 年，医疗 AI 能否实现真正的规模化、普惠化落地，关键不在于技术能跑多快，而在于行业能否在每一个技术节点守住安全与责任的边界。只有始终以临床需求为核心，以患者安全为底线，以合规治理为保障，医疗 AI 才能真正从实验室走向临床一线，从单点工具变成医护人员的可信协作者，最终成为推动医疗行业高质量发展的核心力量。

结语

2025 年是医疗 AI 行业实现质变的关键一年，技术层面，从大模型迈向智能体，实现了从工具到协作者的范式升级；应用层面，从单点试点走向全流程嵌入，完成了从 “锦上添花” 到 “雪中送炭” 的核心转变；政策层面，从观望探索走向体系化规范，为行业发展划定了边界、指明了方向。未来，随着技术的持续迭代、治理体系的不断完善、应用场景的深度深耕，医疗 AI 将继续从 L3 闭环管理向 L4 高级决策支持、L5 自进化学习持续演进，从三甲医院向基层诊所持续下沉，从辅助诊断向全流程管理持续延伸。行业终将实现技术与临床的深度融合，让 AI 真正成为医疗质量与效率提升的核心支撑，让每一位患者都能享受到技术创新带来的优质医疗服务。

—The End—

【特别声明】本文为陈博观察原创内容，如需转载或引用请注明上述版权信息。文中相关插图已标注来源单位，版权完全归相关单位以及原作者所有；未标注的插图为本公众号绘制（部分素材借助AI工具完成）或来源于网络公开资料，如涉及侵权，请联系我们处理（yujianchenwei@163.com）。此外，本文仅供研究参考用，在任何情况下，文中的任何信息和结论均不构成对任何个人的投资与决策建议。