摘要
本报告旨在对生理信号大模型(Physiological Signal Large Models)的最新发展进行深度研究与分析。随着人工智能技术的飞速进步,尤其是以Transformer架构为基础的“大模型”(Foundation Models / Large Models)范式的兴起,医疗健康领域正在经历一场前所未有的变革。生理信号,如心电图(ECG)、光电容积脉搏波(PPG)、脑电图(EEG)等,作为反映个体健康状况的直接、客观的数字指标,其与先进AI模型的结合展现出巨大的潜力。本研究发现,生理信号大模型正从单一模态、特定任务的分析,向着多模态、通用化、可迁移的“基础模型”方向演进,致力于从海量、异构的生理数据中学习通用表征,以支持多样化的下游健康监测、疾病筛查与管理应用。
报告的核心发现包括:
1、学术前沿:以NormWear [1]、PaPaGei [2]、LUNA [3]及CSFM [4]为代表的开源研究,正在积极探索处理多模态、可变长度生理信号的有效方法,并已在睡眠、情绪、心血管健康等领域展现出卓越性能。
2、产业界布局:科技巨头(如Apple、Google、Microsoft、Huawei)和医疗科技初创公司(如Oura、Empatica)正积极投入资源,将基础模型理念应用于消费级和临床级健康产品。Apple利用其在“心脏与运动研究”中积累的数亿小时数据训练PPG/ECG基础模型 [5];Google推出了覆盖音频、影像等多模态的Health AI Developer Foundations (HAI-DEF) [6];牛津大学发布的CSFM模型更是实现了从PPG信号生成医疗级ECG的跨模态生成能力 [7]。
3、关键挑战与未来方向:尽管前景广阔,但该领域仍面临数据隐私与标注成本高、模型泛化性与可靠性不足、算法偏见、以及从研究到临床应用的巨大鸿沟等挑战。未来的研究将聚焦于构建更通用、更鲁棒、更具可解释性的基础模型,探索小样本学习和无监督学习范式,并加强与临床实践的深度融合。
本报告适用于希望了解生理信号大模型技术全貌、研究进展及产业动态的硕士研究生及相关研究人员。通过对技术路径、代表性工作和商业模式的系统性梳理,本报告旨在为该领域的学术探索和技术创新提供有价值的参考。
1. 引言
1.1 研究背景与意义
人工智能(Artificial Intelligence, AI)的范式正经历着从“一个任务一个模型”(Task-specific Models)向“基础模型”(Foundation Models)的革命性转变。基础模型,这一概念由Bommasani等人在2021年提出 [8],指的是那些在海量、多样化的数据上进行预训练,并能通过微调(Fine-tuning)或提示(Prompting)高效适应广泛下游任务的庞大AI模型。以自然语言处理(NLP)领域的GPT系列和计算机视觉(CV)领域的CLIP为代表,基础模型已经展现出强大的通用性和惊人的涌现能力,极大地降低了AI应用的开发门槛。
在这一宏观趋势下,医疗健康领域因其数据的复杂性、多样性和高价值而成为基础模型应用的绝佳土壤。生理信号,作为人体生命活动的直接体现,是医疗监测和疾病诊断中不可或缺的客观依据。从医院监护仪上的多导联心电图(ECG),到可穿戴设备(如智能手表)记录的光电容积脉搏波(PPG)和单导联ECG,再到通过脑电图(EEG)头盔捕获的脑电活动,这些以时间为索引的连续数据流(Time Series)蕴含着丰富的健康信息。然而,传统的生理信号分析方法高度依赖人工设计的特征工程和特定任务的监督学习,模型泛化能力差,难以应对数据噪声、个体差异和多模态融合的挑战。
将基础模型范式引入生理信号分析,旨在构建能够从海量、无标签或弱标签的生理数据中自主学习通用、鲁棒表征的“生理信号大模型”。这类模型有望成为解锁个性化健康监测、精准疾病预测和智能康复干预的“金钥匙”。首先,通过自监督学习(Self-supervised Learning)在数百万小时的真实世界数据上进行预训练,模型能够捕捉到信号中深层次的、与生理状态相关的模式,极大地降低了对海量精确标注数据的依赖。其次,一个强大的基础模型可以作为通用“知识库”和“特征提取器”,通过简单的微调或提示工程,快速适应睡眠分期 [9]、情绪识别 [10]、心血管疾病筛查 [11] 等多种下游任务。最后,多模态基础模型的发展使得融合分析ECG、PPG、EEG甚至文本、语音成为可能,为实现全维度的健康状态评估提供了技术基础。
1.2 核心概念界定
在深入探讨之前,有必要对本研究中的核心概念进行清晰界定:
生理信号(Physiological Signals):指从人体上测量得到的、随时间变化的物理或电信号,包括但不限于心电图(ECG)、光电容积脉搏波(PPG)、脑电图(EEG)、肌电图(EMG)、眼电图(EOG)和皮肤电反应(GSR)等。这些信号是评估人体生理功能和病理状态的重要客观依据。
生理信号大模型 / 基础模型(Physiological Signal Large Models / Foundation Models):特指应用于生理信号领域的大模型。它们通常是基于Transformer或其他先进架构的深度神经网络,在包含数百万至数亿个样本的、大规模、多模态、异构的生理信号数据集上进行预训练。其核心特征是学习到了一种通用的、数据驱动的内部表征(Internal Representation),这种表征能够被高效地迁移到多种下游医疗分析任务中,从而实现对任务的“零样本”(Zero-shot)或“少样本”(Few-shot)学习能力。
自监督学习(Self-supervised Learning, SSL):一种机器学习范式,特别适用于标签数据稀缺的场景。模型从未标记的数据中学习,通过设计一个“代理任务”(Pretext Task),例如根据部分数据预测被遮蔽(Masked)的部分,或从不同视角生成一致的特征表示,从而在学习过程中获得有意义的表征。这是当前训练大规模生理信号基础模型的主流方法 [5]。
多模态(Multimodal):指整合和分析来自多种不同信息源(模态)的数据。在生理信号大模型领域,多模态通常指融合ECG、PPG、EEG等不同生理信号,以及结合临床文本、医学影像等非生理信号数据,以提供更全面、更准确的诊疗信息 [12]。
1.3 研究范围与结构
本报告聚焦于生理信号大模型在消费级健康领域的最新发展和产业应用,特别关注睡眠监测、情绪识别、心血管健康等与用户需求紧密相关的方向。
报告结构安排如下:
第二章:系统梳理生理信号大模型的核心技术架构与训练范式,分析其在处理生理信号时面临的独特挑战与创新方法。
第三章:对当前学术界的前沿研究进行综述,重点剖析NormWear、PaPaGei、LUNA、CSFM等代表性基础模型的架构、性能与应用。
第四章:深入分析产业界的布局与动态,详细解读Apple、Google、Microsoft、Huawei等科技巨头以及Oura、Empatica等初创公司的战略与技术路径。
第五章:探讨生理信号大模型面临的关键挑战,如数据隐私、模型可靠性、算法偏见等,并对未来的技术发展方向进行展望。
第六章:对全文进行总结,概括核心观点,并对硕士研究生等读者的研究与实践提出建议。
2. 核心技术与方法学
生理信号作为一种特殊的时间序列数据,其分析与建模对传统机器学习方法构成了诸多挑战。大模型范式的引入,不仅为处理这些挑战提供了全新的视角,也催生了一系列创新的技术与方法。本章节将深入探讨构建生理信号大模型的核心技术架构、主流的训练范式,以及为解决生理信号独特问题(如多模态融合、个体差异)而设计的创新方法。
2.1 技术演进脉络:从专用模型到通用基础模型
在深度学习时代初期,生理信号分析的主流范式是“专用模型”(Task-specific Models)。研究者针对特定任务(如心律不齐分类、睡眠分期)和特定模态(如ECG)设计并训练一个独立的深度神经网络(DNN),通常是卷积神经网络(CNN)或循环神经网络(RNN)/长短期记忆网络(LSTM)。这种模式的弊端显而易见:首先,模型的可迁移性(Transferability)极差,为一个任务训练的模型很难直接用于另一个任务,造成了巨大的研发资源浪费。其次,模型的性能高度依赖于大规模、精细标注的数据集,而医疗数据的标注成本极高、周期极长,这极大地限制了模型的发展。最后,这些模型往往是“黑箱”,其决策过程难以解释,阻碍了其在高风险临床环境中的信任度和部署。
基础模型(Foundation Model)范式的出现,为打破这一僵局提供了可能。其核心思想是“预训练-微调”(Pre-train and Fine-tune)。模型首先在一个极其庞大的、通用的数据集上进行“预训练”,学习数据中普遍存在的、底层的规律和表征。对于生理信号而言,这个数据集可能包含数百万小时来自不同人群、不同设备、不同场景的未标注信号。完成预训练后,模型便成为一个蕴含丰富先验知识的“基础”,在面临新的下游任务时,只需用少量该任务的标注数据进行“微调”,即可快速达到甚至超越传统专用模型的性能。这种“一生二,二生三,三生万物”的模式,极大地提升了模型的泛化能力和开发效率,是生理信号大模型得以发展的根本技术逻辑。
2.2 主流模型架构:Transformer及其变体
尽管在早期,CNN和RNN/LSTM是处理生理信号的主流架构,但它们在处理长序列依赖和全局上下文信息方面存在固有局限。Transformer架构,凭借其自注意力机制(Self-Attention Mechanism),能够并行计算序列中任意两个位置之间的依赖关系,从而更有效地捕捉长距离依赖,并具备强大的表征学习能力。因此,现代生理信号大模型大多采用Transformer或其变体作为核心骨干网络。
以NormWear模型为例,其编码器部分采用了12个标准的Transformer块 [1]。输入的信号经过Patch Embedding层被转换为一系列Token,然后送入Transformer Encoder。每个Transformer块包含一个多头自注意力(Multi-Head Self-Attention, MHSA)层和一个前馈网络(Feed-Forward Network, FFN)。MHSA层使得模型能够关注到输入序列中的重要部分,FFN则负责对捕获到的信息进行变换和整合。通过堆叠多个这样的块,模型能够构建起从低级局部特征到高级抽象语义的层次化特征表示。
然而,标准的Transformer架构也存在计算复杂度高(与序列长度的平方成正比)的问题。为了应对这一挑战,研究者们提出了一系列高效的变体架构。例如,LUNA模型为了处理不同电极布局的EEG信号,提出了一种“潜在统一网络架构”(Latent Unified Network Architecture),通过可学习的查询(learned queries)和交叉注意力机制,将多通道EEG压缩到一个固定大小的、与电极布局无关的潜在空间,从而将后续的计算复杂度与通道数解耦 [3]。此外,像Mamba这样的新型状态空间模型(State Space Model)也开始被应用于电子健康记录(EHR)等长序列数据的建模中,以其线性的计算复杂度展现出巨大潜力 [13]。
2.3 核心训练范式:自监督学习(Self-supervised Learning)
生理信号数据的稀缺性主要体现在高质量、细粒度标签的缺乏上,而未标注的海量数据相对容易获取。因此,自监督学习(SSL)成为训练生理信号大模型的“不二之选”。SSL的核心是为模型设计一个可以仅从数据本身学习的“代理任务”(Pretext Task),通过解决这个任务来学习有用的表征。
目前,在生理信号领域应用最广泛的SSL范式是掩码自编码器(Masked Autoencoders, MAE)。其灵感来源于BERT在NLP领域的成功。以NormWear为例,其预训练过程就采用了MAE策略 [1]。具体来说,模型首先随机地遮蔽(Mask)输入信号中的一定比例(例如80%)的Token,然后将未遮蔽的部分送入编码器(Encoder)进行编码。编码器的输出与一个轻量级的解码器(Decoder)相连,解码器的任务是根据编码后的表示,重构出原始的被遮蔽信号。在整个过程中,模型被迫学习到被遮蔽部分的内容,从而使其内部表征必须包含关于信号动态、频率和形态的丰富信息。除了重构原始信号,MAE还可以重构信号的功率谱或相位谱,以更好地保留频域信息。
除了MAE,对比学习(Contrastive Learning) 也是一种重要的SSL范式。其目标是将来自同一增强样本(positive pair)的表征拉近,同时将来自不同样本(negative pair)的表征推远。例如,在LUNA模型中,研究者可能会对一个EEG片段应用不同的随机增强(如噪声、缩放),然后训练模型,使其认为这两个增强后的版本是“相似的”。通过这种方式,模型学习到对无关噪声鲁棒、对本质生理模式敏感的表征。PaPaGei模型也采用了新颖的表示学习方法,利用PPG信号的形态学先验知识,超越了传统的对比学习方法 [2]。
2.4 面向生理信号的独特创新方法
尽管通用的时间序列基础模型技术日益成熟,但生理信号的独特性(如多模态、非平稳性、拓扑异构性)仍然催生了一系列精巧的创新方法。
处理多模态与异构性的方法:
统一Token化:NormWear提出了一种与模态无关的Token化方法。它不直接处理原始信号,而是先对信号进行连续小波变换(Continuous Wavelet Transform, CWT),生成类似RGB图像的时频图(scalogram),然后将此图划分为多个补丁(patch)作为Token [1]。这种方法将不同模态、不同采样率的信号统一到了一个可比较的视觉空间,极大地增强了模型的通用性。
跨模态对齐与融合:为了实现多模态的有效融合,模型需要学习不同模态在语义层面的对齐。NormWear提出了一种创新的“记忆流启发式时间融合机制”(MSiTF),该机制结合了查询与关键信号的相关性(Relevance)、时间步的邻近性(Recency)以及表征本身的重要性(Importance),动态地聚合多模态信息。此外,通过将生理信号的表征与预训练文本模型的表征进行对齐,模型可以实现“零样本”(Zero-shot)推断,即在没有见过特定任务标签的情况下,仅通过自然语言描述就能完成任务 [1]。
处理拓扑异构性的方法(以EEG为例): EEG信号的一个核心挑战是“拓扑异构性”,即不同的公开数据集定义了不同的电极布局(如10-20系统),这限制了模型在不同数据集间的泛化能力。LUNA模型通过引入一个“拓扑无关的潜在表示”巧妙地解决了这个问题。它使用一组可学习的查询(Queries)与来自所有电极的信号进行交叉注意力,将多通道的、结构化的EEG数据压缩成一个单一的、固定长度的潜在向量。在这个潜在的语义空间中,拓扑信息被抹去,但与大脑活动相关的核心信息被保留下来。随后的Transformer块就在这个与电极数量和位置无关的潜在表示上进行操作,从而实现了极佳的泛化性能 [3]。
提升模型可解释性的方法: 为了让模型的“黑箱”变“白箱”,NormWear引入了非线性动态分析(Nonlinear Dynamic Analysis)来量化其内部行为。研究者计算了模型在不同深度层提取的波形特征的李雅普诺夫指数(Lyapunov exponent, 敏感性初值)、赫斯特指数(Hurst exponent, 自相关性)和持续熵(persistence entropy, 不可预测性)。分析发现,较浅的层捕捉了信号的周期性、规则性模式(如心跳),而较深的层则捕捉了更复杂、更混沌、更具高阶抽象性的模式(如与认知和情绪相关的GSR和EEG活动)。这种量化的分析为理解模型如何从原始信号逐步构建其认知提供了清晰的视角,增强了用户对模型决策的信任 [1]。
3. 学术前沿与代表性工作
近年来,学术界在生理信号大模型领域涌现出大量创新性研究成果。这些工作不仅提出了新颖的模型架构和训练策略,更重要的是,它们开始系统性地探索构建通用、鲁棒和多模态生理信号基础模型的关键技术。本节将对几项具有代表性的前沿工作进行深度剖析,以展示该领域的技术全貌和核心趋势。
3.1 NormWear: 面向多模态可穿戴传感的基础模型
NormWear [1] 是首个专为处理可穿戴设备产生的多模态、异构生理信号而设计的基础模型。面对可穿戴数据的高度可变性(不同的传感器、采样率和佩戴位置),NormWear 的目标是学习一种与传感器类型和数量无关的通用表征。
核心技术与方法:
统一的CWT Token化:为了处理异构的输入信号(PPG, ECG, EEG, GSR, IMU),NormWear 并不直接分析原始时序,而是采用连续小波变换(CWT)将每个信号通道转换为时频图(scalogram),类似RGB图像。这种“数据无关”的表示方法,使得模型能够以统一的方式处理来自不同传感器的数据。
通道感知的注意力融合:针对多变量输入,模型引入了通道感知注意力(channel-aware attention)层,在编码器的不同深度插入,以学习并建模不同生理信号通道之间的相互关系。通过对多种融合策略的详尽比较,研究者发现基于[CLS] Token的自注意力融合机制性能最佳。
记忆流启发的时间融合(MSiTF):为了实现零样本推断,模型设计了一个新颖的融合机制。该机制在融合多模态表征时,不仅考虑了查询文本与信号表征的相关性(通过交叉注意力),还引入了基于时间衰减的“新鲜度”评分和基于可学习门控的“重要性”评分,使得融合过程更加智能和上下文感知。
非线性动态分析的可解释性:为了深入理解模型的内部工作机制,研究者首次将非线性动力学分析(如计算李雅普诺夫指数和赫斯特指数)应用于模型中间层提取的特征。分析表明,模型的浅层网络学习信号的周期性和规则性(如心跳),而深层网络则学习更复杂、更混沌、更具高阶抽象性的模式(如情绪和认知相关的神经活动),这为模型的“黑箱”行为提供了量化的、可解释的洞见。
实验与表现:NormWear 在一个包含超过1400万段、总时长约1.5万小时的多模态可穿戴数据上进行预训练。在11个公开数据集的18个下游任务(涵盖心理健康、身体状态推断、生物标志物估计和疾病风险评估)上的评估显示,NormWear 在线性探针(Linear Probing)和零样本(Zero-shot)设置下,均显著优于包括Chronos、CLAP、TF-C在内的多种强基线模型。这证明了其学习通用、信息丰富表征的强大能力。
3.2 PaPaGei: 面向光学生理信号的开源基础模型
PaPaGei (Photoplethysmography Analysis with AI) [2] 是首个为光电容积脉搏波(PPG)信号设计的开源基础模型。PPG信号因其获取便捷、成本低廉而被广泛用于消费级健康设备,但传统模型往往任务特定且泛化性差。PaPaGei 旨在打破这一局面,建立一个可复用、性能强大的PPG基础模型。
核心技术与方法:
领域知识驱动的表示学习:与依赖通用对比学习的传统方法不同,PaPaGei 提出了一种新颖的表示学习方法,该方法利用了关于PPG信号形态学的领域先验知识。通过捕捉个体间PPG波形的相似性模式,模型能够学习到比传统方法更丰富、更具生理意义的表征。
大规模无标签数据预训练:模型在超过5.7万小时、包含2000万个未标记PPG片段的公开数据集上进行预训练。如此大规模的数据使得模型能够捕捉到PPG信号中细微但重要的变化,这对于健康监测和疾病筛查至关重要。
实验与表现:PaPaGei 在20个不同的下游任务上进行了评估,这些任务横跨心血管健康、睡眠障碍、妊娠监测和健康状态评估。实验结果表明,PaPaGei 在至少14个任务中的分类和回归指标上优于最先进的时序基础模型,其性能提升幅度分别为6.3%和2.9%。值得注意的是,PaPaGei 在参数量和数据效率上也表现出色,其性能优于参数量为其70倍的模型。此外,研究还首次在PPG模型中建立了对不同肤色偏差的评估基准,强调了构建公平、无偏见健康AI模型的重要性。
3.3 LUNA: 高效且拓扑无关的EEG基础模型
LUNA (Latent Unified Network Architecture) [3] 旨在解决脑电图(EEG)分析中的一个核心痛点:拓扑异构性(topological heterogeneity),即不同的公开数据集使用不同的电极布局(montage),这导致在一个数据集上训练的模型很难泛化到另一个数据集上。
核心技术与方法:
拓扑无关的潜在表示:LUNA 的核心创新在于其编码器。它使用一组可学习的“查询”(Queries)与来自所有电极的信号进行交叉注意力(Cross-Attention),从而将多通道的EEG数据压缩成一个单一的、固定长度的“潜在向量”(Latent Vector)。这个过程抹去了原始的电极位置信息,但保留了与大脑活动相关的核心语义信息。后续的Transformer块就在这个与电极数量和位置无关的潜在空间中进行计算,从而实现了计算复杂度与通道数的解耦(从二次方变为线性)。
掩码补丁重构(Masked Patch Reconstruction):LUNA 采用与MAE类似的预训练策略,但操作对象是经过Token化后的EEG“补丁”(patch)。模型需要重构被随机遮蔽的输入补丁,通过这种方式学习信号的时间和空间依赖关系。
实验与表现:LUNA 在超过2.1万小时、包含多种不同电极布局的原始EEG数据上进行预训练。在异常检测、伪影剔除、节律分类和情绪识别四个下游任务上的广泛评估表明,LUNA 在多个基准测试中达到了当时的最佳性能(SOTA),例如在TUAR数据集上实现了0.921的AUROC。更重要的是,其性能在所有被评估的电极配置上都保持了一致性,证明了其强大的泛化能力。同时,其计算效率远超同类模型,浮点运算数(FLOPs)减少了300倍,GPU内存使用减少了10倍,使其更易于在资源受限的边缘设备上部署。
3.4 CSFM: 首个百万级多模态心脏传感基础模型
CSFM (Cardiac Sensing Foundation Model) [4] 是由牛津大学团队推出的全球首个多模态心脏传感基础模型。它能够统一分析来自智能手环、医院心电图机等不同来源、不同完整性的心电和脉搏信号,旨在彻底打破心脏监测中的硬件与数据壁垒。
核心技术与方法:
跨模态生成能力:CSFM 展现了惊人的“跨物理域脑补”能力。例如,它仅凭一段消费级智能手表采集的平缓PPG信号,就能重构出具有医疗级保真度的12导联ECG波形,包含清晰的P-QRS-T波群。这种能力使得在缺乏高端心电设备的偏远地区或居家环境中,也能进行专业级的心脏健康评估。
统一的多模态架构:CSFM 在一个包含约170万个体数据的大型、多模态数据集上进行预训练,数据来源包括MIMIC-III/IV等权威数据库,整合了ECG、PPG和临床文本报告。这种多样化的预训练数据使得模型能够学习到不同模态信号之间的深层关联。
强大的临床预测能力:CSFM 能够精准诊断房颤等多种心律失常,预测患者未来一年的全因死亡率,并有效拦截ICU中频繁出现的假警报。其性能在多个临床任务上超越了传统方法和专有模型。
实验与表现:CSFM 的强大能力体现在其多模态、多任务和多场景的适应性上。它不仅能处理不同设备采集的数据,还能在数据残缺(如单导联ECG)的情况下进行精准分析。其从PPG生成ECG的能力,为数字生物标志物的发现和连续无创血压监测等应用开辟了全新的可能性。为了推动研究,团队发布了三个不同规模的模型版本(Tiny, Base, Large)以适应不同的计算需求。
3.5 代表性工作对比
为了更直观地展示这些代表性工作的特点与技术侧重,下表进行了系统性总结与对比。
模型名称 (Model Name) | 核心模态 (Primary Modality) | 核心创新点 (Key Innovation) | 数据规模 (Data Scale) | 主要应用 (Key Applications) |
|---|---|---|---|---|
NormWear [1] | 多模态 (PPG, ECG, EEG, GSR, IMU) | 统一的CWT Token化;通道感知融合;零样本推断;非线性动态分析可解释性 | ~14,943 小时 (多模态) | 心理健康、身体状态推断、生物标志物估计、疾病风险评估 |
PaPaGei [2] | PPG | 领域知识驱动的表示学习;首个开源PPG基础模型;建立肤色偏差基准 | ~57,000 小时 | 心血管健康、睡眠障碍、妊娠监测、健康状态评估 |
LUNA [3] | EEG | 拓扑无关的潜在表示;高效线性复杂度编码器;处理异构电极布局 | ~21,000 小时 | 异常检测、伪影剔除、节律分类、情绪识别 |
CSFM [4] | 多模态 (ECG, PPG) | 跨模态生成(PPG->ECG);统一处理多源异构数据;强大的临床预后能力 | ~170万个体 | 心律失常诊断(如房颤)、死亡风险预测、无创血压重构 |
4. 产业界布局与商业应用
生理信号大模型所蕴含的巨大商业价值和广阔应用前景,正吸引着全球范围内的科技巨头和初创公司纷纷布局。它们或致力于构建底层技术平台,赋能整个行业;或将模型能力直接集成到消费级产品中,提升用户体验和健康监测价值。本章将深入剖析产业界的动态,重点分析科技巨头和初创公司的不同战略路径与技术实现。
4.1 科技巨头:平台化生态与深度垂直整合
科技巨头凭借其在数据、算力和算法人才上的绝对优势,正从两个层面推进生理信号大模型的商业化:一是构建开放的AI平台,赋能开发者;二是将模型能力深度整合到自家的软硬件生态中,打造差异化的用户体验。
Apple: 基于闭环数据的垂直整合 Apple是消费级健康监测领域的先行者和集大成者。其战略核心是利用庞大的iPhone和Apple Watch用户群,通过“研究”应用(Research App)发起大规模、长周期的真实世界数据研究,如“苹果心脏与运动研究”(Apple Heart and Movement Study)。这项研究已收集了超过50亿小时的运动数据,其中包括数百万参与者的PPG和单导联ECG数据 [5]。 Apple将这些宝贵的数据用于训练其专有的“动作基础模型”(Motion Foundation Model)。该模型借鉴了LLM的训练思路,基于数千万小时的真实运动数据,实现了对超过50种不同运动类型的精准识别和追踪,并被应用于最新的AirPods Pro 3中 [14]。这展示了Apple如何将基础模型的能力从腕部扩展到头部,实现跨设备体验的协同。未来,随着更多健康数据的积累,Apple有望推出覆盖PPG和ECG的生理信号基础模型,为其数字健康生态系统提供更强大的底层支撑。
Google: 开放的平台与前沿探索 Google在生理信号大模型领域的布局呈现出“平台+前沿探索”的双重特征。一方面,Google推出了Health AI Developer Foundations (HAI-DEF) [6],这是一个面向开发者的公共资源库,旨在简化医疗AI应用的开发。HAI-DEF提供了针对数字病理学(Path Foundation)、胸部X光(CXR Foundation)和皮肤图像(Derm Foundation)的预训练嵌入模型,帮助开发者在极少额外数据和计算资源的情况下,构建高性能的AI应用。 另一方面,Google的研究团队在前沿技术探索上成果斐然。其Health Acoustic Representations (HeAR) 模型是一个在超过3亿个健康相关音频样本(包括1亿个咳嗽声音)上预训练的音频基础模型 [15]。HeAR能够从2秒的呼吸音片段中提取出512维的表征,并以此训练出高精度的儿童哮喘和肺炎筛查模型,准确率超过90% [16]。这项技术展示了利用大模型从非侵入性声音中进行疾病筛查的巨大潜力,尤其在资源匮乏地区具有极高的应用价值。
Microsoft: 依托企业级服务的医疗AI Microsoft的策略是将其强大的企业级云服务(Azure)和AI能力与医疗健康领域相结合。其Microsoft Cloud for Healthcare和Azure AI为医疗行业提供了数据平台和AI服务。在基础模型方面,Microsoft提供了多种医疗保健AI模型,这些模型经过预训练,可用于处理医学影像、基因组学、临床记录和生物医学研究等 [17]。 一个典型的例子是其MedImageInsight模型,这是一个用于医学影像分析的嵌入模型,支持分类和相似性搜索,并能与负责任的AI(RAI)保护措施(如分布外检测)相结合。此外,Microsoft也支持开发基于HL7 FHIR标准的医疗应用,这为不同系统间的数据互操作性提供了基础。Microsoft的路线图是通过提供工具和平台,让医疗组织和开发者在合规和安全的环境下,利用基础模型的能力构建定制化的AI解决方案。
Huawei & Baidu & Alibaba & Tencent: 中国科技巨头的差异化布局 中国的科技巨头也在积极布局医疗AI,但各自展现出不同的战略侧重。
华为 (Huawei): 其战略重点之一是血压健康管理。通过“华为血压健康研究”,华为收集了大量使用其Watch D设备进行远程血压监测的数据,并利用AI算法评估用户的血压风险,提供预警反馈 [18]。这体现了华为将硬件(可穿戴设备)与软件(AI算法)和健康服务(风险预警)深度结合的路径。此外,华为还通过举办“ Sussex-Huawei Locomotion Challenge”等活动,推动基础模型在人类活动识别领域的应用 [19]。
百度 (Baidu): 百度将其强大的文心大模型(ERNIE)系列的技术延伸至健康领域,推出了“百度健康AI管家”。该系统整合了海量权威医学知识,并结合了“真人专家把关”和“智能模型评审”的双重质量闸门,以确保健康信息的准确性。其模型层采用“多模态+领域增强+Online-RL进化”的技术路线,构建了能够进行医疗影像、文本、语音等多模态融合推理的模型家族 [20]。
阿里巴巴 (Alibaba): 阿里健康的战略是将其根植于电商场景多年的庞大医药知识和产品库,与基础模型相结合。其自研的大模型已在电商场景中应用,例如为用户提供更智能的药品推荐和健康管理方案 [21]。
腾讯 (Tencent): 腾讯健康依托其混元大模型,并整合了海量的医学知识图谱(包含285万医疗实体和1250万医学关系),构建了其医疗大模型。该模型已在病历检索与结构化、智能问答与辅助诊断等场景落地。此外,腾讯还利用AI技术加速药物发现,其“云深”平台能够进行蛋白质结构预测和小分子生成,已在多个项目中验证了其有效性 [22]。
4.2 初创公司与专业医疗科技企业
与科技巨头不同,初创公司和专业的医疗科技企业往往采取更聚焦、更垂直的策略,致力于解决特定的临床或消费者需求。
Oura Ring & Whoop & Garmin: 这些公司专注于消费级睡眠和恢复追踪。它们的核心竞争力在于硬件设计和基于海量用户数据开发的专有算法。随着生理信号大模型技术的发展,它们是天然的潜在应用者。例如,可以利用开源的基础模型(如PaPaGei或NormWear)来提升其PPG和ACC数据分析的精度,或开发出更先进的睡眠分期算法。
Empatica & BioSensics: 这些公司专注于为研究和临床应用提供高精度的生理信号采集设备(如EMG、EDA传感器)。它们的价值主张在于硬件的保真度和稳定性。未来,它们可以将其硬件与强大的生理信号基础模型相结合,提供从数据采集到智能分析的一站式解决方案,特别是在癫痫监测、疼痛评估等专业领域。
Salcit Technologies (印度): 这是一个极具代表性的案例。这家公司利用Google开源的HeAR模型,开发了一个用于结核病(TB)早期检测的AI工具。通过分析咳嗽录音,该工具能够以高准确率识别TB感染,这对于资源匮乏、放射线和实验室检测能力有限的地区具有革命性意义 [23]。这个案例完美地展示了小型创新公司如何“站在巨人的肩膀上”,利用巨头开源的基础模型,快速开发出解决紧迫社会问题的应用。
4.3 产业应用模式对比
下表总结了不同市场参与者在生理信号大模型领域的战略定位和商业模式。
参与者类型 (Player Type) | 代表公司 (Representative Companies) | 核心战略 (Core Strategy) | 数据来源 (Data Source) | 商业模式 (Business Model) |
|---|---|---|---|---|
科技巨头 (Tech Giants) | Apple, Google, Microsoft, Huawei, Baidu | 构建底层AI平台和软硬件生态系统;提供开发者工具和预训练模型 | 自有服务和大规模真实世界研究 | 平台授权(PaaS/SaaS)、硬件销售、广告 |
初创公司 (Startups) | Oura, Whoop, Salcit Technologies | 聚焦特定健康需求(如睡眠、传染病筛查);快速集成开源模型进行产品创新 | 自有小规模研究、公开数据集 | 订阅费(SaaS)、B2B服务、硬件销售 |
专业医疗科技公司 (Medical Device Firms) | Empatica, Medtronic, Boston Scientific | 结合高保真硬件和专业AI分析;为临床提供诊断和治疗辅助工具 | 临床合作、自有研究 | B2B设备销售、软件授权、专业服务 |
5. 关键挑战与未来展望
尽管生理信号大模型在学术研究和产业应用中都取得了令人瞩目的成就,但作为一个正处于快速演进中的新兴领域,它依然面临着一系列严峻的技术、伦理和应用挑战。清晰地认识这些挑战,并对未来的发展方向进行前瞻性思考,对于该领域的健康和可持续发展至关重要。
5.1 核心挑战
数据隐私与安全:这是医疗AI领域最根本、最敏感的挑战。生理信号是高度个人化的生物识别信息,其收集、存储和使用涉及严格的隐私法规(如HIPAA、GDPR)。大规模、集中式的数据训练模式极易引发数据泄露和滥用的风险。尽管自监督学习可以在不访问明文标签的情况下进行训练,但原始信号的敏感性问题依然存在。联邦学习(Federated Learning)被认为是一种有前景的解决方案,它允许在本地设备上训练模型,仅将加密或更新后的模型参数上传至中央服务器进行聚合,从而避免了原始数据的传输。然而,联邦学习的通信开销、系统复杂性和潜在的梯度攻击风险仍是需要研究的课题。
数据标注与质量:尽管自监督学习降低了对标签的依赖,但高质量的标签数据对于模型的微调和验证仍然不可或缺。在许多医疗场景中,高质量的标签(如由专家医生进行的精确诊断)不仅成本高昂,而且本身就存在主观性和变异性。此外,来自不同来源(如医院信息系统、可穿戴设备)的数据在格式、精度、采样率上存在巨大差异,数据清洗和预处理的工作量巨大且耗时。如何建立高效、低成本的数据标注和质量控制体系,是制约模型性能和应用广度的关键瓶颈。
模型泛化性与可靠性:模型的泛化能力是其能否在真实世界场景中成功应用的关键。在实验室环境中表现优异的模型,在面对临床环境中的噪声、个体差异、设备变更时,性能可能会急剧下降。例如,在一个品牌的智能手表上训练的模型,能否直接应用于另一品牌的设备?一个在医院环境中训练的模型,能否用于居家监测?“领域自适应”(Domain Adaptation)技术,即通过少量目标域数据进行微调,是解决这一问题的可能途径。此外,医疗应用对模型的可靠性要求极高,模型的预测结果必须是可解释和可验证的。如何从技术上保证模型的稳定性和鲁棒性,并对其不确定性进行量化(如通过贝叶斯神经网络或 conformal prediction),是建立临床信任的基石。
算法偏见与公平性:AI模型的决策过程可能继承甚至放大训练数据中存在的偏见。例如,如果用于训练模型的数据主要来自某个特定种族或社会经济背景的人群,那么模型在该人群之外的预测准确性可能会大打折扣。在健康领域,这种偏见可能导致某些群体的健康问题被忽视,加剧健康不平等。PaPaGei模型在其研究中特别关注了不同肤色之间的性能差异,并建立了评估基准 [2],这是一个非常重要的开端。未来的研究需要将公平性(Fairness)作为一个核心的设计目标,在模型开发的每个环节进行检测和校正。
从研究到临床应用的鸿沟:目前,绝大多数生理信号大模型的研究仍停留在学术验证阶段,距离在真实的临床环境中得到广泛应用和监管机构的批准还有很长的路要走。这其中的障碍包括:高昂的合规认证成本、缺乏与现有医疗工作流的集成能力、医生对AI工具的接受度和信任度不足等。如何与医院、医生和监管机构紧密合作,建立清晰的验证和审批路径,是技术能否最终转化为临床价值的关键。
5.2 未来研究与发展方向
面对上述挑战,未来的研究可以从以下几个方向寻求突破:
构建更通用、更强大的基础模型:当前的研究大多还局限于特定的生理模态或应用领域。未来的一个重要方向是构建能够统一处理多种生理信号(ECG, PPG, EEG, EMG等)、甚至融合文本、影像等非生理数据的“通用医疗基础模型”(Generalist Medical AI) [24]。这种模型将具备更强的多模态推理和跨模态生成能力,能够回答更复杂的医疗问题,例如“根据这份心电图和患者的近期活动记录,预测其未来一周内心血管事件的风险”。
探索更高效、更鲁棒的学习范式:
持续学习(Continual/Lifelong Learning):人的知识是持续积累的,AI模型也应具备在不遗忘旧知识的前提下学习新知识的能力。研究如何让生理信号大模型持续从新的数据中学习,对于实现真正个性化的健康监测至关重要。
小样本学习(Few-Shot Learning):在许多罕见病或新发疾病的场景中,可供训练的标注数据非常稀少。发展能够在只有极少量(甚至一个)样本的情况下进行有效学习的技术,是扩大模型适用范围的关键。
多任务学习与提示学习(Multi-task & Prompt Learning):通过在预训练阶段引入更多样化的任务,可以提升模型的泛化能力。提示学习则提供了一种无需微调即可引导模型完成新任务的轻量级方法,对于快速部署和适应新场景具有巨大价值。
加强模型的可解释性与可信度:未来的研究需要将可解释性(Interpretability)和可信AI(Trustworthy AI)的理念深度融入到模型的设计和训练中。这包括开发新的可视化技术(如注意力图、激活图),以及像NormWear那样引入基于动力学分析等更定量的可解释性方法。同时,发展能够量化其自身预测不确定性的技术(如贝叶斯深度学习、集员预测),对于在医疗决策中合理使用AI模型至关重要。
推动开源生态与标准化建设:开源是加速科学进步和技术创新的催化剂。像NormWear、PaPaGei、LUNA这样的开源项目,为整个社区提供了宝贵的基准、模型和代码,极大地促进了领域的发展。未来,需要建立更多高质量、多样化的开源基准(如涵盖更多模态、更多语言、更多临床场景的基准测试),并推动数据格式、接口和模型评估方法的标准化,从而降低研究门槛,促进跨机构、跨学科的合作。
6. 结论
本报告对生理信号大模型的前沿发展与产业应用进行了系统性的深度研究。研究表明,以基础模型为代表的人工智能新范式正在深刻地重塑生理信号分析领域,推动其从传统的、任务特定的模型开发模式,向着构建通用、鲁棒、可迁移的“智能平台”方向演进。这一转变不仅为破解长期困扰该领域的数据稀缺和模型泛化性差等核心难题提供了全新的技术路径,也为实现精准化、个性化和智能化的健康监测与疾病管理开辟了前所未有的广阔前景。
在学术层面,以NormWear、LUNA和CSFM等为代表的开源研究工作,正不断突破技术瓶颈,探索出处理多模态、异构性、拓扑可变等复杂生理信号的有效方法,并在性能上展现出对传统方法的显著优势。在产业层面,以Apple、Google为首的科技巨头正凭借其数据和技术优势,构建强大的AI健康生态系统,而众多初创公司则通过灵活应用这些先进模型,在特定的细分市场中创造出巨大的社会和商业价值。
然而,通往广泛应用的道路依然充满挑战。数据隐私与安全、模型可靠性与公平性、以及从实验室走向临床实践的“最后一公里”等问题,是所有从业者必须共同面对和解决的课题。未来的研究应聚焦于构建更强大、更通用的多模态医疗基础模型,探索更高效、更鲁棒的学习范式,并大力推动开源社区和标准化建设,最终将这项强大的技术安全、可靠、公平地转化为服务于全人类健康的福祉。
对于硕士研究生及相关领域的青年研究者而言,生理信号大模型是一个充满机遇的黄金领域。它不仅融合了深度学习、信号处理、医学和计算机科学等多个学科的知识,更处在一个技术快速迭代、新问题不断涌现的前沿。通过掌握Transformer、自监督学习等核心技术,并密切关注产业界的真实需求与挑战,有志于此的研究者完全有机会在这一波澜壮阔的技术浪潮中做出开创性的贡献。
参考文献
[1] Yunfei Luo, Yuliang Chen, Asif Salekin, and Tauhidur Rahman. “Toward Foundation Model for Multivariate Wearable Sensing of Physiological Signals”, Computing Research Repository abs/2412.09758 (2024). URL: https://www.aminer.cn/pub/675f932fae8580e7ff187c36
[2] Arvind Pillai, Dimitris Spathis, Fahim Kawsar, and Mohammad Malekzadeh. “PaPaGei: Open Foundation Models for Optical Physiological Signals”, ICLR 2025 (2025). URL: https://www.aminer.cn/pub/672044d801d2a3fbfcffd022
[3] Berkay Döner, Thorir Mar Ingolfsson, Luca Benini, and Yawei Li. “LUNA: Efficient and Topology-Agnostic Foundation Model for EEG Signal Analysis”, NeurIPS 2025 (2025). URL: https://www.aminer.cn/pub/69001299163c01c8503ff173
[4] 论文 | Nature Machine Intelligence 2026 | 心脏健康监测的基础模型. http://hub.baai.ac.cn/view/53664
[5] Salar Abbaspourazad, Oussama Elachqar, Andrew Miller, Saba Emrani, Udhyakumar Nallasamy, and Ian Shapiro. “Large-scale Training of Foundation Models for Wearable Biosignals”, ICLR 2024 (2024). URL: https://www.aminer.cn/pub/6577c984939a5f40822e9e7c
[6] Google正准备进入IVD行业! - 阿尔赛斯生物科技(西安)有限公司. https://alsesbio.com/news/99.html
[7] Nature子刊封面:牛津提出首个百万级多模态心脏基础模型CSFM. http://c.m.163.com/news/a/KNR77GSA0511ABV6.html
[8] Youssef Ghallab, Omar Iraqy, Mohamed Kandil, Mohamed Ashraf, Saadeldine Eletter, Morougue Ghazal, Ayman Khalafallah, and Nagwa El-Makky. “Leveraging Foundational Models and Simple Fusion for Multi-modal Physiological Signal Analysis”, Computing Research Repository abs/2512.15250 (2025). URL: https://www.aminer.cn/pub/694362d894d1bc07b412ff73
[9] Huayu Li, Zhengxiao He, Xiwen Chen, Ci Zhang, Stuart F. Quan, William D. S. Killgore, Shu-Fen Wung, Chen X. Chen, Geng Yuan, Jin Lu, and Ao Li. “Smarter Together: Combining Large Language Models and Small Models for Physiological Signals Visual Inspection”, Journal of Healthcare Informatics Research 9.4 (2025): 656-685. URL: https://www.aminer.cn/pub/679847d2ae8580e7ff8374e8
[10] Ke Wang, Ding, Jiateng Huang, Yi Zhu, Jinghui Zhang, Chao Tan, and Fang Dong. “DiscBioSem-LM: A Framework for Anxiety Detection Via Semantic Fusion of Multimodal Physiological Signals and Large Language Models”, 2025 Thirteenth International Conference on Advanced Cloud and Big Data (CBD) (2025): 348-353. URL: https://www.aminer.cn/pub/6983d7309be8eb7c4bb98534
[11] George Mathew, Daniel Barbosa, John Prince, and Subramaniam Venkatraman. “Foundation Models for Cardiovascular Disease Detection Via BioSignals from Digital Stethoscopes”, npj Cardiovascular Health 1.1 (2024). URL: https://www.aminer.cn/pub/66b0234c01d2a3fbfcb77a9a
[12] Rawan AlSaad, Alaa Abd-Alrazaq, Sabri Boughorbel, Arfan Ahmed, Max-Antoine Renault, Rafat Damseh, and Javaid Sheikh. “Multimodal Large Language Models in Health Care: Applications, Challenges, and Future Outlook”, Journal of medical Internet research 26 (2024): e59505. URL: https://www.aminer.cn/pub/66f469f301d2a3fbfc1fb333
[13] Adibvafa Fallahpour, Mahshid Alinoori, Wenqian Ye, Xu Cao, Arash Afkanpour, and Amrit Krishnan. “EHRMamba: Towards Generalizable and Scalable Foundation Models for Electronic Health Records.”, MACHINE LEARNING FOR HEALTH, ML4H 259 (2024): 291-307. URL: https://www.aminer.cn/pub/6650054001d2a3fbfc7cdd3d
[14] AirPods借鉴大语言模型思路 参考5000万小时运动数据. https://m.163.com/dy/article/KBOG5I9Q051191D6.html
[15] Abul Ehtesham, Aditi Singh, Saket Kumar, and Tala Talaei Khoei. “Early Detection of Pediatric Pneumonia Using Google’s HeAR Model: A Respiratory Sound Embedding Approach”, 2025 IEEE WORLD AI IOT CONGRESS, AIIOT (2025): 185-191. URL: https://www.aminer.cn/pub/689bcc4e163c01c85088a865
[16] Abul Ehtesham, Saket Kumar, Aditi Singh, and Tala Talaei Khoei. “Pediatric Asthma Detection with Googles HeAR Model: an AI-Driven Respiratory Sound Classifier”, 2025 IEEE WORLD AI IOT CONGRESS, AIIOT (2025): 103-109. URL: https://www.aminer.cn/pub/681184dc163c01c850afe697
[17] 医疗保健 AI 的基础模型(经典). https://learn.microsoft.com/zh-cn/azure/ai-foundry/how-to/healthcare-ai/healthcare-ai-models?view=foundry-classic
[18] Ying Wang, Shan-Shan Zhou, Yu-Qi Liu, Dan-Dan Li, Shun-Ying Hu, Xi Wang, Li Yi, Ya-Ni Yu, and Yun-Dai Chen. “Accessibility and Usage Patterns of Wearable Devices among Chinese Adults: the Huawei Blood Pressure Health Study”, European heart journal Digital health 6.6 (2025): 1264-1272. URL: https://www.aminer.cn/pub/68ae3a15163c01c8501be119
[19] Tsuyoshi Okita, Kosuke Ukita, Asahi Miyazaki, Daichi Kubota, Jukichi Ota, Naoki Kagiyama, Asahi Nishikawa, Daichi Nagayasu, Syunya Tomitaka, Daisuke Nozaki, Yuki Odo, Raku Yamashita, Xiaolong Ye, Huayu Gao, Kazuki Okahashi, Koki Matsuishi, Masaharu Kagiyama, Kodai Hirata, Haruki Kai, Lin Wang, Hristijan Gjoreski, Mathias Ciliberto, Paula Lago, Kazuya Murao, and Daniel Roggen. “Foundation Models to Tackle Activity Recognition in Unknown Domain: Sussex-Huawei Locomotion Challenge 2025 Task 2.”, COMPANION OF THE 2025 ACM INTERNATIONAL JOINT CONFERENCE ON PERVASIVE AND UBIQUITOUS COMPUTING, UBICOMP COMPANION 2025 (2025): 983-991. URL: https://www.aminer.cn/pub/697838a19be8eb7c4bdc0eeb
[20] 腾讯健康公布医疗大模型:已在落地应用,支持“病历检索报告”. https://zhuanlan.zhihu.com/p/1962898948424446698
[21] 阿里健康官网—让医疗健康普惠可及. https://www.alihealth.cn/en-us/aboutus?elid=management
[22] 腾讯健康公布医疗大模型:已在落地应用,支持“病历检索报告”. https://zhidao.baidu.com/question/382641297462155724.html
[23] 支付宝开放平台-开发者社区——AI 日报「8 月23 日」. https://m.blog.csdn.net/2401_85476653/article/details/141461080
[24] Michael Moor, Oishi Banerjee, Zahra Shakeri Hossein Abad, Harlan M Krumholz, Jure Leskovec, Eric J Topol, and Pranav Rajpurkar. “Foundation Models for Generalist Medical Artificial Intelligence”, Nature 616.7956 (2023): 259-265. URL: https://www.aminer.cn/pub/64393347d6db87a146a64b34
本报告基于AMiner数据与网络搜索结果生成 报告类型:文献综述 模型:GLM-4.6-d


