AI生物学的终极考题
BioTender | AIVC
在显微镜的视野下,人类细胞看似渺小,实则蕴藏着惊人的复杂性—一个细胞中有 约42万亿个分子 在无休止地运动、反应与重组。仅蛋白质就超过 4200万种,再加上碳水化合物、脂质与核酸,这片微观世界,比任何巴洛克建筑都更繁复、更精密。
细胞的质膜像城市边界,细胞器是功能分区;而细胞质则是一座化学实验室,分子间的反应、运输与信号几乎以毫秒为单位展开。在细胞核中,数千个基因此起彼伏地开关、转录、翻译,将看似混乱的化学洪流编织成有序的生命乐章。

然而,这一切的规律—至今仍超出人类的理解与预测能力。
“AI能否理解生命?”


过去二十多年,科学家不断尝试用计算机重建生命的内部逻辑。从最初的代谢方程与动力学模型,到如今的数据驱动神经网络,我们正迈向一个新的边界—AI驱动的“虚拟细胞(Virtual Cell)”。
在人工智能掀起浪潮的今天,研究者希望为生物学迎来自己的“ChatGPT时刻”。
“我们想要那种令人振奋的时刻,像ChatGPT之于语言那样,AI之于细胞。”

People want this kind of moment for biology.
——Kasia Kedzierska,艾伦研究所(Allen Institute)
从方程到智能:
虚拟细胞的25年


这一切始于1990年代末。
那时的研究者试图用成百上千个方程,去描述细胞内的化学反应网络。他们称之为“全细胞模型(Whole-Cell Model)”。
2012:第一个“硅基细胞”
斯坦福大学的 Markus Covert 实验室与 Jonathan Karr 合作,以拥有最小基因组的细菌 Mycoplasma genitalium 为蓝本,构建了世界上首个可计算的完整细胞模型。它包含700种代谢物、1100条反应路径、并能在虚拟环境中模拟细胞的生长、分裂与代谢循环。

This chalkboard from 2012 depicts elements that went into the first published computational model of a whole cell, from Markus Covert’s lab
2022:细胞变“立体”
伊利诺伊大学的 Zan Luthey-Schulten 团队进一步突破,利用冷冻电镜三维成像重建了“极简细菌”模型。在超级计算机上模拟细胞生命的20分钟,需要高性能GPU整整8至10小时的计算。

新阶段:
AI让细胞“自学成才”


真正的转折点,来自AI。传统模型依赖人工设定的方程与参数,而AI模型能直接从海量实验数据中自我学习细胞规律。这类模型的代表,被称为—细胞基础模型(Cell Foundation Models)。

类似GPT这样的语言大模型,它们不是被“教”生物学,而是从数据中领悟生物学。
Geneformer:
AI发现新药的第一步


2023年,UCSF的 Christina Theodoris 团队在《Nature》上发表了一个名为 Geneformer 的模型。

它从近 3000万个人类细胞的基因表达数据 中学习,掌握了基因间的相互作用网络。团队随后让 Geneformer 预测心脏疾病中可能的关键基因,并用 CRISPR 实验验证:当他们关闭两个模型预测的基因后,原本功能受损的心肌细胞重新恢复了收缩能力。这意味着,AI不只是能“看懂”细胞,还可能指出药物靶点。
“Geneformer让我们第一次看到AI如何直接加速药物发现。”

The results show Geneformer could point to new directions and accelerate drug discovery
——Christina Theodoris
TranscriptFormer:
跨越物种的虚拟细胞


而另一项更具野心的计划来自 Chan Zuckerberg Initiative(CZI)。由 Steve Quake 与 Theofanis Karaletsos 领衔的团队在2025年推出 TranscriptFormer 模型。它的训练数据涵盖 12个物种、1.12亿个单细胞,包括人、小鼠、线虫、海绵、疟原虫等。


跨物种泛化能力:可识别未见过物种的细胞类型;
零样本学习:无需额外训练即可识别感染细胞、预测药物作用;
多任务适应性:在分类罕见细胞类型方面超过 scGPT 与 Geneformer。
Karaletsos 称,这只是开始:“TranscriptFormer 可能是我们能造出的最‘笨’的虚拟细胞。从这里开始,它只会越来越聪明。”

TranscriptFormer is the “dumbest model we will ever build.”
现实与质疑:
AI模型还不够“聪明”


然而,并非所有科学家都信心满满。
微软研究院的 Alex Lu 指出,许多AI细胞模型在关键任务上并未优于传统模拟;甚至有研究显示,简单的数学公式在预测基因调控上更精准。

Despite the hype, [the models] are underperforming
更大的问题在于:
数据仍然稀缺。目前缺乏类似PDB的统一“Cell Data Bank”;
模态单一。多数模型只基于转录组数据;
评测混乱。各团队使用的标准不一,难以横向比较。
德国TUM的 Fabian Theis 提出一个重要观点:
“如果AI真的理解生物学,那这种理解应该在零样本阶段就能体现。而不是依赖大量微调。”

If they are inferring a fundamental understanding of biology, it should be true before we fine-tune
未来:
从虚拟细胞到“数字生命体”


尽管质疑声不断,但几乎所有专家都认为—AI驱动的细胞建模只是时间问题。
未来的方向已经浮现:
多模态融合:整合转录组、蛋白质组、空间组学与影像数据。
数据基础设施:建立类PDB的全球细胞数据库。
系统级模拟:由虚拟细胞 → 虚拟组织 → 虚拟器官 → 虚拟人体。
科学智能体:模型不只是分析,而是能提出假设、设计实验、撰写结果。
Allen Institute 的 Kedzierska 总结得很坦率:
“我不会放弃这些模型。每一次失败都在告诉我们——生命的规则,究竟隐藏在哪里。”

重建生命的语言


从最早的方程,到如今的AI,科学家正在尝试用“计算”重新书写生命。如果说 AlphaFold 曾让蛋白质折叠问题告一段落,那么虚拟细胞的目标,是让我们真正理解“生命如何运作”。
正如Fabian Theis所说:“One model that rules them all—一个能解释所有生命现象的模型,是我们共同的愿景。”



