展会资讯
听陶哲轩报告有感,搭建数学研究的基础设施
2026-05-20 08:53
听陶哲轩报告有感,搭建数学研究的基础设施

我们的投稿,还会有人审吗?

陶哲轩最近在斯坦福大学做的报告相当有价值。

我先看到一篇国内媒体整理文章,觉得写得还算有趣,但不专业。我想,这基本上就是未来一两年数学界会发生的事。一个小时的讲座被压缩之后,已经能看出很多重要信息,所以我又抽时间看了陶哲轩原本的讲座。

目前数学界对 AI 冲击的力度已经有共识。它会从底层改写研究,也会改写教育。但具体要怎么处理这种冲击,大家依然很迷茫。我公众号前面的系列文章写过我个人的看法,不过说句实话,我也还在想。

讲座最后,以陶哲轩的一声「我不知道」落下帷幕。

这可能正是最诚实的地方。与其到处找哪些研究领域 AI 替代不了,然后求得一夕安寝,不如去想:在与 AI 的协作下,哪个领域最符合自己的兴趣和理想,最可能做出更深刻、更有意义的结果。

Dance at Le Moulin de la Galette, Pierre-Auguste Renoir, 1876

正确证明之后

陶哲轩说,AI 生成正确证明的速度会远远超过数学家。

我觉得是这样的。而且那些证明就是正确的。所以正确证明本身不再那么重要,重要的东西会变成理解。以后数学可能会越来越像艺术品。

但我更怀疑的是,理解这件事也没有那么稳固。人类终将无法理解相当一部分 AI 产生的东西。到了最后,最重要的可能还是应用。那些玄之又玄、只能自洽的数学理论会显得毫无用处。决定一个数学结果好不好的,最终要看它能不能推进实际应用。

高能物理就是一个例子。你可以提出一套数学上完全自洽的理论,但是实验验证不了。验证不了的时候,好坏由谁说了算?老登说了算。在这种情况之下,这件事几乎就没有什么意义了。

某些艺术品也是这样。它到底好不好,最后可不就是有权有势的人说了算?他们说了算,那就算。我觉得这样的数学会一直存在。整个数学研究里会有一块越来越像艺术品,占据高位的人说什么好,什么就是好。

但是这些高位是谁赋予他们的?本质上是民众、社会和政府。他们被说服说,这些看似没有用的数学是有用的,因为它稀缺,因为它在某一天也许会派上用场。但实际上,真正派上用场的东西很少。

所以在我看来,那些暂时身处高位、能够在一段时间内透支人们信任、肆意评价别人工作的人,终究会失去这个位置。这个位置来自社会赋予的信任,而社会期待他们做出真正的应用。

陶哲轩还提到,数学研究近一百年来其实没有什么改变。这远远落后于其他科学被新范式取代的速度。

我感觉数学会经历一个阵痛期。接下来一两年、两三年,可能会进入一段老登说了好就是好的时期。然后,随着那些能够被实验验证、能够真正推进人类理解和控制世界的方向继续发展,数学不再稀缺。人们可以从 AI 那里获得他们需要的数学知识。那些宣称自己的研究会在遥远未来得到应用的人,终究会失去公众的注意力,也会失去立身之本。

什么才是好论文

陶哲轩在讲座里说,一个传统研究项目往往有一个明确目标,比如证明某个特定猜想。但一个人真正完成这个目标时,通常也会同时完成若干隐性目标:

  • 将工作与既有文献建立联系,或者提出后续问题;
  • 开发可以用于其他问题的新技术;
  • 提供关于问题本质的洞见,以及不同技术解决这些问题时的有效性;
  • 为论证创建高层次概述,并给出整个领域更宏观的叙事;
  • 在数学研究的技艺上训练初级合作者。

我觉得这几条非常有道理。实际上,出去做报告,或者评价一个工作到底好不好,重要标准也在这里:我研究的问题的本质到底是什么?这些问题到底可以用多少技术来解决?这个工作能不能把人带到更远的地方?

他后面举了一个例子。现在 AI 已经能生成大量正确的数学,就像汽车刚出现时还和马车共用一套基础设施,自然不行,必须修建适合汽车的设施。AI 已经出现,人类也必须设计适合 AI 做数学的基础设施。传统的期刊、审稿人、大学里的庞大系统,都未必适应。

接着他谈到一些让数学家大规模合作的项目,特别是孪生素数猜想里降低上界的尝试。这样的项目如果完全没有 AI 帮助,似乎也很快会难以为继。

AI 在这类数学工作里为什么会有比较好的表现?因为目标清晰,容易度量;项目本身模块化;一部分进展也被允许,不必等到全盘完成才有价值;而且这种问题靠一个很强的数学家或者一个小群体做不完。

但如果要把写论文这件事也做成这种大规模合作项目,就困难得多。问题在于,论文写作里有很多策略性和风格性的决策。哪些引理提前用,哪些东西允许修改,哪些解释应该保留,这些都没法只靠一个清晰指标处理。

陶哲轩说得很实在。现在 AI 做不了「人类理解」,因为我们从来没有真正训练它去生成服务于人类理解的文本。所以我们需要训练满足这些隐性标准的 AI。AI 确实有一个问题:当你模糊地给它一个问题,它会直接越过所有那些人在工作过程中才知道不能越过的东西。

其实数学工作者自己在工作时,也不一定意识到自己正在 align 很多隐性规则。跨行进入一个新问题时,这种事尤其明显。你会犯很多在本行人看来非常愚蠢的错误,因为你不知道哪些路可以走,哪些路看起来可以走但其实不该走。

生成、验证、消化

陶哲轩把形式化也分成了两类。

一种形式化只关心过程:对给定结果生成正确的形式化证明,不要求风格、可读性和有效性。这样的项目可以调用任意多的 AI 助手来完成。另一种形式化是多目标任务,它有很多隐性目标,比如让项目成为下游任务的依赖,或者围绕项目建立共同体。在这类项目里,AI 只能处理一些子任务,不能全权接管。

Lean:一种把数学证明写成机器可以检查的形式的证明助手。

现在主要的问题是,整个数学圈并不奖励那些把已有证明简化、结构化、变得更易读的人。它奖励第一个做出结果的人。不管第一个结果多粗糙、多难懂,第一就是第一。但 AI 最终会成为那个第一个做结果的人。这个时候,数学圈就应该转向奖励那些能让已有结果更满足隐性需求的人。证明的简化非常有意义。

他还引用了管理学中一个非常有名的定理:当一个指标变成目标,它就会失去作为好指标的能力。当一个组织或者个人瞄准某个指标前进,它一定会削弱其他目标的完成能力,甚至损害整个目标的实现。

目前数学界还在写 Erdős 问题。在这类问题里,AI 生成的代码什么时候可以被接受?陶哲轩给出的边界是,人必须理解它,或者至少写出完整的 Lean 证明去验证它。

Erdős 问题:围绕数学家 Paul Erdős 提出或相关的一批公开数学问题。

他在报告中提到 MathOverflow 之类的网站。这让我想起以前做研究碰到问题时,如果谷歌查不到,我首先会去查 Math StackExchange 或者 MathOverflow,看别人有没有问过类似问题。现在有了 AI,它确实能帮我很快查阅这些知识,也能让我更快建立一些正确或者错误的直觉。

MathOverflow:一个面向研究型数学问题的问答网站。

Math StackExchange:一个面向更广泛数学学习和解题问题的问答网站。

在 Erdős 问题被解决的曲线上,可以看到一个很直观的变化:人们刚开始关注它时,很多问题被解决;随后进入平台期;直到 GPT 5.5 发布之后,解决问题的能力又迅速上升。这条曲线直观地反映了目前 AI 解决数学问题的能力。

一年前,AI 开始擅长找文献,甚至可以找到一些完整证明。现在的 AI 工具又开始擅长验证、自动形式化,或者重组其他人和 AI 提出的证明。再往前一点,它已经可以做一些数值延拓,对一些特殊情形,甚至能够自动或者半自动地解决完整问题。

一个证明在这里可以分成三件事:生成,验证,消化。消化指的是把证明梳理出来,解释给别人听,再把它跟过往文献和未来方向结合起来。

第三步最难。目前没有多少 AI 能够做好这一点。一年前,证明的生成、验证和消化几乎一样难,所以你关注证明生成也就够了。但现在有了 AI,生成和验证变得简单,人就必须关注证明的消化。否则我们会被海量正确证明淹没。

这可能就是未来的趋势:我们要从 AI 生成的东西里理解和学习。

讨论会变得更重要

陶哲轩提出一个很有意思的标准:什么时候一个证明才算完成?一个人可以去给一个 talk,并且回答观众提问。

这和我最近的实践很像。我发现 AI 生成了一大堆证明之后,我依然没有办法很好地理解它,也不知道它到底对还是错。后来我尝试给别人讲。讲到一半,我发现其实有更好的办法可以简化它。

另一次合作体验也是这样。我的一个合作者证明了一些结论,然后试图给我讲清楚。我敏锐地发现,他某一步证明其实不完整,可以做到更好的程度。我们是在讨论中得到真正证明的。AI 很容易满足于止步于此,人与人的讨论才会逼出这个问题。

所以在我看来,未来学术研究里有一个很关键的点:把你未完成的论文拿出来和别人讨论。

因为 AI 可以生成一大堆未完成的论文。你要做的,是在人的帮助下理解它。你要尽可能多地向别人展示,和别人讨论。只有在这个过程中,你才能真正把论文实质性向前推进,也才能鞭策 AI 做出更好的东西。

未来数学界很可能会走入一种真正的大科学时代。大家一起合作理解 AI 给出的证明。在这个过程中,谁真正提供了帮助,就把谁的名字加进文章里。很多人一起合作一篇文章,基本范式就是讨论。

AI 生成的证明可以是正确的,但它会浪费大量篇幅,去证明已经存在的结果、别人已经证明过的结果,或者本来可以抽象成一个基本定理的东西。这要求人知道哪些东西在文献中已经证明,哪些结果已经被大家熟知。

陶哲轩还直接提到,期刊和现在的开源项目一样,都面临一个问题:人们生成了大量正确证明,你怎么处理?

所以数学界应该改变评价结果的范式。第一不该总是最重要的,帮助人理解的证明才应该变得更重要。但这样一来,问题又来了:帮助谁理解?这会变成一个主观的东西。

新范式与教育

陶哲轩本人也在试图创造新的数学范式。两年前,他发布了 equational theories project,通过自动化手段证明数以百万计的微小定理。

equational theories project:一个把大量形式很小的代数等式问题系统化、再用自动化方法推进证明的项目。

在传统数学中,有很多证明非常适合 AI 来做。他举了一个例子:显式解析数论里,很多工作重点就是把那些没人真正在乎具体是多少、只写成一个 C 的上界算出来。这个常数到底是多少?计算数学中也有这样的任务。我之前研究的问题里也有这样的任务。tedious,我们知道它能做,但具体要怎么把它算出来,这件事很烦。

有人问,那我们该怎么调整数学教育?如何处理这种消化证明的问题?陶哲轩认为,评估不能再以是否得出正确答案为目标。

他说,我们应该从作业和考试转向报告、讨论、项目、对话。他举了一个例子:哈佛大学有一位数学教授把全班分成几个组,尝试用提示词解决两年前的数学分析期末习题。一个组生成 prompt,另一个组验证。

有一个人提出了我也想问的问题:能不能用 human reinforcement learning 去训练 AI,让 AI 生成的证明更好地被消化?陶哲轩给了一个非常明确的答案:不可以。

human reinforcement learning:大意是让人对 AI 的回答给出反馈,再用这些反馈训练模型。

陶哲轩说,AI 可以生成一个看似简化了证明、提炼出核心思想的东西,也可以设计一个框架去检查参考文献引用是否规范。但这样会让 AI 产出看似在解决问题、看似在解释问题的论文。你可能要很多年之后才会意识到,这些解释其实是误导性的。

所以他认为,当一件事成为标准之后,它一定会带来很糟糕的改变。他内心深处是相信人类,或者说相信数学家本身必须参与。真正的问题只是,哪个环节需要人参与。

优化是有用的,但优化一定会伤害很多东西。他相信时间的力量,也相信人类的灵魂。到了最后,他给出的回答依然是:我们要尽力理解 AI 给出来的东西,即使 AI 已经远胜于我们。

再说到底,我们依然是在拼对数学的理解能力。这种理解能力需要更深刻的想法,也需要与更多人的交流。

应用会重新给数学定价

我的个人判断依然是:以后数学会以应用作为优先。

谁的数学理论能够真正推动实际应用,推动人对客观世界的理解,谁的理论就牛。至于基础数学里那些创造自洽却毫无用处产物的方向,肯定会圈地自萌。几个大佬互相捧,最后一起申不到经费。因为公众对数学的信任已经被透支了。他们拿了这么多钱,却什么都做不出来,对人类福祉毫无帮助。

这个过程早就在物理里发生了。那些做高能物理、研究弦论的人,处境和基础数学很像。他们的理论不能被实验所证实,只要数学自洽就行。然后这帮人现在申请不到任何经费。

所以,与其寻找哪些地方 AI 暂时替代不了数学家,不如早一点投身到数学的实际应用里。这里的重点不落在「应用数学」这个学科标签上,重点在于把数学知识真正和其他领域结合起来,让其他领域的东西变得更强。

这必然是未来的趋势。

Dance at Le Moulin de la Galette 是法国印象派最著名的作品之一,完成于 1876 年。画面描绘了巴黎蒙马特高地一个周日下午的露天舞会:工人、小店员、年轻情侣、朋友聚会,在树荫与阳光交错之间跳舞、聊天、饮酒。Renoir 并没有把人物塑造成历史英雄或宗教人物,而是把普通人的快乐日常提升为艺术主题。整幅画最震撼的地方,其实不是“舞会”,而是空气感——阳光透过树叶形成破碎闪烁的光斑,人物仿佛处于流动的时间之中。

这幅画的作者是 Pierre-Auguste Renoir,法国印象派核心人物之一。他和 Claude Monet、Edgar Degas 等人共同推动了印象派革命。与 Monet 更关注自然光线不同,Renoir 更关注“人”的温度。他相信绘画应该给予观者愉悦感,因此即使在工业化迅速扩张、巴黎社会剧烈变化的时代,他仍坚持描绘人与人之间的亲密、欢乐与身体性的存在感。后来很多现代主义画家会批评 Renoir “过于甜美”,但也正因此,他成为西方艺术中“人间乐趣”的代表人物。

从艺术史上看,这幅画的重要性在于:它彻底改变了“什么值得被画”。在学院派时代,大尺寸油画通常属于神话、宗教、战争和历史主题,而 Renoir 却用近乎历史画的规模去描绘普通巴黎人的周末娱乐。这实际上意味着现代艺术的核心转向——艺术不再服务于神与帝王,而开始转向现代人的日常经验。它也是印象派成熟期的重要标志:快速笔触、户外写生、瞬间光感、非中心化构图,都在这幅作品中达到了高度统一。后来关于“现代生活”的绘画传统,包括城市漫游者、咖啡馆文化、电影镜头式构图,很大程度都能追溯到这类作品。

参考链接

陶哲轩的报告

https://youtu.be/Uc2zt198U_U?si=cmik42t89--vZ1Vx

发表评论
0评