推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  履带  带式称重给煤机  无级变速机  链式给煤机 

2025 年数据库行业回顾:重大趋势与发展

   日期:2026-01-06 10:04:19     来源:网络整理    作者:本站编辑    评论:0    
2025 年数据库行业回顾:重大趋势与发展

2025 年数据库行业回顾:重大趋势与发展

核心要点:PostgreSQL 持续主导市场,MCP 协议成为新热点,数据库行业并购活跃

又一年过去了。我原本希望写更多文章,而不仅仅是这些年终长篇大论,但我在春季学期几乎累死,这占用了我所有时间。尽管如此,我还是会回顾我认为过去一年数据库领域的主要趋势和事件。

数据库世界有许多令人兴奋和前所未有的发展。Vibe 编码进入了常用词汇。Wu-Tang Clan 宣布了他们的时间胶囊项目。Databricks 没有通过一次大规模融资轮次上市,而是在今年进行了两次大规模融资轮次。

与此同时,其他事件是预料之中且不那么令人惊讶的。Redis Ltd.在拉地毯一年后又切换回了他们的许可证(我去年就预测过这一点)。SurrealDB 报告了很好的基准测试数字,因为他们没有将写入刷新到磁盘并丢失了数据。而 Coldplay 可能会破坏你的婚姻。不过,Astronomer 在最后一点上确实做出了一些相当不错的柠檬水。

在我开始之前,我想回应一下我每年在这些文章的评论中收到的问题。人们总是问我为什么不提到系统 X,谈论数据库 Y,或者在我的分析中包括公司 Z。原因是我只能写这么多东西,除非在过去一年发生了有趣/值得注意的事情,否则真的没什么可讨论的。但并非所有值得注意的数据库事件都适合我发表意见。例如,最近试图揭露 AvgDatabase CEO 身份的事件是公平的游戏,但 MongoDB 自杀诉讼则绝对不是。

说完这些,让我们开始吧。这些文章每年都在变长,所以我提前道歉。

PostgreSQL 的主导地位持续增强

我首先在 2021 年写了关于 PostgreSQL 如何吞噬数据库世界的文章。这一趋势继续不减,因为数据库世界最有趣的发展再次发生在 PostgreSQL 身上。该数据库管理系统的最新版本(v18)于 2025 年 11 月发布。最突出的功能是新的异步 I/O 存储子系统,这将最终使 PostgreSQL 走上摆脱对操作系统页面缓存依赖的道路。它还添加了对跳跃扫描的支持;即使缺少前导键(即前缀),查询仍然可以使用多键 B+Tree 索引。查询优化器还有一些额外的改进(例如,移除多余的自我连接)。

精明的数据库鉴赏家会很快指出这些不是突破性功能,其他数据库管理系统已经拥有这些功能多年了。PostgreSQL 是唯一仍然依赖操作系统页面缓存的主要数据库管理系统。而 Oracle 自 2002 年(v9i)以来就支持跳跃扫描!因此,你可能会想知道,为什么我声称 2025 年数据库领域最热门的活动发生在 PostgreSQL 上?

收购与发布

原因是大部分数据库能量和活动都流向了 PostgreSQL 公司、产品、项目和衍生系统。在过去一年中,最热门的数据初创公司(Databricks)以 10 亿美元收购了一家 PostgreSQL 数据库即服务公司(Neon)。接下来,世界上最大的数据库公司之一(Snowflake)以 2.5 亿美元收购了另一家 PostgreSQL 数据库即服务公司(CrunchyData)。然后,世界上最大的科技公司之一(Microsoft)推出了一款新的 PostgreSQL 数据库即服务(HorizonDB)。Neon 和 HorizonDB 遵循 Amazon Aurora 在 2010 年代的原始高级架构,具有分离计算和存储的单个主节点。目前,Snowflake 的 PostgreSQL 数据库即服务使用与标准 PostgreSQL 相同的核心架构,因为他们构建在 Crunchy Bridge 之上。

分布式 PostgreSQL

我上面列出的所有服务都是单主节点架构。也就是说,应用程序将写入发送到主节点,然后主节点将这些更改发送到辅助副本。但在 2025 年,有两个关于为 PostgreSQL 创建横向扩展(即水平分区)服务的新项目公告。2025 年 6 月,Supabase 宣布聘请了 Vitess 联合创始人、前 PlanetScale 联合创始人/CTO Sugu 领导 Multigres 项目,为 PostgreSQL 创建分片中间件,类似于 Vitess 对 MySQL 进行分片的方式。Sugu 于 2023 年离开 PlanetScale,不得不低调两年。他现在可能已经摆脱了任何法律问题,可以在 Supabase 做出成绩。当一个数据库工程师加入公司,而公告更多地关注这个人而不是系统时,你就知道这是件大事。SingleStore 的联合创始人/CTO 于 2024 年加入 Microsoft 领导 HorizonDB,但 Microsoft(错误地)没有对此大肆宣传。Sugu 加入 Supabase 就像是 Ol' Dirty Bastard(RIP)在两年后获得假释,然后在释放的第一天宣布新的唱片合约。

在 Multigres 消息发布一个月后,PlanetScale 宣布了自己的 Vitess-for-PostgreSQL 项目 Neki。PlanetScale 于 2025 年 3 月推出了其初始 PostgreSQL 数据库即服务,但核心架构是标准 PostgreSQL 加 pgBouncer。

商业格局

随着 Microsoft 在 2025 年推出 HorizonDB,所有主要云供应商现在都有了自己增强的 PostgreSQL 产品的严肃项目。Amazon 自 2013 年以来提供 RDS PostgreSQL,自 2017 年以来提供 Aurora PostgreSQL。Google 在 2022 年推出了 AlloyDB。即使是老旧的 IBM 自 2018 年以来也有其云版本的 PostgreSQL。Oracle 在 2023 年发布了其 PostgreSQL 服务,尽管有传言称其内部 PostgreSQL 团队在 2025 年 9 月的 MySQL OCI 裁员中成为附带损害。ServiceNow 在 2024 年推出了其 RaptorDB 服务,基于其 2021 年对 Swarm64 的收购。

是的,我知道 Microsoft 在 2019 年收购了 Citus。Citus 在 2019 年被重新命名为 Azure Database for PostgreSQL Hyperscale,然后在 2022 年更名为 Azure Cosmos DB for PostgreSQL。但还有 Azure Database for PostgreSQL with Elastic Clusters 也使用 Citus,但它与由 Citus 驱动的 Azure Cosmos DB for PostgreSQL 不同。等等,我可能搞错了这一点。Microsoft 在 2023 年停止了 Azure PostgreSQL Single Server,但保留了 Azure PostgreSQL Flexible Server。这有点像 Amazon 忍不住在 DSQL 的名称中添加"Aurora"。无论如何,至少 Microsoft 足够聪明,将其新系统的名称保持在"Azure HorizonDB"(目前)。

仍然有一些独立的(ISV)PostgreSQL 数据库即服务公司。Supabase 可能是这些公司中实例数量最多的。其他包括 YugabyteDB、TigerData(原名 TimeScale)、PlanetScale、Xata、PgEdge 和 Nile。其他系统提供 Postgres 兼容的前端,但后端系统不是从 PostgreSQL 派生的(例如,CockroachDB、CedarDB、Spanner)。Xata 最初构建在 Amazon Aurora 上,但今年宣布将转向自己的基础设施。Tembo 在 2025 年放弃了其托管的 PostgreSQL 产品,转向可以执行一些数据库调优的编码代理。ParadeDB 尚未宣布其托管服务。Hydra 和 PostgresML 在 2025 年倒闭(见下文),所以它们出局了。还有一些托管公司提供 PostgreSQL 数据库即服务以及其他系统,例如 Aiven 和 Tessel。

Andy 的观点

在 Databricks 和 Snowflake 收购 PostgreSQL 公司之后,下一个主要买家是谁还不清楚。同样,每个主要科技公司都已经有了 Postgres 产品。EnterpriseDB 是最古老的 PostgreSQL ISV,但在过去五年中错过了两次最重要的 PostgreSQL 收购。但我想他们可以暂时依靠 Bain Capital,或者希望 HPE 收购他们,尽管这种合作关系来自八年前。这种并购格局让人想起 2000 年代末的 OLAP 收购,当 AsterData、Greenplum 和 DATAllegro 被收购后,Vertica 是最后一个在公交车站等待的。

两个竞争的分布式 PostgreSQL 项目(Multigres、Neki)的发展是个好消息。这些项目不是第一次有人尝试这样做。当然,Greenplum、ParAccel 和 Citus 已经存在了二十年用于 OLAP 工作负载。是的,Citus 支持 OLTP 工作负载,但他们在 2010 年开始时专注于 OLAP。对于 OLTP,15 年前,NTT RiTaDB 项目与 GridSQL 合作创建了 Postgres-XC。Postgres-XC 的开发人员创立了 StormDB,后者在 2013 年被 Translattice 收购。Postgres-X2 是现代化 XC 的尝试,但开发人员放弃了这项工作。Translattice 将 StormDB 开源为 Postgres-XL,但该项目自 2018 年以来一直处于休眠状态。YugabyteDB 于 2016 年推出,可能是部署最广泛的分片 PostgreSQL 系统(并且仍然是开源的!),但它是一个硬分叉,所以它只与 PostgreSQL v15 兼容。Amazon 在 2024 年宣布了自己的分片 PostgreSQL(Aurora Limitless),但它是闭源的。

PlanetScale 团队对另一方没有好感,并向 Neon 和 Timescale 开火。数据库公司互相攻击并不新鲜(见 Yugabyte vs. CockroachDB)。我怀疑随着 PostgreSQL 战争的升温,我们将来会看到更多这样的情况。我建议这些小公司点名批评大云供应商,而不是互相争斗。

每个数据库都有 MCP!

如果说 2023 年是每个数据库管理系统都添加向量索引的一年,那么 2025 年就是每个数据库管理系统都添加对 Anthropic 的模型上下文协议(MCP)支持的一年。MCP 是一个标准化的客户端-服务器 JSON-RPC 接口,让 LLMS 能够与外部工具和数据源交互,而不需要自定义粘合代码。MCP 服务器充当数据库管理系统前面的中间件,并暴露它提供的工具、数据和操作的列表。MCP 客户端(例如,LLM 主机如 Claude 或 ChatGPT)发现并使用这些工具,通过向服务器发送请求来扩展其模型的能力。在数据库的情况下,MCP 服务器将这些查询转换为适当的数据库查询(例如,SQL)或管理命令。换句话说,MCP 是中间人,负责计数砖块和保持奶油直,这样数据库和 LLMS 就足够信任彼此来做生意。

Anthropic 在 2024 年 11 月宣布了 MCP,但在 2025 年 3 月 OpenAI 宣布将在其生态系统中支持 MCP 时,它才真正起飞。在接下来的几个月里,每个数据库供应商都为所有系统类别发布了 MCP 服务器:OLAP(例如,ClickHouse、Snowflake、Firebolt、Yellowbrick)、SQL(例如,YugabyteDB、Oracle、PlanetScale)和 NoSQL(例如,MongoDB、Neo4j、Redis)。由于没有官方的 Postgres MCP 服务器,每个 Postgres 数据库即服务都发布了自己的(例如,Timescale、Supabase、Xata)。云供应商发布了多数据库 MCP 服务器,可以与他们的任何托管数据库服务通信(例如,Amazon、Microsoft、Google)。允许单个网关与异构数据库通信几乎,但不完全是,一个圣杯式的联邦数据库。据我所知,这些 MCP 服务器中的每个请求一次只针对单个数据库,因此应用程序负责在源之间执行连接。

除了官方的供应商 MCP 实现之外,还有数百个随机的 MCP 服务器实现,几乎适用于每个数据库管理系统。其中一些试图支持多个系统(例如,DBHub、DB MCP Server)。DBHub 发布了一个很好的 PostgreSQL MCP 服务器概述。

对代理有用的一个有趣功能是数据库分支。虽然不特定于 MCP 服务器,但分支允许代理快速测试数据库更改,而不影响生产应用程序。Neon 在 2025 年 7 月报告说,代理创建了他们 80%的数据库。Neon 从一开始就设计为支持分支(Nikita 在系统仍称为"Zenith"时向我展示了早期演示),而其他系统后来添加了分支支持。参见 Xata 最近关于数据库分支的比较文章。

Andy 的观点

一方面,我很高兴现在有一个标准可以将数据库暴露给更多应用程序。但没有人应该信任具有无限数据库访问权限的应用程序,无论是通过 MCP 还是系统的常规 API。并且只授予账户最小权限仍然是良好实践。限制账户对于未经监控的代理可能开始在你的数据库中疯狂尤其重要。这意味着懒惰的做法,如为每个账户授予管理员权限或为每个服务使用相同的账户,当 LLM 开始爆发时将会被摧毁。当然,如果你的公司在导致最富有的公司股票下跌 6000 亿美元的同时,将其数据库向世界开放,那么流氓 MCP 请求就不是你的首要担忧。

从我粗略检查的几个 MCP 服务器实现来看,它们是简单的代理,将 MCP JSON 请求转换为数据库查询。没有深入的内省来理解请求旨在做什么以及是否合适。有人会在你的应用程序中订购 18,000 个水杯,你需要确保它不会使你的数据库崩溃。一些 MCP 服务器有基本的保护机制(例如,ClickHouse 只允许只读查询)。DBHub 提供了一些额外的保护,例如限制每个请求返回的记录数量并实现查询超时。Supabase 的文档提供了 MCP 代理的最佳实践指南,但它们依赖于人类遵循它们。当然,如果你依赖人类做正确的事,坏事就会发生。

企业数据库管理系统已经有了开源系统缺乏的自动化护栏和其他安全机制,因此它们为代理生态系统做好了更好的准备。例如,IBM Guardium 和 Oracle Database Firewall 识别并阻止异常查询。我不是在为这些大科技公司做广告。我知道我们将来会看到更多代理毁掉生活的例子,比如意外删除数据库。将 MCP 服务器与代理(例如,连接池)结合是引入自动化保护机制的绝佳机会。

MongoDB, Inc. 诉 FerretDB Inc.

MongoDB 二十年来一直是 NoSQL 的中流砥柱。FerretDB 于 2021 年由 Percona 的高层推出,提供了一个中间件代理,将 MongoDB 查询转换为 PostgreSQL 后端的 SQL。这个代理允许 MongoDB 应用程序切换到 PostgreSQL,而无需重写查询。

它们共存了几年,直到 MongoDB 在 2023 年向 FerretDB 发送了停止和终止函,指控 FerretDB 侵犯了 MongoDB 的专利、版权和商标,并且违反了 MongoDB 对其文档和有线协议规范的许可。这封信在 2025 年 5 月 MongoDB 对 FerretDB 提起联邦诉讼时公开。他们的一部分不满是 FerretDB 在未经授权的情况下声称自己是 MongoDB 的"即插即用替代品"。MongoDB 对这些问题的联邦诉讼。他们的一部分不满是 FerretDB 在未经授权的情况下声称自己是 MongoDB 的"即插即用替代品"。MongoDB 的法庭文件包含了所有标准的投诉:(1)误导开发人员,(2)稀释商标,以及(3)损害他们的声誉。

这个故事因 Microsoft 宣布将其 MongoDB 兼容的 DocumentDB 捐赠给 Linux Foundation 而变得更加复杂。项目网站提到 DocumentDB 与 MongoDB 驱动程序兼容,并旨在"构建一个 MongoDB 兼容的开源文档数据库"。其他主要数据库供应商,如 Amazon 和 Yugabyte,也参与了该项目。从粗略的 glance 来看,这种语言似乎与 MongoDB 指控 FerretDB 所做的类似。

Andy 的观点

我找不到数据库公司因复制其 API 而起诉另一家数据库公司的例子。最接近的是 Oracle 起诉 Google 在 Android 中使用 Java API 的干净室副本。最高法院最终以合理使用为由裁定 Google 胜诉,此案影响了重新实现的法律处理方式。

我不知道如果此案进入审判,它将如何发展。由街上随机人员组成的陪审团可能理解 MongoDB 有线协议的具体细节,但他们肯定会理解 FerretDB 的原始名称是 MangoDB。当你将另一家公司的名称更改一个字母时,要说服陪审团你并非试图转移客户将具有挑战性。更不用说这甚至不是一个原创名称:已经有一个名为 MangoDB 的模仿数据库管理系统,它将所有内容写入/dev/null。

当我们谈论数据库系统命名时,Microsoft 选择"DocumentDB"是不幸的。已经有 Amazon DocumentDB(顺便说一下,它也兼容 MongoDB,但 Amazon 可能为此付费)、InterSystems DocDB 和 Yugabyte DocDB。Microsoft 对"Cosmos DB"的原始名称在 2016 年也是 DocumentDB。

最后,MongoDB 的法庭文件声称他们"...开创了'非关系型'数据库的发展"。这一说法是不正确的。第一个通用数据库管理系统是非关系型的,因为关系模型尚未发明。通用电气的集成数据存储(1964)使用了网络数据模型,而 IBM 的信息管理系统(1966)使用了层次数据模型。MongoDB 也不是第一个文档数据库管理系统。这一称号属于 1980 年代末的面向对象数据库管理系统(例如,Versant)或 2000 年代的 XML 数据库管理系统(例如,MarkLogic)。MongoDB 是这些方法中最成功的,差距巨大(除了可能 IMS)。

文件格式战场

文件格式是数据系统领域中过去十年大部分时间处于休眠状态的一个领域。2011 年,Meta 发布了一个用于 Hadoop 的面向列格式,称为 RCFile。两年后,Meta 改进了 RCFile 并宣布了基于 PAX 的 ORC(优化记录列文件)格式。ORC 发布一个月后,Twitter 和 Cloudera 发布了 Parquet 的第一个版本。近 15 年后,Paquet 是主导的开源格式。

2025 年,有五种新的开源文件格式发布,试图推翻 Parquet 的统治地位:

  • CWI FastLanes
  • CMU + Tsinghua F3
  • SpiralDB Vortex
  • The Germans' AnyBlox
  • Microsoft Amudai

这些新格式加入了 2024 年发布的其他格式:

  • Meta Nimble
  • LanceDB Lance
  • IoTDB TsFile

SpiralDB 今年引起了最大的轰动,他们宣布将 Vortex 捐赠给 Linux Foundation 并建立了他们的多组织指导委员会。Microsoft 在 2025 年底的某个时候悄悄杀死了 Amudai(或至少将其闭源)。其他项目(FastLanes、F3、Anyblox)是学术原型。Anyblox 今年获得了 VLDB 最佳论文奖。

这种新的竞争点燃了 Parquet 开发社区的火焰,以现代化其功能。参见 Parquet PMC 主席(Julien Le Dem)对列式文件格式格局的深入技术分析。

Andy 的观点

Parquet 的主要问题不在于格式本身。规范可以并且已经发展。没有人期望组织重写 PB 级的遗留文件以将它们更新到最新的 Parquet 版本。问题在于有这么多不同语言的读取器/写入器库实现,每个都支持规范的不同子集。我们对野外 Paraquet 文件的分析发现,即使它们的创建时间戳在 2020 年之后,94%的文件只使用 2013 年的 v1 功能。这种最低共同分母意味着如果有人使用 v2 功能创建 Parquet 文件,不清楚系统是否具有正确的版本来读取它。

我与清华大学(曾欣宇、张焕宸)、CMU(Martin Prammer、Jignesh Patel)和 Wes McKinney 的杰出人士合作开发了 F3 文件格式。我们的重点是通过提供作为共享对象(Rust crate)的本机解码器和文件中这些解码器的嵌入式 WASM 版本来解决这个互操作性问题。如果有人创建了一个新的编码,而数据库管理系统没有本机实现,它仍然可以通过传递 Arrow 缓冲区使用 WASM 版本读取数据。每个解码器针对单个列,允许数据库管理系统对单个文件使用本机和 WASM 解码器的混合。AnyBlox 采用不同的方法,生成单个 WASM 程序来解码整个文件。

我不知道谁会赢得文件格式战争。下一场战斗可能围绕 GPU 支持展开。SpiralDB 正在采取正确的行动,但 Parquet 的普遍性将难以克服。我甚至没有讨论 DuckLake 如何试图颠覆 Iceberg...

当然,当这个话题出现时,有人总是会发布这个关于竞争标准的 xkcd 漫画。我以前见过。你不需要再通过电子邮件发给我了。

随机事件

数据库是大生意。让我们把它们都过一遍!

收购

市场上有很多动作。Pinecone 在 9 月更换了 CEO 以为收购做准备,但我没有听到其他消息。以下是确实发生的:

DataStax → IBMCassandra 的中流砥柱在今年初被 IBM 以估计 30 亿美元收购。

Quickwit → DataDog领先的 Lucene 替代品 Tantivy 全文搜索引擎背后的公司今年初被收购。好消息是 Tantivy 开发继续不减。

SDF → dbt这次收购对 dbt 来说是坚实的收获,作为他们今年 Fusion 公告的一部分。它允许他们在其 DAG 中执行更严格的 SQL 分析。

Voyage.ai → MongoDBMongoDB 收购了一家早期 AI 公司,以扩展其云产品中的 RAG 能力。我最好的学生之一在公告前一周加入了 Voyage。他认为通过不签约数据库公司而违背了"家族",结果却最终来到了一家。

Neon → Databricks显然,对这家 PostgreSQL 公司有一场竞标战,但 Databricks 支付了令人垂涎的 10 亿美元。Neon 今天仍然作为独立服务存在,但 Databricks 迅速在其生态系统中将其重新命名为 Lakebase。

CrunchyData → Snowflake你知道 Snowflake 不能让 Databricks 在夏天独享兴奋,所以他们为 13 岁的 PostgreSQL 公司 CrunchyData 支付了 2.5 亿美元。Crunchy 近年来吸纳了顶尖的前 Citus 人才,并在 Snowflake 给他们开支票之前扩展其数据库即服务产品。Snowflake 在 2025 年 12 月宣布其 Postgres 服务的公开预览。

Informatica → Salesforce1990 年代的老派 ETL 公司 Informatica 被 Salesforce 以 80 亿美元收购。这是在他们在 1999 年上市,2015 年回归私募股权,以及 2021 年再次上市之后。

Couchbase → 私募股权老实说,我从来不明白 Couchbase 如何在 2021 年上市。我猜他们是搭上了 MongoDB 的顺风车?Couchbase 几年前做了一些有趣的工作,整合了加州大学欧文分校 AsterixDB 项目的组件。

Tecton → DatabricksTecton 为 Databricks 提供了构建代理的额外工具。我的另一个前学生是

Tobiko Data → Fivetran这个团队背后有两个有用的工具:SQLMesh 和 SQLglot。前者是 dbt 唯一可行的开源竞争者(见下文他们与 Fivetran 的待定合并)。SQLglot 是一个方便的 SQL 解析器/反解析器,支持基于启发式的查询优化器。Fivetran 中的这个与 dbt 中的 SDF 的结合,在未来几年在这个领域形成了一个有趣的技术游戏。

SingleStore → 私募股权购买 SingleStore 的私募股权公司(Vector Capital)在管理数据库公司方面有先前的经验。他们之前在 2020 年购买了 XML 数据库公司 MarkLogic,并在 2023 年将其转售给 Progress。

Codership → MariaDB在 2024 年被私募股权收购后,MariaDB Corporation 今年开始了购买狂潮。首先是 MariaDB 横向扩展中间件 Galera Cluster 背后的公司。参见我 2023 年对 MariaDB 垃圾箱火灾的概述。

SkySQL → MariaDB然后我们有第二个 MariaDB 收购。只是为了让大家清楚,支持 MariaDB 的原始商业公司在 2010 年被称为"SkySQL Corporation",但在 2014 年更名为"MariaDB Corporation"。然后在 2020 年,MariaDB Corporation 发布了一个名为 SkySQL 的 MariaDB 数据库即服务。但由于他们现金流失严重,MariaDB Corporation 在 2023 年将 SkySQL Inc.分拆为独立公司。而现在,在 2025 年,MariaDB Corporation 通过买回 SkySQL Inc.完成了循环。我今年没有在我的数据库宾果卡上放这一招。

Crystal DBA → Temporal自动化数据库优化工具公司前往 Temporal 自动优化他们的数据库!我很高兴听到 Crystal 的创始人和伯克利数据库组校友 Johann Schleier-Smith 在那里做得很好。

HeavyDB → Nvidia这个系统(原名 OmniSci,原名 MapD)是首批 GPU 加速数据库之一,于 2013 年推出。除了并购公司列出成功交易外,我找不到他们关闭的官方公告。然后我们与 Nvidia 开会讨论潜在的数据库研究合作,一些 HeavyDB 朋友出现了。

DGraph → Istari DigitalDgraph 之前于 2023 年被 Hypermode 收购。看起来 Istari 只是购买了 Dgraph 而不是 Hypermode 的其余部分(或者他们放弃了它)。我仍然没有遇到任何积极使用 Dgraph 的人。

DataChat → Mews这是威斯康星大学和现在的 CMU-DB 教授 Jignesh Patel 的首批"与你的数据库聊天"之一。但他们被一家欧洲酒店管理 SaaS 收购。你可以理解这意味着什么。

Datometry → SnowflakeDatometry 多年来一直致力于自动将遗留 SQL 方言(例如,Teradata)转换为新的 OLAP 系统的危险问题。Snowflake 收购了他们以扩展他们的迁移工具。参见 Datometry 2020 年 CMU-DB 技术讲座了解更多信息。

LibreChat → ClickHouse就像 Snowflake 收购 Datometry 一样,ClickHouse 在这里的收购是改善高性能商品 OLAP 引擎开发者体验的好例子。

Mooncake → Databricks在购买 Neon 之后,Databricks 购买了 Mooncake 以使 PostgreSQL 能够读取/写入 Apache Iceberg 数据。参见他们 2025 年 11 月的 CMU-DB 讲座了解更多信息。

Confluent → IBM这是如何从草根开源项目创建公司的原型。Kafka 最初于 2011 年在 Linkedin 开发。Confluent 随后于 2014 年作为独立初创公司分拆。他们在七年后于 2021 年上市。然后 IBM 开了一张大支票接管它。就像 DataStax 一样,IBM 是否会像通常对待收购公司那样对待 Confluent,或者他们是否能够像 RedHat 那样保持自治,还有待观察。

Kuzu → ???滑铁卢大学的嵌入式图数据库管理系统在 2025 年被一家未具名公司收购。KuzuDB 公司随后宣布放弃开源项目。LadybugDB 项目是维护 Kuzu 代码分支的尝试。

合并

当 Fivetran 和 dbt Labs 在 2025 年 10 月宣布合并形成单一公司时,意外的消息出现了。

我能想到的数据库领域最后一次合并是 2019 年 Cloudera 和 Hortonworks 的合并。但那笔交易只是弱者在厨房里被踩踏:两家努力寻找 Hadoop 市场相关性的公司合并为一家公司试图找到它(剧透:他们没有)。MariaDB Corporation 与 Angel Pond Holdings Corporation 在 2022 年通过 SPAC 的合并技术上也算数,但那笔交易是为了让 MariaDB 能够走后门上市。对投资者来说结局并不好。Fivetran + dbt 合并与这两家不同(且更好)。他们是两家互补的技术公司合并成为 ETL 巨头,为不久的将来合法的 IPO 做准备。

融资

除非我错过了它们或者它们没有宣布,否则数据库初创公司的早期融资轮次没有那么多。围绕向量数据库的炒作已经减弱,VC 只给 LLM 公司开支票。

  • Databricks - 40 亿美元 L 轮
  • Databricks - 10 亿美元 K 轮
  • ClickHouse - 3.5 亿美元 C 轮
  • Supabase - 2 亿美元 D 轮
  • Astronomer - 9300 万美元 D 轮
  • Timescale - 1.1 亿美元 C 轮
  • Tessel - 6000 万美元 B 轮
  • ParadeDB - 1200 万美元 A 轮
  • SpiralDB - 2200 万美元 A 轮
  • CedarDB 590 万美元种子轮
  • TopK - 550 万美元种子轮
  • Columnar - 400 万美元种子轮
  • SereneDB - 210 万美元种子前轮
  • Starburst - 未披露?

名称变更

我年度写作中的一个新类别是数据库公司更改名称。

HarperDB → HarperJSON 数据库公司从其名称中删除了"DB"后缀,以强调其作为数据库支持应用程序的平台的定位,类似于 Convex 和 Heroku。我喜欢 Harper 的人。他们 2021 年的 CMU-DB 技术讲座呈现了我听过的最糟糕的数据库管理系统想法。幸运的是,一旦他们意识到它有多糟糕,他们就放弃了它并切换到 LMDB。

EdgeDB → Gel这是一个明智的举动,因为名称"Edge"传达出它是用于边缘设备或服务(例如,Fly.io)的数据库。但我不确定"Gel"是否传达了项目的更高级目标。参见 CMU 校友关于 Gel 查询语言(仍称为 EdgeQL)的 2025 年讲座。

Timescale → TigerData这是数据库公司更名以区别于其主要数据库产品的罕见情况。通常是公司更名以成为数据库的名称(例如,"Relational Software, Inc."到"Oracle Systems Corporation","10gen, Inc."到"MongoDB, Inc.")。但公司试图摆脱作为专业时间序列数据库管理系统的看法,而不是面向一般应用程序的改进版 PostgreSQL 是有道理的,因为前者是比后者小得多的市场细分。

死亡

完全披露,我是其中两家失败初创公司的技术顾问。我作为顾问的成功率目前很糟糕。我也是 Splice Machine 的顾问,但他们在 2021 年关闭了店铺。为我辩护,我只与这些公司讨论技术想法,而不是商业策略。我确实告诉 Fauna 他们应该添加 SQL 支持,但他们没有采纳我的建议。

Fauna一个有趣的分布式数据库管理系统,基于 Dan Abadi 的确定性并发控制研究。他们在 NoSQL 热潮消退时提供了强一致性事务,而 Spanner 使事务再次变得酷。但他们有专有查询语言,并对 GraphQL 下了大赌注。

PostgresML这个想法似乎很明显:使人们能够在他们的 PostgreSQL 数据库管理系统中运行 ML/AI 操作。挑战是说服人们将他们现有的数据库迁移到他们的托管平台。他们推动 pgCat 作为代理来镜像数据库流量。其中一位联合创始人加入了 Anthropic。另一位联合创始人创建了一个名为 pgDog 的新代理项目。

Derby这是首批用 Java 编写的数据库管理系统之一,可追溯到 1997 年(原名"Java DB"或"JBMS")。IBM 在 2000 年代将其捐赠给 Apache Foundation,并更名为 Derby。2025 年 10 月,项目宣布系统将进入"只读模式",因为没有人积极维护它了。

Hydra尽管没有 DuckDB-inside-Postgres 初创公司的官方公告,但联合创始人和员工已经分散到其他公司。

MyScaleDB这是一个添加了使用 Tantivy 的向量搜索和全文索引的 Clickhouse 分支。他们于 2025 年 5 月宣布关闭。

Voltron Data这应该是数据库公司的超级组合。想象一下 Run the Jewels 级别的重量级人物。你有来自 Nvidia Rapids 的顶尖工程师,Apache Arrow 和 Python Pandas 的发明者,以及来自 BlazingSQL 的秘鲁 GPU 巫师。然后加入来自包括未来 Intel CEO(和卡内基梅隆大学董事会成员)在内的顶级公司的 1.1 亿美元 VC 资金。他们构建了一个 GPU 加速数据库(Theseus),但未能及时推出。

最后,虽然不是企业,但如果我不提及 IBM Research Almaden 的关闭,那就是我的疏忽。IBM 于 1986 年建立了这个站点,并且是几十年的数据库研究圣地。我于 2013 年在 Almaden 面试,发现风景很美。IBM Research Database Group 已今非昔比。尽管如此,这个神圣数据库基地的校友名单令人印象深刻:Rakesh Agrawal、Donald Chamberlin、Ronald Fagin、Laura Haas、Mohan、Pat Selinger、Moshe Vardi、Jennifer Widom 和 Guy Lohman。

Andy 的观点

有人声称我根据支持公司为其开发筹集多少资金来判断数据库的质量。这显然不是真的。我跟踪这些事件是因为数据库研究游戏拥挤且充满活力。我不仅与"竞争"其他大学的学者,而且大科技公司和小初创公司也在推出我需要关注的系统。行业研究实验室已今非昔比,除了 Microsoft Research,它仍在积极招聘顶尖人才并做令人难以置信的工作。

我在 2022 年预测 2025 年会有大量数据库公司关闭。是的,今年比往年有更多关闭,但没有达到我预期的规模。

Voltron 的死亡和 HEAVY 的准收购似乎继续了 GPU 加速数据库不可行的趋势。Kinetica 多年来一直从这些政府合同中获利,而 Sqream 似乎仍在坚持。这些公司仍然小众,没有人能够对 CPU 驱动的数据库管理系统的主导地位造成重大影响。我不能说谁或什么,但你会在 2026 年听到供应商的一些重大 GPU 加速数据库公告。它还进一步证明了 OLAP 引擎的商品化;现代系统变得如此之快,以至于低级操作(扫描、连接)之间的性能差异可以忽略不计,因此区分一个系统与另一个系统的是用户体验和其优化器生成的查询计划的质量。

Couchbase 和 SingleStore 被私募股权(PE)公司收购可能标志着数据库行业的未来趋势。当然,私募股权收购以前发生过,但它们似乎都在最近:(1)2020 年的 MarkLogic,(2)2021 年的 Cloudera,以及(3)2023 年的 MariaDB。我能找到的 2020 年之前的唯一一次是 2007 年的 SolidDB 和 2015 年的 Informatica。私募股权收购可能取代停滞不前的数据库公司被控股公司收购的趋势,这些控股公司榨取维护费直到永远(Actian、Rocket)。甚至 Oracle 在购买它们 30 年后仍然从 RDB/VMS 赚钱!

最后,向 Nikita Shamgunov 致敬。据我所知,他是唯一一个在同一年联合创立两家数据库公司(SingleStore 和 Neon)的人。就像 DMX(RIP)在同一年发行两张排名第一的专辑(It's Dark and Hell Is Hot, Flesh of My Flesh)一样,我认为短期内没有人会打破 Nikita 的记录。

巅峰男性表现

谈论数据库 OG Larry Ellison 的丰收年。这个人 81 岁了,在一年内完成的事情比大多数人一生都多。我将按时间顺序全部介绍。

Larry 年初在世界富豪榜上排名第三。他比 Mark Zuckerberg 更不值钱的想法让他夜不能寐。有些人说 Larry 的失眠是因为他在买了一家著名的英国酒吧后饮食改变,吃了更多馅饼。但我向你保证,Larry 的"素食水族"饮食 30 年来没有改变。然后,在 2025 年 4 月,我们得到消息,Larry 已成为世界第二富有的人。他开始睡得稍微好一点,但仍然不够好。他的生活中仍然有很多事情让他压力山大。例如,Larry 最终决定出售他稀有的、半合法上路的 McLaren F1 超级跑车,手套箱里有原车主手册。

2025 年 7 月,Larry 用他 13 年来的第三条推文(被像我这样的 Larry 爱好者称为"#3")让我们感到荣幸。这是关于 Larry 在牛津大学附近建立的 Ellison Institute of Technology(EIT)的更新。有了 EIT 这个名字及其与牛津的联系,听起来它应该是一个纯粹的研究、非营利机构,类似于斯坦福的 SRI 或 CMU 的 SEI。但结果它是由加利福尼亚有限责任公司拥有的一系列营利性公司的伞式组织。当然,一群怪人回复了#3,承诺区块链驱动的低温冷冻或室温超导体。Larry 告诉我他忽略那些。然后有像这个人这样的人明白了。

今年最大的数据库新闻(可能是本世纪最大的)在美国东部时间 9 月 10 日星期三下午 3:00 左右袭击了我们。等待了几十年后,Larry Joseph Ellison 终于被加冕为世界首富。$ORCL 股票那天早上上涨了 40%,由于 Larry 仍然拥有公司 40%的股份,他的估计总财富为 3930 亿美元。从这个角度来看,这不仅使他成为世界上最富有的人,而且是整个人类历史上最富有的人。John D. Rockefeller 和 Andrew Carnegie(是的,CMU 中的'C')经通货膨胀调整后的峰值净资产分别仅为 3400 亿美元和 3100 亿美元。

除了 Larry 登上世界之巅,Oracle 还参与了控制 TikTok 的美国公司的收购,以及 Larry 资助 Paramount(由他第四次婚姻的儿子控制)竞标接管 Warner Bros.。美国总统甚至斥责 Larry 控制 CNN 的新闻部门,因为 Larry 是 Paramount 的大股东。

Andy 的观点

我甚至不知道从哪里开始。当然,当我发现 Larry Ellison 成为世界首富,全部归功于数据库时,我很欣慰我们生活中终于发生了一些积极的事情。我不在乎 Oracle 的股票被建造 AI 数据中心的浮华交易人为抬高,而不是其传统软件业务。我不在乎他在两个月内个人损失了 1300 亿美元后排名下降。这就像你和我把薪水花在 FortuneCoins 上。有点刺痛,我们不得不吃两周的米饭和豆子混合从 Taco Bell 拿的过期辣酱包,但我们会没事的。

有些人声称 Larry 与普通人脱节。或者因为他参与与数据库不直接相关的事情而迷失了方向。他们指出诸如他的夏威夷机器人农场以 24 美元/磅(41 欧元/公斤)出售生菜之类的事情。或者 81 岁的男人没有自然的金发。

事实是,Larry Ellison 已经征服了企业数据库世界、竞技帆船和科技兄弟健康水疗中心。明显的下一步是接管一个每天有数千人在机场观看的有线电视频道。每次我与 Larry 交谈时,他都明确表示他一点也不在乎人们说什么或想什么。他知道他的粉丝爱他。他的(新)妻子爱他。最终,这才是最重要的。

结论

在我们结束之前,我想快速喊出一些感谢。首先是 PT 在封锁期间保持他们的数据库游戏紧张(在外面见)。向 JT 表示哀悼,因为他们因为困住他们的 KevoDB 数据库情人而失去了工作。我的博士生和我也有一个新的初创公司。我希望很快能多说一些。说话算数。


文档来源:Databases in 2025 A Year in Review原始作者:Andy Pavlo原始发布日期:2026 年 1 月 4 日

本文由 AI 助手整理优化,欢迎关注、分享转载,请注明出处

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON