Google发布Vibe Coding白皮书:AI编程的成本比你想象的高3-10倍

深海浪人鲸鱼 | 数据解读 | 2026.06.25
一周之内发生了两件事。
第一件:HN上Vibe Coding前5篇热帖,合计3107个赞,全在质疑。最高赞标题:「两年Vibe Coding后我回到了手写代码」。
第二件:Google发布官方白皮书"The New SDLC With Vibe Coding",由Chrome工程师Addy Osmani联合撰写。这是第一个大厂系统性论述Vibe Coding的文档。
把两者放在一起读,出现了一个极有意思的对照:社区在说「这东西有问题」,Google在说「这东西有成本,但问题不在工具,在于你怎么用。」
这不是矛盾。这是同一枚硬币的两面。
核心数据:比你以为的贵3-10倍
白皮书里有一个数据非常扎眼:长期来看,Vibe Coding每个feature的成本是传统开发的3-10倍。
原因:
Token消耗(大上下文窗口的「全量输入」模式) 维护税(AI写的代码可维护性差,后续改动成本高) 安全清理(AI引入的漏洞需要额外审计和修复)
同时Implementation阶段的速度「从周变成了小时」。快在前端,贵在维护。
这不就是2026年AI行业的缩影吗?初期成本被严重低估——大家只算「从0到1」的账,没算「从1到100」的账。
10%模型,90%工具链
白皮书最深刻的观点:Agent = Model + Harness。模型只占10%,工具链占90%。
Harness是什么?指令、规则文件、工具调用、MCP服务器、沙箱环境、编排逻辑、可观测性。模型只是引擎,Harness是车身+道路+交规。
两个团队用同一个模型,效果可以天差地别。
白皮书提到有团队仅仅调整了Harness配置,就从Benchmark 30名开外冲进Top 5。LangChain改了系统提示词+工具+中间件,加了13.7分。
Vibe Coding的差距不在模型层,在工程层。
Verification是分水岭
白皮书把「验证」定位为Vibe Coding和Agentic Engineering的分界线:
- Tests
:确定性验证(编译、测试、lint) - Evals
:非确定性验证(输出好不好、过程对不对)
把你的标准设定在eval上,不是demo上。
做一个能跑的demo,AI已经很擅长。但做一个每一步都可审计、可复现、可回滚的系统——那是完全不同的事。
METR的研究发现,有经验的开发者在某些任务上使用Vibe Coding反而慢了19%。当任务复杂度超过阈值,「生成快」的边际收益被「修复慢」的边际成本反超。
SDLC四个阶段:为什么只有Implementation变快了
AI加速的是「怎么写」(编码),不是「写什么」(需求)和「为什么这样写」(架构)。
这完美解释了HN社区的核心抱怨——不是AI的问题。是你把「写什么」和「为什么」也外包了。
和HN的对照:共识浮现
Vibe Coding不是在消亡——它在被「定价」。知道真实成本后,才能做理性决策。
三条可执行规则
1. 原型用Vibe Coding,产品用Agentic Engineering。
原型追求速度,Vibe Coding够用。产品追求可维护性,工程投入不可跳过。
2. 把Token账单当KPI。
单次对话token消耗超过$5,上下文工程有问题。不是模型贵,是喂的方式不对。
3. Verification不应该是最后一步。
每生成一段代码,紧接着跑verification。攒到项目做完再debug,成本是当时的10倍。
Vibe Coding 1.0:「哇AI能写代码了。」
2.0:「我知道什么时候让它写,什么时候自己写,以及每个月要付多少账单。」
知道「贵在哪」和「需要什么」,就已经领先了90%的人。

数据来源:Google Kaggle白皮书(Addy Osmani等,2026年6月);HN Algolia API(2026-06-25,5帖3107分2818评论);METR开发者效率研究。
深海浪人鲸鱼 · 关注获取下一篇