推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

斯坦福报告解读:研究了51个企业AI项目,最不重要的就是模型

日期：2026-06-05 09:43:13 来源：网络整理作者：本站编辑评论：0

斯坦福研究了51个企业AI项目，最不重要的就是模型

周末读了份斯坦福的报告，116 页，讲的是一件事：企业搞 AI，到底什么管用，什么不管用。

读完之后我最大的感受不是什么新知识，是一个被印证了的直觉。报告里反复出现一句话，不同受访者嘴里说出来，意思都一样：“技术不是最难的部分。”

这份报告来自斯坦福数字经济实验室，今年 4 月发布的《The Enterprise AI Playbook》。研究团队花了半年，访谈了 41 个组织、9 个行业、7 个国家，挑了 51 个已经产生可衡量价值的 AI 落地案例，每个案例至少一次 60 分钟深度访谈，再配上企业内部指标和财务数据。最后得出的结论，我直接引用原话：企业 AI 成败的关键，通常不是模型能力，而是组织能力，流程、数据、治理、领导力、变革管理和人员接受度。

然后我就想起过去两年行业在干什么。GPT-4 出来大家说"稳了"，接着GPT-4o、Claude Opus、Gemini一个一个来，benchmark 榜单一轮一换。每次新模型发布，朋友圈就是"变天了"“又强了”“我们又要重做了”。

这份报告用 51 个真实案例跟你说：模型当然重要，但把它当成决定性变量，是瞄错了靶子。

下面聊几个我读完停下来想了很久的发现。不为翻译结论，就是想说说作为一个天天跟 AI 产品和团队打交道的人，它击中了我什么。

77% 的隐性成本

报告的第一个核心发现就很直接：77% 的最大挑战来自隐性成本，变革管理、数据质量、流程重塑这些事。受访者反复说，技术本身反而是相对容易的部分。

我读到这里脑子里出现了一个画面，特别具体。你做 AI 功能，调 prompt 花三天，效果差不多了。然后你去找数据团队接数据，等两周。接上了，法务说隐私合规要审，又一周。审完发现数据格式不对，再洗一周。好不容易上线，业务团队说原来的流程用得好好的，不想改。

Prompt 调了三天。剩下的事情花了一个半月。

报告第一章专门讲这个：企业做 AI 商业计划的时候，只预算模型、工具和供应商费用。流程梳理、数据治理、员工培训、失败试验、组织调整，这些基本都被低估了。

有一个案例我记得很清楚。专业服务公司，做 AI 招聘。第一次上线的时候，模型选对了，能筛简历，但他们在招聘流程的偏见问题和已有系统的适配性上踩了坑，项目挂了。第二次他们先修流程，把偏见检查机制搭好，再上 AI。一个月建成，单个岗位处理时间从 3 小时降到 3 分钟。同样的模型。第一次挂，第二次成。差的是流程和制度。

这让我想到装修房子。买材料是最容易的，去一趟建材市场全搞定。拆墙、改水电、做防水才是大头。AI 也一样，选模型是买材料，流程改造和组织调整才是拆墙改水电。但大多数人的预算表上，材料占了大半，施工费写了个零。

71% 和 30%，同一个技术，两种用法

报告里有一个数字我看了好几遍。

它把人机协作分成两种模式。“异常升级型”：AI 自动处理大多数任务，人类只处理异常。“人工审批型”：AI 产出每一步都要人点头确认。前者的中位生产率提升是 71%，后者是 30%。

同一个技术，不同的组织方式，效果差了一倍不止。

这个数据让我想了好久的一个问题是：我们做 AI 产品的时候，到底是在用 AI，还是在用 AI 给自己壮胆？

你设计一个功能，知道它能做很多事，但你不敢让它完全自动跑。于是加了一层人工审核。觉得不够，再加一层。最后上线了，用户发现这个 AI 产品比不用 AI 还慢，每一步都要等一个人点"确认"。

要审核吗？要。但人在哪个环节介入最有效，这才是真正的问题。

报告给了一个框架很实用。高风险场景，金融营销内容、医疗记录、法律文档，人工把关不能省，出了问题代价太大。高频、低风险、可恢复的任务，让 AI 自动处理，人工只看异常。

我做产品有个挺不舒服的体会：PM 在这个问题上特别容易保守。倒不是不懂这个道理，是怕背锅。与其被质问"AI 为什么出错"，不如多设几道审批。“人类在环"变成了"人类在堵”。

71% 和 30% 这个差距，说到底是组织的信任水平。这份信任靠的是流程清晰、异常有兜底，跟模型强不强关系真没那么大。

61% 成功之前，都挂过一次

这个数字我觉得特别重要，但不会有企业把它写进项目总结里。

61% 的成功部署，此前至少有过一次失败尝试。你去看最终的 ROI 报告，不会出现一行叫"第一次做砸了，花了 50 万"。你只会看到"项目成功上线，ROI 达 XXX"。但如果没有那笔"浪费"的 50 万，后面的成功根本不会发生。

报告管部署到 ROI 之间这段路叫"死亡谷"。AI 项目上线了，不等于产生价值。中间要跨过一堆坑：用户接受度、流程适配、数据质量、评估指标、责任归属。跨过去的方式都是同一个：小范围开始、快速学习、逐步扩展。说白了就是迭代，跟做产品一样。

那个招聘案例最典型。第一次挂。第二次先修流程再上 AI 才成。如果你只算第二次的成本，ROI 超高。但第一次挂了就砍掉，后面就没有了。

我见过很多 PM 做第一个 AI 项目的时候，方案写得完美，时间线画得像教科书。实际上第一版大概率会挂，原因很直接：你对业务流程的理解，在纸面上和在操作中是两回事。

所以我越来越觉得，做 AI 项目得把"第一次会失败"写进计划里。不是悲观，是实事求是。预算不放试错成本，等于让团队在不允许摔跤的场地上学走路。

之前那个装修的比喻还能接着用：你第一次装修大概率会超预算、会返工。第二次才熟练。道理一样。

“阻力最大的是法务和 HR”：我看到这句话的时候笑了

报告统计了 AI 项目里的阻力来源。阻力最大的，是法务、HR、风险、合规这些职能部门，占了 35%。内部终端用户只占 23%。

我看到这个数据真的笑了。太真实了。

做产品的 PM 应该都有这种感觉：你花 80% 时间跟技术聊方案、跟用户聊需求，一切往前推。然后方案到法务那儿，停了。数据到合规那儿，停了。预算到 HR 那儿，要重新走流程。真正让项目停下来的，往往是审批流程和风险管控，不是技术方案和产品体验。

但报告没有把职能部门写成反派。它特别指出：这些部门一旦被纳入共创，可以变成加速器。因为他们的专业判断，本来就是让 AI 在敏感场景里能合规跑下去的前提。

不同人的阻力，根源不一样。C-level 要 ROI 证明，怕打了水漂。职能部门怕出了事自己担责，怕踩合规红线。终端用户怕系统不稳定，怕工作流被打断。前线员工怕岗位没了。你没办法用同一套说辞说服所有人，得分层。

策略上最值得记住的一点：别等方案做完了再去"过审批"。第一天把法务、安全这些角色拉到桌子上，让他们一起设计流程。他们参与了，就更可能帮你推，而不是帮你堵。报告里那个零售银行的案例就是这么成的，PII 脱敏、云端最小化传输、数据重组的方案，本身就是安全和业务团队一起设计出来的。

Agentic AI：“不是新界面，而是重新分配角色”

这句话是报告的原话，我直接摘过来了，因为说得太准了。

现在"Agent"这个词已经被用烂了。聊天机器人改叫 Agent，自动化脚本改叫 Agent，一个 if-else 包装一下也叫 Agent。报告把这个概念拉回了地面：Agentic AI 的本质，是让 AI 接管"一串任务"，不是一个动作。

报告里 Agentic AI 案例只占样本的 20%，但中位生产率提升 71%，远高于高自动化方案的 40%。方向是对的，但门槛也高：流程定义必须清晰到 AI 能执行，错误处理必须有兜底，权限边界必须明确到"什么时候它必须停、什么时候它必须找人"。

对 PM 来说，设计 Agent 产品最难的，不是能力够不够的问题。一个足够好的模型，大部分事都能做。难的是定义三件事：它不能做什么、什么情况下必须交给人、交给人之后怎么交接不丢信息。

这些说到底，是流程设计和人机边界的问题，跟模型本身关系不大。

“等数据干净了再说”

“等我们把数据治理做完。”“等数据仓建好。”“等主数据管理到位。”

我听过太多了。

报告给了一个非常直白的数字：只有 6% 的案例，数据在项目开始时就完全适合 AI。94% 的项目，都在"不完美"的数据上起步。

成功企业做了一件事：不等人把数据洗好，而是设计流程让 AI 帮忙洗。报告的建议就三句话：“存储一切、打通访问、逐步清洗”。LLM 在很多案例里恰恰被用来处理混乱数据，做结构化、做语义映射、做模糊匹配。

那个财务运营案例就很说明问题。某企业原来有几千种发票模板，乱得一塌糊涂。他们没等模板整齐划一了再上 AI，先用 OCR 扫进来，让 AI 做语义映射，配合流程自动化接入财务系统。8 周上线，处理时间降到 24 小时以内，团队从 7 个人减到 2 个。

你不会等到家里一尘不染才请保洁。保洁就是来帮你打扫的。AI 本来就是来处理脏数据的，它不需要在无菌环境里工作。

42% 的案例，模型可以换掉

这是最后一个发现，也是我觉得最该让整个行业停下来想想的一个。

研究人员问受访企业：你们用的这个模型，换一个，结果会有显著差异吗？42% 的案例回答：基本可以替换。

将近一半的项目，换个模型效果差不多。

那我们这两年到底在焦虑什么？

每次新模型发布，那种"完了，我们又落后了"的恐慌，那种"竞品上了最新模型我们还没上"的紧张，有多少是真实的竞争压力，有多少是被营销节奏带的？

报告没有说模型不重要。复杂长任务、agentic 场景里，模型能力仍然重要。但它说得很明白：企业真正的护城河，更多来自编排层、专有数据、流程集成和业务上下文。你选了哪个模型，反而不是最要紧的。

翻译成 PM 能听懂的话：你的产品能不能跑通，不取决于你用 GPT-5 还是 Claude 4，取决于你的团队是不是真的理解业务流程、数据能不能打通、前面有没有愿意持续清障的人。

我读完这章的感受倒不是"那就不追模型了"。是"该焦虑的东西，很多人焦虑错了方向。"

收回来

整份报告读完，我归纳成三句话。

第一句：技术不是最难的部分。流程、数据、治理、领导力、变革管理，这些才是决定 AI 项目能不能跑出来的变量。

第二句：失败是正常路径，不是意外。61% 的成功项目之前都挂过。预算不放试错成本，等于让团队在不允许摔跤的场地上学走路。

第三句：护城河在人。42% 的案例模型可替换，但你的团队对业务的理解、你的数据体系、你的高管支持力度，别人换不了。

最后想问你一个问题：你最近在用 AI 做什么？最难的那部分，是模型能力不够，还是别的事拖住了你？

我猜答案大概率是后者。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行