推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

IBM和斯坦福联手？Agent 2025年终报告来了

日期：2025-12-20 07:04:53 来源：网络整理作者：本站编辑评论：0

2025 年也被叫做 Agent 元年，眼看年末将至，Agent 在实际生产环境中的真实落地的怎么样了？伯克利，IBM和斯坦福联手做了一份研究报告，基于 306 名一线从业者的调研数据与 20 个深度企业案例分析，不仅回答了这个核心问题，也着力缩小学术研究和实际部署之间的差距；

? 研究首先回答了几个问题：
- 使用Agent的动机是什么？
提高生产力和效率是 Agent 被采用的主要驱动力（72.7%），其次是减少人工任务工时（63.6%）和自动化常规任务（50.0%）

- 应用Agent的行业领域有哪些？
和学术研究中最高频提到的编程不同，实际部署最多的领域分别是金融与银行：39.1%，技术：24.6%，企业服务：23.2%，数据分析：13.0%

- Agent的最终用户是谁？
绝大多数部署的Agent是服务于人类用户（92.5%），其中内部员工占52.2%，C端用户占40.3%，企业部署倾向于内部部署，这样容错率较高，调整起来也比较灵活；

?关于Agent的实际部署，我总结了以下几点启示：
- 可靠性大于一切，需要有意识的限制Agent自主性：
实际部署过程更偏爱预定义的、结构化的静态工作流，而不是让模型动态自主规划；同时，大多数系统（68%）将Agent自主执行的步骤限制在10步以内；

- Prompt工程仍是主流，优先选择闭源模型：
与学术研究青睐开源模型 + SFT/RL训练不同，多数Agent部署依赖于闭源的前沿模型，，将重点放在提示工程，没有进行额外的权重调整；85% 团队选择从头构建定制的 Agent 应用，而不是使用第三方Agent框架；

- 评估体系仍是硬伤，人类评估不可或缺：
由于缺少具备行业特征的测试集，74.2% 的已部署的Agent仍然依赖于人工评估。就算有一半以上的团队用了 LLM-as-a-judge，最后也会用人工评估来兜底；

- 相比起系统延迟，更注重输出质量；
可能更多服务的是企业内部用户，所以，相比起延迟，大部分团队更看重输出的质量和实际能力，超过 60% 的系统都能接受分钟级的响应时间；

?在Agent未来发展上，有这么几点：
- 提升自主性和可靠性；
- 故障检测和观测机制；
- 样本效率更高的后训练方法；
- 更好的架构框架；支持多模态；
- 用于潜力更大的软件操作应用场景；
#chatgpt应用领域 #AI人工智能 #ai研究 #prompt #大模型

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行