这篇文章是 Anthropic 团队发布的,——《在实践中衡量 AI 智能体的自主性》。他们调取了数百万次真实的人机交互数据,终于为我们揭开了 AI 智能体在现实世界中的真实生存状态。
有几个点,我认为这条道路上的从业者们和学子们都应该看到:

真相一:AI 的“连续搬砖”时间正在狂飙
AI 到底能脱离人类控制,自己连续工作多久?
数据给出的答案是:越来越久。在 Claude Code 中,AI 在停止工作前(无论是完成任务还是停下来提问)的连续运行时间,在三个月内几乎翻了一番——从不到 25 分钟,飙升到了超过 45 分钟。

有趣的是,这种时长的增加并不是因为 AI 模型发了新版本,它的增长曲线非常平滑。
这意味着什么?这意味着人类正在逐渐建立对 AI 的信任。现有的 AI 其实早就具备了很强的能力,只是我们之前不敢完全放手,而现在,大家越来越愿意让 AI 自己去“折腾”了。
真相二:资深老手的反直觉操作——越“放养”,越爱“打断”
随着用户使用 AI 经验的增加,他们管理 AI 的方式发生了非常有趣的转变。
新手玩家: 典型的“微操大师”。每走一步都要盯着,生怕 AI 犯错。大约只有 20% 的新手会开启“完全自动批准”模式。
资深老手: 主打一个“抓大放小”。超过 40% 的老手会直接让 AI 自己跑全流程。
但矛盾的是,老手在 AI 工作中途“打断”它的频率反而更高了! 这其实是工作模式的进化:老手不再逐行审查代码,而是放权让 AI 自己去干,凭借直觉和经验,一旦发现不对,立刻出手干预。

真相三:别慌,AI 比你想象的更懂“不懂就问”
很多人担心 AI 会不会“瞎自信”,出现幻觉?
现实情况可能会让你松一口气:AI 主动停下来向你求助的次数,比你主动打断它的次数还要多
在处理最复杂的任务时,系统设定的机制会让 Claude 遇到不确定的关键节点就立刻暂停,主动向人类要求澄清细节。
真相四:AI 都在干啥?高风险领域正在悄悄萌芽
目前,大家都在拿 AI 智能体做什么?
从 API 数据来看,写代码(软件工程)绝对是主力军,占据了近 50% 的江山。 毕竟写代码容错率相对较高,跑不通大不了重写。大多数操作依然是低风险且可逆的。
但值得注意的是,在医疗保健、金融和网络安全等高风险领域,AI 智能体的身影也正在逐渐浮现。 虽然还没形成大规模应用,但苗头已经显现。

原文链接:
https://www.anthropic.com/research/measuring-agent-autonomy
我来总结一下:AI现在是一个被严重低估的员工。
技术的发展早已跨越了执行的门槛,进入了自主决策的深水区。然而,认知的偏差将本该 让我们解放双手的AI困在了“代码助手”的囚笼里。打破 45 分钟的心理防线,才是人机协作效率爆发的开始。
第一步:赛道抢跑,金融、医疗、甚至电商,大家都在摸着石头过河,所谓的“规模化普及”连影子都没有。 这时候你该干嘛?死磕代码吗?绝对不是。
你手里最大的王牌,就是你对自己所在行业的“懂行”。搞清楚每天那些繁杂的业务流里,究竟哪几个节点能被机器无缝接管,你就能吃到红利。只要你比同行先蹚出一条自动化闭环,你就是这个细分领域的规则制定者。
第二步:角色升维,从“干活的人”进化为“AI 的监工”,这份数据揭示的最反直觉的真相是:高阶玩家绝不是把烂摊子一扔就去睡大觉,而是进化出了“干预嗅觉”——既敢彻底放权,又能在ai跑偏的瞬间精准进行纠错。
第三步:构筑壁垒,眼下这个节点,“到底怎么在某个具体行当里把 AI 用出花来”的实操经验,市面上几乎是一片空白。只要你敢于折腾、勤于复盘、乐于迭代,自然而然就会成为这个赛道的领跑者。
最后的最后
其实 Anthropic 这份报告的行文非常克制,甚至可以说是保守。他们承认一切都在极早期,没人敢断言终局长什么样。
但有一张明牌已经打在了桌面上:从“AI 被严重闲置”到“AI 产能全面大爆发”中间的这片巨大荒野,注定需要一批人去开荒。
既然这条路迟早要有人去走,
那个人为什么不能是你呢?





