别再卷编程了!Anthropic最新研究报告:所有职业写代码的成功率,和程序员只差5%
2026-06-17 14:44
别再卷编程了!Anthropic最新研究报告:所有职业写代码的成功率,和程序员只差5%
2026年6月16日,Anthropic发布最新研究报告《智能体编码与专业能力的持续回报》,提出了一套追踪Claude Code规模化应用的分析框架,核心围绕以下问题展开:谁在使用Claude Code?
他们将其用于哪些场景?
任务价值正在发生怎样的变化?
领域专业能力在多大程度上决定了单次会话的成败?
核心发现
在前期研究的基础上,我们构建了一套研究交互式智能体编码的分析框架,基于对2025年10月至2026年4月间约40万次Claude Code会话的隐私保护分析,评估了任务构成、人机协作模式与任务成功率。在典型会话中,用户主导大部分规划决策(做什么),Claude主导大部分执行决策(怎么做)。用户带入会话的领域专业能力越强,Claude单条指令完成的工作量就越大。平均而言,在编码任务中,所有主流职业的任务成功率(即达成预设目标,且有测试通过、代码提交等可验证证据)与软件工程师几乎持平。用户的领域专业能力越强,会话成功的概率越高——不过中级用户与专家用户之间的差距并不大。在我们观测的7个月间,用于调试的会话占比下降了近一半,使用场景向更端到端的智能体应用转移:代码部署与运行、数据分析以及非代码类文档撰写。在这7个月中,通过与自由职业平台的岗位报价对比估算,几乎所有类型工作的典型任务价值都有所上升,平均涨幅约25%。引言
智能体编码已进入快速普及阶段。自2025年末以来,存在编码智能体活动的GitHub项目占比已增长一倍以上¹;目前Claude Code用户平均每周使用该工具的时长达到20小时²。没有正规编码经验的人能否通过指挥智能体成功完成复杂技术工作?这些工具的快速普及与能力迭代,对广义的知识工作将产生怎样的影响?尽管我们尚未能完整回答这些问题,但已可从Claude Code的使用数据中观察到早期信号。本报告基于对2025年10月至2026年4月间、约23.5万名用户产生的约40万次交互会话的隐私保护分析,呈现Claude Code的实际使用情况。报告在前期研究基础上展开——此前的研究聚焦于Claude Code会话的自主度衡量,以及该工具如何改变Anthropic内部的工作模式³。本文我们提出了一套描述交互式AI编码助手使用情况的分析框架,覆盖三大维度:工作类型、使用者身份、任务是否成功。我们的研究范围限定于通过命令行界面(CLI)、Claude.ai 网页端以及Claude Code桌面端使用的场景⁴。通过追踪模型能力提升过程中智能体编码的使用变化,我们可以更清晰地理解这类工具对编码从业者与知识工作者劳动力市场的影响。随着智能体逐步渗透到非编码类工作中,Claude Code上发生的变化,或许正是知识工作未来发展的预演。我们发现,Claude正在处理更复杂、更高价值的任务;与此同时,智能体编码中的劳动分工边界依然清晰:用户决定搭建什么,智能体决定如何搭建。我们同时发现,提升工具使用效能的核心因素是领域专业能力,而非编码熟练度。具体而言,领域专家的任务成功率更高,也更易从错误与理解偏差中恢复。不过专家与中级用户之间的差距较小——这意味着只要具备领域内的熟练应用能力,使用工具的效果就可以接近深度掌握该领域的专家。这些发现为我们预判劳动力市场的潜在转型提供了早期依据。在我们的数据中,任务成功与否取决于用户对待解决问题的理解深度,而非是否接受过专业编码训练。如果这一规律在全经济范围内成立,则意味着:尽管智能体编码工具正在承接大量重执行的工作,但它们也在让那些对岗位问题有深刻理解的人获得更高回报。编码智能体无法替代领域专业能力——用户向智能体输入的领域认知越充分,智能体能产出的高质量工作就越多。劳动分工
用户使用Claude Code的场景
为厘清用户的使用场景,我们将会话划分为9种工作模式——即最能代表会话核心目标的单一活动⁵。其中4种模式直接涉及代码编写与维护:搭建新功能、修复故障、代码测试,以及调度其他智能体或自动化流水线。另有一类为软件运维:部署、配置、运行流水线、系统监控。2种模式偏向任务规划:理解现有系统的运行逻辑,以及改动前的方案设计。最后2种模式与代码无关,或代码仅为最终产出的附属环节:数据分析,以及通过演示文稿、书面文档等进行信息沟通。整体来看,约56%的会话属于代码编写(25%)、故障修复(26%)、测试与智能体调度(5%);软件运维占17%;方案规划与系统调研占14%;数据分析与文档撰写占13%(见图1)。每一次交互会话都会被归类为最贴合其核心目标的单一工作模式。我们通过模型读取会话文本完成分类,再借助隐私保护分析工具,将分类结果与会话自动记录的遥测数据(包括是否存在代码增删行)进行校验。两类数据源的匹配度较高:例如,被分类器判定为代码创建或修改的会话中,超过90%都能在遥测数据中观测到代码变更。详见附录。决策分工
Claude Code的自主程度究竟如何?能力评测显示其上限很高且仍在提升:在METR时间跨度评测等基准测试中,前沿模型已能自主完成需人类耗时数小时的软件任务,全程自行突破各类障碍。但实际使用中的真实表现如何?本节我们将基于真实会话,考察用户与Claude各自的任务主导程度。我们从两个维度展开分析:一是用户将决策权委托给Claude的程度,二是用户向Claude分配的执行工作量。为厘清会话中的决策分工,我们基于会话内容构建了一套隐私保护型决策归因分类器。我们让分类器列出会话中所有有实质意义的决策,并将其分为两类:规划决策(做什么、采用什么方案、完成的标准是什么)与执行决策(修改哪些文件、编写什么代码、使用什么编程语言、运行哪些命令)。分类器会将每项决策归因于用户或Claude,最终为每个会话输出两个指标:用户的规划决策占比,以及用户的执行决策占比。平均而言,用户做出约70%的规划决策,但仅做出20%的执行决策(见图2)。在实际应用中,智能体编码的劳动分工边界清晰:用户决定搭建什么,智能体决定如何搭建。为理解会话中的任务委托情况,我们从会话结构而非内容切入。一次Claude Code会话由用户输入指令、Claude执行操作的多轮交互构成:用户发出一条指令,Claude开展对应工作,之后用户再发出下一条指令,循环往复。典型会话约包含4轮这样的交互。在2025年10月至2026年4月的历史数据中,用户每发送一条指令,平均会触发Claude执行约10项操作,部分场景下甚至超过100项⁶。每一轮交互中,Claude会读取文件、编辑代码、运行命令,平均输出2400字的内容。两次交互间隙中Claude的工作量,与决策主导权高度相关。当用户掌控执行决策权(即做出80%以上的执行决策)时,Claude单轮执行的操作更少(约8项);而当Claude掌控规划决策权(即做出80%以上的规划决策)时,其单轮执行的操作量达到最高(约16项)。图中展示了所有会话中,归属于Claude(而非用户)的规划决策(做什么)与执行决策(怎么做)占比分布。典型会话中,用户做出约70%的规划决策,Claude做出约80%的执行决策。专业能力水平
基于每段会话记录,Claude会从新手到专家5个等级,评估用户在对应任务上表现出的专业水平。专业能力分类器主要识别三类信号:用户指令的精准度、用户要求Claude验证的内容,以及是用户倾向纠正Claude,还是Claude倾向纠正用户。需要注意的是,这里的专业能力与职位头衔、通用能力完全不同,且核心是任务特定的:一名资深工程师第一次提问Rust相关问题时,在该任务上就是新手;一名从未用过Python的会计,如果能精准告知Claude Python脚本必须遵循的对账规则,并且能发现脚本在月末结账时处理不当的边界情况,那么他在该任务上就是专家。下表展示了分类器对各专业等级的定义,同时附上了来自公开编码智能体会话数据集SWE-chat的指令示例。被归类为“新手”的对话仅给出通用指令,不涉及任何领域专属知识;而“专家”级对话则体现出对代码库与技术环境的深度理解。示例均为对分类器标注的真实会话的转述、匿名化与精简。表中多数会话案例来自公开智能体编码数据集SWE-chat。我们量化了专业能力与Claude单指令输出量、操作量的关联。在典型的新手会话中,每条指令平均触发约5项操作、产出约600字内容;而专家会话中,单指令触发的操作链长度是新手的2倍以上(12项操作),产出内容是5倍(3200字)(见图3)。新手与专家的这一差距,在所有工作类型、所有任务价值区间中均普遍存在。这些指标是对我们此前Claude Code报告中自主度指标的补充——此前的报告追踪了智能体的运行时长,以及用户自动批准其操作的频率。与之不同,本次的决策归因指标衡量的是整个会话中实质决策的主导方,而单指令输出量与操作量指标,则衡量每条人类指令能触发Claude产生多少自主活动。图3:用户专业水平越高,Claude单指令完成的工作量越大用户专业水平越高,Claude单条指令产出的操作量(左柱)与文本输出量(右柱)越高。箱体代表四分位距(中线为中位数),须线代表第5至95百分位,白点为几何均值。两项上升趋势均具备统计显著性(p < 0.001),相邻等级间的差异同样显著;在控制工作模式、任务价值、月份、职业、模型系列,并按用户聚类标准误的回归分析中,该差异依然显著(每提升一个专业等级,操作量增加9%,输出量增加13%)。Claude Code的使用者与使用场景
用户群体
为明确使用者的身份,我们从会话记录中推断用户的职业,并将其对应到美国劳工统计局标准职业分类(SOC)体系的23个大类中。分类器被要求仅依据以下信号判断:会话开始时智能体加载的项目背景、用户文件的名称与结构、用户引用的各类产出物(如法律文书、临床数据、财务报告、课程大纲等)以及用户使用的专业词汇⁷。我们明确要求分类器不得将“进行编码操作”作为判断编码类职业的依据。只有当存在明确信号表明软件或数据工作是用户的本职工作时,该会话才会被归类为计算机与数学职业。例如,一名律师编写脚本自动标记合同文件夹中的缺失条款,即使会话内容以软件开发为主,也会被归入法律职业。若没有任何关于用户职业的信号,则该会话标记为未分类。我们能推断出约70%会话的用户职业。在已分类的样本中,涵盖大部分软件相关岗位的“计算机与数学职业”占比最高,这一结果符合预期;其次是商业与金融运营、艺术设计与媒体、管理类,以及生命、物理与社会科学类。样本中增长最快的非软件职业群体为管理、销售与法律职业。工作内容变化
2025年10月至2026年4月间,Claude Code上的工作内容构成发生了显著变化。最明显的趋势是,故障修复类会话的占比从33%降至19%(见图4);取而代之的是,代码周边工作的占比持续提升:软件运维类会话占比从14%升至21%,文档撰写与数据分析类占比约翻了一倍,从10%左右升至20%。任务本身的价值也在提升。我们通过对比自由职业市场的同类工作报价,并基于真实岗位公开数据集校准,估算每次会话的经济价值。按这一标准,2025年10月至2026年4月间,单次会话的平均估算价值提升了27%,且该增长在多数工作类型中均有体现:搭建、运维、修复类任务的价值涨幅均在三分之一左右(分别约为43%、34%、32%)。这类价格估算较为粗略,因此我们主要用其进行跨时间的任务价值对比,而非作为精确的美元数值参考⁸。关于任务价值估算模型的构建细节,详见附录。图4:2025年10月-2026年4月Claude Code工作内容构成与价值变化展示7个月间各工作模式的会话占比变化:故障修复类会话占比从33%降至19%,软件运维、数据分析与文档撰写类占比上升。任务成功的核心:用户的领域积累
任务估算价值是衡量Claude Code赋能效果的维度之一,另一个维度是会话成功率,以及与会话成功相关的特征。在所有成功率指标中,我们都观察到清晰的规律:用户在会话中表现出的专业能力越强,任务成功的概率越高。而能力提升带来的收益主要集中在低分段——新手到中级用户的成功率差距,大于中级用户到专家的差距。在分析成功会话的特征之前,需要先明确我们对“成功”的衡量标准。我们无法观测用户的真实业务结果,也无法直接询问用户是否通过Claude达成了目标,因此我们采用两套基于会话文本的互补指标进行衡量。第一套是判定成功率:由分类器读取完整会话记录,判断用户是否达成了预设目标,结果分为成功、部分成功、失败、无明确目标四类。在此基础上,另外两个配套分类器会评估判定结果的证据强度,进而得出验证成功率。其中,成功信号分类器会寻找可验证的成功证据,具体包括与任务匹配的代码提交、合并请求等git操作、测试用例全部通过,以及用户的明确确认,并按“无信号”“弱信号(1分)”到“多重强证据(5分)”为会话打分;对应的失败信号分类器则评估任务出错的证据,包括报错、测试失败、多次重试、用户否定输出结果等。验证成功需要同时满足两个条件:会话被判定为成功,且至少存在一项可验证的强成功证据。下文的分析聚焦于会话的成败程度,因此我们排除了被归类为“无明确目标”的会话,这类会话约占总样本的7.7%。专业能力的回报
那么什么样的会话成功率最高?结果显示,上文提到的会话专业能力评级,对任务成败影响极大。有人可能会质疑,专业能力并非核心驱动因素——或许只是专家选择的任务不同,或是存在其他差异。在本节的所有分析中,我们通过控制变量部分排除了这一干扰:我们仅对比同工作类型、同估算价值、同月份、同主题、同职业大类的会话,考察不同专业能力评级下的结果差异。示例均为对分类器标注的真实会话的转述与总结,数据源为公开智能体编码交互数据集SWE-chat。在所有成功率指标下,用户表现出的专业能力越强,会话成功的概率越高。新手级会话达到最严格的“验证成功”标准的比例为15%,至少部分成功的比例为77%;中级及以上会话的验证成功率为28%-33%,部分成功率为91%-92%(见图5)。在各项指标中,成功率的提升主要来自新手到中级的跨越;从中级到专家,提升幅度有所收窄。图5背后的回归分析细节详见附录。图中按用户的任务专业能力评级(从新手到专家5级)展示会话结果。左图覆盖所有会话;中图与右图仅限定为遇到问题的会话(失败信号>3),展示其最终达成不同成败标准的比例。每个数据点均为调整后比率——我们仅对比工作模式、任务价值区间、月份、任务主题、用户类型(是否为软件相关职业)完全一致的会话,以此估算不同专业等级间的差异。数据点背后的回归分析细节详见附录。须线为样本均值的置信区间(多数区间过窄,在图中不可见)。本图排除了被成功结果分类器判定为“无明确目标”的会话。在中途遇到问题的会话中,也呈现出类似的梯度规律。我们将会话定义为“遇到问题”,是指失败信号记录到了可验证的故障证据,比如代码报错、测试失败、同一任务多次重试,或是用户表达挫败与不满。在控制上述所有变量后,遇到问题的会话中,最终验证成功的比例从新手级的4%升至专家级的15%(见图5)。从更宽松的指标来看,新手级会话至少部分成功的比例为60%,而中级到专家级会话的这一比例为80%-81%。我们也追踪了反向关联——专业能力与各类失败指标的关系。需要说明的是,本分析中被判定为失败的会话,是指连部分成功都未达成的会话。我们将“遇到问题且最终放弃”的会话定义为:被判定为失败,且未编写任何一行代码。结果显示,新手用户的会话中,有19%最终以放弃告终,而其他等级用户的这一比例仅为5%-7%。换言之,经验最少的用户在难以达成目标时更容易放弃。专业能力的部分价值,正体现在能够引导智能体朝着正确方向推进的能力上⁹。职业的影响弱于专业能力
软件相关职业用户的整体验证成功率约为30%,其他职业用户的验证成功率约为26%。在产出代码的会话(即至少新增或修改一行代码的会话)中,两类用户的验证成功率分别为34%和29%(见图6)。若采用更宽松的成功标准,软件相关职业与其他职业的差距会进一步缩小——两类用户产出代码会话的至少部分成功率分别为89%和88%。这5个百分点的差距很小,且在7个月的观测期内,尽管两组的成功率都在提升,但差距既未扩大也未缩小。在产出代码的会话中,我们数据集里的前十大职业,成功率与软件工程师的差距均在7个百分点以内。其中管理类职业的验证成功率最高,略高于软件工程类职业。其较高的验证成功率,一方面可能是因为管理技能可以迁移到智能体指挥工作中;另一方面也可能与我们的衡量方式有关——验证成功部分依赖会话中的明确确认,而管理者更倾向于在达成目标后给出明确反馈¹⁰。图6:按推断职业划分的编码会话验证成功率与判定成功率图中展示了前十大职业群体中,至少新增或修改一行代码的会话,达到严格成功标准(判定成功、验证成功)的比例。所有群体与软件/数学类用户(SOC分类:计算机与数学职业)的差距均在7个百分点以内。误差线为基于独立账户计算的95%置信区间。未来展望
本报告的结果,为我们呈现了智能体编码如何放大部分知识与技能的价值、同时替代另一部分能力的初步图景。在产出代码的会话中,所有主流职业的成功率,与软件相关职业的差距仅在数个百分点内。这意味着,编码智能体正在降低编程成功对专业编码背景的依赖。与此同时,成功的会话更大概率体现出用户的领域专业能力。专家级会话的验证成功率是新手级的2倍以上;而当会话遇到问题时,新手放弃的概率是其他等级用户的数倍。人机协作的模式进一步印证了这一点——领域专家能用每一条指令指挥Claude完成更多工作。因此,引导Claude达成目标的核心能力,来自对领域的掌控,而非编写代码的能力。任何领域的从业者,只要具备领域掌控力,如今都有能力完成此前无法做到的技术工作;而缺乏领域专业能力的人,从同一工具中获得的收益会少得多。并且,收益主要来自基础胜任能力,而非顶尖精通水平——掌握领域的实用知识就能获得大部分收益,深度专精带来的额外提升相对有限。这些发现仍处于初步阶段。与我们的多数研究一致,我们无法衡量真实业务结果,比如会话中编写的代码后续是否被实际采用、是否被废弃,或是是否产出了具备经济价值的成果。此外,本报告排除的非交互式使用场景,在总活动中占比不低,构建衡量这类场景的分析框架是未来工作的重点。同时,我们所有的会话分类都依赖模型对会话文本的解读。附录中我们验证了,分类器的结果与独立遥测数据的趋势一致,且多数会话的分类结果与强基准模型一致。但分类器的大规模验证本身仍存在挑战,而Claude Code会话通常过长、过于复杂,难以用人工标注作为真值,进一步增加了验证难度。随着模型能力、用户群体以及人机分工的变化,本报告呈现的图景也会持续更新。我们希望这些衡量指标能帮助我们追踪行业发生的重大变革。例如,如果专业能力的回报随时间开始下降,就意味着模型正在逐步承担目前由用户提供的核心判断能力,工具的收益群体正在从领域专家向外扩展;如果非软件职业用户成功完成编码会话的比例持续增长,则表明软件生产正在成为各领域日常工作的一部分,而非单一职业的专属产出。这些变化将改变智能体编码的受益群体与收益幅度,并对劳动力市场的价值导向产生深远影响。附录
https://cdn.sanity.io/files/4zrzovbb/website/ef87578c3828dc79d711f6d9c52eff39ac4e3be0.pdf脚注
1. 首个研究覆盖了12.8万个公开仓库,截至2025年10月底,估计有16%-23%的项目存在编码智能体活动。采用同一方法的后续研究发现,在此之后创建的项目中,智能体采用率是此前的2倍以上。智能体编码活动的检测依赖智能体共同作者标签与配置文件,可能低于实际使用量。2. 注:该指标统计的是Claude Code活跃运行的时长,而非用户手动输入指令的时长。3. 此外,Sarkar(2026)与Baumann等人(2026)分别通过研究Cursor IDE会话与公开会话,为理解智能体编码提供了不同视角。4. 注:我们排除了通过第三方集成开发环境、软件开发工具包使用Claude Code的场景,因此也排除了“无界面”模式的会话——即用户在命令行通过 claude -p "<指令>" 运行单条指令的场景。我们排除这类使用场景,是因为其存在两点核心差异:其一,大部分此类使用是程序化调用,Claude Code嵌入在自动化工具与流水线中,而非与用户进行对话;其二,即使用户在场,我们也无法像覆盖的使用场景那样,获取用户会话的全流程数据。5. 除非另有说明,本报告所有分类器均使用Claude Sonnet 4.6。分类器的详细信息,包括完整提示词与验证结果,详见附录。6. 单指令操作量的长尾效应显著。约2%的会话平均单指令操作量超过100次,约1/270的会话平均超过200次,约1/2300的会话平均超过500次。7. 与本报告所有指标一致,这些推断均通过我们的隐私保护分析工具生成。没有研究人员读取单条会话记录,职业标签绝不会与可识别的用户身份关联,我们仅观测满足最小用户数要求的聚合结果。8. 我们采用的估算方法旨在衡量会话价值的相对差异,而非绝对价值。美元数值基于与自由职业市场的对比(而非全职薪资),且来自Claude Code会话与岗位需求的模糊匹配。由于相对估算可以消除这类问题带来的系统性偏差,因此我们更侧重相对值的分析。9. 以“遇到问题”为条件筛选,对不同用户选出的会话属性不同。整体来看,专家遇到问题的频率更低,因此他们遇到问题的会话往往对应更难的任务——以会话价格估算值作为复杂度代理指标可以发现,从专业能力最低到最高,遇到问题的会话平均估算价值约翻了一倍。因此,问题恢复率的部分差距,可能是因为新手卡在常规问题上,而专家卡在高难度问题上。10. 即使模型对管理者的分类存在偏差,用于判断用户为管理者的信号(比如任务委派与描述的方式)往往也与更高的成功率相关。换言之,或许像管理者一样思考和指挥,本身就更容易获得成功。