
Agent智能体的诞生仅一年,却已经成为科技巨头和创业公司争相角逐的激烈竞争领域。然而,市场上的大部分Agent似乎并不完全符合商界对其的期望。即使像OpenAI的GPT系列一样,虽然用于特定任务,但其实只是一种轻量级的个人助手,用于处理场景信息、数据分析和代码纠错等任务。除了安全问题,例如软色情、假冒官方账号、刷单等,也因缺乏必要的用户群需求和深度场景融合,导致To C领域尚未出现颠覆性的杀手级应用,许多GPTs只是被视为大众玩乐的“玩具”。同时,在程序联动和自动化工作流方面,GPTs也有很大的提升空间。

然而,在当前大型模型的早期阶段,我们需要思考什么样的Agent最适合商业化。在什么样的场景下,Agent才能实现其最大的价值?将目光从To C转向To B,或许能找到一个更有前景的答案。
01
To B→Agent真正的战场
最近,在红杉资本的人工智能峰会上,吴恩达发表了一场关于Agent的演讲,他提出了Agent的四种主要能力——反思、使用工具、规划以及多智能体协同,并强调了AI Agent工作流的重要性,预测它将成为未来的重要趋势。企业家兼平台经济研究者Sangeet Paul Choudary也在今年3月发文提到,Agent创造了一个重新整合场景的可能性,使得垂直领域的人工智能玩家能够通过跨多个工作流程进行协调来实现水平发展,这将重塑B2B价值链。相较于零散个人用户,企业用户通常面临更加复杂的业务需求,有更明确的业务场景、业务逻辑以及更多行业数据及其行业知识的积累,非常适配Agent自主性、感知与理解环境、决策与执行、交互、工具使用等特点,这让To B领域成为Agent更可施展的绝佳舞台。
在移动互联网时代,App Store堪称史上最强大的生态平台;而大模型时代,同样需要这样生命力强大的生态平台,让商业闭环、让产业加速。也就是说,我们需要一个“To B领域的Agent Store”,为企业赋能,降本增效。那么什么样的公司才能做好这个「Agent Store」呢?吴恩达和Sangeet给出了一个近乎标准的答案——能介入企业客户「工作流」的公司,以及有「垂直行业」数据积累的公司,最好还要有自己的大模型方便适配和赋能,LLM是Agent的靠山。
这一切,似乎都指向了协同办公平台。以钉钉、飞书、企业微信等为代表的协同办公平台,不仅本身就是「PaaS+SaaS」的结合体,具备良好的API接口和插件体系,可通过即时通讯、视频会议、日程安排、任务管理、协作文档等不同形态的产品牢牢内嵌入企业的工作流中;更是通过长年的耕耘,积累了多个行业和赛道的企业数据资产。既有应用场景、又有行业数据,还有自家大模型,简直就是「Agent Store」的天然生长平台。在走入Agent的To B战场之前,我们先来看看Agent诞生至今这一年,进化到哪里了?
02
从Copilot到Agent,进击的AI助理
Agent发展到今天,经历了一个从Copilot到Agent的演进过程。在过去的一年里,背靠大型模型的Agent领域发展迅猛。尽管距离真正的自主智能还有一段距离,但Agent在工业界的爆发趋势已经相当明显,围绕Agent生态建设的平台也已初具规模,吸引了各行各业的开发者。
我们看到Agent从早期的Copilot副驾驶模式,逐步演进为具备更多自主智能的Agent智能体形态。Copilot副驾驶是低级的助理,而Agent则是高级代理,其“高级”在于Agent已是自主的AI智能体。即Copilot是以人为主,AI辅助,而Agent是AI为主,人为监督。
在从Copilot向Agent的进化过程中,背后的大型模型取得了几个关键进展以赋能Agent:
1. RAG(Retrieval-Augmented Generation)的应用,让Agent能够利用外部知识和时效信息来补充自身的不足。
2. 随着大型模型长上下文的飞速进展,Agent处理复杂场景和多轮对话的能力有了较大的提升。
3. 通过与越来越多的外部工具对接,如插件、API等,智能助手开始加速从副驾驶向真正的智能体进化。
4. 自主规划、环境交互、错误反思等Agent独有的高阶能力,虽然还处于探索阶段,但最近也取得了不俗的进步,尤其表现在Agent平台的建立和推进上。Agent平台为开发者提供了一个自然语言Prompt Engineering的开发环境,通过上下文窗口的人机对话来迭代优化Agent。开发者可以由此“调教”出针对特定任务的Agent,定型后通过平台发布,从而帮助形成Agent生态,GPTs和GPT Store的发布就是一个典型的例子。
从Copilot到Agent,最大的区别在于其自主规划和环境交互的能力。Copilot在帮助用户的同时,处处离不开人的提示;而大型模型赋能的Agent对其目标任务具有自主记忆、推理、规划和执行的全自动能力,原则上只需要用户的起始指令和结果的反馈,过程中并不需要人的介入。

从当前Agent的主要实现方式来看,「自主规划」体现在开发者打造Agent的过程与传统软件工程大不相同:传统软件工程需要通过机器可执行的具体算法用编程语言实现,而在打造Agent的过程中,开发者不再需要提供具体算法,不需要使用计算机语言,甚至连伪代码都不需要,只需用自然语言定义任务(输入和输出),就能启动Agent的自主规划来执行任务,从而创建Agent的初版。
而「环境交互」能力则表现在从Agent初版到能上架平台的“产品”之间。在样本数据输入的驱动下,Agent会产生两种输出结果:一是错误信息,表明Agent的自主规划路径存在问题,类似于传统编程中的句法错误;二是输出结果不理想,类似于传统编程中的逻辑错误,此时开发者可以添加具体反馈,说明样本输入所对应的期望输出,这些信息可以直接反馈给Agent。作为Agent与环境的交互,Agent会对环境反馈的错误进行“反思”,在下一轮迭代中试图修正。通过这种循环,一个可用的Agent就能够制作完成,可以作为产品上架平台。这是Agent与环境交互的“内迭代”。Agent发布后,在用户实际使用过程中的环境反馈,则构成了Agent与环境交互的“外迭代”。理论上,这些外部反馈可以直接送达给Agent,使Agent自我提升,与用户偏好对齐,迭代新的上线版本。外迭代的流程化标志着环境数据飞轮的建立。
从技术的进化路径来看,我们见证了OpenAI从Plugins插件功能的开放到GPTs平台的生态建设,以及微软从GitHub Copilot到Microsoft 365 Copilot的跨越。业界传统Pipeline的过程性应用开发,开始借助大模型赋能的新平台向Agent这种端到端的开发范式演进。

从产品形态的进化路径来看,我们可以观察到Agent技术的发展历程。从最初的单一功能的coding助手(如GitHub Co-pilot),逐步演进到像AutoGPT这样的Agent平台,再到MetaGPT、AutoGen等多Agent框架的发布,以及OpenAI的Agent开发框架Assistant API的发布。随着时间的推移,Agent的开发工具和平台变得越来越简便,Agent的能力也随之不断增强。
在国内的众多平台中,特别是协同办公平台中,我们可以发现钉钉与大型模型及其Agent的发展路径几乎是一脉相承的。钉钉将Agent技术与企业实际场景相结合,以最快的速度建立了AI助理的开发平台和生态。在过去的一年里,钉钉率先使用大型模型改造了自身产品,使得其20个产品线都得到了AI化的升级。智能问答、问数等功能在企业中得到了广泛应用。
此外,钉钉背靠的自家大型模型通义千问也在快速演进,不断加强其在长文本、多模态等方面的能力,从而为Agent的进化夯实了模型基础。同时,依托钉钉本身作为协同平台的优势,以及工作流、AI PaaS等工程化能力,其Agent逐步实现了与业务流程和数据的紧密打通。
钉钉对Agent技术的探索一直围绕着企业实际需求展开。其差异化优势在于通过满足各行各业的办公需求,吸引了大量的ToB用户,并在其平台的统一框架下积累了巨量的应用和数据。最近,钉钉上线了自己的「Agent Store」(称为「AI助理市场」),已经拥有超过200个AI助理。这种客户粘性以及巨量用户数据的积累,使得钉钉在Agent的落地应用上处于天然优势地位。
03
做Agent,谁更有胜率?
海量的用户是Agent发挥作用的基础。Agent的有效性很大程度上取决于其信息检索能力。这也是为什么RAG技术备受重视的原因,它让Agent能够利用外部知识和时效信息,为用户提供更加精准、相关性更高的回答和服务。Agent需要生长在一个拥有海量数据的平台中,并最好具备足够多的插件和API工具,以便最大化其检索和理解能力,从而提升其行动能力。换句话说,用户数据量几乎决定了Agent的产品潜力。这正是像钉钉这样的公司拥有巨大优势的基础——基于强大的生态和用户数据,产品有更多优化的空间。钉钉在AI领域的涉足一年以来,已经有220万家企业启用了钉钉AI,覆盖K12、制造、零售、地产、服务业、互联网等众多行业。这些数据为钉钉AI平台积累了丰富的信息,而「AI助理市场」中的模板则为用户提供了从不同场景归纳出来的起点,从而增强了在钉钉平台上生长的Agent的通用性。
另一个成功的Agent必备要素是大型模型。作为产品,Agent离不开大型模型的赋能,因此产品与模型的结合具有先天优势。传统的AI产品通常采用管道式系统架构,而理想的大型模型产品则是端到端的。钉钉作为一个真正的产品与模型结合的公司,拥有自家的大型模型,因此在开发Agent产品时具备了独特的优势。产品与模型的结合对于AI公司至关重要,因为这种结合有助于形成数据飞轮,增强核心竞争力。产品可以起到关键的定向或灯塔作用,一方面指导模型的优化方向,另一方面检验模型的实际表现。对于钉钉来说,基于海量数据的AI助理市场就是这柱指示灯塔,使其模型的训练目标更加聚焦。
最后,要做好Agent还需要平台的工程化能力。钉钉上线AI助理市场时,其Agent的能力已经实现了重大升级。例如,在行动系统方面,AI助理的拟人操作能力得到了大幅增强。AI助理能够观察主人的操作路径,然后自动进行页面操作,提升了高频业务行为的操作效率。举例来说,用户可以通过一句话让钉钉AI助理自动录入客户信息、提交维修工单,还可以支持跳转联动到飞猪等外部网页应用,自主完成订机票、订酒店等任务。

除此之外,钉钉还在AI助理的创建过程中引入了工作流,以使AI助理能够处理更为复杂的任务。用户可以对任务进行拆解,并通过编排执行动作,让AI助理代替自己完成任务,从而使任务的完成结果更为准确、可控。拟人操作、工作流、连接外部API和系统,都是Agent的进阶玩法,进一步拓展了其行动能力。作为协同办公平台的通用性、超强大模型的易用性以及大量工程化的确定性,这些都是钉钉在做AI助理方面拥有优势的重要因素。
04
垂直纵深还是横向发展?
钉钉选择主推Agent生态,而不是专注于垂直领域的深度发展,可能是基于一种长远战略考量。在广阔的领域中,出现了横向和纵向发展的趋势。横向发展是指基于通用大模型,创建行业特定的大模型,并开发适用于行业场景的Agent;而纵向发展则是深入垂直领域的发展。选择横向发展的公司很难为每个垂直领域都开发专门的大模型,因此它们通常只能依靠场景数据的临时加持。最近,企业家和平台经济学家Sangeet Paul Choudary提出了一个观点,他认为Agent创造了一个重新整合场景的可能性,使得垂直领域的AI玩家能够通过跨多个工作流程进行协调来实现水平发展,这将重塑B2B价值链。
类似地,大多数对现状的破坏都是通过深挖细分场景发生的,但大多数风险投资回报都是通过整合实现的。分拆并不能获取可持续的价值,因此软件企业需要持续进行场景延伸。最终,所有垂直领域的公司都会寻求横向发展。这一道理或许同样适用于Agent。尽管Agent具备很好的感知、推理和行动能力,将其应用于垂直领域可以快速、有效地解决痛点,但这并不能构成护城河。真正的护城河在于底层数据的打通之后,Agent之间的互动和配合,也就是Agent跨API重新整合工作流,最终带动整个系统的提质增效。

在To B领域,将Agent应用于加速企业数字化进程是至关重要的。Agent的能力使其能够解决"降本增效"的核心问题,这也决定了以钉钉为代表的AI助理在To B领域具有广泛的应用潜力。随着AI Agent自主性的增强,Agents将会发展成为更专业化的代理,可以替代许多专业工作和技能。从趋势上看,大模型Agents有望取代人类90%的专业工作,而剩下的10%则可能由CoPilot辅助人类专业人士。
在更遥远的未来,Agents有望演变成为"全能智能体",完全取代人类工作,并与更多的硬件产品结合。到那时,人类文明与AI Agents之间的关系将进一步演变。可能会出现更紧密的合作,也可能会引发一些伦理和社会问题,需要人类和AI Agents共同解决。这种关系的发展将取决于人类对AI的控制和管理方式,以及对AI发展的价值观和伦理道德的持续思考和探索。
