


复旦大学
保险“龙虾”技能洞察报告
基于539个保险相关Skill样本的市场搜集、质量评估与风险分析




前言
近期,AI智能体(Agent),也就是广为人知的"龙虾",成为各行各业热门的讨论话题。它将大模型从只能被动回答问题,变成能够围绕目标主动理解任务、调用工具、执行步骤并协同流程的智能系统。相比传统对话式模型,智能体更强调任务完成而不只是语言生成。其中,处理下游垂直领域如医疗、法律、金融、保险等专业知识任务,成为了智能体的重要应用场景。
在这一过程中,Skill正成为连接通用智能与垂直业务的重要一环。所谓Skill,即智能体完成某一类任务时可直接调用的专门能力模块,将特定任务所需的业务知识、执行步骤、调用规则、工具依赖与边界约束进行结构化封装,使智能体在面对某一类问题时,不必从零理解,而是调用处理范式进行标准化任务。例如,Github上收藏量超过16万(截至本报告发布时)的"同事.skill"能够蒸馏出同事的语言与行为风格以执行个性化工作任务。除了模仿人类语言外,Skill的行业应用也日渐蓬勃发展,针对各类垂直领域的Skill不断大量涌现。其中,对于保险行业而言,Skill的意义尤其突出。由于保险业务天然具有的强专业性、强流程性和强合规性,仅靠通用模型的能力往往难以稳定适配真实业务场景。也正是在这一背景下,Skill开始成为保险智能体落地的关键能力单元。Skill能够把条款理解、监管要求、核保逻辑、理赔规则、审查口径等垂域经验沉淀为可调用的能力,从而显著增强智能体在专业深度、输出稳定性和场景适配性上的表现。对保险机构而言,Skill意味着大模型不再只是一个通用对话工具,而有机会嵌入具体业务链条,提升处理效率,降低重复劳动,并增强复杂知识场景下的辅助决策能力。
随着智能体+Skill的模式蓬勃兴起,保险领域Skill的市场供给也呈现明显加速趋势,然而数量的增长并不完全等于在实际业务场景下的可用、好用。在实际应用中,行业普遍面临以下问题:市场上保险Skill的数量与分布如何?这些Skill的质量与可用性怎么样、是否存在安全隐患?哪些Skill才是真正贴合业务的高质量Skill?为了回答这些问题,复旦保险团队以市面可见的保险Skill为研究对象,完成了从市场搜集、去重筛选、标签归并到质量评估、风险评估的一体化分析,探究当前保险Skill市场究竟是否已经具备可集成、可复用、可评估的基础。
核心洞察
通过对上万保险关键词有关Skill的收集、筛选与去重处理,我们保留了539个与保险业务强相关的Skill,分析发现:
洞察1:保险相关Skill已出现明显增量,但直接检索的可用性并不高。初始检索结果达到万级,但去重、去二次引用、剔除弱相关后,真正适合作为保险Skill样本的仅539个,说明"看起来很多"与"真正可集成、可应用、可分析"之间仍有巨大落差。
洞察2:保险Skill的业务重心高度集中在特定场景。业务职能上,理赔、监管与合规、风险管理、承保位居前列;业务细分上,合规审查与内部控制、数据分析与商业智能、风险评估与核保决定、理赔审核与理算是最主要的落点。财务、战略、人力等支持部门虽有少量覆盖,但明显不是市场主流。
洞察3:保险Skill的主流形态仍是"参考文档"而非"自主执行能力"。样本中高达71.5%以参考文档的方式为智能体提供具体业务执行说明,27.8%以工作流程的框架引导智能体进行业务操作,仅8.7%明确了智能体自主的工具调用。这意味着现有的很多保险Skill更像知识说明书或流程模板,而不是可直接驱动智能体执行的能力单元。
洞察4:保险Skill的复用性和通用性普遍偏弱,外部依赖明显。近乎全部样本都需要网络访问,但21.4%涉及凭证,62.1%未明确操作系统,72.2%未明确Shell类型,只有0.7%可视为可独立运行。很多Skill深度绑定特定平台、接口或公司内部流程,迁移到其他保险机构时需要额外改造。
洞察5:保险Skill在实际场景应用的安全性仍需审慎考虑。虽然Skill整体安全性均分较高,但这更多反映样本在"高破坏性操作较少、显式凭证模式有限"上的静态结构特征,并不意味应用于真实业务的风险就会很低。风险分析表明,在保险Skill使用的过程中,数据隐私泄露、监管合规、外部服务依赖等风险点高频出现,表明保险场景中的数据外传、权限边界和审计要求仍是保险Skill落地的核心挑战。
洞察6:从功能分布看,现有保险Skill更聚焦在分析与生成。功能类型以分析(30.40%)、文档生成(24.15%)、评估(13.78%)和报告生成(13.08%)为主,说明保险Skill仍处于辅助判断与内容生成为主导的阶段。
洞察7:从质量分布看,现有保险Skill结构性短板仍然明显。分析表明,真正拖后腿的不是命名歧义或功能介绍不清晰,而是Skill的结构不规范、不完善。深入到Skill具体内容来说,示例清晰度、章节覆盖度、错误指导与审计等指标普遍是弱项。大量Skill能"说清自己是什么",却没有"说清怎么安全、稳定、持续地使用"。
下面,我们从样本与评估框架、统计分析、和案例展示三个部分,对上述结论进行展开。

一、样本收集与评估框架
本次研究的样本构建遵循先广泛搜集、再强相关收敛的路径。我们首先从公开市场中覆盖各大技能展示平台、聚合平台与代码仓库等多类来源,对保险相关Skill进行大范围检索,详细数据来源见图1。在此基础上,结合Skill标题、描述、目录与说明文件,由大模型抽取保险相关关键词,并通过人工复核进一步完成来源去重、平台间二次引用清理和业务相关性筛查,最终从万级检索结果中收敛出539个保险强相关Skill。由此形成的样本池,既尽量保留了当前市场供给的广度,也尽量避免把泛金融、泛办公或仅与保险存在弱关联的条目误纳入分析对象。换言之,我们分析的并不是泛泛与保险沾边的Skill,而是一组能够证明与保险业务具有实质关联的能力集合。

图 1 保险 Skill 数据来源
从样本来源与时间分布看,当前保险Skill市场已不再是零散试水,而是开始进入明显增量阶段。若以Skill更新时间观察,2025年12月以前样本更新的增量仍较有限,进入2026年后开始明显提速,2月升至66个,3月进一步跃升至287个,4月截至20日仍达到144个。尽管这一统计口径更接近市场活跃度和迭代频率,而不完全等同于Skill的首次创建时间,但它依然足以说明,保险相关能力组件正在快速进入集中发布和持续更新阶段。也正因为如此,当前市场真正值得回答的问题,已经不只是有没有保险Skill,而是这些Skill是否具备进一步集成、复用和稳定调用的基础。

图 2 保险 Skill 数量增长趋势
基于此,我们借鉴Anthropic提出的"文件结构、触发说明、示例设计、配置指引、故障排查和渐进式信息组织"的Skill规范化思路,融合保险业务特有的"合规审查、权限控制、数据边界、外部依赖"等行业要求,构建了一套面向保险场景的Skill评估框架。如图3所示,框架从清晰度、完整度、可操作性、可维护性和安全性五个维度对样本进行规则化质量评估,并通过九个全面覆盖保险数据、业务安全的标签进行规则化风险评估。值得一提的是,文中的质量、风险分数均由规则公式派生,而非人工主观打分或大语言模型(LLM)自动评分。评估关注的不仅是Skill能否说清自己是什么,也关注它是否说清如何配置、如何执行、如何处理异常,以及是否具备复现、维护和安全接入真实业务流程的条件。也正是在这一框架下,后文对业务重心、功能结构、风险特征与质量短板的分析,才不仅是在描述市场热度,而是在判断当前保险Skill市场距离真正可生产化调用的专业能力组件还有多远。

图 3 保险 Skill 评估框架

二、统计分析
(一)业务重心高度集中但覆盖结构并不均衡
从业务职能分布看,保险Skill的市场重心已较为清晰:两核业务和风险合规是保险Skill的主要业务场景(如图4)。其中,理赔类Skill有126个(13.65%),监管与合规类有125个(13.54%),风险管理类有120个(13.00%),明显高于财务、战略和人力等支持性业务职能。也就是说,当前供给优先服务的是规则密集、材料密集、审查频繁、对专业口径要求较高的业务场景,而尚未在保险流程的全部职能链条上均衡覆盖。

图 4 保险业务 Skill 数量
这一结构说明,当前的Skill相对集中在保险链条上智能体应用更成熟、结构化知识提炼更充分的业务环节。两核业务与风险合规靠前的原因在于这两类场景天然依赖条款核对、资料整理、问题识别和报告生成,最适合通过Skill形式沉淀为可复用模板。相较之下,财务、战略、人力等职能虽然也能受益于智能体,但其需求往往更碎片化,且与机构内部流程耦合更深,因此在公开市场上尚未形成主流供给。
细分到业务子职能(如表1),合规审查与内部控制(17.21%)和数据分析与商业智能(12.28%)显著领先,其后是风险评估与核保决定(8.22%)以及理赔审核与理算(8.13%)。这表明保险Skill的核心价值短期内更多体现在"帮助专业人员更快完成判断准备和材料加工",而不是直接替代复杂业务决策本身。

表 1 保险细分业务 Skill 数量
从保险种类看(如图5),通用型Skill(适配寿险与非寿险场景)数量达到298个。专用于非寿险类Skill的有193个,而寿险类仅52个。通用型占绝对多数,说明大量供给仍停留在"适用于保险行业一般场景"的宽泛设计;相较于非寿险而言,寿险领域当前仍缺少足够成熟的公开Skill沉淀。

图 5 保险种类分布
(二)高频动作偏向审查与生成,主流形态仍是辅助式能力
从标题与描述中的高频动词观察,现有保险Skill的典型动作并不是"自主执行整条流程",而是围绕若干离散步骤提供辅助。如图6所示,审查占8.7%,识别占7.2%,创建占5.7%,生成占5.5%,评估占5.2%。这些动词共同指向一种非常鲜明的能力画像:当前公开市场上的Skill更擅长帮助用户看材料、找问题、做判断准备和产出文本,而不是代替用户完成高自治、长链条的业务闭环。

图 6 Skill 高频词
这种高频动作结构与保险行业的真实偏好是一致的。保险业务对可解释性、可追溯性和审计留痕要求极高,因此市场更容易首先接受"审查助手""识别助手""报告生成助手"这类低自治、强辅助的能力单元,而不会轻易把高风险决策直接交给一个端到端执行的智能体。也正因如此,主流Skill虽然开始具备专业任务语义,但其仍以单步支持为主,尚未稳定到达完整的自主代理阶段。
(三)复现较难,外部环境依赖仍然明显
在Skill的调用与运行方面(见图7),较多保险Skill并非独立运行,而是依赖外部接口、外部工具或既有流程等共同工作。此外,部分Skill对模型能力有隐含要求,却没有同步给出足够明确的运行条件。例如,样本Skill中21%需要额外提供凭证(如API或SSH密钥),29%具有高推理需求,甚至有5%需要额外人工验证。

图 7 保险 Skill 调用与运行画像
(四)保险实际场景应用的安全性审慎考虑
图8展示了对所有样本保险Skill评估结果里相关风险词汇的出现次数。从图中可以看出,出现频次最高的风险并不是破坏性操作,而是更贴近保险真实场景中的治理问题。在539个Skill样本的评估结果中我们一共捕捉到1937条风险词汇,并将其划分为图8中的10个类别,其中数据隐私/泄露风险被提及高达569次,合规/监管风险为358次,API/外部服务依赖为281次,错误处理问题为256次等。这些保险业务过程中实际面临的风险隐患同样也存在于保险Skill的使用中,故在保险真实场景下应用Skill仍需谨慎考虑这些安全风险。

图 8 Skill 风险高频项
(五)功能结构以分析和生成为主
图9展示了保险Skill的10类功能类型分布,单个Skill可以具备多种功能。具体来看,保险Skill的价值重心非常集中,分析类共有481个,文档生成类382个,评估类218个,报告生成类207个。Skill本身非常适合做保险材料分析、业务报告撰写等任务,进而市场上的保险Skill也专注于认知处理和文本输出。而代码开发、角色模拟等功能不是保险业务的重点,故相关Skill涉及较少。

图 9 Skill 功能分布
(六)质量评估成果
从Skill质量的五个维度看,当前保险Skill市场呈现出"整体不差,但短板集中"的结构。539个样本的清晰度均值为7.41,完整度6.98,可操作性7.97,可维护性7.35,安全性8.94,派生综合均值为7.73。分布上,大多数Skill聚集在7分和8分区间,说明市场已出现一批具备基本规范意识的技能包,但距离真正可复用、可审计、可迭代的行业级标准仍有距离。

图 10 Skill 五大质量维度平均分
子维度统计最能反映保险Skill目前的真实短板(如表2)。清晰度中,命名质量高达9.96,但示例清晰度只有4.37;完整度中,字段覆盖度和证据覆盖度分别达到7.50与9.93,但章节覆盖度仅4.19;可操作性中,配置便捷度4.81、执行清晰度4.59、错误指导3.46、可复现性3.58;可维护性中,版本跟踪几乎缺席,均值仅0.46。对于Skill安全性,虽然现有Skill已经有较好的凭证安全性和防破坏控制,但仍存在数据暴露风险,一旦出现安全问题较难控制影响范围。总体而言,大多数保险Skill在"元信息层面"已经较好,但在使用体验层面仍有待改进。

表 2 质量评估子维度统计

三、案例展示
为了把前述结论落到更直观的对象上,本部分直接抽取具体Skill案例进行对比分析。我们选择了3个保险Skill做详细信息展示。分析聚焦于三个判断标准:边界是否清楚、结构是否完整、风险与依赖是否被显性管理。
(一)优质案例:Skill价值不在"功能多样"而在"边界清晰"
prior-auth-letter-drafter是协助医疗机构为保险公司制作专业保险预授权请求信的Skill。从案例首页信息看,prior-auth-letter-drafter的定位明确,且作者、热度、文件大小、更新时间、业务分类和功能类型都被清楚列出。从图11中可以看到,该样本在保险业务上归入“承保”,业务子职能明确为“风险评估与核保决定”,功能上同时覆盖“分析、文档生成”。该Skill功能边界定义清晰、结构完整,调用者在尚未打开具体子文档前,就已经能够判断该Skill适不适合自己的任务。

图 11 prior-auth-letter-drafter 首页信息
进一步看详细页面(图12),优质的Skill之所以值得参考,并不是因为"内容写得多",而是因为它能让智能体和用户都知道何时调用、如何调用、遇到问题怎么办。这类Skill通常具备几项关键要素:功能描述清晰、问题导向明确、文件结构分层合理,能够区分主说明、脚本、参考资料和模板资产;同时清楚交代外部服务、依赖、权限、错误回滚与审计要求,并对敏感数据和隐私处理给出明确边界。这类Skill更接近真正可集成的生产单元。

图 12 prior-auth-letter-drafter 质量评估面板
(二)反例一:信息不充分
反例一Skill的定位是保险产品精算定价的审计助手。它声称可以对模型生成的结果进行强制性的实证验证。但从图13可见,该样本的文件结构极其简化,只有一个SKILL.md,没有更多、更结构化的信息,其内容的完整度难以支撑功能描述中提到的要求,容易误导用户与智能体。因此该类Skill最大的问题在于不完整——文件单一、依赖关系未交代、数据来源受第三方平台限制却没有说明认证与权限前提……这类Skill往往在演示时看起来可用,但一旦进入真实机构环境就会因为环境差异、权限限制或接口变更而失效。对于保险行业而言,这种看似能用、实际难复现的Skill风险尤其高。

图 13 反例一演示
(三)反例二:场景不明确
反例二Skill则聚焦于屋顶工程领域的保险理赔。与反例一不同,它并不是极简结构,它包含高达9个不同的文件。然而,文件数更多并没有自动转化为更高的质量,其功能概括未能明确将该Skill的功能针对到可处理的一个具体问题,而是试图扁平化地囊括该场景下的所有功能,界定过于宽泛。这类Skill的核心问题在于"边界不清"。当一个Skill同时想覆盖多个任务、多个对象和多个流程,却没有明确的触发条件与优先级时,它就会变成一个对人和智能体都不友好的"大杂烩"。这类Skill常见的问题还包括目录结构松散、全部内容堆叠在Markdown中、缺少输入输出约定,以及没有办法让调用者判断它究竟适用于哪一类保险场景。

图 14 反例二演示
以上两个反例仅仅是当前存在问题的一个缩影。综合来看,当前市场上保险Skill的常见问题可以大体归为四类:一是场景定义含混,触发条件和适用边界不明确;二是结构不完整,缺少示例、限制、依赖声明、错误处理和版本信息;三是过度依赖特定公司流程、特定平台或本地数据,难以复用迁移;四是对数据安全、权限管理和审计留痕交代不足。也正因此,保险Skill的建设不能只停留在"把经验写下来",而需要进入"把经验封装成可验证、可治理、可迁移的能力组件"阶段。

四、总结与建议
总体来看,当前保险Skill市场已经完成了从零散出现到初步成形的第一步,但距离真正进入保险机构可集成、可复用、可审计的生产阶段,仍有明显差距。样本分析表明,现有供给主要集中在理赔、合规、风控、承保等高规则密度场景。市场活跃度近期也明显上升,但主流形态仍偏向审查、识别、分析和生成等辅助式能力,在复现性、依赖透明度、错误处理、版本维护和风险边界说明上普遍存在短板。这意味着市场当前最缺的不是更多数量的Skill,而是能够被机构安全、高效嵌入业务流程的高质量能力Skill。
基于上述判断,保险Skill下一阶段的发展建议重点从三方面推进:
一、建立保险Skill的统一建设规范
把适用场景、触发条件、输入输出、依赖环境、权限边界、异常处理、审计留痕等要素前置为必备项,提高Skill的结构完整度和机构接入确定性。
二、建立面向真实业务任务的深度测评机制
不只看静态文档质量,还要看在理赔审核、核保辅助、合规审查等具体场景中的执行稳定性、可复现性和风险可控性。
三、推动从"人工编写单个Skill"走向"半自动化构建Skill"
逐步沉淀保险条款、流程节点、规则口径与案例模板,蒸馏行业规范与垂域能力经验,形成可批量生成、持续迭代的保险Skill构建工具链。
未来复旦保险团队将致力于从如下方面继续完善保险Skill的整理与平台的构建:一是面向真实业务场景整理一批高质量可复用的保险Skill,完善一站式保险Skill服务平台;二是建立多维度的深度测评体系,对最新迭代的Skill进行质量与风险把控;三是研发保险Skill自动化构建工具,基于专业能力与行业洞见,针对保险业务的痛难点,不断提升规则沉淀、模板生成与持续迭代效率,推动保险智能体的能力从单点展示走向全面赋能。
点击文末“阅读原文”即可下载报告




