
大模型看研报、读公告、判情绪,已经不是新鲜事。但你敢直接信它的结论吗?
金融场景下,"模型为什么这么说"往往比"模型说了什么"更重要——监管要问、风控要查、投资要复核。最近一篇由 arXiv 收录的论文 《Shapley in Context: Explaining Financial Language with Domain Expertise》 给出了一条有意思的路:用博弈论里的 Shapley 值给金融文本的 LLM 预测做归因,并且证明了这套方法能和金融常识对齐。
换句话说:AI 不光能给你打分,还能告诉你"是哪几个词把分拉上来的"。
? 为什么是 Shapley 值?
解释黑箱模型的方法不少——Integrated Gradients、LIME、Attention 可视化……但放到金融文本上,大多有两个毛病:
1. 没嵌入行业知识:"strong earnings" 和 "weak earnings" 在金融语境下明显不对称,但通用归因方法不一定能抓住这种单调性; 2. 文本是离散的:IG 这类基于梯度的方法假设输入连续可导,把词嵌到向量空间再求导,反而可能把词之间的关系搞歪。
这篇论文选的是 Baseline Shapley (BShap)——给每个特征(词 / 短语 / 段落)算一个"贡献值",满足四条经典公理:线性、完备、对称、哑元。更重要的是,作者针对金融场景补了一组领域公理,并且严格证明了 BShap 全部满足:
• 个体单调性:"strong" 比中性基线更正面 → 归因为正 ✅ • 需求单调性:"strong" 比 "stable" 语气更强 → 前者归因更大 ✅ • 边际效应:从 " " → "stable" → "strong",增量递减 ✅ • Pairwise 单调:同一句话里,"毛利率"对特斯拉的重要性 > "盈利"(成长扩张期工厂/R&D 烧钱压利润,毛利才是核心观测)✅ • 一阶占优:同一个词(如 "earnings")在不同公司间的敏感度可比较——可口可乐 > 亚马逊(成熟防御 vs 成长科技)✅
? 唯一不能比的:不同模型 + 不同特征(比如"亚马逊的毛利" vs "特斯拉的盈利")跨模型跨特征同时换,BShap 本身给不出确定排序——论文坦诚说了这点。
? 小试牛刀:FinBERT 读一句财报
拿 FinBERT 跑这句:
"The company reported strong earnings."
BShap 归因:"strong" ≈ 0.94,"earnings" ≈ 0,基线句 "The company reported financial statement." 得分约 -0.04(中性)。换成 "stable earnings","stable" 归因掉到 0.57——符合"强词 > 弱词"的需求单调性,而且 "stable" 本身语义模糊,得靠 "earnings" 托住语气,所以 "earnings" 在 "stable" 句里权重反而上升,交互效应被抓出来了。
分类任务也能用。拿 BART-Large-MNLI 零样本判 Upstart(AI 借贷平台)的板块归属:
• 技术 56% / 金融 33%,符合 FinTech 定位 • "AI" 对技术类贡献为正,"lending" 为负(太金融味会拖累技术标签)——符号方向完全符合个体单调公理
甚至能抓模型翻车。同模型读 Voleon(量化对冲,明文写"AI + ML + 交易"),结果技术 64% / 金融 14%——明显金融侧低估。BShap 归因显示:"quantitative investment management" 和 "trading strategies" 两词组几乎没拉金融分,暴露出模型对金融术语不敏感,得微调。换成 ChatGPT-5.2 跑同一段,金融 65% / 技术 30%,合理多了。
? 真刀真枪:10-K 风险因子归因
论文的重头戏是用 BShap 拆 SEC Form 10-K 的 Item 1A(风险因子),把每个 risk heading(信用风险、市场流动性风险、监管风险……)当作一个特征,让 LLM 打 0–10 的风险总分,再反推每个 heading 拉了多少分。
三个案例
? 硅谷银行 SVB(2022 年报,2023 年 3 月倒闭)
ChatGPT 给总分 10.0(极高)。BShap 拆出来:
• 信用风险、市场与流动性风险 → 占大头 • 市场流动性段里明文点了"2022 年美联储持续加息 + 利差压缩 + 存款挤兑"——正是次年爆雷的导火索
? 富国 WFC(2024 年报)
同样总分 10.0,但结构完全不同:
• 监管与法律风险占比显著更高(2016 假账户案后的 consent orders、资产 caps 至今绑着) • 原"按揭业务风险"段在统一归类后并入信用风险, credit 项跳升
? Crocs(2020 → 2021)
用 2020 作基线、2021 作 explicand,看相对风险变化(BShap 得分 5.33,中等幅度的结构迁移):
• "公司战略"段 ↑:2022 年收购 HEYDUDE 带来整合 + 债务风险 • "财务与会计"段 ↑:收购推高杠杆 • "宏观经济"段 ↓:COVID 冲击在 2021 相对缓释
三家的 risk heading 本来各写各的,论文还演示了怎么用 LLM 先把所有 heading 映射到一套统一银行风险分类(信用 / 市场利率流动性 / 运营科技 / 监管法律 / 战略外部 / 其他),再用 BShap 横向比——Dummy 公理保证"这家没有的 heading"自动归因 0,不用硬算。
对投资的用处是什么?
这套框架短期当然替代不了分析师,但它能补几个现在挺痛的缺口:
• 排雷优先级:10-K 的 Item 1A 动辄十几页,BShap 能告诉你今年到底是"信用风险段"在恶化还是"宏观套话段"在恶化——后者基本可忽略 • 跨期对比:用 T-1 年作基线,能抓结构迁移(Crocs 式收购风险、银行式利率风险爬坡) • 模型审计:如果内部已经用 LLM 做情绪 / 板块 / 信用打分,BShap 可以当"第二道门",看模型是不是被无关词组带偏 • 跨公司可比:同一个词("earnings""guidance""margin")在不同标的上的敏感度,一阶占优公理保证能比——这对选股因子组合有点想象空间
局限也得说清楚:精确 Shapley 是 O(2ⁿ),heading 级(5–7 个)还好,词级就得上蒙特卡洛或分层聚合;另外 LLM 打分本身有随机性,论文里跑了 30 次取均值 + 95% CI,稳定性(rank consistency)和保真度(feature removal test)都验过,但换模型换 prompt 结果会变。
写在后面
可解释性在金融里不是锦上添花,是 MRM(模型风险管控)手册里白纸黑字要求的。把 Shapley 这条老博弈论搬过来、配上金融公理、再接到 LLM + 10-K 上,这篇论文算是把"AI 读文本"从黑箱往合规推了一步。
对个人投资者,下次看财报 AI 情绪分的时候,可以多问一句:"分是哪几句给拉上去的?"——能答上来的模型,才敢真放进组合。
原文:https://arxiv.org/html/2607.00856v1
? 风险提示:本文基于学术论文与公开 10-K 文本展开讨论,所涉模型与实证结果为研究方法演示,不构成任何投资建议。LLM 输出存在随机性与幻觉风险,实盘使用前请结合自身风控框架验证。